25 Open Datasets for Your Data Science/ML Projects

De zoektocht naar de juiste datasets kan lastig zijn, vooral als je ze nodig hebt voor machine studying (ML) en information science-projecten. We verminderen uw onderzoeksinspanningen door de ultieme lijst met free of charge datasets aan te bieden.

Datasets zijn eenvoudigweg verzamelingen gegevens. Het kunnen financiële gegevens zijn, de gezondheid van de gemeenschap, aandelenmarktgegevens, bankgegevens, geografische gegevens, onderzoeksgegevens op het gebied van deeltjeswetenschappen, beoordelingen van producten op een e-commercesite, enz.

Datasets bevatten gegevens die zijn verzameld by way of een wetenschappelijke onderzoeksstandaard en zijn belangrijk voor verdere visualisatie, extractie, prognoses, enz. Omdat gegevens het equal zijn van ruwe olie in het digitale universum, worden datasets commercieel en schaars.

Lees verder om de basisprincipes van datasets te ontdekken. U zult ook enkele open supply datasets ontdekken die echt free of charge zijn voor uw machine studying (ML) of information science-projecten.

Wat zijn datasets?

Datasets zijn het verzamelen van gegevens in een gestructureerde en georganiseerde container. Meestal associëren landmeters datasets met een unieke instantie, bijvoorbeeld Open Knowledge van de Wereldbank.

Ook hier houden de gegevensverzamelaars de datasets bij die specifiek zijn voor een onderwerp als de Census Knowledge of america of America 2020, gepubliceerd door het United States Census Bureau.

U vindt er veel datasets over mondiale en lokale kwesties. De meeste datasets bevatten onderling gerelateerde datapunten. Bijvoorbeeld de bevolking van een land en hoe obesitas zich verhoudt tot verschillende klassen van deze bevolking.

De datawetenschappers moeten dergelijke datasets mogelijk opschonen, herstructureren en verwerken met behulp van large data-tools om tot waardevolle conclusies te komen, zoals het verminderen van plasticafval door het analyseren van plasticgebruiksgegevens, het verhelpen van personeelsproblemen door het analyseren van loongegevens, het trainen van kunstmatige intelligentie (AI), enzovoort. op.

Soorten gegevenssets

Afhankelijk van de bron van de datasets kunnen deze openbaar of privé zijn. Openbare datasets zijn voor iedereen toegankelijk en dragen veel bij aan onderzoek en ontwikkeling.

Ook hier kunnen datasets van de volgende typen zijn, afhankelijk van de informatie die ze bevatten:

Multivariaat: Dergelijke gegevens bevatten meerdere variabelen.
Categorisch: Het portretteert vele categorieën mensen.
Numeriek: Dergelijke datasets meten gegevens in getallen zoals leeftijd, lengte, enz.
Correlatie: Bij dit kind zijn gegevenspunten met elkaar verbonden.
Bestand gebaseerd: Hierbij worden datasets opgeslagen in bestanden.
Bivariaat: Een gegevensset met twee variabelen en een relatie daartussen.
Webgegevensset: Gegevens verzameld van een of meer vergelijkbare internetportals.
Database: Dergelijke datasets slaan gegevens op in tabellen, kolommen en rijen.

Open supply datasets voor information science-projecten

Free of charge datasets zijn de brandstof voor uw passie voor een datawetenschapscarrière. Need als je je in de beginfase van je information science-carrière bevindt, wil je misschien persoonlijke en niet-commerciële projecten aangaan voor zelfvertrouwen of portfolioopbouw.

Ten eerste kunt u uw nieuw geleerde vaardigheden eenvoudig testen door instruments en technieken toe te passen op problemen met datasets uit de echte wereld.

Er zijn bijvoorbeeld vrij beschikbare kankeronderzoeksgegevens, Covid-19-gegevens, FBI-gegevens uit strafregisters, deeltjesanalysegegevens van CERN, enz. U kunt dergelijke gegevens gebruiken en een datawetenschapsmodel bouwen om cruciale sociale, financiële en gezondheidsproblemen te beantwoorden. .

Ten tweede werken dergelijke projecten als portfolio-versterkers voor je carrière. Als u een succesvol data-analysemodel kunt bouwen dat bruikbare inzichten kan bieden, kunt u die modellen on-line presenteren door portfoliowebsites te maken. Werkgevers geven de voorkeur aan projecten boven doelverklaringen.

Free of charge datasets voor machine learning-projecten

Web als een information science-professional moet een ML-professional ook aan zelfbeheerde projecten werken om zijn vaardigheden te onderzoeken. Als het challenge succesvol wordt, wordt het ook een ideaal onderdeel voor uw on-line of offline portfolio van ML-projecten.

Daarom begrijp je nu dat datawetenschap en ML-groei afhankelijk zijn van gestructureerde datasets. Als dergelijke datasets te gecommercialiseerd zouden worden, zouden onderzoek en ontwikkeling op het gebied van datawetenschap volledig bedrijfsgericht worden.

Om het information science ML-onderzoek voor iedereen toegankelijk te houden, zijn de volgende instanties, instellingen en platforms bieden free of charge datasets aan:

Knowledge.gov

U vindt alle open gegevens die zijn verzameld en verwerkt door de Amerikaanse overheid. in Knowledge.gov. Het platform biedt ook middelen en instruments om onderzoek uit te voeren, datavisualisaties te ontwerpen, mobiele/webapps te ontwikkelen, enz.

De opmerkelijke datasets omvatten gegevens over duurzaam landgebruik, gegevens over huisvesting op het platteland, elektronische navigatiekaarten voor het binnenland, enz.

Open datasets: Kaggle

Kaggle biedt een oceaan aan openbare gegevens en computercodes voor datawetenschapsprojecten. U kunt Datasets selecteren voor onbewerkte gegevens en Code voor programmeercodes. Trending datasets op Kaggle zijn AMEX-gegevens, Simpsons Viewership, Chatbot-trainingsgegevens, enz.

Segmentgegevenssets: YouTube 8-M

Segmentdatasets van YouTube 8-M bieden u segmentannotaties die zijn geverifieerd door menselijke auditors. Je hebt ook toegang tot de YouTube-8M-dataset by way of hetzelfde portaal. De dataset bevat 6,1 miljoen video-ID’s, 350.000 uur aan video, 2,6 miljard audio/visuele functies, 3863 videoklassen en gemiddeld 3,0 labels per video.

Register van open information over AWS

ROD on AWS helpt datawetenschappers datasets te delen en te ontdekken die worden gehost op AWS-bronnen. Enkele interessante datasets die u hier kunt vinden zijn The Most cancers Genome Atlas, Foldingathome COVID-19 Datasets, Frequent Crawl, enz.

Machine Studying-opslagplaats: UCI

UCI Machine Studying Repository onderhoudt momenteel 622 datasets die geschikt zijn voor datawetenschappers en ML-ingenieurs om hun AI-modellen te trainen. Er is ook een doorzoekbare interface om de databases te onderzoeken. Populaire attracties zijn de Accelerometer-dataset, Synchronous Machine-dataset, Wikipedia Math Necessities, Turkish Headlines-dataset, enz.

Openbare BigQuery-datasets: Google Cloud

Veel openbare datasets worden opgeslagen op BigQuery. Google maakt de dataset free of charge toegankelijk by way of het Google Cloud Public Dataset Program. De free of charge zoekopdracht heeft echter een limiet van 1 TB per maand. U kunt standaard SQL- en oudere SQL-query’s uitvoeren.

Geweldige openbare datasets: GitHub

Superior Public Datasets is een open-source dataset die onderwerpgerichte openbare gegevens bevat. Het is verzameld en gesorteerd op foundation van verschillende blogs, antwoorden en gebruikersfeedback en combineert free of charge en betaalde datasets over natuurkunde, sport, software program, natuurlijke taal en machinaal leren.

Gegevens van de Wereldbank

Wereldbank Open Knowledge is het platform waar u free of charge toegang krijgt tot mondiale ontwikkelingsdata. Het biedt ook andere waardevolle bronnen, zoals vooraf opgemaakte tabellen en rapporten. U kunt eenvoudig per land of indicator bladeren om de benodigde dataset te verkrijgen.

FiveThirtyEight: gegevens

FiveThirtyEight is een Amerikaanse web site die zich bezighoudt met analyse van opiniepeilingen, politiek, economie en sport. U heeft toegang tot deze peilingen en voorspellingen by way of datasets vanaf het platform. U kunt de datasets met één klik downloaden.

BeeldNet

ImageNet is een beelddatabase waaruit onderzoekers wereldwijd open supply datasets kunnen verkrijgen voor hun niet-commerciële projecten. Hier zijn de afbeeldingen georganiseerd op foundation van de WordNet-hiërarchie. Het challenge speelt een cruciale rol in diepgaand onderzoek op geavanceerd niveau.

Archief van datasets: UNICEF DATA

Met behulp van de Datasets-archieven kunt u datasets verkrijgen die door UNICEF over de hele wereld zijn verzameld. Gegevens over migratie, ontheemding, dieet, connectiviteit, onderwijs, gezondheid, leren, sterfte, geweld, ontwikkeling van kinderen, kindhuwelijken, kinderarbeid en verschillende statistieken zijn hier beschikbaar.

Vind open information: overheid. van Groot-Brittannië

Als uw challenge gegevens nodig heeft die zijn gepubliceerd door lokale instanties en de centrale overheid van Groot-Brittannië, dan is Discover Open Knowledge de portal die u moet bezoeken. Het omvat overheidsuitgaven, het bedrijfsleven, de gezondheidszorg, het onderwijs, de defensie en meer datasets.

Gegevens: Censusbureau van de Verenigde Staten

Heeft u US Census-gegevens nodig voor een related challenge? U kunt hierbij hulp krijgen van USCB Knowledge. Hier kunt u de censusgegevens, tabellen, kaarten en gegevensprofielen van 2020 verkennen terwijl u gegevens visualiseert en gegevenstools gebruikt.

Gegevens en statistieken: CDC

Het federale agentschap Facilities for Illness Management and Prevention van de Verenigde Staten biedt het publiek ook free of charge datasets aan om toegang te krijgen tot gegevens en statistieken by way of dit portaal. De onderwerpen van de dataset zijn milieugezondheid, chronische ziekten, geboorten en geboorte, sterfgevallen en sterfgevallen, levensverwachting, verwondingen en geweld, reproductieve gezondheid, nationale meldingsplichtige ziekten, enz.

Gegevenscatalogus van de Wereldbank

De Knowledge Catalog verzamelt free of charge datasets die de ontwikkelingsgerelateerde information van de Wereldbank gemakkelijk toegankelijk maken. Het gebruik ervan in verschillende projecten is een fluitje van een cent, omdat u moeiteloos uw favoriete informatie kunt vinden en downloaden. Het bevat meer dan 5000 datasets die de microdata-, financiën- en energieplatforms van de Wereldbank bestrijken.

NASA Area Science-gegevens

NASA biedt toegang tot zijn archiefgegevens op Area Science Knowledge Coulated Archive. Dit platform is een grote hulp voor het grote publiek, vooral mensen die werkzaam zijn in het onderwijs en ruimteonderzoek. Het beschikt over 400 TB aan digitale gegevens met informatie over 550 ruimtewetenschap.

Verkrijg de gegevens: Inside Airbnb

Airbnb is een wereldwijd gerenommeerde on-line marktplaats voor gastgezinnen en vakantiewoningen. Het biedt ook gegevensverzameling over verschillende steden over de hele wereld by way of Get the Knowledge. U kunt door de stad bladeren om snel de gegevens op te halen. Bovendien kunt u op dit portaal de benodigde gegevens opvragen en gegevensaannames lezen.

Webgegevens: Amazon-recensies

Degenen die geïnteresseerd zijn in marktonderzoek en productrecensies kunnen de datasets van Snap Net Knowledge gebruiken. Het bevat meer dan 34 miljoen gebruikersrecensies op Amazon, van juni 1995 tot maart 2013. De dataset bevat platte tekst, productinformatie, gebruikersnaam, beoordelingen en een recensie.

IMF-gegevens

Het IMF Knowledge-portaal is waardevol voor alle soorten economische en financiële gegevens. Of u nu zoekt naar financiële gegevens van het IMF, statistieken over de externe sector, vlaggenschippublicaties of micro-economische gegevens, hier kunt u ze vinden. Bovendien kunt u een filter gebruiken om landspecifieke gegevens te verkrijgen.

Google Boeken Ngrams

Als u werkt aan delen van spraak en taal, kan Google Books Ngrams u aanzienlijk helpen. Deze open-source dataset geeft u een idee over het gebruik van een bepaald woord en een bepaalde zin door de geschiedenis heen of in een specifiek tijdsbestek. De bron van deze dataset zijn de door Google geïndexeerde digitale documenten.

Marktgegevens: The Monetary Occasions

Als u betrouwbare en nauwkeurige mondiale en regionale aandelenmarktgegevens in handen wilt krijgen, is Markets Knowledge van The Monetary Occasions hier om u te helpen. Hiermee kunt u werken met marktgegevens uit Amerika, Azië-Pacific, Europa, Afrika en de wereldmarkt.

Earthdata: NASA

NASA biedt volledige en open toegang tot zijn wetenschappelijke gegevens by way of het Earth Knowledge-programma dat u helpt onze thuisplaneet te begrijpen en er projecten mee te doen. U kunt free of charge datasets vinden over de atmosfeer, de biosfeer, de cryosfeer, de menselijke dimensies, het landoppervlak, de oceaan, de vaste aarde, de interactie tussen de zon en de aarde en de terrestrische hydrosfeer.

Zoeken naar datasets: Google

Als u een scholar, onderzoeker of datawetenschapper bent en op zoek bent naar datasets om uw challenge te ondersteunen, kunt u hulp krijgen van de Dataset Search-portal. Je kunt het een zoekmachine voor datasets noemen, omdat je by way of trefwoorden datasets kunt ontdekken die in verschillende rapporten op web worden gehost.

Opendata: CERN

De Europese onderzoeksorganisatie CERN heeft een Open Knowledge-portaal waarmee u toegang kunt krijgen tot de door onderzoek gegenereerde gegevens bij CERN. Dit datasetportaal bevat twee petabytes aan gegevens met betrekking tot deeltjesfysica. Bovendien wordt het geleverd met applicaties en documentatie die nodig zijn voor data-analyse.

Misdaadgegevensverkenner: FBI

De Crime Knowledge Explorer (CDE) is de open-source dataset van de FBI die tot doel heeft gemakkelijker toegang te bieden tot het delen van criminele, niet-criminele en wetshandhavingsgegevens. Naast dat u by way of visualisatie en categoriefiltering de benodigde gegevens kunt ontdekken, kunt u met dit platform ook gegevens downloaden in CSV-formaat.

Laatste woorden

Tot nu toe heb je een werkelijk volledige lijst van hoogwaardige datasets doorgenomen. Het artikel presenteert gegevens uit verschillende niches, zoals natuurwetenschappen, medische dossiers, ruimteonderzoek, strafregisters, productbeoordelingen, enz.

Afhankelijk van het information science- of machine learning-project waar u mee bezig bent, kunt u uw keuze maken. Bijna alle datasets bevatten ook de juiste instructies om u te helpen bij uw challenge.

Mogelijk bent u ook geïnteresseerd in deze bronnen om datawetenschap en ML te leren.