10 ensembles de données publics et où les trouver
Ensembles de données publiques sont très grands ensembles de données qui sont disponibles gratuitement pour vous de télécharger ou se connectent à via le cloud. Il existe plusieurs sites bien-commissaire avec les dernières informations sur les ensembles de données publics et comment les utiliser, y compris les suivantes:
Amazon Web Services: Il ya actuellement 56 ensembles de données publiques résidant sur Amazon Web Services accessibles au public.
Open Science Data Cloud: L'Open Data Science Cloud est un consortium parrainé par la Fondation Gordon et Betty Moore, Yahoo !, Cisco et la National Science Foundation.
Big Data-Commencez: BigData-démarrage est une ressource en ligne pour toutes les choses Big Data. Cette liste contient une longue liste d'organisations qui hébergent des ensembles de données publiques.
Il ya toutes sortes de jeux de données à trier, à partir de projets de génome qui parlent aux e-mails provenant de sociétés notoires. Voici dix ensembles de données publiques et où vous pouvez aller pour commencer:
1000 Genome Project (200 To): Le projet 1000 Genomes est parrainé par Amazon et le National Center for Biotechnology Information. Cette base de données contient des ensembles de données de plus de 2600 personnes de 26 populations différentes de partout dans le monde.
Génomes complets de données publiques (50 To): Ce sont des données de génome séquencé de Complete Genomics, une société qui fournit des services de séquençage du génome.
Earth Observing-1 Mission (80.5TB): La NASA a ouvert la vue plongeante sur la Terre. Ce sont des données recueillies par le Land Imager avancée (ALI). Ces données sont utilisées pour mieux comprendre comment les événements de la Terre, comme les volcans, les feux de forêt, les inondations et évoluent avec le temps et affectent notre planète.
Common Crawl Corpus (541TB): Avez-vous jamais eu envie de mettre la main sur des données sanitaires pour des milliards de pages Web avec des milliers de milliards de liens? Voici votre chance. Le Crawl corpus commun fournit un riche ensemble d'outils, exemples et projets que vous pouvez sauter dans aujourd'hui.
Marvel Universe Social Graph (1 Go): Ceci est un aspect amusant à la connectivité sociale du monde Marvel de caractères. Les fondateurs affirment que l'analyse de ce monde social est remarquablement proche de la nôtre.
Les e-mails d'Enron (210GB): Ces e-mails - tous les 1,2 million avec près de 500.000 pièces jointes - ont été libérés dans le cadre de l'enquête de la Federal Energy Regulatory Commission dans l'entreprise infâme.
Millions Chanson échantillon de données, (500 Go): Cherchez-vous des ensembles de données sur un million de chansons populaires? Cherchez pas plus loin. The Million chanson DataSet contient quelques fonctionnalités audio et de métadonnées pour un million de chansons populaires.
Projet Gutenberg (742GB): Projet Gutenberg fait plus de 46.000 livres disponibles pour l'analyse. Ces livres sont maintenant sur le domaine public parce que leurs droits d'auteur ont expiré.
Les ensembles de données de recensement américaines (1,8 To): Tous les dix ans, les Etats-Unis doivent prendre un recensement. Le but principal de ce est de veiller à une bonne répartition des sièges au Congrès.
NOAA National Climatic Data Center (3.3 TB): Ne croyez pas au réchauffement climatique ou le changement climatique? Valider (ou invalider) vous-même. Cette base de données contient des données sur plus de 150 années de temps de nombreuses sources allant de stations météorologiques à des lectures de l'aéroport aux données satellitaires.
Vous pouvez regarder les choses comme points de rosée, la vitesse du vent et la température. Il peut être intéressant de rechercher des corrélations entre cet ensemble de données et l'échantillon Million Song. Y at-il un lien entre le temps et a atteint des sommets? Sonne comme une grande question grande de données pour quelqu'un pour répondre. . . .
A propos Auteur
Comment décrire les données d'essais et de test pour l'analyse prédictive Lorsque vos données est prêt et vous êtes sur le point de commencer à construire votre modèle prédictif pour l'analyse, il est utile de décrire votre méthodologie de test et de rédiger un plan de test. Le test doit être guidée par les…
Le grand paradoxe de données Vous trouverez une nuance à propos de Big analyse des données. Il est vraiment à propos de petites données. Même si cela peut sembler déroutant et à l'encontre de la prémisse, petite données est le produit de la grande analyse de données.…
Marts de données provenant d'un entrepôt de données De nombreux experts de l'entreposage de données feraient valoir qu'une véritable data mart est un point de vente, n ° 148; et d'un entrepôt de données fournit son contenu, comme le montre cette figure.Dans un environnement comme celui…
Entrepôt de données: flux de données source Un entrepôt de données est, par sa nature même, un magasin physique de données distribuée. Répartition de vos actifs informationnels aide à la performance et la convivialité entre les systèmes et dans toute l'entreprise. Faire ce niveau de…
Couche 3 de la grosse pile de données: l'organisation des services et des outils de données L'organisation des services de données et des outils, couche 3 de la grosse pile de données, la capture, valider et assembler différents éléments de données dans de grandes collections contextuellement pertinents. Parce que Big Data est…
L'avenir des entrepôts de données à l'époque grand de données Le marché de l'entrepôt de données a en effet commencé à changer et à évoluer avec l'avènement de grands volumes de données. Dans le passé, il était tout simplement pas rentable pour les entreprises de stocker la quantité massive de…
Meilleures pratiques pour grande intégration de données Beaucoup d'entreprises explorent de gros problèmes de données et à venir avec des solutions innovantes. Il est maintenant temps de prêter attention à un certain les meilleures pratiques, ou principes de base, qui vous servira ainsi que vous…
Big ressources de données Vous trouverez de nombreuses ressources qui peuvent vous aider à commencer à faire sens du grand monde de données. Les organismes de normalisation abordent certains des principaux problèmes émergents à l'obtention des ressources de données…
Comment combiner et de fusionner les ensembles de données dans r Vous pouvez combiner des données provenant de différentes sources dans votre analyse. De manière générale, vous pouvez utiliser R de combiner différents ensembles de données de trois façons:En ajoutant des colonnes: Si les deux ensembles de…
Comment au sous-ensemble des trames de données dans r Maintenant que vous avez examiné les règles pour la création de sous-ensembles, vous pouvez l'essayer avec quelques trames de données dans R. Vous avez juste à rappeler que une trame de données est un objet bidimensionnel et contient des…
Ouverture des ensembles de données SAS Ensembles de données SAS sont le bloc de construction de nombreux rapports et analyses en SAS. Un ensemble de données SAS est le format de stockage de données standard pour les données créées avec SAS. La grande chose sur les jeux de données…
Vue d'ensemble des techniques graphiques Plusieurs types de graphiques différents peuvent être utiles pour l'analyse des données. Ceux-ci comprennent des parcelles à tiges et à feuilles, nuages de points, des boîtes à moustaches, histogrammes, quantile-quantile (QQ), des…
Comment télécharger des ensembles de données en outils d'automatisation du marketing Téléchargement de vos ensembles de données dans votre outil d'automatisation du marketing commence par la collecte de toutes les données et faire en sorte qu'il est enregistré dans un fichier CSV.UN Fichier CSV est un format de fichier de…
Recherche de données avec le portail de données fédérale Avant de commencer la recherche de données à la mienne sur data.gov, le portail de données du gouvernement fédéral, vous devez comprendre une chose: Il n'y a pas de données sur le site. Data.gov est à la maison à un catalogue de données,…