10 ensembles de données publics et où les trouver

Ensembles de données publiques sont très grands ensembles de données qui sont disponibles gratuitement pour vous de télécharger ou se connectent à via le cloud. Il existe plusieurs sites bien-commissaire avec les dernières informations sur les ensembles de données publics et comment les utiliser, y compris les suivantes:

  • Amazon Web Services: Il ya actuellement 56 ensembles de données publiques résidant sur Amazon Web Services accessibles au public.

  • Open Science Data Cloud: L'Open Data Science Cloud est un consortium parrainé par la Fondation Gordon et Betty Moore, Yahoo !, Cisco et la National Science Foundation.

  • Big Data-Commencez: BigData-démarrage est une ressource en ligne pour toutes les choses Big Data. Cette liste contient une longue liste d'organisations qui hébergent des ensembles de données publiques.

Il ya toutes sortes de jeux de données à trier, à partir de projets de génome qui parlent aux e-mails provenant de sociétés notoires. Voici dix ensembles de données publiques et où vous pouvez aller pour commencer:




  • 1000 Genome Project (200 To): Le projet 1000 Genomes est parrainé par Amazon et le National Center for Biotechnology Information. Cette base de données contient des ensembles de données de plus de 2600 personnes de 26 populations différentes de partout dans le monde.

  • Génomes complets de données publiques (50 To): Ce sont des données de génome séquencé de Complete Genomics, une société qui fournit des services de séquençage du génome.

  • Earth Observing-1 Mission (80.5TB): La NASA a ouvert la vue plongeante sur la Terre. Ce sont des données recueillies par le Land Imager avancée (ALI). Ces données sont utilisées pour mieux comprendre comment les événements de la Terre, comme les volcans, les feux de forêt, les inondations et évoluent avec le temps et affectent notre planète.

  • Common Crawl Corpus (541TB): Avez-vous jamais eu envie de mettre la main sur des données sanitaires pour des milliards de pages Web avec des milliers de milliards de liens? Voici votre chance. Le Crawl corpus commun fournit un riche ensemble d'outils, exemples et projets que vous pouvez sauter dans aujourd'hui.

  • Marvel Universe Social Graph (1 Go): Ceci est un aspect amusant à la connectivité sociale du monde Marvel de caractères. Les fondateurs affirment que l'analyse de ce monde social est remarquablement proche de la nôtre.

  • Les e-mails d'Enron (210GB): Ces e-mails - tous les 1,2 million avec près de 500.000 pièces jointes - ont été libérés dans le cadre de l'enquête de la Federal Energy Regulatory Commission dans l'entreprise infâme.

  • Millions Chanson échantillon de données, (500 Go): Cherchez-vous des ensembles de données sur un million de chansons populaires? Cherchez pas plus loin. The Million chanson DataSet contient quelques fonctionnalités audio et de métadonnées pour un million de chansons populaires.

  • Projet Gutenberg (742GB): Projet Gutenberg fait plus de 46.000 livres disponibles pour l'analyse. Ces livres sont maintenant sur le domaine public parce que leurs droits d'auteur ont expiré.

  • Les ensembles de données de recensement américaines (1,8 To): Tous les dix ans, les Etats-Unis doivent prendre un recensement. Le but principal de ce est de veiller à une bonne répartition des sièges au Congrès.

  • NOAA National Climatic Data Center (3.3 TB): Ne croyez pas au réchauffement climatique ou le changement climatique? Valider (ou invalider) vous-même. Cette base de données contient des données sur plus de 150 années de temps de nombreuses sources allant de stations météorologiques à des lectures de l'aéroport aux données satellitaires.

    Vous pouvez regarder les choses comme points de rosée, la vitesse du vent et la température. Il peut être intéressant de rechercher des corrélations entre cet ensemble de données et l'échantillon Million Song. Y at-il un lien entre le temps et a atteint des sommets? Sonne comme une grande question grande de données pour quelqu'un pour répondre. . . .