L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas tous) de ces projets sont hébergés par l'Apache Software Foundation. Le tableau répertorie certains de ces projets.

Hadoop connexes Projets
nom du projetDescription
AmbariUn ensemble intégré d'outils d'administration Hadoop forinstalling, le suivi et le maintien d'un cluster Hadoop. Alsoincluded sont des outils pour ajouter ou supprimer des nœuds esclaves.
AvroUn cadre pour la sérialisation efficace (un oftransformation nature) des données dans un format binaire compact
FlumeUn service de flux de données pour le déplacement de volumes importants de LogData dans Hadoop
HBaseUne base de données de colonne distribué qui utilise HDFS pour itsunderlying stockage. Avec HBase, vous pouvez stocker des données dans des tableaux extremelylarge avec des structures de colonnes variables.
HCatalogUn service pour fournir une vue relationnel de données stockées inHadoop, y compris une approche standard pour les données tabulaires
HiveUn entrepôt de données distribuée pour les données qui sont stockées dans HDFS-fournit également un langage de requête qui est basé sur SQL (HiveQL)
TeinteUne interface d'administration Hadoop avec des outils de l'interface graphique pratiques forbrowsing fichiers, émission de requêtes Hive et Pig, et le développement de Oozieworkflows
CornacUne bibliothèque de l'apprentissage machine algorithmes statistiques qui wereimplemented dans MapReduce et peut fonctionner en mode natif sur Hadoop
OozieUn outil de gestion de flux de travail qui peut gérer l'ordonnancement andchaining ensemble des applications Hadoop
CochonUne plate-forme pour l'analyse de très grands ensembles de données qui runson HDFS et avec une couche de l'infrastructure constituée d'un compilerthat produit des séquences de programmes MapReduce et un layerconsisting de langue de la langue de requête nommée Pig Latin
SqoopUn outil pour déplacer efficacement de grandes quantités de bases de données et de betweenrelational HDFS
ZooKeeperUne interface simple pour la coordination centralisée des services (tels que nommage, la configuration et la synchronisation) utilisé applications bydistributed



L'écosystème Hadoop et ses distributions commerciales continuent d'évoluer, avec les technologies et les outils nouveaux ou améliorés émergents tout le temps.

La figure montre les divers projets de l'écosystème Hadoop et comment ils se rapportent à un autre:

image0.jpg

» » » » L'écosystème Hadoop Apache