Traitement distribué Hadoop MapReduce avec

Hadoop MapReduce implique le traitement d'une séquence d'opérations sur des ensembles de données distribuées. Les données se compose de paires clé-valeur, et les calculs ont seulement deux phases: une phase de carte et une phase réduire. Emplois MapReduce définis par l'utilisateur courent sur les nœuds de calcul du cluster.

De manière générale, un travail de MapReduce se déroule comme suit:

  1. Pendant la phase de la carte, les données d'entrée est divisé en un grand nombre de fragments, dont chacun est affecté à une tâche de la carte.

  2. Ces tâches de carte sont distribués à travers le cluster.

  3. Chaque tâche de la carte traite les paires clé-valeur de son fragment attribué et produit un ensemble de paires clé-valeur intermédiaire.




  4. L'ensemble de données intermédiaire est triée par la clé, et les données triées est divisé en un certain nombre de fragments qui correspond au nombre de réduire les tâches.

  5. Pendant la phase Réduire, réduire chaque tâche traite le fragment de données qui lui a été attribué et produit une paire clé-valeur de sortie.

  6. Celles-ci réduisent les tâches sont également distribués à travers le cluster et écrivent leur sortie vers HDFS lorsque vous avez terminé.

Le framework Hadoop MapReduce plus tôt (pré-version 2) Hadoop de presse dispose d'un service de maître unique appelé JobTracker et de plusieurs services d'esclaves appelés TaskTrackers, un par nœud du cluster.

Lorsque vous soumettez un job de MapReduce à l'JobTracker, le travail est placé dans une file d'attente et exécute ensuite selon les règles de planification définies par un administrateur. Comme on pouvait s'y attendre, l'JobTracker gère l'attribution de la carte-et-tâches à réduire les TaskTrackers.

Avec Hadoop 2, un nouveau système de gestion des ressources est en place appelé fil (court pour Yet UNutre Resource Manager). FILS fournit des services de planification et de gestion des ressources génériques de sorte que vous pouvez exécuter plus que des applications MapReduce sur votre cluster Hadoop. L'architecture JobTracker / TaskTracker ne pouvait fonctionner MapReduce.

HDFS a également une architecture maître / esclave:

  • Service de Master: Appelé NameNode, il contrôle l'accès aux fichiers de données.

  • Services esclave: Appelé DataNodes, ils sont distribués par un noeud du cluster. DataNodes gérer le stockage qui est associé avec les nœuds sur lesquels ils courent, servant client lire et écrire des demandes, entre autres tâches.


» » » » Traitement distribué Hadoop MapReduce avec