Traitement distribué Hadoop MapReduce avec

Hadoop MapReduce implique le traitement d'une séquence d'opérations sur des ensembles de données distribuées. Les données se compose de paires clé-valeur, et les calculs ont seulement deux phases: une phase de carte et une phase réduire. Emplois MapReduce définis par l'utilisateur courent sur les nœuds de calcul du cluster.

De manière générale, un travail de MapReduce se déroule comme suit:

Pendant la phase de la carte, les données d'entrée est divisé en un grand nombre de fragments, dont chacun est affecté à une tâche de la carte.
Ces tâches de carte sont distribués à travers le cluster.
Chaque tâche de la carte traite les paires clé-valeur de son fragment attribué et produit un ensemble de paires clé-valeur intermédiaire.
L'ensemble de données intermédiaire est triée par la clé, et les données triées est divisé en un certain nombre de fragments qui correspond au nombre de réduire les tâches.
Pendant la phase Réduire, réduire chaque tâche traite le fragment de données qui lui a été attribué et produit une paire clé-valeur de sortie.
Celles-ci réduisent les tâches sont également distribués à travers le cluster et écrivent leur sortie vers HDFS lorsque vous avez terminé.

Le framework Hadoop MapReduce plus tôt (pré-version 2) Hadoop de presse dispose d'un service de maître unique appelé JobTracker et de plusieurs services d'esclaves appelés TaskTrackers, un par nœud du cluster.

Lorsque vous soumettez un job de MapReduce à l'JobTracker, le travail est placé dans une file d'attente et exécute ensuite selon les règles de planification définies par un administrateur. Comme on pouvait s'y attendre, l'JobTracker gère l'attribution de la carte-et-tâches à réduire les TaskTrackers.

Avec Hadoop 2, un nouveau système de gestion des ressources est en place appelé fil (court pour Yet UNutre Resource Manager). FILS fournit des services de planification et de gestion des ressources génériques de sorte que vous pouvez exécuter plus que des applications MapReduce sur votre cluster Hadoop. L'architecture JobTracker / TaskTracker ne pouvait fonctionner MapReduce.

HDFS a également une architecture maître / esclave:

Service de Master: Appelé NameNode, il contrôle l'accès aux fichiers de données.
Services esclave: Appelé DataNodes, ils sont distribués par un noeud du cluster. DataNodes gérer le stockage qui est associé avec les nœuds sur lesquels ils courent, servant client lire et écrire des demandes, entre autres tâches.

A propos Auteur

Comment lancer une application basée sur le fil-

Pour montrer comment les différents fils (Yet Another Négociateur ressources) composants fonctionnent ensemble, vous pouvez marcher à travers l'exécution d'une application. Pour les besoins du raisonnement, il peut être une application de…

Comment écrire des applications MapReduce

L'API MapReduce est écrit en Java, donc applications MapReduce sont basées sur Java principalement. La liste suivante indique les composants d'une application de MapReduce que vous pouvez développer:Driver (obligatoire): Ceci est la coquille de…

Entrée divise dans le MapReduce Hadoop de

La façon HDFS a été mis en place, il se décompose très gros fichiers dans de grands blocs (par exemple, mesure 128 Mo), et stocke trois exemplaires de ces blocs sur les différents nœuds du cluster. HDFS n'a pas connaissance du contenu de ces…

Modes locaux et distribués de l'exécution de scripts de porcs dans Hadoop

Avant vous pouvez exécuter votre premier script de cochon dans Hadoop, vous devez avoir une poignée sur la façon dont les programmes de porc peuvent être fournis avec le serveur de porc.Pig dispose de deux modes pour l'exécution de scripts:Mode…

Gérer grandes ressources de données et des applications avec fil de Hadoop

La planification des tâches et de suivi pour les grandes données sont des parties intégrantes de Hadoop MapReduce et peuvent être utilisés pour gérer les ressources et les applications. Les premières versions de Hadoop faveur d'un système de…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Nœuds de Master dans les clusters Hadoop

Les nœuds maîtres dans les clusters Hadoop distribués abritent les différents services de stockage et de gestion de traitement, décrits dans cette liste, pour l'ensemble du cluster Hadoop. La redondance est essentiel pour éviter les points de…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Nœuds esclaves dans les clusters Hadoop

Dans un univers Hadoop, nœuds esclaves sont où les données Hadoop est stockée et où le traitement de données a lieu. Les services suivants permettent nœuds esclaves pour stocker et traiter les données:NodeManager: Coordonne les ressources…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Le maître de l'application de fil dans Hadoop

Contrairement à d'autres FIL (Yet Another Négociateur ressources) des composants, aucun composant dans Hadoop 1 correspond directement à la maîtrise de l'application. En substance, ce travail est que la JobTracker fait pour chaque application,…

Le gestionnaire de ressources de fil

La composante de base de fil (Yet Another négociateur des ressources) est le gestionnaire de ressources, qui régit toutes les ressources de traitement de données dans le cluster Hadoop. Autrement dit, le gestionnaire de ressources est un…

Le gestionnaire de noeud de fil dans Hadoop

Chaque nœud esclave dans un autre négociateur des ressources (FIL) a un démon Node Manager, qui agit comme un esclave pour le gestionnaire de ressources. Comme avec le TaskTracker, chaque nœud esclave dispose d'un service qu'il lie au service de…

Comment utiliser Apache Hadoop pour l'analyse prédictive

Hadoop est une plate-forme de logiciel libre, open-source pour l'écriture et l'exécution d'applications qui traitent une grande quantité de données pour l'analyse prédictive. Il permet un traitement parallèle distribué de grands ensembles de…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Traitement distribué Hadoop MapReduce avec