Comment écrire des applications MapReduce

L'API MapReduce est écrit en Java, donc applications MapReduce sont basées sur Java principalement. La liste suivante indique les composants d'une application de MapReduce que vous pouvez développer:

Driver (obligatoire): Ceci est la coquille de l'application qui est appelée à partir du client. Il configure la classe MapReduce (que vous ne personnalisez pas) et il soumet à la Resource Manager (ou JobTracker si vous utilisez Hadoop 1).
classe (obligatoire): La classe que vous mettre en œuvre besoins de définir les formats des paires clé / valeur que vous entrée et de sortie que vous traitez chaque enregistrement. Cette classe ne dispose que d'une seule méthode, qui est où vous codez comment chaque dossier sera traité et quel clé / valeur à la sortie. Pour sortie paires clé / valeur de la tâche de mappeur, écrivez-les à une instance de la classe.
class (optionnel): Le réducteur est facultative pour les applications de carte seule où la phase Réduire est pas nécessaire.
class (optionnel): Un combineur peut souvent être défini comme un réducteur, mais dans certains cas il doit être différent. (Rappelez-vous, par exemple, qu'un réducteur peut ne pas être en mesure d'exécuter plusieurs fois sur un ensemble de données sans mutation des résultats.)
class (optionnel): Personnaliser le programme de partitionnement par défaut pour effectuer des tâches spéciales, comme une sorte secondaire sur les valeurs de chaque touche ou pour de rares cas impliquant des rares données et les fichiers de sortie déséquilibrée des tâches de mapper.
andclasses (facultatif): Hadoop a certains formats de données standard (par exemple, les fichiers texte, les fichiers de séquence, et bases de données), qui sont utiles pour de nombreux cas. Pour les données spécifiquement formatés, la mise en œuvre de vos propres classes pour les données de lecture et d'écriture peut grandement simplifier votre mappeur et le code de réducteur.

De l'intérieur du pilote, vous pouvez utiliser l'API de MapReduce, qui comprend des méthodes de fabrique pour créer des instances de tous les composants dans la liste précédente. (Dans le cas où vous n'êtes pas une personne de Java, une méthode de fabrication est un outil pour créer des objets.)

Une API générique appelé Hadoop streaming vous permet d'utiliser d'autres langages de programmation (le plus souvent, C, Python et Perl). Bien que cette API permet aux organisations ayant des compétences non-Java d'écrire du code MapReduce, l'aide qu'il a quelques inconvénients.

Parce que des couches d'abstraction supplémentaires que ce code de streaming doit passer afin de fonctionner, il ya une pénalité de performance et une augmentation de l'utilisation de mémoire. En outre, vous pouvez coder des fonctions de mapper et réducteur uniquement avec Hadoop streaming. Lecteurs de disques et les écrivains, ainsi que tous vos partitionneurs, doivent être écrites en Java.

Une conséquence directe - et le désavantage supplémentaire - d'être incapable de personnaliser les lecteurs de disques et les écrivains est que les applications Hadoop en streaming sont bien adaptés pour gérer uniquement les données textuelles.

A propos Auteur

Comment lancer une application de MapReduce Hadoop en 1

Pour voir comment le JobTracker et TaskTracker travaillent ensemble pour mener une action de MapReduce, jetez un oeil à l'exécution d'une application de MapReduce. La figure montre les interactions, et la liste d'étape suivante énonce le…

Importation de données avec Sqoop

Prêt à plonger dans l'importation de données avec Sqoop? Commencez par jeter un oeil à la figure, qui illustre les étapes d'une opération typique Sqoop d'importation à partir d'un SGBDR ou un système d'entrepôt de données. Rien de trop…

Entrée divise dans le MapReduce Hadoop de

La façon HDFS a été mis en place, il se décompose très gros fichiers dans de grands blocs (par exemple, mesure 128 Mo), et stocke trois exemplaires de ces blocs sur les différents nœuds du cluster. HDFS n'a pas connaissance du contenu de ces…

Modes locaux et distribués de l'exécution de scripts de porcs dans Hadoop

Avant vous pouvez exécuter votre premier script de cochon dans Hadoop, vous devez avoir une poignée sur la façon dont les programmes de porc peuvent être fournis avec le serveur de porc.Pig dispose de deux modes pour l'exécution de scripts:Mode…

Gérer grandes ressources de données et des applications avec fil de Hadoop

La planification des tâches et de suivi pour les grandes données sont des parties intégrantes de Hadoop MapReduce et peuvent être utilisés pour gérer les ressources et les applications. Les premières versions de Hadoop faveur d'un système de…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Pig latin dans les programmes de porcs de Hadoop

Pig latin est la langue pour les programmes de porc. Pig traduit le script Pig Latin en emplois MapReduce qu'il peut être exécuté dans clusters Hadoop. En venant avec Pig Latin, l'équipe de développement a suivi trois principes clés de la…

Scripts Pig interfaces dans Hadoop

Le langage de programmation Pig est conçu pour gérer tout type de données jeté son chemin - structurée, semi-structurée, les données non structurées, you name it. Programmes de porcs peuvent être emballés de trois manières…

Applications en temps réel et en streaming dans Hadoop

Le flux de processus de fils ressemble beaucoup comme un cadre de l'exécution du lot. Vous pourriez vous demander, “? Qu'est-il arrivé à cette idée de flexibilité pour les différents modes d'applications ” Eh bien, le seul cadre de…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Exécution des modèles statistiques dans le MapReduce Hadoop de

Conversion de modèles statistiques pour fonctionner en parallèle est une tâche difficile. Dans le paradigme traditionnel pour la programmation parallèle, accès à la mémoire est régulée par l'utilisation de les discussions - les…

L'architecture de la ruche apache

Comme vous examinez les éléments de Apache Hive montrées, vous pouvez voir au bas cette ruche se trouve au sommet du système Hadoop Distributed File (HDFS) et les systèmes de MapReduce.Dans le cas de MapReduce, les figureshows deux composants…

Le maître de l'application de fil dans Hadoop

Contrairement à d'autres FIL (Yet Another Négociateur ressources) des composants, aucun composant dans Hadoop 1 correspond directement à la maîtrise de l'application. En substance, ce travail est que la JobTracker fait pour chaque application,…

Comment utiliser mahout Apache pour l'analyse prédictive

Un outil open-source qui est uniquement utile dans l'analyse prédictive est Apache Mahout. Cette bibliothèque d'apprentissage comprend des versions à grande échelle de la classification, la classification, filtrage collaboratif, et d'autres…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Comment écrire des applications MapReduce