Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de Hadoop 2. Concentrez-vous sur le rôle que JobTracker démons maîtres et démons esclaves TaskTracker joués dans le traitement de transformation de MapReduce.

Le point d'employer des systèmes distribués ensemble est d'être en mesure de déployer des ressources informatiques dans un réseau d'ordinateurs autonomes d'une manière qui est tolérant aux pannes, facile et peu coûteux.

Dans un système distribué tels que Hadoop, où vous avez un cluster de nœuds de calcul autonomes qui travaillent tous en parallèle, une grande partie de la complexité va en veillant à ce que toutes les pièces fonctionnent ensemble. En tant que tels, ces systèmes ont typiquement couches distinctes pour traiter des tâches différentes pour soutenir le traitement de données en parallèle.




Ce concept, connu sous le nom la séparation des préoccupations, assure que si vous êtes, par exemple, le programmeur d'application, vous ne devez pas à se soucier des détails spécifiques pour, disons, le basculement de tâches de carte. Dans Hadoop, le système est constitué de ces quatre couches distinctes, comme indiqué:

  • Stockage distribué: Le système Hadoop Distributed File (HDFS) est la couche de stockage où les données, les résultats provisoires et définitifs, des jeux de résultats sont stockés.

  • La gestion des ressources: En plus de l'espace disque, tous les nœuds esclaves dans le cluster Hadoop ont des cycles de CPU, RAM, et la bande passante du réseau. Un tel système Hadoop doit être en mesure de morceler ces ressources de sorte que plusieurs applications et les utilisateurs peuvent partager le cluster de façon prévisible et accordables. Ce travail est fait par le démon JobTracker.

  • Cadre de traitement: Le flux de processus de MapReduce définit l'exécution de toutes les applications dans Hadoop 1. Cela commence par la carte de phase se poursuit avec l'agrégation avec shuffle, trier ou merge- et se termine avec la phase réduire. Dans Hadoop 1, ce qui est également gérée par le démon JobTracker, avec exécution locale gérée par des démons TaskTracker fonctionnant sur les nœuds esclaves.

  • Application Programming Interface (API): Les applications développées pour Hadoop 1 devaient être codée en utilisant l'API MapReduce. Dans Hadoop 1, les projets ruche et Pig fournissent programmeurs avec des interfaces plus faciles pour écrire des applications Hadoop, et sous le capot, leur code compile jusqu'à MapReduce.

    image0.jpg

Dans le monde de Hadoop 1 (qui était le seul monde que vous aviez jusqu'à tout récemment), tous les traitements de données tourné autour de MapReduce.


» » » » Les applications en cours avant hadoop 2