Hadoop Zookeeper pour Big Data

Plus grande technique de Hadoop pour traiter de grands défis de données est sa capacité à diviser et conquérir avec Zookeeper. Après le problème a été divisé, la conquête repose sur la capacité de répartie et emploient des techniques de traitement en parallèle sur le cluster Hadoop.

Pour certains grands problèmes de données, les outils interactifs sont incapables de fournir les connaissances ou la rapidité nécessaires pour prendre des décisions d'affaires. Dans ces cas, vous avez besoin pour créer des applications distribuées pour résoudre ces grands problèmes de données. Zookeeper est la manière de Hadoop de coordonner tous les éléments de ces applications distribuées.

Zookeeper comme une technologie est en fait simple, mais ses caractéristiques sont puissants. Sans doute, il serait difficile, voire impossible, de créer des élastiques, des applications Hadoop distribués tolérants aux pannes sans elle. Certains des capacités de Zookeeper sont comme suit:

La synchronisation de processus: Zookeeper coordonne le démarrage et l'arrêt de plusieurs nœuds du cluster. Ceci assure que tout le traitement se produit dans l'ordre prévu. Quand un groupe de processus entier est complet, alors et alors seulement peut se produire un traitement ultérieur.
Gestion de la configuration: Zookeeper peut être utilisé pour envoyer des attributs de configuration pour une ou toutes les nœuds du cluster. Lorsque le traitement dépend de certaines ressources soient disponibles sur tous les noeuds, Zookeeper assure la cohérence des configurations.
Auto-élection: Zookeeper comprend la composition du cluster et peut affecter un “ chef de file ” rôle de l'un des noeuds. Ce chef / maître gère toutes les demandes des clients pour le compte de la grappe. Si le nœud leader échec, un autre dirigeant sera élu parmi les nœuds restants.
Fiable messagerie: Même si la charge de travail dans Zookeeper sont faiblement couplés, vous avez encore un besoin de communication entre et parmi les nœuds du cluster spécifiques à l'application distribuée. Zookeeper offre une capacité de publication / abonnement qui permet la création d'une file d'attente. Cette file d'attente garantit la livraison de message, même dans le cas d'une défaillance d'un nœud.

Parce que Zookeeper est la gestion des groupes de nœuds en service à une seule application distribuée, il est préférable de mise en œuvre de l'autre côté racks. Ceci est très différent de celui des exigences pour le cluster lui-même (au sein de racks). La raison sous-jacente est simple: Zookeeper doit effectuer, être résilient, et être tolérant aux pannes à un niveau au-dessus du cluster lui-même.

Rappelez-vous que un cluster Hadoop est déjà tolérante aux pannes, de sorte qu'il se guérir. Zookeeper a juste besoin de vous soucier de sa propre tolérance aux pannes.

L'écosystème Hadoop et les distributions commerciales prises en charge sont en constante évolution. De nouveaux outils et technologies sont introduites, les technologies existantes sont améliorées et certaines technologies sont à la retraite par un (espérons mieux) de remplacement. Ce un des plus grands avantages de l'open source.

Un autre est l'adoption de technologies open source par les sociétés commerciales. Ces entreprises à améliorer les produits, les rendant mieux pour tout le monde en offrant un soutien et des services à un coût modeste. Voilà comment l'écosystème Hadoop a évolué et pourquoi il est un bon choix pour aider à résoudre vos grands défis de données.

A propos Auteur

Hadoop système de fichiers distribué (HDFS) haute disponibilité

Souvent dans l'enfance de Hadoop, une grande quantité de discussion a été centrée sur la représentation de la NameNode d'un point de défaillance unique. Hadoop, dans l'ensemble, a toujours eu une architecture robuste et tolérants aux pannes,…

Comment choisir une architecture de cluster hadoop

Hadoop est conçu pour être déployé sur une grande grappe d'ordinateurs en réseau, avec des nœuds maîtres (qui accueillent les services qui contrôlent le stockage et le traitement de Hadoop) et nœuds esclaves (où les données sont stockées…

Gérer grandes ressources de données et des applications avec fil de Hadoop

La planification des tâches et de suivi pour les grandes données sont des parties intégrantes de Hadoop MapReduce et peuvent être utilisés pour gérer les ressources et les applications. Les premières versions de Hadoop faveur d'un système de…

Nœuds de Master dans les clusters Hadoop

Les nœuds maîtres dans les clusters Hadoop distribués abritent les différents services de stockage et de gestion de traitement, décrits dans cette liste, pour l'ensemble du cluster Hadoop. La redondance est essentiel pour éviter les points de…

Réseautage et grappes Hadoop

Comme pour tout système distribué, le réseautage peut faire ou défaire un cluster Hadoop: Ne pas “ aller pas cher ”. Une grande partie de bavardage a lieu entre les nœuds maîtres et nœuds esclaves dans un cluster Hadoop qui est…

Réplication de blocs de données dans le système de fichiers Hadoop distribué

Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Nœuds esclaves dans les clusters Hadoop

Dans un univers Hadoop, nœuds esclaves sont où les données Hadoop est stockée et où le traitement de données a lieu. Les services suivants permettent nœuds esclaves pour stocker et traiter les données:NodeManager: Coordonne les ressources…

Prenez HBase pour un essai

Ici, vous trouverez comment télécharger et déployer HBase en mode autonome. Il est incroyablement simple à installer HBase et commencer à utiliser la technologie. Il suffit de garder à l'esprit que HBase est généralement déployée sur un…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Le MasterServer de HBase

Démarrage d'une discussion des HBase (Base de données Hadoop) en décrivant l'architecture RegionServers la place de la MasterServer peut vous surprendre. Le terme RegionServer semble impliquer que cela dépend (et est secondaire à)…

Le maître de l'application de fil dans Hadoop

Contrairement à d'autres FIL (Yet Another Négociateur ressources) des composants, aucun composant dans Hadoop 1 correspond directement à la maîtrise de l'application. En substance, ce travail est que la JobTracker fait pour chaque application,…

Le gestionnaire de ressources de fil

La composante de base de fil (Yet Another négociateur des ressources) est le gestionnaire de ressources, qui régit toutes les ressources de traitement de données dans le cluster Hadoop. Autrement dit, le gestionnaire de ressources est un…

Zookeeper et HBase fiabilité

Zookeeper est un cluster de serveurs distribués qui fournit collectivement des services de coordination et de synchronisation fiables pour des applications en cluster. Certes, le nom “ Zookeeper ” peut sembler à première vue être un…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Hadoop Zookeeper pour Big Data