Hadoop Zookeeper pour Big Data

Plus grande technique de Hadoop pour traiter de grands défis de données est sa capacité à diviser et conquérir avec Zookeeper. Après le problème a été divisé, la conquête repose sur la capacité de répartie et emploient des techniques de traitement en parallèle sur le cluster Hadoop.

Pour certains grands problèmes de données, les outils interactifs sont incapables de fournir les connaissances ou la rapidité nécessaires pour prendre des décisions d'affaires. Dans ces cas, vous avez besoin pour créer des applications distribuées pour résoudre ces grands problèmes de données. Zookeeper est la manière de Hadoop de coordonner tous les éléments de ces applications distribuées.

Zookeeper comme une technologie est en fait simple, mais ses caractéristiques sont puissants. Sans doute, il serait difficile, voire impossible, de créer des élastiques, des applications Hadoop distribués tolérants aux pannes sans elle. Certains des capacités de Zookeeper sont comme suit:

  • La synchronisation de processus: Zookeeper coordonne le démarrage et l'arrêt de plusieurs nœuds du cluster. Ceci assure que tout le traitement se produit dans l'ordre prévu. Quand un groupe de processus entier est complet, alors et alors seulement peut se produire un traitement ultérieur.




  • Gestion de la configuration: Zookeeper peut être utilisé pour envoyer des attributs de configuration pour une ou toutes les nœuds du cluster. Lorsque le traitement dépend de certaines ressources soient disponibles sur tous les noeuds, Zookeeper assure la cohérence des configurations.

  • Auto-élection: Zookeeper comprend la composition du cluster et peut affecter un “ chef de file ” rôle de l'un des noeuds. Ce chef / maître gère toutes les demandes des clients pour le compte de la grappe. Si le nœud leader échec, un autre dirigeant sera élu parmi les nœuds restants.

  • Fiable messagerie: Même si la charge de travail dans Zookeeper sont faiblement couplés, vous avez encore un besoin de communication entre et parmi les nœuds du cluster spécifiques à l'application distribuée. Zookeeper offre une capacité de publication / abonnement qui permet la création d'une file d'attente. Cette file d'attente garantit la livraison de message, même dans le cas d'une défaillance d'un nœud.

Parce que Zookeeper est la gestion des groupes de nœuds en service à une seule application distribuée, il est préférable de mise en œuvre de l'autre côté racks. Ceci est très différent de celui des exigences pour le cluster lui-même (au sein de racks). La raison sous-jacente est simple: Zookeeper doit effectuer, être résilient, et être tolérant aux pannes à un niveau au-dessus du cluster lui-même.

Rappelez-vous que un cluster Hadoop est déjà tolérante aux pannes, de sorte qu'il se guérir. Zookeeper a juste besoin de vous soucier de sa propre tolérance aux pannes.

L'écosystème Hadoop et les distributions commerciales prises en charge sont en constante évolution. De nouveaux outils et technologies sont introduites, les technologies existantes sont améliorées et certaines technologies sont à la retraite par un (espérons mieux) de remplacement. Ce un des plus grands avantages de l'open source.

Un autre est l'adoption de technologies open source par les sociétés commerciales. Ces entreprises à améliorer les produits, les rendant mieux pour tout le monde en offrant un soutien et des services à un coût modeste. Voilà comment l'écosystème Hadoop a évolué et pourquoi il est un bon choix pour aider à résoudre vos grands défis de données.


» » » » Hadoop Zookeeper pour Big Data