Hadoop système de fichiers distribué (HDFS) haute disponibilité

Souvent dans l'enfance de Hadoop, une grande quantité de discussion a été centrée sur la représentation de la NameNode d'un point de défaillance unique. Hadoop, dans l'ensemble, a toujours eu une architecture robuste et tolérants aux pannes, à l'exception de ce domaine clé. Sans la NameNode, il n'y a pas de groupe Hadoop.

En utilisant Hadoop 2, vous pouvez configurer HDFS sorte qu'il ya un NameNode active et un NameNode veille. La veille NameNode doit être sur un noeud maître dédié qui est configuré de manière identique au nœud maître utilisé par le NameNode active.

image0.jpg


La veille NameNode ne siège pas les bras croisés tandis que le NameNode gère toutes les demandes d'adresse de bloc. La veille NameNode, chargé de la tâche de garder l'état de l'emplacement des blocs et le bloc des métadonnées en mémoire, gère les responsabilités de points de reprise HDFS.

L'Active NameNode écrit des entrées de journal sur les modifications de fichiers à la majorité des services de JournalNode, qui se déplacent sur les nœuds maîtres. (Note: La solution HDFS haute disponibilité nécessite au moins trois noeuds maîtres, et si il ya plus, il ne peut être que d'un nombre impair.)

Si une panne survient, le nœud en attente lit d'abord toutes les écritures achevés (où une majorité de la revue nœuds ont une entrée, en d'autres termes), pour assurer que la nouvelle NameNode active est pleinement compatible avec l'état de la grappe.

Zookeeper est utilisé pour surveiller la NameNode active et à gérer la logistique de basculement si le NameNode active devient indisponible. Contrôleurs fois les NameNodes active et en attente ont dédiés Zookeeper basculement (ZFC) qui effectuent les tâches de surveillance et de basculement. Dans le cas d'un échec, le ZFC informe les instances de Zookeeper sur le cluster, qui a ensuite élire un nouveau NameNode active.

Apache Zookeeper fournit des services de coordination et de configuration pour les systèmes distribués, il est donc pas étonnant que nous voyons utilisé partout dans Hadoop.


» » » » Hadoop système de fichiers distribué (HDFS) haute disponibilité