Réplication de blocs de données dans le système de fichiers Hadoop distribué

Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son ensemble, en particulier pour assurer la haute disponibilité des données.

Planifier à l'avance pour un désastre, les cerveaux derrière HDFS ont pris la décision de mettre en place le système de sorte qu'il serait stocker trois (count 'em - trois) copies de chaque bloc de données.

HDFS suppose que chaque disque et chaque noeud esclave est intrinsèquement peu fiable, de sorte que, clairement, il faut prendre soin dans le choix où les trois copies des blocs de données sont stockés.




La figure montre comment les blocs de données à partir du fichier précédemment sont rayé dans le cluster Hadoop - ce qui signifie qu'ils sont répartis uniformément entre les nœuds esclaves de sorte qu'une copie du bloc sera toujours disponible indépendamment de pannes disque, noeud, ou en rack.

image0.jpg

Le fichier a montré cinq blocs de données, étiquetées A, B, C, D, et E. Si vous jetez un oeil de plus près, vous pouvez voir ce groupe particulier est constitué de deux racks avec deux nœuds chacun, et que les trois exemplaires de chaque bloc de données ont été réparties entre les différents nœuds esclaves.

Chaque composant du cluster Hadoop est considéré comme un point de défaillance potentiel, alors quand HDFS stocke les répliques des blocs originaux à travers le cluster Hadoop, il essaie de faire en sorte que les répliques de blocs sont stockés dans différents points de défaillance.

Par exemple, jetez un oeil au bloc A. Au moment où il avait besoin d'être stocké, nœud Esclave 3 a été choisi, et le premier exemplaire du bloc A, il a été stocké. Pour de multiples systèmes en rack, HDFS détermine alors que les deux copies restantes du bloc A doivent être stockés dans un rack différent. Donc, la deuxième copie du bloc A est stocké sur le noeud Esclave 1.

La copie finale peut être stocké sur le même rack que le deuxième exemplaire, mais pas sur le même noeud esclave, il est stocké sur le noeud Esclave 2.


» » » » Réplication de blocs de données dans le système de fichiers Hadoop distribué