Défaillances de nœuds et disques esclaves dans HDFS

Comme la mort et les impôts, les pannes de disque (et assez de temps donné, même les échecs nœud ou rack), sont inévitables dans le système Hadoop Distributed File (HDFS). Dans l'exemple montré, même si un seul rack devait échouer, le groupe pourrait continuer à fonctionner. Performance souffrirait parce que vous avez perdu la moitié de vos ressources de traitement, mais le système est toujours en ligne et toutes les données est toujours disponible.

Dans un scénario où un disque dur ou un nœud esclave échoue, le serveur central de métadonnées pour les HDFS (appelé NameNode) trouve finalement que les blocs de fichiers stockés sur la ressource échoué ne sont plus disponibles. Par exemple, si l'esclave Node 3 échoue, cela signifierait que les blocs A, C, et D sont underreplicated.

En d'autres termes, trop peu de copies de ces blocs sont disponibles dans HDFS. Lorsque HDFS détecte qu'un bloc est underreplicated, il ordonne une nouvelle copie.

Pour continuer l'exemple, dire que le noeud Esclave 3 revient en ligne après quelques heures. Pendant ce temps, HDFS a veillé à ce que il ya trois exemplaires de tous les blocs de fichiers. Alors maintenant, les blocs A, C, et D ont quatre exemplaires chacun, et sont overreplicated. Comme avec des blocs underreplicated, le serveur central de métadonnées HDFS va trouver sur ce ainsi, et commander un exemplaire de chaque fichier à supprimer.

Un beau résultat de la disponibilité des données est que lorsque des défaillances de disque ne se produisent, il n'y a pas besoin de remplacer immédiatement disques durs défectueux. Cela peut être fait de manière plus efficace à intervalles réguliers.

A propos Auteur

Hadoop Distributed File commandes shell du système

La Shell Hadoop est une famille de commandes que vous pouvez exécuter à partir de la ligne de commande de votre système d'exploitation. La coquille a deux ensembles de commandes: une pour la manipulation de fichiers (semblables dans le but et la…

Hadoop considérations de rack

Un principe de base de Hadoop est mise à l'échelle avec des nœuds esclaves supplémentaires pour répondre à l'augmentation de stockage de données et les exigences de traitement des minéraux. Dans un modèle de scale-out, vous devez examiner…

Système de fichiers distribué Hadoop (HDFS des) pour les grands projets de données

Le système de fichiers distribués Hadoop est un résilient approche polyvalente, cluster à la gestion des fichiers dans un environnement grand de données. HDFS est pas la destination finale pour les fichiers. Au contraire, il est un service de…

Entrée divise dans le MapReduce Hadoop de

La façon HDFS a été mis en place, il se décompose très gros fichiers dans de grands blocs (par exemple, mesure 128 Mo), et stocke trois exemplaires de ces blocs sur les différents nœuds du cluster. HDFS n'a pas connaissance du contenu de ces…

Gardez une trace de blocs de données avec NameNode dans HDFS

Le NameNode agit comme le carnet d'adresses pour le système de fichiers distribués Hadoop (HDFS) parce qu'il sait non seulement ce qui bloque constituent des fichiers individuels, mais aussi où chacun de ces blocs et leurs répliques sont…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Gestion des fichiers avec les commandes du système de fichiers Hadoop

HDFS est l'une des deux principales composantes de l'Hadoop Structures à l'autre est le paradigme de calcul connu comme MapReduce. UN système de fichiers distribué est un système de fichier qui gère le stockage dans un cluster en réseau des…

Nœuds de Master dans les clusters Hadoop

Les nœuds maîtres dans les clusters Hadoop distribués abritent les différents services de stockage et de gestion de traitement, décrits dans cette liste, pour l'ensemble du cluster Hadoop. La redondance est essentiel pour éviter les points de…

Réplication de blocs de données dans le système de fichiers Hadoop distribué

Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son…

Dimensionnement votre cluster hadoop

Dimensionnement tout système de traitement de données est autant une science car elle est un art. Avec Hadoop, vous considérez les mêmes informations que vous le feriez avec une base de données relationnelle, par exemple. Plus important encore,…

Nœuds esclaves dans le système de fichiers distribué Hadoop (HDFS)

Dans un cluster Hadoop, chaque noeud de données (également connue en tant que nœud esclave) Exécute un processus de fond nommée DataNode. Ce processus d'arrière-plan (également connu en tant que démon) Garde la trace des tranches de données…

Nœuds esclaves dans les clusters Hadoop

Dans un univers Hadoop, nœuds esclaves sont où les données Hadoop est stockée et où le traitement de données a lieu. Les services suivants permettent nœuds esclaves pour stocker et traiter les données:NodeManager: Coordonne les ressources…

Les options de commande hadoop de dfsadmin

La dfsadmin outils sont un ensemble spécifique d'outils conçus pour vous aider à extirper des informations sur votre système Hadoop Distributed File (HDFS). Comme un bonus supplémentaire, vous pouvez les utiliser pour effectuer des opérations…

Le gestionnaire de noeud de fil dans Hadoop

Chaque nœud esclave dans un autre négociateur des ressources (FIL) a un démon Node Manager, qui agit comme un esclave pour le gestionnaire de ressources. Comme avec le TaskTracker, chaque nœud esclave dispose d'un service qu'il lie au service de…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Défaillances de nœuds et disques esclaves dans HDFS