Nœuds esclaves dans le système de fichiers distribué Hadoop (HDFS)

Dans un cluster Hadoop, chaque noeud de données (également connue en tant que nœud esclave

Sommaire

Mieux vivre grâce à la redondance
Esquissant conception esclave serveur de nœud

) Exécute un processus de fond nommée DataNode. Ce processus d'arrière-plan (également connu en tant que démon) Garde la trace des tranches de données que le système stocke sur son ordinateur. Il parle régulièrement au serveur maître pour HDFS (connu sous le nom NameNode) de faire rapport sur la santé et l'état des données stockées localement.

Les blocs de données sont stockées sous forme de fichiers RAW dans le système de fichiers local. Du point de vue d'un utilisateur Hadoop, vous avez aucune idée de qui des nœuds esclaves a les morceaux du fichier que vous devez traiter. De l'intérieur de Hadoop, vous ne voyez pas des blocs de données ou comment ils sont distribués à travers le cluster - tout ce que vous voyez est une liste de fichiers dans HDFS.

La complexité de la façon dont les blocs de fichiers sont distribués à travers le cluster est caché - vous ne savez pas comment tout cela est compliqué, et vous ne besoin savoir. En fait, l'esclave nœuds eux-mêmes ne savent même pas ce qui est à l'intérieur des blocs de données qu'ils stockage. Il est le serveur sait que NameNode les mappages de blocs de données qui composent les fichiers stockés dans HDFS.

Mieux vivre grâce à la redondance

Un principe de conception de base de HDFS est le concept de minimiser le coût des nœuds esclaves individuels en utilisant des composants matériels des produits de base. Pour les systèmes hautement évolutifs, cette idée est un judicieux car les coûts ne dégénèrent rapidement lorsque vous avez besoin de centaines ou de milliers de nœuds esclaves. Utilisation du matériel à moindre coût a une conséquence, si, en ce que les composants individuels ne sont pas aussi fiables que du matériel plus coûteux.

Lorsque vous choisissez les options de stockage, considérer l'impact de l'utilisation de lecteurs de matières premières plutôt que les plus chers disques durs d'entreprise de qualité. Imaginez que vous avez un cluster de 750 nœuds, où chaque noeud dispose de 12 disques durs dédiés au stockage HDFS.

Basé sur un taux de défaillance annuel (AFR) de 4 pour cent pour les disques durs des produits de base (un disque dur donné a une 4 pour cent la probabilité d'échouer dans une année donnée, en d'autres termes), le cluster sera probablement l'expérience d'une panne de disque dur tous les jours de l'année.

Parce qu'il peut y avoir autant de nœuds esclaves, leur échec est également un phénomène courant dans les grandes grappes avec des centaines ou plusieurs noeuds. Avec cette information à l'esprit, HDFS a été conçu sur l'hypothèse que tous composants matériels, même au niveau du noeud esclave, ne sont pas fiables.

HDFS surmonte le manque de fiabilité des composants matériels individuels par le biais de la redondance: Voilà l'idée derrière ces trois copies de chaque fichier stocké dans HDFS, répartis dans tout le système. Plus précisément, chaque bloc de fichier stocké dans HDFS dispose d'un total de trois répliques. Si un seul système rompt avec un bloc de fichier spécifique que vous avez besoin, vous pouvez vous tourner vers les deux autres.

Esquissant conception esclave serveur de nœud

Pour équilibrer ces facteurs importants que le coût total de possession, la capacité de stockage, et de la performance, vous avez besoin de planifier soigneusement la conception de vos nœuds esclaves.

Vous voyez souvent des nœuds esclaves désormais où chaque noeud a généralement entre 12 et 16 connectés localement 3 To de disque dur. Nœuds esclaves utilisent les processeurs dual-socket moyennement rapide avec six à huit cœurs chacun - pas de démons de vitesse, en d'autres termes. Ceci est accompagné par 48 Go de mémoire vive. En bref, ce serveur est optimisée pour le stockage dense.

Parce que HDFS est un système de fichiers de l'espace au niveau utilisateur, il est important d'optimiser le système de fichiers local sur les nœuds esclaves pour travailler avec HDFS. À cet égard, une seule décision à fort impact lors de la configuration de vos serveurs est de choisir un système de fichiers pour l'installation de Linux sur les nœuds esclaves.

Ext3 est le système de fichier le plus couramment déployé parce qu'il a été l'option la plus stable pour un certain nombre d'années. Jetez un oeil à Ext4, cependant. Il est la prochaine version de Ext3, et il a été disponible suffisamment longtemps pour être largement considéré comme stable et fiable.

Plus important encore pour nos fins, il a un certain nombre d'optimisations pour la manipulation de gros fichiers, ce qui en fait un choix idéal pour HDFS serveurs de noeud esclave.

Ne pas utiliser le gestionnaire de volumes logiques Linux (LVM) - il représente une couche supplémentaire entre le système et HDFS de fichiers Linux, ce qui empêche Hadoop de l'optimisation de sa performance. Plus précisément, LVM regroupe les disques, ce qui entrave la gestion des ressources qui HDFS et de fils font, basé sur la façon dont les fichiers sont distribués sur les disques physiques.

A propos Auteur

Hadoop système de fichiers distribué (HDFS) fédération

La solution à l'expansion des grappes Hadoop indéfiniment est de fédérer l'NameNode. Avant Hadoop 2 est entré en scène, les clusters Hadoop ont dû vivre avec le fait que NameNode placé des limites à la mesure dans laquelle ils pourraient…

Hadoop système de fichiers distribué (HDFS) haute disponibilité

Souvent dans l'enfance de Hadoop, une grande quantité de discussion a été centrée sur la représentation de la NameNode d'un point de défaillance unique. Hadoop, dans l'ensemble, a toujours eu une architecture robuste et tolérants aux pannes,…

Hadoop considérations de rack

Un principe de base de Hadoop est mise à l'échelle avec des nœuds esclaves supplémentaires pour répondre à l'augmentation de stockage de données et les exigences de traitement des minéraux. Dans un modèle de scale-out, vous devez examiner…

Système de fichiers distribué Hadoop (HDFS des) pour les grands projets de données

Le système de fichiers distribués Hadoop est un résilient approche polyvalente, cluster à la gestion des fichiers dans un environnement grand de données. HDFS est pas la destination finale pour les fichiers. Au contraire, il est un service de…

Comment choisir une architecture de cluster hadoop

Hadoop est conçu pour être déployé sur une grande grappe d'ordinateurs en réseau, avec des nœuds maîtres (qui accueillent les services qui contrôlent le stockage et le traitement de Hadoop) et nœuds esclaves (où les données sont stockées…

Entrée divise dans le MapReduce Hadoop de

La façon HDFS a été mis en place, il se décompose très gros fichiers dans de grands blocs (par exemple, mesure 128 Mo), et stocke trois exemplaires de ces blocs sur les différents nœuds du cluster. HDFS n'a pas connaissance du contenu de ces…

Gardez une trace de blocs de données avec NameNode dans HDFS

Le NameNode agit comme le carnet d'adresses pour le système de fichiers distribués Hadoop (HDFS) parce qu'il sait non seulement ce qui bloque constituent des fichiers individuels, mais aussi où chacun de ces blocs et leurs répliques sont…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Nœuds de Master dans les clusters Hadoop

Les nœuds maîtres dans les clusters Hadoop distribués abritent les différents services de stockage et de gestion de traitement, décrits dans cette liste, pour l'ensemble du cluster Hadoop. La redondance est essentiel pour éviter les points de…

Réplication de blocs de données dans le système de fichiers Hadoop distribué

Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Dimensionnement votre cluster hadoop

Dimensionnement tout système de traitement de données est autant une science car elle est un art. Avec Hadoop, vous considérez les mêmes informations que vous le feriez avec une base de données relationnelle, par exemple. Plus important encore,…

Défaillances de nœuds et disques esclaves dans HDFS

Comme la mort et les impôts, les pannes de disque (et assez de temps donné, même les échecs nœud ou rack), sont inévitables dans le système Hadoop Distributed File (HDFS). Dans l'exemple montré, même si un seul rack devait échouer, le…

Nœuds esclaves dans les clusters Hadoop

Dans un univers Hadoop, nœuds esclaves sont où les données Hadoop est stockée et où le traitement de données a lieu. Les services suivants permettent nœuds esclaves pour stocker et traiter les données:NodeManager: Coordonne les ressources…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Nœuds esclaves dans le système de fichiers distribué Hadoop (HDFS)