Les blocs de données dans le système de fichiers distribué Hadoop (HDFS)

Lorsque vous enregistrez un fichier dans HDFS, le système, il se décompose en un ensemble de blocs individuels et stocke ces blocs dans différents nœuds esclaves dans le cluster Hadoop. Ceci est une chose tout à fait normal de le faire, comme tous les systèmes de fichiers cassent fichiers en blocs avant de les stocker sur le disque.

HDFS n'a aucune idée (et ne se soucie pas) ce qui est stocké dans le fichier, afin que les fichiers RAW ne sont pas divisé en conformité avec les règles que nous, les humains seraient comprendre. Les humains, par exemple, voudraient les limites des enregistrements - les lignes montrant où un enregistrement commence et se termine - soient respectés.

HDFS est souvent parfaitement inconscients que l'enregistrement final dans un bloc peut être seulement un record partielle, avec le reste de son contenu aiguillés vers le bloc suivant. HDFS veut seulement faire en sorte que les fichiers sont divisés en blocs de taille égale qui correspondent à la taille de bloc prédéfinie pour l'instance Hadoop (sauf si une valeur personnalisée a été entré pour le fichier étant stocké). Dans la figure précédente, que la taille du bloc est de 128 Mo.

Pas tous les fichiers dont vous avez besoin pour stocker est un multiple exact de la taille de bloc de votre système, de sorte que le bloc de données final pour un fichier utilise seulement autant d'espace que nécessaire. Dans le cas de la figure précédente, le dernier bloc de données est 1Mo.

Le concept de stockage d'un fichier comme une collection de blocs est entièrement compatible avec la façon dont les systèmes de fichiers fonctionnent normalement. Mais ce qui est différent au sujet de HDFS est l'échelle. Une taille de bloc typique que vous verriez dans un système de fichiers sous Linux est de 4 Ko, alors une taille de bloc typique dans Hadoop est 128Mo. Cette valeur est configurable, et il peut être personnalisé, à la fois comme un nouveau système par défaut et une valeur personnalisée pour les fichiers individuels.

Hadoop a été conçu pour stocker des données à l'échelle du pétaoctet, où toutes les limites possibles à la montée en puissance sont minimisées. La taille haute de bloc est une conséquence directe de ce besoin de stocker des données sur une échelle massive.

Tout d'abord, chaque bloc de données stocké dans HDFS a sa propre métadonnées et doit être suivi par un serveur central afin que les applications ayant besoin d'accéder à un fichier spécifique peuvent être adressées à l'endroit où tous les blocs de l'fichiers sont stockés. Si la taille de bloc étaient dans la plage de kilo-octet, même de modestes volumes de données à l'échelle de téraoctet allaient submerger le serveur de métadonnées avec trop de blocs à suivre.

Deuxièmement, HDFS est conçu pour permettre un débit élevé de sorte que le traitement parallèle de ces grands ensembles de données qui se passe aussi rapidement que possible. La clé de l'évolutivité de Hadoop sur le côté de traitement des données est, et sera toujours, parallélisme - la capacité à traiter les blocs individuels de ces gros fichiers en parallèle.

Pour permettre un traitement efficace, un équilibre doit être trouvé. D'une part, la taille de bloc doit être suffisamment important pour justifier les ressources dédiées à une unité individuelle de traitement de données (par exemple, une carte ou de réduire la tâche). D'autre part, la taille de bloc ne peut pas être si grande que le système est en attente d'un temps très long pour une dernière unité de traitement de données pour terminer son travail.

Ces deux considérations dépendent évidemment de la nature des travaux en cours sur les blocs de données.

A propos Auteur

Hadoop Sqoop pour Big Data

Sqoop (SQL-à-Hadoop) est un outil grand de données qui offre la possibilité d'extraire des données à partir des données magasins non Hadoop, transformer les données en une forme utilisable par Hadoop, puis charger les données dans HDFS. Ce…

Système de fichiers distribué Hadoop (HDFS des) pour les grands projets de données

Le système de fichiers distribués Hadoop est un résilient approche polyvalente, cluster à la gestion des fichiers dans un environnement grand de données. HDFS est pas la destination finale pour les fichiers. Au contraire, il est un service de…

Importation de données avec Sqoop

Prêt à plonger dans l'importation de données avec Sqoop? Commencez par jeter un oeil à la figure, qui illustre les étapes d'une opération typique Sqoop d'importation à partir d'un SGBDR ou un système d'entrepôt de données. Rien de trop…

Entrée divise dans le MapReduce Hadoop de

La façon HDFS a été mis en place, il se décompose très gros fichiers dans de grands blocs (par exemple, mesure 128 Mo), et stocke trois exemplaires de ces blocs sur les différents nœuds du cluster. HDFS n'a pas connaissance du contenu de ces…

Gardez une trace de blocs de données avec NameNode dans HDFS

Le NameNode agit comme le carnet d'adresses pour le système de fichiers distribués Hadoop (HDFS) parce qu'il sait non seulement ce qui bloque constituent des fichiers individuels, mais aussi où chacun de ces blocs et leurs répliques sont…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Gestion des fichiers avec les commandes du système de fichiers Hadoop

HDFS est l'une des deux principales composantes de l'Hadoop Structures à l'autre est le paradigme de calcul connu comme MapReduce. UN système de fichiers distribué est un système de fichier qui gère le stockage dans un cluster en réseau des…

Nœuds de Master dans les clusters Hadoop

Les nœuds maîtres dans les clusters Hadoop distribués abritent les différents services de stockage et de gestion de traitement, décrits dans cette liste, pour l'ensemble du cluster Hadoop. La redondance est essentiel pour éviter les points de…

Réplication de blocs de données dans le système de fichiers Hadoop distribué

Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son…

Défaillances de nœuds et disques esclaves dans HDFS

Comme la mort et les impôts, les pannes de disque (et assez de temps donné, même les échecs nœud ou rack), sont inévitables dans le système Hadoop Distributed File (HDFS). Dans l'exemple montré, même si un seul rack devait échouer, le…

Nœuds esclaves dans le système de fichiers distribué Hadoop (HDFS)

Dans un cluster Hadoop, chaque noeud de données (également connue en tant que nœud esclave) Exécute un processus de fond nommée DataNode. Ce processus d'arrière-plan (également connu en tant que démon) Garde la trace des tranches de données…

Nœuds esclaves dans les clusters Hadoop

Dans un univers Hadoop, nœuds esclaves sont où les données Hadoop est stockée et où le traitement de données a lieu. Les services suivants permettent nœuds esclaves pour stocker et traiter les données:NodeManager: Coordonne les ressources…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Notions de base de fichiers de données et de contrôle dans Oracle 12c

De nombreux types de fichiers sont créés avec votre base de données Oracle 12c. Certains de ces fichiers sont pour stocker des données brutes. Certains sont utilisés pour la récupération. Certains sont utilisés pour le ménage ou l'entretien…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Les blocs de données dans le système de fichiers distribué Hadoop (HDFS)