Dimensionnement votre cluster hadoop

Dimensionnement tout système de traitement de données est autant une science car elle est un art. Avec Hadoop, vous considérez les mêmes informations que vous le feriez avec une base de données relationnelle, par exemple. Plus important encore, vous avez besoin de savoir combien de données vous avez, estimer ses taux de croissance attendus, et d'établir une politique de rétention (combien de temps conserver les données).

Les réponses à ces questions servent de votre point de départ, qui est indépendante de toutes les exigences liées à la technologie.

Après avoir déterminé la quantité de données que vous devez stocker, vous pouvez commencer à l'affacturage dans Hadoop considérations spécifiques. Supposons que vous avez une entreprise de télécommunications et que vous avez établi que vous avez besoin de 750 téraoctets (To) d'espace de stockage pour son enregistrement de détail d'appel (CDR) des fichiers journaux.

Vous conservez ces dossiers pour respecter la réglementation gouvernementale, mais vous pouvez aussi les analyser pour voir des modèles de désabonnement et la santé du réseau de surveillance, par exemple. Pour déterminer combien d'espace de stockage dont vous avez besoin et, par conséquent, le nombre de racks et nœuds esclaves dont vous avez besoin, vous effectuez vos calculs avec ces facteurs à l'esprit:

Réplication: Le facteur de réplication par défaut pour les données HDFS est 3. Les 500 téraoctets de données CDR pour l'entreprise de télécommunications dans l'exemple se transforme alors en 1500 téraoctets.
Espace d'échange: Toute analyse ou de traitement des données par MapReduce a besoin d'un 25 pour cent d'espace supplémentaire pour stocker des jeux de résultats intermédiaires et finaux. (La société de télécommunications a maintenant besoin de 1875 téraoctets d'espace de stockage.)
Compression: L'entreprise de télécommunications enregistre les CDR dans une forme compressée, où on prévoit que le ratio moyen de compression pour être de 3: 1. Vous devez maintenant 625 téraoctets.
Nombre de nœuds esclaves: En supposant que chaque nœud esclave a douze disques de 3 To réservés aux HDFS, chaque nœud esclave dispose de 36 téraoctets de stockage brut HDFS disponibles, afin que l'entreprise a besoin de 18 nœuds esclaves.
Nombre de grilles: Parce que chaque nœud esclave utilise 2RU et la société dans l'exemple a besoin de trois nœuds maîtres (1 RU chacun) et deux commutateurs de TdR (1RU chacun), vous avez besoin d'un total de 41RU. Il est 1RU moins de la capacité totale d'un rack standard, donc un seul rack est suffisante pour ce déploiement.
Peu importe, pas de place pour la croissance reste dans ce cluster, il est donc prudent d'acheter une seconde crémaillère (et deux commutateurs TOR supplémentaires) et de diviser les nœuds esclaves entre les deux supports.
Test: Le maintien d'un cluster de test qui est une représentation à plus petite échelle de la grappe de la production est une pratique courante. Il n'a pas besoin d'être énorme, mais vous voulez au moins cinq noeuds de données de sorte que vous obtenez une représentation précise du comportement de Hadoop. Comme avec n'importe quel environnement de test, il doit être isolé sur un réseau différent du groupe de production.
Sauvegarde et de reprise après sinistre: Comme tout système de production, l'entreprise de télécommunications devra également tenir compte des exigences de sauvegarde et de reprise après sinistre. Cette entreprise pourrait aller aussi loin que de créer un cluster de miroir pour assurer qu'ils ont une hot standby pour l'ensemble de leur système. Ceci est évidemment l'option la plus coûteuse, mais est approprié pour les environnements où la disponibilité constante est critique.
A la fin la moins chère de la gamme (au-delà de ne pas sauvegarder les données du tout), l'entreprise de télécommunications pourrait sauvegarder régulièrement toutes les données (y compris les données elle-même, les applications, les fichiers de configuration, et les métadonnées) étant stockés dans leur cluster de production sur la bande. Avec bande, les données ne sont pas immédiatement accessible, mais il permettra à un effort de reprise après sinistre dans le cas où l'ensemble de la production clusters Hadoop échoue.

Comme avec votre propre ordinateur personnel, lorsque le principal disque dur se remplit avec l'espace, le système ralentit considérablement. Hadoop ne fait pas exception. Aussi, un disque dur plus performant quand il est inférieur à 85 à 90 pour cent complet. Avec cette information à l'esprit, si la performance est important pour vous, vous devriez cognez le facteur swap espace de 25 à 33 pour cent.

A propos Auteur

Hadoop système de fichiers distribué (HDFS) haute disponibilité

Souvent dans l'enfance de Hadoop, une grande quantité de discussion a été centrée sur la représentation de la NameNode d'un point de défaillance unique. Hadoop, dans l'ensemble, a toujours eu une architecture robuste et tolérants aux pannes,…

Hadoop considérations de rack

Un principe de base de Hadoop est mise à l'échelle avec des nœuds esclaves supplémentaires pour répondre à l'augmentation de stockage de données et les exigences de traitement des minéraux. Dans un modèle de scale-out, vous devez examiner…

Système de fichiers distribué Hadoop (HDFS des) pour les grands projets de données

Le système de fichiers distribués Hadoop est un résilient approche polyvalente, cluster à la gestion des fichiers dans un environnement grand de données. HDFS est pas la destination finale pour les fichiers. Au contraire, il est un service de…

Comment choisir une architecture de cluster hadoop

Hadoop est conçu pour être déployé sur une grande grappe d'ordinateurs en réseau, avec des nœuds maîtres (qui accueillent les services qui contrôlent le stockage et le traitement de Hadoop) et nœuds esclaves (où les données sont stockées…

Entrée divise dans le MapReduce Hadoop de

La façon HDFS a été mis en place, il se décompose très gros fichiers dans de grands blocs (par exemple, mesure 128 Mo), et stocke trois exemplaires de ces blocs sur les différents nœuds du cluster. HDFS n'a pas connaissance du contenu de ces…

Gardez une trace de blocs de données avec NameNode dans HDFS

Le NameNode agit comme le carnet d'adresses pour le système de fichiers distribués Hadoop (HDFS) parce qu'il sait non seulement ce qui bloque constituent des fichiers individuels, mais aussi où chacun de ces blocs et leurs répliques sont…

Nœuds de Master dans les clusters Hadoop

Les nœuds maîtres dans les clusters Hadoop distribués abritent les différents services de stockage et de gestion de traitement, décrits dans cette liste, pour l'ensemble du cluster Hadoop. La redondance est essentiel pour éviter les points de…

Réseautage et grappes Hadoop

Comme pour tout système distribué, le réseautage peut faire ou défaire un cluster Hadoop: Ne pas “ aller pas cher ”. Une grande partie de bavardage a lieu entre les nœuds maîtres et nœuds esclaves dans un cluster Hadoop qui est…

Réplication de blocs de données dans le système de fichiers Hadoop distribué

Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Défaillances de nœuds et disques esclaves dans HDFS

Comme la mort et les impôts, les pannes de disque (et assez de temps donné, même les échecs nœud ou rack), sont inévitables dans le système Hadoop Distributed File (HDFS). Dans l'exemple montré, même si un seul rack devait échouer, le…

Nœuds esclaves dans le système de fichiers distribué Hadoop (HDFS)

Dans un cluster Hadoop, chaque noeud de données (également connue en tant que nœud esclave) Exécute un processus de fond nommée DataNode. Ce processus d'arrière-plan (également connu en tant que démon) Garde la trace des tranches de données…

Nœuds esclaves dans les clusters Hadoop

Dans un univers Hadoop, nœuds esclaves sont où les données Hadoop est stockée et où le traitement de données a lieu. Les services suivants permettent nœuds esclaves pour stocker et traiter les données:NodeManager: Coordonne les ressources…

Le gestionnaire de noeud de fil dans Hadoop

Chaque nœud esclave dans un autre négociateur des ressources (FIL) a un démon Node Manager, qui agit comme un esclave pour le gestionnaire de ressources. Comme avec le TaskTracker, chaque nœud esclave dispose d'un service qu'il lie au service de…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Dimensionnement votre cluster hadoop