Nœuds de pointe dans des clusters Hadoop

Noeuds périphériques constituent l'interface entre le cluster Hadoop et le réseau extérieur. Pour cette raison, ils sont parfois appelés passerelle

Sommaire

nœuds. Le plus souvent, les nœuds de bord sont utilisés pour exécuter des applications clientes et les outils d'administration de cluster.

Ils sont également souvent utilisés comme zones de transit pour les données transférées dans le cluster Hadoop. En tant que tel, oozie, Pig, Sqoop, et des outils de gestion tels que Hue et Ambari fonctionnent bien là. La figure montre les processus que vous pouvez exécuter sur les nœuds de bordure.

image0.jpg

Nœuds Edge sont souvent négligées dans Hadoop architecture matérielle discussions. Cette situation est regrettable car les nœuds de bordure servir un objectif important dans un cluster Hadoop, et ils ont des exigences matérielles qui sont différents de nœuds maîtres et des nœuds esclaves.

En général, il est une bonne idée pour réduire au minimum les déploiements d'outils d'administration sur les nœuds de maître et des nœuds esclaves pour assurer que les services de Hadoop critiques comme le NameNode ont aussi peu concurrence pour les ressources que possible.




Vous devriez éviter de placer un utilitaire de transfert de données comme Sqoop sur autre chose que d'un noeud de bord, que les volumes de transfert de données élevés pourraient risquer la capacité des services Hadoop sur le même nœud de communiquer. L'échange de services messages Hadoop sont leurs forces vives, de sorte que signifie une latence élevée tout le noeud pourrait être coupé du cluster.

La figure montre deux nœuds de bordure, mais pour de nombreux clusters Hadoop un noeud de bord simple suffirait. Noeuds périphériques supplémentaires sont le plus souvent nécessaire lorsque le volume de données transféré dans ou hors de la grappe est trop pour un seul serveur à manipuler.

Stockage recommandée

Pour les nœuds de pointe dans un cluster Hadoop, utiliser le stockage de classe entreprise. Pour les nœuds de pointe axés sur les outils d'administration et l'exécution d'applications client, utiliser quatre disques SAS 900 Go, avec un contrôleur de disque dur RAID configuré en RAID 1 + 0.

Nœuds Edge orientées à l'ingestion des données de toute évidence besoin de beaucoup plus d'espace de stockage, de sorte que vous pouvez ajouter des unités au noeud de bord. Dans ce cas, utilisez des disques SAS LFF parce capacités beaucoup plus élevées sont disponibles, par rapport à petit facteur de forme des disques SAS.

Processeurs recommandées

Un noeud de bord à des fins générales serait bien servi par une configuration de processeur similaire à celui utilisé pour les nœuds esclaves - spécifiquement, un serveur bi-socket avec les processeurs Ivy Bridge cadencé à 2,5 GHz entre 2 et.

Mémoire recommandée

Pour la plupart des charges de travail sur les nœuds de bordure, 48 Go de RAM est suffisant.

Réseautage recommandée

Pour permettre la communication entre le réseau extérieur et le cluster Hadoop, les nœuds de bordure doivent être multi-hébergés dans le sous-réseau privé du cluster Hadoop ainsi que dans le réseau de l'entreprise.

Un ordinateur multi-résident est celui qui a consacré des connexions à plusieurs réseaux. Ceci est une illustration pratique de la raison pour laquelle les nœuds de bordure sont parfaitement adaptés pour l'interaction avec le monde extérieur le cluster Hadoop. Garder votre cluster Hadoop dans son propre sous-réseau privé est une excellente pratique, de sorte que ces nœuds périphériques servir comme une fenêtre contrôlée à l'intérieur du cluster.

Pour les nœuds de pointe qui servent le but d'exécuter des applications clientes ou des outils d'administration, deux paires de connexions réseau 1GbE douane sont recommandées: une paire pour se connecter au cluster Hadoop et une autre paire pour le réseau extérieur.

Nœuds Edge orientés à la manipulation des taux de transfert de données entrants et sortants élevés aura besoin de deux (ou plus) paires de connecteurs réseau 10GbE collé: une paire pour se connecter au cluster Hadoop et une autre paire pour le réseau extérieur ou des données spécifiques ingèrent sources.


» » » » Nœuds de pointe dans des clusters Hadoop