Configuration matérielle requise pour HBase

HBase est une technologie puissante et flexible, mais accompagnant cette flexibilité est l'exigence pour la configuration et le réglage adéquat. Il est temps pour quelques directives générales pour la configuration des clusters Hbase. Votre "kilométrage" peut varier, en fonction des besoins spécifiques de calcul pour vos RegionServers (de coprocesseurs personnalisés, par exemple) et d'autres applications, vous pouvez choisir de co-localiser sur votre cluster.

Sommaire

Regionservers
Les serveurs maîtres
Zookeeper

RegionServers

La première tentation de résister lors de la configuration de vos RegionServers est plunking beaucoup d'argent pour certains systèmes d'entreprise haut de gamme. Ne pas le faire! HBase est généralement déployée sur des serveurs x86 produits vanilles.

Maintenant, ne prenez pas cette déclaration comme une autorisation de déployer les moins chers, les serveurs de faible qualité. Oui, HBase est conçu pour récupérer des échecs de nœuds, mais votre disponibilité souffre pendant les périodes de récupération de sorte que la qualité du matériel et la redondance faire matière.

Alimentations redondantes ainsi que redondants cartes d'interface réseau sont une bonne idée pour les déploiements de production. Généralement, les organisations choisissent deux machines de socket avec quatre à six cœurs chacun.

La seconde tentation est de résister à la configuration de votre serveur avec le stockage maximale et la capacité de mémoire. Une configuration commune inclurait de 6 à 12 téraoctets (To) d'espace disque et de 48 à 96 gigaoctets (Go) de mémoire vive. Contrôleurs RAID pour les disques ne sont pas nécessaires parce que HDFS fournit une protection des données lors de disques échouent.

HBase nécessite un cache de lecture et d'écriture qui est alloué dans le tas Java. Gardez cette déclaration à l'esprit que vous lisez sur les variables de configuration Hbase parce que vous verrez que une relation directe existe entre la capacité de disque d'un RegionServer et la pile Java d'un RegionServer. Découvrez une excellente discussion sur HBase RegionServer mémoire dimensionnement.

L'article souligne que vous pouvez estimer le ratio de l'espace disque brut à pile Java en suivant cette formule:

Regionsize divisé par Memstoresize multiplié par Facteur Replication HDFS multiplié par HeapFractionForMemstores

En utilisant les défaut Hbase variables de configuration fournit ce rapport:

10 Go / 128 * 3 * 0,4 = Ratio de 96Mo d'espace disque: 1 Mo Java heap space.

La ligne précédente équivaut à 3 To de capacité de disque brut par RegionServer avec 32 Go de RAM allouée au tas Java.

Qu'est-ce que vous vous retrouvez avec, alors, est de 1 téraoctet d'espace utilisable par RegionServer depuis le HDFS facteur de réplication par défaut est 3. Ce nombre est toujours impressionnant en termes de stockage de base de données par nœud, mais pas si impressionnant étant donné que les serveurs des produits de base peuvent généralement accueillir huit ou plus durs avec une capacité de 2 à 4 téraoctet un morceau.

Le problème fondamental de cette écriture est le fait que les machines virtuelles Java actuels (JVM) lutte pour fournir une gestion efficace de la mémoire (garbage collection, pour être précis) avec de grands espaces de tas (espaces de plus de 32 Go, par exemple).

Oui, il ya des ordures paramètres collecte de réglage que vous pouvez utiliser, et vous devriez vérifier avec votre fournisseur JVM pour assurer que vous avez les dernières options, mais vous ne serez pas en mesure d'obtenir très loin de les utiliser à ce moment.

La question de la gestion de la mémoire sera finalement résolu mais pour l'instant il faut savoir que vous pouvez rencontrer un problème si vos besoins de stockage Hbase sont de l'ordre de centaines de téraoctets à plus d'un pétaoctet. Vous pouvez facilement augmenter à 20 Go pour atteindre 6 To et 2 To brute utilisable.

Vous pouvez effectuer d'autres réglages (réduction de la taille des charges de travail lourdes MemStore lire, par exemple), mais vous ne ferez pas les ordres de grandeur des sauts dans l'espace utilisable jusqu'à ce que nous avons une JVM qui gère efficacement la collecte des ordures avec des tas massives.

Vous pouvez trouver des moyens autour de la question de la collecte des ordures JVM pour RegionServers mais les solutions sont nouvelles et pas encore partie de la distribution principale HBase de cette écriture.

Les serveurs maîtres

Le MasterServer ne consomme pas de ressources système comme les RegionServers font. Cependant, vous devez fournir pour la redondance matérielle, y compris RAID pour empêcher une défaillance du système. Pour faire bonne mesure, également configurer un MasterServer de sauvegarde dans le cluster. Une configuration commune est de 4 cœurs de processeur, entre 8 et 16 Go de RAM et 1 Gigabit Ethernet est une configuration commune. Si vous co-localiser MasterServers et nœuds Zookeeper, 16 Go de RAM est recommandé.

Zookeeper

Comme le MasterServer, Zookeeper ne nécessite pas une configuration matérielle importante, mais ne doit pas bloquer Zookeeper (ou être tenu de concourir pour) les ressources du système. Zookeeper, qui est le service de coordination pour un cluster HBase, se trouve dans le chemin de données pour les clients. Si Zookeeper ne peut pas faire son travail, les temps morts se produiront - et les résultats peuvent être catastrophiques.

Zookeeper besoins en matériel sont les mêmes que pour la MasterServer sauf qu'un disque dédié doit être fournie pour le procédé. Pour les petits groupes, vous pouvez co-localiser Zookeeper avec le serveur maître, mais rappelez-vous que Zookeeper besoin suffisamment de ressources système pour exécuter lorsque vous êtes prêt.

A propos Auteur

Hbase et le monde de SGBDR

HBase et de la technologie de base de données relationnelle (comme Oracle, DB2, MySQL et pour ne citer que quelques-uns) ne se comparent pas vraiment tout ce que bien. Malgré le cliché # 233-, il est vraiment un cas de comparer des pommes avec…

Hbase conditions de réglage

Toute installation HBase grave nécessite une configuration standard sur votre cluster et sur les nœuds individuels. Quelques exemples sont fournis ici. Prenez d'abord un regard sur la surveillance et la gestion.Outils de surveiller votre clusterSi…

Nœuds de Master dans les clusters Hadoop

Les nœuds maîtres dans les clusters Hadoop distribués abritent les différents services de stockage et de gestion de traitement, décrits dans cette liste, pour l'ensemble du cluster Hadoop. La redondance est essentiel pour éviter les points de…

Régions en HBase

RegionServers sont une chose, mais il faut aussi jeter un oeil à la façon dont les différentes régions travaillent. Dans HBase, une table est à la fois la propagation à travers un certain nombre de RegionServers ainsi comme étant composé des…

Regionservers dans HBase

RegionServers sont les processus logiciels (souvent appelés démons) vous activez pour stocker et récupérer des données dans HBase (Base de données Hadoop). Dans les environnements de production, chaque RegionServer est déployé sur son propre…

Nœuds esclaves dans le système de fichiers distribué Hadoop (HDFS)

Dans un cluster Hadoop, chaque noeud de données (également connue en tant que nœud esclave) Exécute un processus de fond nommée DataNode. Ce processus d'arrière-plan (également connu en tant que démon) Garde la trace des tranches de données…

Nœuds esclaves dans les clusters Hadoop

Dans un univers Hadoop, nœuds esclaves sont où les données Hadoop est stockée et où le traitement de données a lieu. Les services suivants permettent nœuds esclaves pour stocker et traiter les données:NodeManager: Coordonne les ressources…

Stocker les données de grandes avec HBase

HBase est, une base de données qui utilise HDFS que son magasin de persistance pour les grands projets de données non relationnelles distribuée (de colonne). Elle est calquée sur Google BigTable et est capable d'accueillir de très grandes…

Prenez HBase pour un essai

Ici, vous trouverez comment télécharger et déployer HBase en mode autonome. Il est incroyablement simple à installer HBase et commencer à utiliser la technologie. Il suffit de garder à l'esprit que HBase est généralement déployée sur un…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

L'écosystème du client HBase

HBase est écrit en Java, un langage élégant pour la construction de technologies distribuées comme HBase, mais le visage il - pas tout le monde qui veut prendre avantage des innovations Hbase est un développeur Java. Voilà pourquoi il ya un…

Le MasterServer de HBase

Démarrage d'une discussion des HBase (Base de données Hadoop) en décrivant l'architecture RegionServers la place de la MasterServer peut vous surprendre. Le terme RegionServer semble impliquer que cela dépend (et est secondaire à)…

Zookeeper et HBase fiabilité

Zookeeper est un cluster de serveurs distribués qui fournit collectivement des services de coordination et de synchronisation fiables pour des applications en cluster. Certes, le nom “ Zookeeper ” peut sembler à première vue être un…

Les bases de données en colonnes dans un environnement grand de données

Les bases de données en colonnes peuvent être très utiles dans votre grand projet de données. Bases de données relationnelles sont orientée rangée, que les données de chaque ligne d'une table sont stockées ensemble. Dans une forme de…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Configuration matérielle requise pour HBase