Les attributs de HBase

HBase

Sommaire

Hbase est clairsemée
Hbase est distribué et persistante
Hbase a une carte multidimensionnelle trié

(Base de données Hadoop) est une implémentation Java de BigTable de Google. Google définit comme un BigTable “ clairsemée, distribué, carte triés multidimensionnelle persistante ”. Il est une définition assez concise, mais vous aurez aussi d'accord qu'il est un peu sur le côté complexe. Pour briser la complexité de BigTable un peu, après une discussion de chaque attribut.

Hbase est clairsemée

Comme vous l'avez deviné, le BigTable distribué système de stockage de données a été conçue pour répondre aux exigences de grands volumes de données. Maintenant, les grandes applications de données stockent beaucoup de données mais grand contenu de données est souvent variable. Imaginez une table traditionnelle dans une information de contact client base de données de l'entreprise stockage, comme le montre:

Client traditionnel contacter Information Table
N ° de client	Nom de famille	Prénom	Deuxième nom	Adresse e-mail	Adresse de la rue
00001	Forgeron	John	Timothée		1 Hadoop Lane, NY 11111
00002	Biche	Jeanne	NUL	NUL	7 HBase Ave, CA 22222

Une entreprise ou un individu peuvent nécessiter un enregistrement complet de données pour chacun de ses clients ou de leurs constituants. Un bon exemple est votre médecin, qui a besoin de toutes vos informations de contact afin de vous fournir des soins appropriés. Autres entreprises ou des particuliers ne peuvent exiger que les informations de contact partielle ou peuvent avoir besoin d'apprendre cette information au fil du temps.

Par exemple, une entreprise de service à la clientèle peut traiter les appels téléphoniques ou de messages e-mail pour les demandes de service. Les clients peuvent ou non choisir de donner aux entreprises de services toutes leurs informations de contact. Cependant, avec chaque interaction au fil du temps, les entreprises peuvent en apprendre davantage sur leurs clients qui leur permettront d'offrir un meilleur service - par l'émission d'alertes de services proactifs, par exemple.

Dans ce contexte, clairsemé signifie que les champs dans les lignes peuvent être vides ou nuls, mais cela ne fait pas HBase à un arrêt brutal. HBase peut gérer le fait que vous ne le faites pas (encore) le savez nom et adresse e-mail milieu de Jane Doe, par exemple.

Voici un autre exemple: une base de données pour stocker des images satellites. Il se trouve que Google utilise la technologie BigTable pour stocker des images satellite de la terre. Dans presque tous les cas, chaque fois que des images sont stockées, les métadonnées sont également stockées avec elle.

Les métadonnées peuvent inclure l'adresse de la rue de l'image ou seulement la latitude et la longitude, si l'image est capturée depuis le désert. Les métadonnées est variable dans le contenu de sorte que certains domaines seront NULL - et qui est OK.

Dans ces deux exemples, les ensembles de données qui sont recueillies peuvent être extrêmement importantes - en particulier dans le deuxième exemple. Les bases de données en imagerie sont presque toujours mesurées en téraoctets ou parfois dans pétaoctets.

HBase est conçu pour stocker des données importantes, mais il est également conçu pour stocker les enregistrements de données clairsemées sans frais. Cette préoccupation est cruciale lorsque vous utilisez de grandes applications de données! Stocker quelques enregistrements NULL plus d'un million de lignes est un gaspillage, mais essayez d'imaginer les déchets sur un quadrillion rangées!

Heureusement, ce fut un facteur clé pour les concepteurs de Google et la communauté HBase. Sparse données est prise en charge sans perte d'espace de stockage coûteux.

Et il ne s'y arrête pas. Considérez la puissance d'un magasin de données schéma moins. Le tableau montre un classique table de contact avec la clientèle. Lorsque les entreprises à concevoir ces tableaux, ils savent à l'avance ce qu'ils veulent stocker. En d'autres termes le schéma est fixé- il est défini avant même que le premier octet de l'information est stockée dans la table.

Maintenant, si, au fil du temps, un nouveau champ est nécessaire pour un client? Que diriez-vous d'une poignée Twitter ou un nouveau numéro de téléphone mobile? Vous êtes apparemment coincé avec un schéma qui ne fonctionne plus pour vous.

Eh bien, HBase résout ce défi ainsi - non seulement vous pouvez sauter champs sans frais lorsque vous ne disposez pas des données, mais aussi ajouter dynamiquement des champs (ou colonnes dans la langue vernaculaire HBase) au fil du temps sans avoir à redessiner le schéma ou perturber les opérations.

Alors vous pouvez penser HBase comme un magasin-de données schéma moins qui est, il est fluide - vous pouvez ajouter, soustraire, ou modifier le schéma que vous avancez.

HBase est distribué et persistante

BigTable est un système de fichiers distribué et persistante. Persistent signifie simplement que les données que vous stockez dans BigTable (et HBase, d'ailleurs) va persister ou de rester après la fin de votre programme ou de la session. Voilà assez simple - persistante signifie qu'il persiste - mais vous devriez passer un peu plus de temps à penser à Comment les données sont persisté.

Dans son document BigTable, Google a décrit le système de fichiers distribué connu comme système de fichiers ou Google GFS. Il se trouve que, tout comme HBase est une implémentation de BigTable open source, HDFS est une implémentation de GFS open source.

Par défaut, HBase exploite HDFS persister ses données au stockage sur disque. Bien que d'autres magasins de données distribuées peuvent être utilisés avec HBase, la grande majorité des installations HBase levier HDFS. Cela a un sens parfait étant donné que HBase est le “ Hadoop base de données ” - Hey, il est intégré dans le nom, pour l'amour de Dieu.

HDFS est une technologie clé permettant non seulement pour Hadoop mais aussi pour HBase. En stockant les données dans HDFS, HBase offre la fiabilité, la disponibilité, une évolutivité transparente, haute performance et bien plus encore - le tout sur le coût des serveurs distribués efficaces!

HBase a une carte multidimensionnelle trié

A partir de la base, un carte (également connu en tant que tableau associatif) Est une collection abstraite de paires clé-valeur, où la clé est unique. Cette définition est crucial pour votre compréhension de HBase parce que le modèle de données HBase est souvent décrite de différentes façons - souvent incomplète comme un magasin en colonnes.

HBase est, au fond, un magasin de données clé-valeur où chaque clé est unique - ce qui signifie qu'il apparaît au plus une fois dans le magasin de données HBase. En outre, la carte est triée et multidimensionnelle. Les clés sont stockées dans HBase et triés dans l'ordre des octets-lexicographique. Chaque valeur peut avoir plusieurs versions, ce qui rend le modèle de données multidimensionnelle. Par défaut, les versions de données sont mises en œuvre avec un horodatage.

A propos Auteur

Hbase et le monde de SGBDR

HBase et de la technologie de base de données relationnelle (comme Oracle, DB2, MySQL et pour ne citer que quelques-uns) ne se comparent pas vraiment tout ce que bien. Malgré le cliché # 233-, il est vraiment un cas de comparer des pommes avec…

Importation de données dans HBase avec Sqoop

Sqoop peut être utilisé pour transformer un schéma de base de données relationnelle dans un schéma HBase. Bien sûr, l'objectif principal ici est de démontrer comment Sqoop peut importer des données à partir d'un SGBDR ou entrepôt de…

Les paires de clés de valeur dans le modèle de données HBase

Le modèle de données logique HBase est simple mais élégant, et il fournit un mécanisme de stockage de données pour organiser toutes sortes de données - de grands ensembles de données non structurées en particulier. Toutes les parties du…

Régions en HBase

RegionServers sont une chose, mais il faut aussi jeter un oeil à la façon dont les différentes régions travaillent. Dans HBase, une table est à la fois la propagation à travers un certain nombre de RegionServers ainsi comme étant composé des…

Regionservers dans HBase

RegionServers sont les processus logiciels (souvent appelés démons) vous activez pour stocker et récupérer des données dans HBase (Base de données Hadoop). Dans les environnements de production, chaque RegionServer est déployé sur son propre…

Touches de ligne dans le modèle de données HBase

Hbase magasins de données sont constitués d'une ou plusieurs tables qui sont indexées par les touches de ligne. Les données sont stockées dans des lignes avec des colonnes et rangées peut avoir plusieurs versions. Par défaut, le versioning…

Nœuds esclaves dans les clusters Hadoop

Dans un univers Hadoop, nœuds esclaves sont où les données Hadoop est stockée et où le traitement de données a lieu. Les services suivants permettent nœuds esclaves pour stocker et traiter les données:NodeManager: Coordonne les ressources…

Stocker les données de grandes avec HBase

HBase est, une base de données qui utilise HDFS que son magasin de persistance pour les grands projets de données non relationnelles distribuée (de colonne). Elle est calquée sur Google BigTable et est capable d'accueillir de très grandes…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

Prenez HBase pour un essai

Ici, vous trouverez comment télécharger et déployer HBase en mode autonome. Il est incroyablement simple à installer HBase et commencer à utiliser la technologie. Il suffit de garder à l'esprit que HBase est généralement déployée sur un…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

L'écosystème du client HBase

HBase est écrit en Java, un langage élégant pour la construction de technologies distribuées comme HBase, mais le visage il - pas tout le monde qui veut prendre avantage des innovations Hbase est un développeur Java. Voilà pourquoi il ya un…

Le MasterServer de HBase

Démarrage d'une discussion des HBase (Base de données Hadoop) en décrivant l'architecture RegionServers la place de la MasterServer peut vous surprendre. Le terme RegionServer semble impliquer que cela dépend (et est secondaire à)…

Les bases de données en colonnes dans un environnement grand de données

Les bases de données en colonnes peuvent être très utiles dans votre grand projet de données. Bases de données relationnelles sont orientée rangée, que les données de chaque ligne d'une table sont stockées ensemble. Dans une forme de…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Les attributs de HBase