Stocker les données de grandes avec HBase

HBase est, une base de données qui utilise HDFS que son magasin de persistance pour les grands projets de données non relationnelles distribuée (de colonne). Elle est calquée sur Google BigTable et est capable d'accueillir de très grandes tables (des milliards de colonnes / lignes), car il est en couches sur des clusters Hadoop de matériel de base.

HBase fournit aléatoire, en temps réel l'accès en lecture / écriture aux grandes données. HBase est hautement configurable, offrant beaucoup de souplesse pour traiter d'énormes quantités de données de manière efficace. Maintenant, jetez un oeil à la façon HBase peut aider à relever vos défis importants de données.




HBase est une base de données en colonne, de sorte que toutes les données sont stockées dans des tables avec des lignes et des colonnes semblables aux systèmes de gestion de base de données relationnelles (SGBDR). L'intersection d'une ligne et d'une colonne est appelée une cellule. Une différence importante entre les tables et tables Hbase SGBDR est versioning.

Chaque valeur de la cellule comprend une “ la version ” attribuer, ce qui est rien de plus qu'un horodatage identifier de manière unique la cellule. Versioning suit l'évolution de la cellule et permet de récupérer une version du contenu si cela devenait nécessaire. HBase stocke les données dans les cellules dans l'ordre décroissant (en utilisant l'horodatage), donc une lecture sera toujours trouver les valeurs les plus récentes en premier.

Colonnes de HBase appartiennent à une famille de colonne. Le nom de famille de la colonne est utilisé comme préfixe pour identifier les membres de sa famille. Par example, fruits: pomme et fruits: banane sont des membres de la fruits la famille de la colonne. Implémentations Hbase sont réglés au niveau de la famille de la colonne, il est donc important d'être conscient de la façon dont vous allez accéder à des données et de la taille que vous attendez les colonnes soient.

Les lignes dans les tables Hbase ont également une clé associée avec eux. La structure de la touche est très flexible. Il peut être une valeur calculée, une chaîne, ou même une autre structure de données. La clé est utilisée pour contrôler l'accès aux cellules de la ligne, et ils sont stockés dans l'ordre de faible valeur à forte valeur.

Toutes ces caractéristiques font ensemble le schéma. Le schéma est défini et créé avant que des données peuvent être stockées. Même ainsi, les tableaux peuvent être modifiés et de nouvelles familles de colonne peuvent être ajoutés après la base de données est en place et fonctionne. Cette extensibilité est extrêmement utile lorsque de gros volumes de données parce que vous ne savez pas toujours sur la variété de vos flux de données.


» » » » Stocker les données de grandes avec HBase