Les bases de données en colonnes dans un environnement grand de données

Les bases de données en colonnes peuvent être très utiles dans votre grand projet de données. Bases de données relationnelles sont orientée rangée, que les données de chaque ligne d'une table sont stockées ensemble. Dans une forme de colonne, ou colonne de base de données orientée, les données sont stockées de l'autre côté rangées. Même si cela peut sembler une distinction banale, elle est la plus importante caractéristique sous-jacente des bases de données en colonnes.

Il est très facile d'ajouter des colonnes, et ils peuvent être ajoutés ligne par ligne, offrant une grande flexibilité, les performances et l'évolutivité. Lorsque vous avez le volume et la variété des données, vous pouvez utiliser une base de données en colonnes. Il est très adaptable- vous continuez tout simplement d'ajouter des colonnes.

Une des bases de données les plus populaires colonnaires est HBase. Elle aussi, est un projet de la Fondation Apache Software distribué sous la licence Apache Software v2.0. HBase utilise le système de fichiers Hadoop MapReduce et le moteur pour ses besoins de stockage de données de base.

La conception de HBase est calqué sur BigTable de Google. Par conséquent, les implémentations de HBase, sont clairsemées, distribué, cartes triées multidimensionnelles persistants hautement évolutives. La carte est indexée par une clé de ligne, clé de colonne, et un timestamp- chaque valeur de la carte est un tableau d'octets non interprétées.

Lorsque votre grande mise en œuvre de données requiert l'accès aux données en lecture / écriture aléatoire, en temps réel, HBase est une très bonne solution. Il est souvent utilisé pour stocker les résultats de traitement analytique plus tard.

Les caractéristiques importantes de HBase comprennent ce qui suit:

Cohérence: Bien que pas un “ ACID ” mise en œuvre, HBase offre fortement cohérente lectures et écritures et ne repose pas sur un modèle finalement cohérente. Cela signifie que vous pouvez l'utiliser pour les besoins à grande vitesse aussi longtemps que vous ne l'avez pas besoin “ des fonctionnalités supplémentaires ” offert par SGBDR comme le support complet des transactions ou de colonnes typées.
Sharding: Parce que les données sont distribuées par le système de fichiers de support, HBase offre transparente, fractionnement automatique et la redistribution de son contenu.
Haute disponibilité: Grâce à la mise en œuvre de serveurs de la région, HBase soutient LAN et WAN basculement et la récupération. À la base, il ya un serveur maître chargé de surveiller les serveurs de la région et toutes les métadonnées pour le cluster.
Client API: HBase offre un accès programmatique à travers une API Java.
Soutien aux opérations informatiques: Implementers peuvent exposer la performance et d'autres paramètres à travers un ensemble de pages Web intégrées.

Implémentations Hbase sont les mieux adaptés pour

Volume élevé, la collecte de données et de traitement incrémentiel
L'échange d'informations en temps réel (par exemple, messagerie)
Foire changer portion contenu

A propos Auteur

Versions de données dans le modèle de données HBase

Vous pouvez voir un nombre compris entre le qualificatif de colonne et la valeur ('FN »: 1383859182496:« John », par exemple). Ce nombre est le version nombre de chaque valeur de la table. Les valeurs stockées dans HBase sont…

Hadoop Sqoop pour Big Data

Sqoop (SQL-à-Hadoop) est un outil grand de données qui offre la possibilité d'extraire des données à partir des données magasins non Hadoop, transformer les données en une forme utilisable par Hadoop, puis charger les données dans HDFS. Ce…

Hbase et le monde de SGBDR

HBase et de la technologie de base de données relationnelle (comme Oracle, DB2, MySQL et pour ne citer que quelques-uns) ne se comparent pas vraiment tout ce que bien. Malgré le cliché # 233-, il est vraiment un cas de comparer des pommes avec…

Importation de données dans HBase avec Sqoop

Sqoop peut être utilisé pour transformer un schéma de base de données relationnelle dans un schéma HBase. Bien sûr, l'objectif principal ici est de démontrer comment Sqoop peut importer des données à partir d'un SGBDR ou entrepôt de…

Les paires de clés de valeur dans le modèle de données HBase

Le modèle de données logique HBase est simple mais élégant, et il fournit un mécanisme de stockage de données pour organiser toutes sortes de données - de grands ensembles de données non structurées en particulier. Toutes les parties du…

Régions en HBase

RegionServers sont une chose, mais il faut aussi jeter un oeil à la façon dont les différentes régions travaillent. Dans HBase, une table est à la fois la propagation à travers un certain nombre de RegionServers ainsi comme étant composé des…

Regionservers dans HBase

RegionServers sont les processus logiciels (souvent appelés démons) vous activez pour stocker et récupérer des données dans HBase (Base de données Hadoop). Dans les environnements de production, chaque RegionServer est déployé sur son propre…

Touches de ligne dans le modèle de données HBase

Hbase magasins de données sont constitués d'une ou plusieurs tables qui sont indexées par les touches de ligne. Les données sont stockées dans des lignes avec des colonnes et rangées peut avoir plusieurs versions. Par défaut, le versioning…

Stocker les données de grandes avec HBase

HBase est, une base de données qui utilise HDFS que son magasin de persistance pour les grands projets de données non relationnelles distribuée (de colonne). Elle est calquée sur Google BigTable et est capable d'accueillir de très grandes…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

Prenez HBase pour un essai

Ici, vous trouverez comment télécharger et déployer HBase en mode autonome. Il est incroyablement simple à installer HBase et commencer à utiliser la technologie. Il suffit de garder à l'esprit que HBase est généralement déployée sur un…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Les attributs de HBase

HBase (Base de données Hadoop) est une implémentation Java de BigTable de Google. Google définit comme un BigTable “ clairsemée, distribué, carte triés multidimensionnelle persistante ”. Il est une définition assez concise, mais…

L'écosystème du client HBase

HBase est écrit en Java, un langage élégant pour la construction de technologies distribuées comme HBase, mais le visage il - pas tout le monde qui veut prendre avantage des innovations Hbase est un développeur Java. Voilà pourquoi il ya un…

godiches.com » Ordinateurs et logiciels » Big Data » Ingénierie » Les bases de données en colonnes dans un environnement grand de données