Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout, une plate-forme de stockage et de traitement de données à usage général conçu pour évoluer à des milliers des nœuds de calcul et pétaoctets de données.

Il n'y a pas modèle de données dans les données Hadoop est simplement de stockée sur le cluster Hadoop comme les fichiers RAW. En tant que tel, les composants de base de Hadoop lui-même ont pas de capacités spéciales pour le catalogage, indexation, ou l'interrogation de données structurées.

La beauté d'un système de stockage de données à usage général est qu'elle peut être étendue à des fins très spécifiques. La communauté Hadoop a fait exactement cela avec un certain nombre de projets Apache - des projets qui, dans sa totalité, constituent la Hadoop écosystème. Quand il vient au stockage de données structurées et de traitement, les projets décrits dans cette liste sont les plus couramment utilisés:

Hive: Un cadre de l'entreposage de données pour Hadoop. Données de catalogues ruche dans des fichiers structurés et fournit une interface de requête avec le langage SQL-like nommé HiveQL.
HBase: UN distribué base de données - une base de données NoSQL qui repose sur plusieurs ordinateurs plutôt que sur un seul CPU, en d'autres termes - qui est construit au-dessus de Hadoop.
Giraph: Un moteur de traitement graphique pour les données stockées dans Hadoop.

De nombreux autres projets Apache prennent en charge différents aspects de l'analyse des données structurées, et certains projets se concentrent sur un certain nombre de cadres et d'interfaces.

Lors de la détermination de l'architecture optimale pour vos besoins d'analyse, assurez-vous d'évaluer les attributs et les capacités des systèmes que vous envisagez. Le tableau compare les magasins de données basées sur Hadoop (Hive, Giraph et Hbase) avec SGBDR traditionnel.

Une comparaison de stockage et de SGBDR Hadoop-Based
Critères	Hive	Giraph	HBase	SGBDR
Données modifiables	Non	Oui	Oui
Mise en page des données	Les fichiers Raw stockés dans HDFS- Hive soutient proprietaryrow-orienté ou formats en colonnes.	A, distribué, SortedMap multidimensionnelle persistante clairsemée	Rangée colonne orientée ou orientée
Les types de données	Types de données Bytes- sont interprétées sur requête.	Rich support de type de données
Hardware	Hadoop cluster produits x86 Serveurs- cinq ou plus est typicalbecause la technologie de stockage sous-jacent est HDFS, qui, par defaultrequires trois répliques.	Typiquement grands systèmes multiprocesseurs, évolutives
Haute disponibilité	OUI- intégré dans l'architecture Hadoop	Oui, si le matériel et le SGBDR sont correctement configurés
Index	Oui	Non	Row-clé uniquement ou table spéciale requise	Oui
Langage d'interrogation	HiveQL	Giraph API	HBase commandes API (,,,,,, HiveQL	SQL
Schema	Schéma défini comme les fichiers sont catalogués avec le Hive DataDefinition Langue (DDL)	Schéma sur lecture	Variabilité dans le schéma entre les rangées	Schéma sur la charge
Débit	Des millions de lectures et écritures par seconde	Des milliers de lectures et écritures par seconde
Transactions	Aucun	Fournit support acide sur une seule ligne	Fournit multi-ligne et tableau croisé support transactionnel withfull respect de la propriété ACID
La vitesse de transaction	Vitesse modeste pour queries- interactive rapide pour tablescans complètes	Rapide pour interactive queries- rapide pour analyses complètes de table	Rapide pour queries- interactive plus lente pour les analyses complètes de table
Taille typique	Gammes de téraoctets à pétaoctets (parmi des centaines de milliards de millionsto de lignes)	De gigaoctets à téraoctets (des centaines de milliers de lignes) tomillions

A propos Auteur

Hadoop système de fichiers distribué (HDFS) fédération

La solution à l'expansion des grappes Hadoop indéfiniment est de fédérer l'NameNode. Avant Hadoop 2 est entré en scène, les clusters Hadoop ont dû vivre avec le fait que NameNode placé des limites à la mesure dans laquelle ils pourraient…

L'intégration de Hadoop avec r

Au début, les grandes données et R ne sont pas amis naturels. R programmation nécessite que tous les objets sont chargés dans la mémoire principale d'une seule machine. Les limites de cette architecture sont vite rendu compte quand Big Data…

Hadoop Sqoop pour Big Data

Sqoop (SQL-à-Hadoop) est un outil grand de données qui offre la possibilité d'extraire des données à partir des données magasins non Hadoop, transformer les données en une forme utilisable par Hadoop, puis charger les données dans HDFS. Ce…

Comment choisir une architecture de cluster hadoop

Hadoop est conçu pour être déployé sur une grande grappe d'ordinateurs en réseau, avec des nœuds maîtres (qui accueillent les services qui contrôlent le stockage et le traitement de Hadoop) et nœuds esclaves (où les données sont stockées…

Ibm grande sql et Hadoop

IBM a une longue histoire de collaboration avec SQL et de la technologie de base de données. En accord avec cette histoire, la solution d'IBM pour SQL sur Hadoop exploite des composants de ses technologies de base de données relationnelles qui…

Importation de données dans la ruche avec Sqoop

Ici, vous importez la totalité de la base de données directement à partir de l'ordre de service MySQL dans la ruche et exécutez une requête HiveQL contre la base de données nouvellement importée sur Hadoop. La liste suivante vous montre…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

Hawq Pivotal et Hadoop

En 2010, EMC et VMware, les leaders du marché dans la prestation de l'informatique comme un service via le cloud computing, acquis Greenplum Corporation, les gens qui avaient obtenu gain de cause le produit MPP Greenplum Data Warehouse (DW) sur le…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Access SQL et ruche apache

Apache Hive est incontestablement interface d'interrogation de données la plus répandue dans la communauté Hadoop. À l'origine, les objectifs de conception pour la ruche étaient pas pour assurer la compatibilité de SQL complète et de haute…

L'importance de SQL pour Hadoop

Il ya des raisons impérieuses que SQL a su résister. L'industrie des TI a eu 40 ans d'expérience avec SQL, car il a d'abord été développé par IBM au début des années 1970. Avec l'augmentation de l'adoption de bases de données…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Les données de grandes mines avec ruche

Hive est, une couche d'entreposage des données orientée lots construit sur les éléments de base de Hadoop (HDFS et MapReduce) et est très utile dans les grandes données. Il fournit aux utilisateurs qui connaissent SQL avec une mise en œuvre…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Stockage de données structurées et de traitement dans Hadoop