Access SQL et ruche apache

Apache Hive est incontestablement interface d'interrogation de données la plus répandue dans la communauté Hadoop. À l'origine, les objectifs de conception pour la ruche étaient pas pour assurer la compatibilité de SQL complète et de haute performance, mais étaient de fournir une interface facile, peu familier pour les développeurs qui ont besoin de lancer des requêtes de lots contre Hadoop.

Cette approche plutôt fragmentée ne fonctionne plus, de sorte que la demande augmente pour le support de SQL réel et de bonnes performances. Hortonworks ont répondu à cette demande en créant le projet Stinger, où il a investi ses ressources de développement dans l'amélioration de la ruche pour être plus rapide, à l'échelle à un niveau de pétaoctet, et d'être plus conforme aux normes SQL. Ce travail devait être livré en trois phases.

Dans les phases 1 et 2, vous avez vu un certain nombre d'optimisations pour combien de requêtes ont été traitées ainsi que le soutien ajoutée pour les données SQL traditionnelles types- l'ajout du format ORCFile pour un traitement plus efficace et storage- et l'intégration avec le fil pour une meilleure performance.

Dans la phase 3, les évolutions significatives vraiment lieu, qui découpler la ruche dans MapReduce. Plus précisément, il implique la libération de Tez Apache, qui est un modèle de traitement alternatif pour Hadoop, conçu pour les charges de travail interactifs.

En plus du projet Stinger, Hortonworks est le fer de lance d'une initiative ambitieuse visant à permettre à la ruche pour soutenir l'édition des données au niveau de la ligne avec le plein respect des propriétés ACID pour les systèmes de base de données: atomicité, cohérence, niveaux d'isolement, et la durabilité.

A propos Auteur

Hadapt et Hadoop

Vers la fin de l'année 2010, Hadapt a été formé comme une start-up par deux étudiants de l'Université de Yale et professeur adjoint de science informatique. Professeur Daniel Abadi et Kamil Bajda-Pawlikowski, un étudiant au doctorat du…

Hadoop et ruche

Pour faire une longue histoire courte, Hive fournit Hadoop avec un pont vers le monde de SGBDR et fournit un dialecte SQL connu comme Hive Query Language (HiveQL), qui peut être utilisé pour effectuer des tâches de type SQL. Voilà les grandes…

Hadoop comme une archive interrogeable des données de l'entrepôt froid

Une multitude d'études montrent que la plupart des données dans un entrepôt de données d'entreprise est rarement interrogés. Les fournisseurs de base de données ont répondu à ces observations en mettant en œuvre leurs propres méthodes pour…

Comment démarrer avec ruche apache

Il n'y a pas de meilleure façon de voir ce qui est ce que l'installation du logiciel ruche et lui donner un essai. Comme avec d'autres technologies dans l'écosystème Hadoop, il ne faut pas longtemps pour commencer.Si vous avez le temps et la…

Importation de données dans la ruche avec Sqoop

Ici, vous importez la totalité de la base de données directement à partir de l'ordre de service MySQL dans la ruche et exécutez une requête HiveQL contre la base de données nouvellement importée sur Hadoop. La liste suivante vous montre…

Caractéristiques de hiveql clés

La communauté Apache Hive vivante et active en permanence ajouters déjà à un vaste ensemble de fonctionnalités, ce qui rend la couverture exhaustive encore plus difficile. La liste qui suit résume quelques caractéristiques principales HiveQL…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

Hawq Pivotal et Hadoop

En 2010, EMC et VMware, les leaders du marché dans la prestation de l'informatique comme un service via le cloud computing, acquis Greenplum Corporation, les gens qui avaient obtenu gain de cause le produit MPP Greenplum Data Warehouse (DW) sur le…

Applications en temps réel et en streaming dans Hadoop

Le flux de processus de fils ressemble beaucoup comme un cadre de l'exécution du lot. Vous pourriez vous demander, “? Qu'est-il arrivé à cette idée de flexibilité pour les différents modes d'applications ” Eh bien, le seul cadre de…

Ecureuil client comme ruche avec le pilote JDBC

SQuirreL SQL est un outil open source qui agit comme un client Hive. Vous pouvez télécharger ce client SQL universelle à partir du site SourceForge. Il fournit une interface utilisateur de ruche et simplifie les tâches de l'interrogation de…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

L'architecture de la ruche apache

Comme vous examinez les éléments de Apache Hive montrées, vous pouvez voir au bas cette ruche se trouve au sommet du système Hadoop Distributed File (HDFS) et les systèmes de MapReduce.Dans le cas de MapReduce, les figureshows deux composants…

Les données de grandes mines avec ruche

Hive est, une couche d'entreposage des données orientée lots construit sur les éléments de base de Hadoop (HDFS et MapReduce) et est très utile dans les grandes données. Il fournit aux utilisateurs qui connaissent SQL avec une mise en œuvre…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Access SQL et ruche apache