Access SQL et ruche apache

Apache Hive est incontestablement interface d'interrogation de données la plus répandue dans la communauté Hadoop. À l'origine, les objectifs de conception pour la ruche étaient pas pour assurer la compatibilité de SQL complète et de haute performance, mais étaient de fournir une interface facile, peu familier pour les développeurs qui ont besoin de lancer des requêtes de lots contre Hadoop.

Cette approche plutôt fragmentée ne fonctionne plus, de sorte que la demande augmente pour le support de SQL réel et de bonnes performances. Hortonworks ont répondu à cette demande en créant le projet Stinger, où il a investi ses ressources de développement dans l'amélioration de la ruche pour être plus rapide, à l'échelle à un niveau de pétaoctet, et d'être plus conforme aux normes SQL. Ce travail devait être livré en trois phases.

Dans les phases 1 et 2, vous avez vu un certain nombre d'optimisations pour combien de requêtes ont été traitées ainsi que le soutien ajoutée pour les données SQL traditionnelles types- l'ajout du format ORCFile pour un traitement plus efficace et storage- et l'intégration avec le fil pour une meilleure performance.

Dans la phase 3, les évolutions significatives vraiment lieu, qui découpler la ruche dans MapReduce. Plus précisément, il implique la libération de Tez Apache, qui est un modèle de traitement alternatif pour Hadoop, conçu pour les charges de travail interactifs.

En plus du projet Stinger, Hortonworks est le fer de lance d'une initiative ambitieuse visant à permettre à la ruche pour soutenir l'édition des données au niveau de la ligne avec le plein respect des propriétés ACID pour les systèmes de base de données: atomicité, cohérence, niveaux d'isolement, et la durabilité.