Cloudera Impala et Hadoop

Cloudera est un important fournisseur de logiciels et de services Hadoop dans le grand marché de données. Comme Drill Apache, la technologie Impala Cloudera vise à améliorer interactive du temps de réponse des requêtes pour les utilisateurs Hadoop. Apache Hive a fourni un mécanisme de requête familier et puissant pour les utilisateurs Hadoop, mais les temps de réponse des requêtes sont souvent inacceptables en raison de la dépendance de la ruche dans MapReduce. La réponse de Cloudera à ce problème est Impala.

Cloudera a développé un moteur de recherche MPP, écrit en C ++, de remplacer la couche de MapReduce exploité par Apache Hive. Contrairement Dremel et Drill, Cloudera décidé qu'un moteur natif C ++ MPP - au lieu d'un moteur Java - était la réponse pour les requêtes, Hadoop interactifs rapides.

Notez que Impala utilise HiveQL comme une interface de programmation, et les moteurs de requête Exec de l'Impala sont co-localisés avec des noeuds de données HDFS, en accord avec l'approche Hadoop des données de co-localisation avec les tâches de traitement. Impala peut également utiliser HBase comme un magasin de données. En ce sens, Impala est une extension de Hadoop, fournissant une alternative très haute performance pour le modèle Hive-on-top-of-MapReduce.

Cloudera et Twitter ont permis le développement du nouveau format de fichier Hadoop, qui peut être utilisé avec Impala et est disponible en open source sur GitHub. Le format de fichier Parquet fournit un support colonnaire robuste pour stocker des données dans Hadoop. Il prend en charge la compression et le codage hautement efficace, et est efficace pour stocker des structures de données imbriquées.

Vous pouvez trouver la technologie Impala de Cloudera, qui a également été inspiré par Dremel l'invention de Google.

A propos Auteur

Hadoop et ruche

Pour faire une longue histoire courte, Hive fournit Hadoop avec un pont vers le monde de SGBDR et fournit un dialecte SQL connu comme Hive Query Language (HiveQL), qui peut être utilisé pour effectuer des tâches de type SQL. Voilà les grandes…

Hadoop comme une archive interrogeable des données de l'entrepôt froid

Une multitude d'études montrent que la plupart des données dans un entrepôt de données d'entreprise est rarement interrogés. Les fournisseurs de base de données ont répondu à ces observations en mettant en œuvre leurs propres méthodes pour…

Ibm grande sql et Hadoop

IBM a une longue histoire de collaboration avec SQL et de la technologie de base de données. En accord avec cette histoire, la solution d'IBM pour SQL sur Hadoop exploite des composants de ses technologies de base de données relationnelles qui…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

Hawq Pivotal et Hadoop

En 2010, EMC et VMware, les leaders du marché dans la prestation de l'informatique comme un service via le cloud computing, acquis Greenplum Corporation, les gens qui avaient obtenu gain de cause le produit MPP Greenplum Data Warehouse (DW) sur le…

Applications en temps réel et en streaming dans Hadoop

Le flux de processus de fils ressemble beaucoup comme un cadre de l'exécution du lot. Vous pourriez vous demander, “? Qu'est-il arrivé à cette idée de flexibilité pour les différents modes d'applications ” Eh bien, le seul cadre de…

Sécurisation de vos données dans Hadoop

Comme Hadoop entre le courant dominant de l'informatique et commence à être utilisé d'une manière importante dans les environnements de production, les mêmes préoccupations en matière de sécurité applicables aux systèmes informatiques tels…

Access SQL et ruche apache

Apache Hive est incontestablement interface d'interrogation de données la plus répandue dans la communauté Hadoop. À l'origine, les objectifs de conception pour la ruche étaient pas pour assurer la compatibilité de SQL complète et de haute…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

L'architecture de la ruche apache

Comme vous examinez les éléments de Apache Hive montrées, vous pouvez voir au bas cette ruche se trouve au sommet du système Hadoop Distributed File (HDFS) et les systèmes de MapReduce.Dans le cas de MapReduce, les figureshows deux composants…

L'écosystème du client HBase

HBase est écrit en Java, un langage élégant pour la construction de technologies distribuées comme HBase, mais le visage il - pas tout le monde qui veut prendre avantage des innovations Hbase est un développeur Java. Voilà pourquoi il ya un…

Les données de grandes mines avec ruche

Hive est, une couche d'entreposage des données orientée lots construit sur les éléments de base de Hadoop (HDFS et MapReduce) et est très utile dans les grandes données. Il fournit aux utilisateurs qui connaissent SQL avec une mise en œuvre…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Cloudera Impala et Hadoop