Cloudera Impala et Hadoop

Cloudera est un important fournisseur de logiciels et de services Hadoop dans le grand marché de données. Comme Drill Apache, la technologie Impala Cloudera vise à améliorer interactive du temps de réponse des requêtes pour les utilisateurs Hadoop. Apache Hive a fourni un mécanisme de requête familier et puissant pour les utilisateurs Hadoop, mais les temps de réponse des requêtes sont souvent inacceptables en raison de la dépendance de la ruche dans MapReduce. La réponse de Cloudera à ce problème est Impala.

Cloudera a développé un moteur de recherche MPP, écrit en C ++, de remplacer la couche de MapReduce exploité par Apache Hive. Contrairement Dremel et Drill, Cloudera décidé qu'un moteur natif C ++ MPP - au lieu d'un moteur Java - était la réponse pour les requêtes, Hadoop interactifs rapides.

Notez que Impala utilise HiveQL comme une interface de programmation, et les moteurs de requête Exec de l'Impala sont co-localisés avec des noeuds de données HDFS, en accord avec l'approche Hadoop des données de co-localisation avec les tâches de traitement. Impala peut également utiliser HBase comme un magasin de données. En ce sens, Impala est une extension de Hadoop, fournissant une alternative très haute performance pour le modèle Hive-on-top-of-MapReduce.

Cloudera et Twitter ont permis le développement du nouveau format de fichier Hadoop, qui peut être utilisé avec Impala et est disponible en open source sur GitHub. Le format de fichier Parquet fournit un support colonnaire robuste pour stocker des données dans Hadoop. Il prend en charge la compression et le codage hautement efficace, et est efficace pour stocker des structures de données imbriquées.

Vous pouvez trouver la technologie Impala de Cloudera, qui a également été inspiré par Dremel l'invention de Google.