Google dremel et Hadoop

Pour la plupart des gens, le terme Dremel apporte à l'esprit, un outil à faible couple haut débit pratique qui fonctionne bien pour une variété d'emplois autour de la maison. Mais saviez-vous que Google a créé un Dremel? Plutôt que de produire autre Outil mécanique portable, cependant, Google a choisi un outil logiciel rapide destiné à l'analyse interactive des données importantes.

Comme avec d'autres technologies de Google qui ont inspiré parties de l'écosystème Hadoop, comme MapReduce, Google File System (HDFS), et BigTable (voir HBase), Google a développé Dremel pour usage interne et a ensuite publié un document décrivant le but et la conception de la technologie . (En d'autres termes, Dremel est pas quelque chose que vous pouvez télécharger et utiliser sur votre cluster Hadoop.)

Google utilise Dremel pour une variété d'emplois, y compris l'analyse de documents Web-chenilles, détection de spam e-mail, au travers de rapports de plantage de l'application, et plus encore. BigQuery le service de Google utilise en fait Dremel.




Google MapReduce conçu la technologie pour le traitement par lots sur des ensembles massifs de données. Comme leurs besoins ont évolué, a ainsi fait leur technologie, et Google a décidé de créer Dremel pour améliorer les performances des requêtes interactives contre grands ensembles de données.

L'approche de MapReduce offre une tolérance d'évolutivité et de requête faute, mais il est fondamentalement un système basé lot, donc les temps de réponse pour les requêtes plus petites (les requêtes impliquant seulement une petite partie d'un ensemble de données complet, par exemple) ne sont souvent pas ce que les utilisateurs attendent.

Donc, Google a développé une technologie d'exécution des requêtes conçu pour requêtes interactives, qui fonctionne sur des serveurs intermédiaires sur le dessus du Google File System (GFS). (Rappelez-vous, GFS a été l'inspiration pour Apache HDFS, qui est le système de fichiers de Hadoop.)

Similaire à ruche, Dremel utilise un langage de type SQL (plupart des programmeurs connaissent) et emploie une mise en page de données en colonnes. Dremel propose réponse à la requête rapide, interactive tout en préservant l'évolutivité et la tolérance aux pannes trouvé dans Apache Hive. Dans le livre blanc Dremel, Google explique comment il peut effectuer des requêtes d'agrégation en quelques secondes sur les tables avec un billion de lignes - pas mal du tout.

Ainsi Google a sa technologie Dremel, qu'il utilise en interne, mais alors il ya toutes les technologies “ inspiré par ” Dremel (un peu comme tous ces parfums “ inspiré par ” Drakkar Noir).