Hadoop et ruche

Pour faire une longue histoire courte, Hive fournit Hadoop avec un pont vers le monde de SGBDR et fournit un dialecte SQL connu comme Hive Query Language (HiveQL), qui peut être utilisé pour effectuer des tâches de type SQL. Voilà les grandes nouvelles, mais il ya plus Hive que rencontre l'oeil, comme ils disent, ou plusieurs applications de cette nouvelle technologie que vous pouvez présenter dans un elevator pitch standard.

Par exemple, la ruche rend également possible le concept connu comme entrepôt de données d'entreprise (EDW) augmentation, l'un des principaux cas d'utilisation d'Hadoop, où les entrepôts de données sont mis en place comme SGBDR construit spécifiquement pour l'analyse des données et de reporting.

Maintenant, certains experts diront que Hadoop (avec Hive, HBase, Sqoop, et ses copains assorties) peut remplacer l'EDW. Cependant, Hadoop est un grand addition à l'entreprise et qu'elle peut augmenter et de compléter EDW existants. Hive, HBase, Sqoop et permettent EDW augmentation.




Étroitement associé à la technologie SGBDR / EDW est extraction, de transformation et de chargement (ETL) technologie. Pour saisir ce ETL ne, il est utile de savoir que, dans de nombreux cas d'utilisation, les données ne peuvent pas être immédiatement chargées dans la base de données relationnelle - il doit d'abord être extrait de sa source d'origine, transformée en un format approprié, puis chargé dans le SGBDR ou EDW.

Par exemple, une entreprise ou un organisme peuvent extraire des données de texte non structurées à partir d'un forum Internet, transformer les données en un format structuré qui est à la fois précieux et utile, et puis charger les données structurées dans son EDW.

Vous pouvez voir que la ruche est un outil ETL puissant dans son propre droit, avec l'acteur majeur dans ce domaine: Apache Pig. Encore une fois, les utilisateurs peuvent essayer de mettre en place Hive et Pig comme la nouveaux outils ETL pour le centre de données. (Laissez-les essayer.)

Comme avec le débat sur l'EDW contre Hadoop, ces technologies Hadoop ne sont pas directs remplacements pour les outils ETL existante, mais à la place sont de puissants nouveaux outils ETL être utilisées le cas échéant.

Last but not least, Apache Hive vous donne des outils analytiques puissants, le tout dans le cadre de HiveQL. Ces outils devraient regarder et se sentir tout à fait familier aux professionnels IT qui comprennent comment utiliser SQL.