Hadoop comme une archive interrogeable des données de l'entrepôt froid

Une multitude d'études montrent que la plupart des données dans un entrepôt de données d'entreprise est rarement interrogés. Les fournisseurs de base de données ont répondu à ces observations en mettant en œuvre leurs propres méthodes pour trier les données obtient placé où.

Une méthode ordonne l'univers de données en désignations de chaud, ou froid, où chaud données (parfois appelés actif données) est souvent utilisé, chaleureux données sont utilisées de temps en temps et froid des données est rarement utilisé. La solution proposée pour de nombreux fournisseurs est de stocker les données sur des disques plus lents froides dans les compartiments des entrepôts de données ou de créer des stratégies de mise en cache astucieux pour conserver les données chaudes en mémoire, entre autres.

Le problème avec cette approche est que, même si le stockage plus lent est utilisé, il est encore cher pour stocker des données rarement utilisées froides, dans un entrepôt. Les coûts ici vient à la fois du matériel et des licences de logiciels. Dans le même temps, les données froid et de dormance est souvent archivée sur bande.

Ce modèle traditionnel de données d'archivage décompose quand vous voulez interroger toutes les données froides d'une manière rentable et relativement efficace - sans avoir à demander de vieilles bandes, en d'autres termes.

Si vous regardez les caractéristiques financières et opérationnelles de Hadoop, il semble en effet qu'il est en passe de devenir la nouvelle bande de sauvegarde. Hadoop est peu coûteux en grande partie parce que les systèmes Hadoop sont conçus pour utiliser un grade inférieur du matériel que ce qui est normalement déployé dans les systèmes d'entrepôt de données. Un autre d'importantes économies de coût est de licences de logiciels.

Licences de distribution Hadoop commerciales exigent une fraction du coût des licences de logiciels d'entreposage de données relationnelles, qui sont connus pour être cher. D'un point de vue opérationnel, Hadoop est conçu pour évoluer facilement simplement en ajoutant des nœuds esclaves supplémentaires à un cluster existant. Et comme nœuds esclaves sont ajoutés et des ensembles de données augmentent en volume, les cadres de traitement des données de Hadoop permettent à vos applications à gérer de façon transparente la charge de travail accrue.

Hadoop représente un moyen simple, flexible et peu coûteuse pour pousser le traitement sur des milliers de serveurs.

Avec son architecture évolutive et peu coûteuse, Hadoop semble être un choix parfait pour l'archivage des données de l'entrepôt. . . sauf pour une petite affaire: la plupart du monde, il fonctionne sur SQL et SQL sur son propre ne joue pas bien avec Hadoop.

Bien sûr, le mouvement NoSQL plus Hadoop-friendly est bel et bien vivant, mais la plupart des utilisateurs de puissance utilisent maintenant SQL par le biais de, boîtes à outils communs off-the-shelf qui génèrent des requêtes SQL sous le capot - produits tels que Tableau, Microsoft Excel, et IBM Cognos BI.

Il est vrai que l'écosystème Hadoop Hive comprend, mais Hive ne supporte qu'un sous-ensemble de SQL, et bien que la performance est améliorée (avec le soutien de SQL), il est loin d'être aussi rapide à répondre à des requêtes plus petites que les systèmes relationnels sont. Récemment, il ya eu des progrès majeurs autour de l'accès SQL à Hadoop, qui a ouvert la voie à Hadoop pour devenir la nouvelle destination pour les archives en ligne de l'entrepôt de données.

Selon le fournisseur Hadoop, SQL (ou SQL-like) API deviennent disponibles afin que les rapports et d'analyse des outils les plus courants hors-the-shelf peut parfaitement émettre SQL qui exécute sur les données stockées dans Hadoop. Par exemple, IBM a son Big API SQL, Cloudera Impala a, et la ruche elle-même, par l'intermédiaire de l'initiative Hortonworks Stinger, devient de plus en plus conforme SQL.

Bien que différents points de vue existent (certains visent à améliorer Hive- certains, d'étendre Hive- et d'autres, de fournir une alternative), toutes ces solutions tentent de s'attaquer à deux questions: MapReduce est une mauvaise solution pour exécuter des requêtes plus petites, et l'accès SQL est - pour l'instant - la clé pour permettre aux travailleurs de TI d'utiliser leurs compétences SQL existantes pour obtenir la valeur sur des données stockées dans Hadoop.

A propos Auteur

Hadoop comme un moteur de prétraitement des données

Un des premiers cas d'utilisation de Hadoop dans l'entreprise était comme un moteur de transformation programmatique utilisé pour prétraiter les données à destination d'un entrepôt de données. Essentiellement, ce cas d'utilisation exploite la…

Hadoop comme une destination de données d'archives

Le coût peu onéreux de stockage pour Hadoop plus la possibilité d'interroger les données Hadoop Hadoop avec SQL rend la destination de choix pour les données d'archives. Ce cas d'utilisation a un faible impact sur votre organisation parce que…

Hadoop système de fichiers distribué (HDFS) fédération

La solution à l'expansion des grappes Hadoop indéfiniment est de fédérer l'NameNode. Avant Hadoop 2 est entré en scène, les clusters Hadoop ont dû vivre avec le fait que NameNode placé des limites à la mesure dans laquelle ils pourraient…

Comment choisir une architecture de cluster hadoop

Hadoop est conçu pour être déployé sur une grande grappe d'ordinateurs en réseau, avec des nœuds maîtres (qui accueillent les services qui contrôlent le stockage et le traitement de Hadoop) et nœuds esclaves (où les données sont stockées…

Ibm grande sql et Hadoop

IBM a une longue histoire de collaboration avec SQL et de la technologie de base de données. En accord avec cette histoire, la solution d'IBM pour SQL sur Hadoop exploite des composants de ses technologies de base de données relationnelles qui…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

Hawq Pivotal et Hadoop

En 2010, EMC et VMware, les leaders du marché dans la prestation de l'informatique comme un service via le cloud computing, acquis Greenplum Corporation, les gens qui avaient obtenu gain de cause le produit MPP Greenplum Data Warehouse (DW) sur le…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Access SQL et ruche apache

Apache Hive est incontestablement interface d'interrogation de données la plus répandue dans la communauté Hadoop. À l'origine, les objectifs de conception pour la ruche étaient pas pour assurer la compatibilité de SQL complète et de haute…

L'importance de SQL pour Hadoop

Il ya des raisons impérieuses que SQL a su résister. L'industrie des TI a eu 40 ans d'expérience avec SQL, car il a d'abord été développé par IBM au début des années 1970. Avec l'augmentation de l'adoption de bases de données…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Les données de grandes mines avec ruche

Hive est, une couche d'entreposage des données orientée lots construit sur les éléments de base de Hadoop (HDFS et MapReduce) et est très utile dans les grandes données. Il fournit aux utilisateurs qui connaissent SQL avec une mise en œuvre…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Hadoop comme une archive interrogeable des données de l'entrepôt froid