Hadoop comme une destination de données d'archives

Le coût peu onéreux de stockage pour Hadoop plus la possibilité d'interroger les données Hadoop Hadoop avec SQL rend la destination de choix pour les données d'archives. Ce cas d'utilisation a un faible impact sur votre organisation parce que vous pouvez commencer à construire votre Hadoop ensemble de compétences sur les données qui ne sont pas stockées sur les systèmes performance stratégiques.

Qui plus est, vous ne devez pas travailler dur pour obtenir les données. (Depuis données archivées normalement sont stockées sur les systèmes qui ont une faible utilisation, il est plus facile d'obtenir que les données à qui est dans “ la vedette ” sur les systèmes essentiels à la mission de performance, comme les entrepôts de données.) Si vous utilisez déjà Hadoop comme une zone d'atterrissage, vous avez la base pour vos archives! Vous gardez simplement ce que vous voulez archiver et supprimer ce que vous ne le faites pas.

Si vous pensez à la zone de l'Hadoop d'atterrissage, l'archive interrogeable, montré dans la figure, étend la valeur de Hadoop et commence à intégrer des pièces qui risquent existent déjà dans votre entreprise. Il est un excellent exemple de trouver des économies d'occasions d'emporter ampleur et le coût en utilisant Hadoop.

image0.jpg

Ici, la composante de l'archive relie la zone d'atterrissage et de l'entrepôt de données. Les données archivées origine dans l'entrepôt et est ensuite stockée dans le cluster Hadoop, qui est également provisionnement la zone d'atterrissage. En bref, vous pouvez utiliser le même cluster Hadoop pour archiver les données et agir comme votre zone d'atterrissage.

La technologie clé Hadoop que vous utilisez pour effectuer l'archivage est Sqoop, qui peut déplacer les données à archiver de l'entrepôt de données dans Hadoop. Vous aurez besoin de réfléchir à ce formulaire, vous voulez que les données à prendre dans votre cluster Hadoop. En général, les fichiers ruche comprimé sont un bon choix.

Vous pouvez, bien sûr, de transformer les données des structures d'entrepôt dans une autre forme (par exemple, une forme normalisée pour réduire la redondance), mais cela est généralement pas une bonne idée. Garder les données dans la même structure que ce qui est dans l'entrepôt, il sera beaucoup plus facile d'effectuer un ensemble de données complet requête à travers les données archivées dans Hadoop et les données actif qui est dans l'entrepôt.




Le concept d'interroger les deux ensembles de données actives et archivées soulève une autre considération: la quantité de données que vous devez archiver? Il ya vraiment deux choix communs: archiver tout comme les données sont ajoutés et modifiés dans l'entrepôt de données, ou seulement archiver les données que vous jugez être froid.

Archivage tout a l'avantage de vous permettre d'émettre facilement des requêtes à partir d'une interface unique à travers l'ensemble de données - sans une archive complète, vous aurez besoin de trouver une solution de requêtes fédéré où vous auriez à l'union les résultats de l'archive et l'entrepôt de données actif.

Mais l'inconvénient est que les mises à jour régulières des données chaudes de votre entrepôt de données causeraient des maux de tête pour l'archive basée à Hadoop. Ceci est parce que toute modification des données en lignes et en colonnes individuelles exigerait la suppression de gros et de re-catalogage des ensembles de données existants.

Maintenant que des données d'archives sont stockées dans votre zone d'atterrissage sur la base Hadoop (en supposant que vous utilisez une option comme les fichiers ruche comprimé mentionnés précédemment), vous pouvez l'interroger. Ceci est où le SQL sur des solutions Hadoop peut devenir intéressant.

Un excellent exemple de ce qui est possible est pour les outils d'analyse (sur la droite dans la figure) pour exécuter directement des rapports ou des analyses sur les données archivées stockées dans Hadoop. Cela ne veut pas remplacer l'entrepôt de données - après tout, Hadoop ne serait pas en mesure de faire correspondre les caractéristiques de performance de l'entrepôt pour des centaines de support utilisateurs simultanés ou plus poser des questions complexes.

Le point ici est que vous pouvez utiliser des outils de reporting contre Hadoop d'expérimenter et de trouver de nouvelles questions à répondre dans un entrepôt dédié ou mart.

Lorsque vous démarrez votre premier projet sur la base Hadoop pour l'archivage des données de l'entrepôt, ne se cassent pas les processus actuels jusqu'à ce que vous avez intégralement testé sur votre nouvelle solution Hadoop. En d'autres termes, si votre stratégie de stockage actuelle est d'archiver sur bande, garder ce processus en place, et double-archiver les données dans Hadoop et la bande jusqu'à ce que vous avez entièrement testé le scénario (qui comprennent généralement la restauration des données de l'entrepôt dans le cas d'une défaillance de l'entrepôt).

Bien que vous maintien (à court terme) de deux dépôts d'archives, vous aurez une infrastructure robuste en place et testé avant de mettre hors service un processus essayé-et-vrai. Ce processus peut vous assurer que vous continuerez d'être employé - avec votre employeur actuel.

Ce cas d'utilisation est simple car il n'y a pas de changement à l'entrepôt existant. L'objectif de l'entreprise est toujours le même: stockage et de licence des coûts moins élevés de migration des données rarement utilisées pour une archive. La différence dans ce cas est que la technologie derrière l'archive est Hadoop plutôt que le stockage hors ligne, comme la bande.

En outre, divers fournisseurs archives ont commencé à intégrer Hadoop dans leurs solutions (par exemple, en permettant à leurs fichiers d'archive exclusifs pour résident sur HDFS), alors attendez capacités dans ce domaine pour développer bientôt.

Comme vous développer des compétences Hadoop (comme l'échange de données entre Hadoop et bases de données relationnelles et des données d'interrogation dans HDFS), vous pouvez les utiliser pour attaquer des problèmes plus graves, comme les projets d'analyse, ce qui pourrait apporter une valeur supplémentaire pour l'investissement Hadoop de votre organisation.


» » » » Hadoop comme une destination de données d'archives