La zone d'atterrissage sur la base Hadoop-

Lorsque vous essayez de déchiffrer ce que l'environnement de l'analyse pourrait ressembler à l'avenir, vous tomberez sur le modèle du temps et le temps basé sur Hadoop zone d'atterrissage à nouveau. En fait, il est même plus une discussion à terme axée parce que la zone d'atterrissage est devenu la façon dont les entreprises prospectifs essaient maintenant de sauver des coûts informatiques, et de fournir une plate-forme pour l'analyse de données innovante.

Alors quelle est exactement la zone d'atterrissage? Au niveau le plus élémentaire, le zone d'atterrissage est simplement la place centrale où les données vont atterrir dans votre entreprise - extractions hebdomadaires de données provenant de bases de données opérationnelles, par exemple, ou à partir de fichiers journaux systèmes de production. Hadoop est un référentiel utile pour l'atterrissage des données, pour ces raisons:

  • Il peut gérer toutes sortes de données.

  • Il est facilement extensible.

  • Il est peu coûteux.

  • Une fois que vous atterrissez données dans Hadoop, vous avez la possibilité d'interroger, d'analyser ou de traiter les données dans une variété de façons.

    image0.jpg

Ce schéma ne montre qu'une partie de l'histoire et est nullement complète. Après tout, vous devez savoir comment les données se déplace de la zone d'atterrissage à l'entrepôt de données, et ainsi de suite.




Le point de départ de la discussion sur la modernisation d'un entrepôt de données doit être la façon dont les organisations utilisent les entrepôts de données et les défis les départements informatiques doivent faire face avec eux.

Dans les années 1980, une fois que les organisations est devenu bon à stocker leurs informations opérationnelles dans les bases de données relationnelles (transactions de vente, par exemple, ou les statuts de la chaîne d'approvisionnement), les chefs d'entreprise ont commencé à vouloir rapports générés à partir de ces données relationnelles. Les premiers magasins relationnelles étaient les bases de données opérationnelles et ont été conçus pour Online Transaction Processing (OLTP), de sorte que les dossiers pourraient être insérées, mises à jour ou effacées aussi rapidement que possible.

Ceci est une architecture peu pratique pour un grand reporting et d'analyse échelle, de sorte Relational Online Analytical Processing (ROLAP) des bases de données ont été développés pour répondre à ce besoin. Cela a conduit à l'évolution d'un tout nouveau genre de SGBDR: un entrepôt de données, qui est une entité distincte et vit aux côtés des magasins de données opérationnelles de l'organisation.

Ce qui revient à l'aide d'outils spécialement conçus pour une plus grande efficacité: vous avez les magasins de données opérationnelles, qui sont conçus pour traiter efficacement les transactions, et des entrepôts de données, qui sont conçus pour soutenir l'analyse et les rapports répétés.

Les entrepôts de données sont sous stress croissant si, pour les raisons suivantes:

  • La demande accrue pour garder périodes de données plus en ligne.

  • La demande accrue de ressources de traitement pour transformer les données pour une utilisation dans d'autres entrepôts et magasins de données.

  • La demande accrue pour l'analyse innovants, qui exige que les analystes poser des questions sur les données de l'entrepôt, sur le dessus de la soumission régulière qui se fait déjà. Cela peut engager un traitement supplémentaire significative.

Dans la figure, vous pouvez voir l'entrepôt de données présenté comme la principale ressource pour les divers types d'analyse figurant sur le côté droit de la figure. Ici, vous voyez aussi le concept d'une zone d'atterrissage représenté, où Hadoop va stocker les données à partir d'une variété de sources de données entrants.

Pour activer une zone d'atterrissage Hadoop, vous aurez besoin pour vous assurer que vous pouvez écrire des données à partir des diverses sources de données à HDFS. Pour bases de données relationnelles, une bonne solution serait d'utiliser Sqoop.

Mais l'atterrissage des données est que le début.

Lorsque vous vous déplacez les données provenant de nombreuses sources dans votre zone d'atterrissage, une question que vous aurez inévitablement des est la qualité des données. Il est courant pour les entreprises d'avoir de nombreuses bases de données opérationnelles clés où les détails sont différents, par exemple, que le client pourrait être connu comme “ D. DeRoos ” dans une base de données, et “ Dirk DeRoos ” en autre.

Un autre problème de qualité réside dans les systèmes où il ya une forte dépendance sur l'entrée manuelle de données, soit des clients ou du personnel - ici, il est pas rare de trouver des prénoms et noms de famille mis autour de la désinformation ou d'une autre dans les champs de données.

Les problèmes de qualité de données sont un gros problème pour les environnements d'entrepôts de données, et voilà pourquoi beaucoup d'effort va dans nettoyage et de validation des mesures que les données provenant d'autres systèmes sont traités comme il est chargé dans l'entrepôt. Le tout se résume à confiance: Si les données vous posez des questions contre est sale, vous ne pouvez pas confiance dans les réponses dans vos rapports.

Ainsi, alors qu'il ya un énorme potentiel à avoir accès à de nombreux ensembles de données différents provenant de différentes sources dans votre zone d'atterrissage Hadoop, vous devez prendre en compte la qualité des données et combien vous pouvez faire confiance aux données.


» » » » La zone d'atterrissage sur la base Hadoop-