L'extraction des données, le mouvement, et le chargement de l'entrepôt de données luxe

Entrepôt de données implémentations de luxe sont grandes - et grossit tout le temps. Implémentations qui utilisent des centaines de giga-octets (un gigaoctet est égal à 1 milliard d'octets) et des téraoctets même (1 trillion d'octets) sont de plus en plus commun. Pour gérer ce volume de données et l'accès de l'utilisateur, vous avez besoin d'un serveur et base de données très robuste.

Préparez-vous à relever le défi! Avec un lite d'entrepôt de données, vous pouvez habituellement gérer le mouvement de la source de données à l'entrepôt dans un, low-tech de manière simple - mais avec le luxe d'entrepôt de données, vous êtes maintenant entrer dans la zone de difficulté, où beaucoup de données des projets d'entreposage rencontrent leur Waterloo.

Vous êtes susceptibles de rencontrer des difficultés dans ce domaine pour plusieurs raisons:

  • Vous avez affaire à de nombreuses sources de données différentes, dont certains peuvent contenir des données qui se chevauchent. Par exemple, des informations des fournisseurs pourrait provenir de deux systèmes d'acquisition différents, et certains de vos fournisseurs avoir des entrées dans les deux systèmes.

    Vous aurez probablement courir en différents ensembles d'identifiants que vous avez à faire converger (par exemple, six caractères alphanumériques qui sont identifiés comme l'SUPPLIER_ID dans l'un des systèmes et un entier unique connu sous le nom SUP_NUM dans l'autre).

  • Si votre entrepôt de données est grande (mesurant plus de 250 gigaoctets environ), vous êtes susceptible de rencontrer des difficultés dans l'extraction, le déplacement et le chargement de vos fenêtres batch. Les fenêtres batch, les délais dans lesquels les mises à jour sont faits à l'entrepôt, sont compliquées par le nombre de sources de données que vous avez à gérer.




  • Les chances d'avoir une extraction sali-up, le mouvement, la transformation et processus de chargement est de façon exponentielle avec le nombre d'éléments de données à charger dans l'entrepôt de données.

    Si vous pouvez assigner un facteur de difficulté (un entier, par exemple) pour le processus d'obtention des données dans l'entrepôt, les mesures suivantes serait vrai: Vous avez n éléments de données que vous souhaitez inclure dans l'entrepôt de données avec un facteur de difficulté de X. Si vous avez maintenant 2n éléments de données, votre facteur de difficulté est pas 2X- plutôt, il est X au carré.

    Pour rendre ce facteur de difficulté facile à comprendre, céder quelques chiffres pour n et X. Dire que votre entrepôt de données dispose de 100 éléments (n) et le facteur de difficulté (X) est 5. Si vous doublez le nombre d'éléments (n = 200), votre facteur de difficulté est de 25 (5 au carré), pas 10 (5 x 2).

  • Le processus de traitement avec autant de sources de données, tous dirigés vers un seul endroit (votre entrepôt de données luxe), a tous les éléments de trop de cuisiniers dans la cuisine, ou quoi que ce dicton est.

    Pour faire l'extraction, le mouvement, la transformation, et le processus de chargement se passe bien, vous avez probablement faire face à de nombreux propriétaires d'application différents, gardiens officiels de la base de données, et d'autres personnes à partir d'une variété de différentes organisations, qui ont tous de coopérer comme ils 're partie d'un orchestre symphonique professionnel.

    La réalité, cependant, est qu'ils effectuent plus comme un groupe d'élèves de la maternelle qui ramassent chacun un instrument de musique du bac de jouets et dit-on, “ maintenant jouer quelque chose ”!; Bien que le processus est pas nécessairement vouée à l'échec, attendre un certain nombre d'itérations jusqu'à ce que vous pouvez obtenir le luxe d'entrepôt de données chargé juste.

Un luxe d'entrepôt de données peut avoir trois niveaux (comme un lite d'entrepôt de données), à l'exception de plusieurs sources de données et peut-être plus d'un type d'outil utilisateur accédant à l'entrepôt. Mais l'architecture d'un luxe d'entrepôt de données ressemble probablement plus à ce qui est montré dans cette figure, avec de nombreux points de collecte différents pour les données.

image0.jpg

En plus des autres nécessaire “ manière stations ” pour votre environnement particulier, votre environnement peut avoir ces éléments:

  • Mart données: Reçoit des sous-ensembles d'information de l'hôtel de luxe de l'entrepôt de données et sert de principal point d'accès pour les utilisateurs.

  • Station de transformation provisoire: Un domaine dans lequel des ensembles de données extraites de certaines des sources subissent un certain type de processus de transformation avant de descendre le pipeline vers la base de données de l'entrepôt.

  • Qualité station de l'assurance: Un domaine dans lequel des groupes de données subissent des contrôles d'assurance qualité intensifs avant de les laisser se déplacent dans l'entrepôt de données.


» » » » L'extraction des données, le mouvement, et le chargement de l'entrepôt de données luxe