Services de middleware: l'assurance de la qualité des données

Vous devez établir deux services différents d'assurance de la qualité (AQ) dans le flux des services de middleware. Vous devez effectuer les premières tâches d'AQ contre l'extrait de la source de données avant d'effectuer des services plus middleware.

Sommaire

L'assurance de la qualité des données: partie I

Essayez d'attraper (et corriger) les erreurs et les problèmes le plus tôt dans le processus que possible. Déplacement de données dans le pipeline vers l'entrepôt de données est inutile si les problèmes sont si importantes qu'elles nécessitent soit nettement plus d'efforts pour corriger plus tard dans le processus ou simplement ne peuvent pas être corrigées.

Alors, quels types de problèmes devez-vous rechercher? Voici quelques-unes:

  • Les valeurs dans les éléments de données qui dépassent une fourchette raisonnable: Un client a présenté 150 millions de commandes au cours du mois passé, par exemple, ou un employé a travaillé avec la compagnie pour 4297 ans, selon la base de données des employés et la date d'embauche stockée.

  • Les valeurs dans les éléments de données qui ne correspondent pas à la liste officielle et complète de valeurs admissibles: Une valeur pourrait avoir un code, par exemple, lorsque les seules valeurs autorisées pour ce champ sont M et F. (Si ce domaine ont été marqués GENRE, A pourraient reposer pendant androgyne!)

  • Incohérences tableau croisé: Pour les entrées dans la table de Commande_Client, aucune inscription correspondante (telle qu'identifiée par CUSTOMER_ID) existent dans le CUSTOMER_MASTER_TABLE.

  • Incohérences Croix-terrain: Les documents qui ont un état incorrect ou un code postal de la ville indiqué.




  • Les valeurs manquantes: Les enregistrements qui ont des valeurs manquantes dans certains domaines où ils devraient avoir contenu.

  • Le manque de données: Par exemple, une table source doit contenir une rangée de données qui comprend des unités totales vendues et en dollars de ventes pour chaque mois au cours des deux dernières années. Pour un grand nombre de clients, cependant, pas de lignes existent pour au moins un de ces mois.

  • Des données incomplètes: Si des informations sur chaque produit, la société vend est censé être disponible, par exemple, sont tous les produits inclus dans l'extrait?

  • Les violations des règles d'affaires: Si une règle d'entreprise stipule que seul un grossiste peut vendre les produits à tout l'un des clients de l'entreprise, vous devriez vérifier pour voir si des dossiers des clients indiquent les ventes effectuées par plus d'un grossiste, ce qui pourrait indiquer des données incorrectes dans la source.

  • La corruption de données depuis le dernier extrait: Si l'extraction se déroule chaque mois, par exemple, vous devriez garder une trace des valeurs ou des sommes données qui doit être constante, telles que ventes par client par mois. Si, dans un mois ultérieur, la valeur des ventes par client et par les changements de mois pour un client donné pour un mois précédent, les données sous-jacentes d'avoir été corrompue.

  • Incohérences d'orthographe: Le nom d'un client est orthographié de différentes façons, par exemple.

Que faites-vous lorsque vous rencontrez des problèmes? Vous pouvez essayer l'une des techniques suivantes:

  • Appliquer une règle automatique de correction. Lorsque vous trouvez une orthographe incohérente, par exemple, faire une recherche dans un tableau de maître de corrections orthographiques précédents et de faire automatiquement le changement dans les données.

  • Mettez de côté le record pour un membre de l'équipe d'analyser et de corriger plus tard. Dans ce cas, vous pourriez faire la partie humaine de l'AQ en conjonction avec la correction automatique.

    Par exemple, des corrections automatiques sont faites, si possible, et un rapport sur d'autres problèmes sont mis dans un fichier séparé et envoyés à la personne de QA. Lorsque la personne de QA fait toutes les corrections manuelles, vous fusionnez les corrections de nouveau dans les données qui ont passé par le processus de QA automatique.

  • Rafraîchissez vos jets. Si vous découvrez suffisamment de problèmes qui sont graves ou qui nécessitent une quantité indéterminée de recherche, envisager de suspendre l'ensemble du processus jusqu'à ce que vous trouver et à corriger le problème.

Vous pouvez rendre le processus de QA beaucoup plus efficace et beaucoup moins problématique, si vous effectuez une analyse des systèmes sources approfondie. Si vous avez une assez bonne idée de ce types de problèmes de données que vous pourriez trouver dans chaque source de données, vous pouvez reprogrammer votre processus d'assurance qualité pour détecter et (espérons-le) de corriger ces problèmes avant de poursuivre.

Historiquement, les organisations traités le processus de QA d'entrepôt de données comme un flux unidirectionnel. Les problèmes sont corrigés avant que les données est déplacée plus loin dans le flux de processus de middleware mais jamais corrigé dans les sources de données. La plupart des nouveaux entrepôts de données ont un intégré dans la boucle de rétroaction du processus d'assurance qualité qui corrige les problèmes de qualité des données dans les données de base.

L'assurance de la qualité des données: partie II

Après l'achèvement du processus de transformation, les données doivent être QA'd - de nouveau. Vous ne savez jamais ce type d'erreurs ou contradictions du processus de transformation aurait introduit dans les données. Après des changements ont eu lieu, des processus d'assurance qualité précédentes ne sont plus valables.

Exécutez les données consolidées, transformées par le même type de mesures d'AQ discutés ici. Bien que vous avez probablement ne trouvez pas autant d'erreurs rudimentaires (tels que des erreurs ou des valeurs qui sont hors de portée orthographe) si vous avez fait un travail approfondi sur votre QA premier niveau, vous voulez toujours vous assurer. En outre, veiller à ce que le code ou de scripts utilisé pour la transformation de données ne causent pas de nouvelles erreurs à se glisser dans accidentellement.

L'objectif de ce deuxième niveau-QA est de vous assurer que vos données consolidée et transformée est prêt à charger dans l'entrepôt de données - dès que se produit un pas de plus, si nécessaire.


» » » » Services de middleware: l'assurance de la qualité des données