Assurer la qualité des données entrant externe

Lorsque vous concevez un entrepôt de données et vous déterminez ce que vous avez besoin de données externe, vous placez simplement un ordre (semblable à la commande de vêtements ou d'un panier de fruits à partir d'un site en ligne). Après vous commencez à recevoir des données via un flux, transfert de fichier, ou d'autres moyens, il est lisse voile - ou est-ce?

Qu'en est-il de la qualité des données entrant? Vous devez absolument appliquer le même ensemble de l'assurance qualité (AQ) procédures à prévoir en externe les données que vous faites pour les données provenant de vos propres systèmes internes. Juste parce que vous achetez l'information sur le marché libre ne garantit pas que les données sont sans faille.

Appliquer les procédures AQ pour chaque lot de données entrant en suivant ces étapes:

  1. Pour savoir si les données entrantes a des valeurs de vérification annexées aux fichiers.

    Quelques exemples de valeurs de contrôle sont le nombre d'enregistrements dans chaque fichier, la valeur totale de chaque colonne numérique (en dollars des ventes totales pour tous les dossiers et nombre total d'unités vendues pour tous les enregistrements, par exemple), et les sous-ensembles des valeurs de la colonne totale (montants totaux des ventes et des unités par l'Etat, par exemple).

    Si les valeurs de contrôle sont fournis, ils doivent être stockés et utilisés dans le cadre des procédures de chargement de bout-en-bout. Personne ne devrait officiellement mettre à jour le contenu de l'entrepôt jusqu'à ce que les totaux de contrôle sont d'accord avec les calculs que vous faites lorsque vous avez préparé les données pour le chargement.




  2. Si aucune des valeurs de vérification sont fournis, leur demander.

    Bien que la demande pourrait prendre quelques cycles (quelques semaines ou quelques mois, par exemple) pour remplir, tout fournisseur intéressé à offrir un haut niveau de service à la clientèle de données prend ce type de demande au sérieux et cherche à rendre l'information de commande demandée disponibles.

  3. Au cours de vos procédures de chargement, filtrer chaque rangée.

    Assurez-vous que les conditions suivantes sont remplies:

  1. Clés (identificateurs uniques pour chaque enregistrement) sont corrects pour toutes les informations. Par exemple, si chaque enregistrement dans le groupe SalesMasterRecord des données doit avoir exactement 12 dossiers connexes à SalesDetailRecord (une pour chaque mois), assurez-vous que tous les enregistrements de détails sont présents en comparant les valeurs clés records.

  2. Plages de valeurs sont correctes. Les ventes de produits par mois, par exemple, doivent être dans des limites raisonnables pour ce type de produit (les avions sont différents de boulons, par exemple).

  3. Domaines de l'information manquante (- presque inévitable - une probable occurrence avec l'extérieur ont fourni des données) ne faussent pas la signification des données entrantes.

    Par exemple, bien que l'absence de pièces supplémentaires de données (définis selon les règles d'affaires pour votre secteur d'activité ou une organisation spécifique) pourraient ne pas être trop un problème grave, si la moitié des dossiers entrants ont un espace vide où UnitsSold, TotalSalesPrice, ou de quelque autre Type critique de l'information devrait être, la valeur des données est pour le moins discutable.

  4. Surtout dans les premiers stades de l'acquisition de données externes (les trois ou quatre premiers mois, par exemple), utiliser vos outils d'analyse, comme décrit dans le chapitre 10, pour effectuer une analyse de la qualité des données avant que vos utilisateurs utilisent les mêmes outils pour effectuer l'analyse d'affaires.

    Rechercher bizarreries, des anomalies, des résultats déroutants, les incohérences, les paradoxes apparents, et tout ce qui semble juste bizarre. Ensuite, percer jusqu'aux racines des données pour vérifier la source de l'étrangeté.

    Rappelez-vous que vous avez probablement affaire avec plusieurs millions de lignes de données entrant: En plus de ne pas être en mesure de vérifier personnellement sur chaque rangée, vous pourriez avoir des difficultés à mettre en place votre filtrage et QA critères de vérification pour toutes les conditions possibles.

    Quiconque a jamais rien fait avec l'extérieur ont fourni des données source a rencontré toutes sortes d'incohérences étranges et des données manquantes dans les informations entrantes. En vous mettant à la place des utilisateurs et en utilisant les mêmes outils qu'ils utilisent, vous pouvez probablement découvrir une chose ou deux que vous pouvez corriger, faisant de votre entrepôt de données un bien meilleur magasin d'informations commerciales précieuses.


» » » » Assurer la qualité des données entrant externe