Est-ce que vos données semblent corrects?

La plupart des ensembles de données sont livrés avec une sorte de métadonnées,

Sommaire

qui est essentiellement une description des données dans le fichier. Les métadonnées comprennent généralement des descriptions des formats, une indication de ce que sont les valeurs dans chaque champ de données, et ce que signifient ces valeurs.

Lorsque vous êtes confronté à un nouvel ensemble de données, ne jamais prendre les métadonnées à leur valeur nominale. La nature même de grande données exige que les systèmes qui le génèrent sont maintenus en place et fonctionne autant que possible. Pour cette raison, la mise à jour des métadonnées pour ces systèmes lorsque des changements sont mis en œuvre ne sont pas toujours une priorité. Vous devez confirmer que les données est vraiment que les revendications de métadonnées.

Vérification de vos sources

Aussi évident que cela puisse paraître, il est important que vous avez foi en où vos données sont en venir. Ceci est particulièrement important lorsque vous achetez des données. Des milliers de fournisseurs offrent là tous les types imaginables de données. Et ils ne sont pas tous d'égale crédibilité.

Avant l'achat de données, essayer de comprendre exactement où et comment le vendeur est recueillons. Mystère et l'imprécision sont des drapeaux rouges.

Ne prenez pas de vendeurs à leur parole. Ne comptez pas uniquement sur les messages de satisfaction des clients sur le site Web ou client références fournies par le vendeur. Si possible, essayez de traquer quelqu'un qui utilise ou a utilisé les données.

Si vos données sont en provenance de systèmes internes, il est toujours important d'évaluer les sources. Différents systèmes ont des buts différents et se concentrent donc sur des données différentes. Ils peuvent également collecter des données à différents moments.

Par exemple, il est pas rare pour certaines chaînes hôtelières à faire des réservations dans un système distinct de celui qu'ils utilisent à la réception lorsque les contrôles d'hôtes à. Il est possible que le client peut recevoir une offre à prix réduit entre la réservation et le check-in . Cela signifie que le prix de la chambre dans le système de réservation peut ne pas correspondre le taux dans le système de réception. Qui plus est, la réservation peut être annulé et ne jamais se rendre à la réception!




Maintenant, supposons que vous êtes d'effectuer une analyse du chiffre d'affaires de l'hôtel par ville. Il est assez important que vous sachiez que vos données de prix de la chambre est en cours provient du système de réception plutôt que le système de réservation. Mais que faire si vous essayez d'analyser combien de réservations ont été générés par le Super Bowl commerciale de votre entreprise? Dans ce cas, vous voulez voir les données du système de réservation.

L'exemple de l'hôtel montre que même les données intrinsèquement propres peuvent être problématiques. Même si les données sont exactes et exactement ce qu'il prétend être, le calendrier peut être un problème. Données changent au fil du temps.

Vérification formats

Comme mentionné plus tôt dans ce chapitre, l'une des choses que vos métadonnées fournira pour vous est une indication de la façon dont les données sont formatées. Par formaté, nous entendons la façon dont chaque élément de données particulier ressemble. Est "Code de produit" un caractère ou d'un chiffre? Est "Date de début" une date ou est-ce vraiment un timbre datetime?

Les types de données sont importants dans l'analyse statistique, car ils dictent laquelle des statistiques et des procédures statistiques peuvent être appliquées aux éléments de données. Si vous essayez de prendre la valeur moyenne d'un champ de caractère, comme «Prénom», vous allez obtenir un message d'erreur à chaque fois.

Généralement, ce type de métadonnées est très précis. Il est généralement stockée par le système qui contient des données et peut être générée automatiquement. Vérification des formats est généralement assez simple. Cette vérification est essentiellement un sous-produit de la validation des plages de données discutés dans la section suivante. Mais il ya des cas où il peut être un peu plus difficile.

Nous avons vu un tel scénario plusieurs fois que nous nous soucions de rappeler. Il arrive parfois que quand un système est d'abord conçu, l'équipe de développement tente de mettre une certaine souplesse dans les structures de données pour accueillir les améliorations futures. Parfois, ils ajoutent juste un tas de vides (et larges) alphanumériques colonnes de données sur la fin de chaque enregistrement. Ces colonnes auxiliaires sont initialement pas utilisées pour rien.

Les analystes seront toujours pécher par excès de demander plus de données plutôt que moins - fréquemment, tous données plutôt que certains. Ce fait, combiné à la nécessité d'obtenir les données rapidement, aboutit parfois à un vidage de données. Cette décharge comprend généralement les colonnes auxiliaires. Dans ces cas, les métadonnées vous dit quelque chose comme "Les champs 1-11" sont formatés comme "200 caractères alphanumériques."

Cette information est pratiquement inutile. Pour donner un sens à un champ de données de ce genre, vous avez à peu près à vous salir les mains. Il n'y a pas beaucoup que vous pouvez faire, sauf la page grâce à quelques dizaines de dossiers et d'essayer de faire une supposition éclairée sur ce qui est fait dans le domaine. Dans la plupart des cas, ces domaines ont tendance à être vide. Mais pas toujours. Les bonnes nouvelles sont que si le champ est effectivement utilisé, vous devriez être en mesure de trouver un programmeur quelque part qui sait ce qu'il est utilisé pour.

Typecasting vos données

Une des étapes les plus critiques dans la réalisation d'une analyse statistique est en vous assurant que vos données est ce qu'il prétend être. Procédures statistiques seront toujours bloquer si vous ne leur donnez pas d'informations valables sur les formats de données. Mais ces procédures sont largement aveugle à des problèmes avec la validité des données.

Comprendre comment un champ de données est formaté ne suffit pas. Avant d'aborder un ensemble de données sur une méthode statistique, vous avez besoin de comprendre ce que les données sont réellement dans chacun des domaines que vous utilisez.

La plupart des données relève de l'une des quatre catégories: nominal, ordinal, intervalle, et le rapport. Le type de données détermine quel genre de statistiques et de procédures statistiques peut être appliquée à des domaines particuliers de données. Vous ne pouvez pas prendre une moyenne d'un champ comme "Nom", par exemple.

Confondre les types de données avec les formats de données est facile (et beaucoup trop commune). Savoir si un champ de données est un personnage, entier ou en continu ne vous dit pas le type de données.

Les champs de caractères sont parfois utilisés comme des espaces réservés pour les données qui pourraient être capturés dans les futures versions d'un système. Il n'y a rien pour empêcher un tel domaine d'être utilisé pour saisir les données numériques monétaires ou autres.

L'erreur-type de données le plus courant consiste à supposer que un champ numérique, en particulier un champ de valeur entière, contient en réalité numérique ordinal données. Il est extrêmement courant pour les entreprises d'utiliser des codes numériques (nominal données) pour représenter les produits, les régions, les magasins, et diverses autres entités.

Codes de vol des compagnies aériennes sont un exemple. Régions de recensement sont une autre. Même les numéros de cartes de crédit et de sécurité sociale sont généralement stockés sous forme de nombres entiers. Mais l'ensemble de ces entités sont des identifiants simplement. Ils sont nominal variables. La numéro de carte de crédit moyenne dans le portefeuille d'une banque est une statistique de sens.


» » » » Est-ce que vos données semblent corrects?