Est-ce que vos données semblent corrects?

La plupart des ensembles de données sont livrés avec une sorte de métadonnées,

Sommaire

Vérification de vos sources
Vérification formats
Typecasting vos données

qui est essentiellement une description des données dans le fichier. Les métadonnées comprennent généralement des descriptions des formats, une indication de ce que sont les valeurs dans chaque champ de données, et ce que signifient ces valeurs.

Lorsque vous êtes confronté à un nouvel ensemble de données, ne jamais prendre les métadonnées à leur valeur nominale. La nature même de grande données exige que les systèmes qui le génèrent sont maintenus en place et fonctionne autant que possible. Pour cette raison, la mise à jour des métadonnées pour ces systèmes lorsque des changements sont mis en œuvre ne sont pas toujours une priorité. Vous devez confirmer que les données est vraiment que les revendications de métadonnées.

Vérification de vos sources

Aussi évident que cela puisse paraître, il est important que vous avez foi en où vos données sont en venir. Ceci est particulièrement important lorsque vous achetez des données. Des milliers de fournisseurs offrent là tous les types imaginables de données. Et ils ne sont pas tous d'égale crédibilité.

Avant l'achat de données, essayer de comprendre exactement où et comment le vendeur est recueillons. Mystère et l'imprécision sont des drapeaux rouges.

Ne prenez pas de vendeurs à leur parole. Ne comptez pas uniquement sur les messages de satisfaction des clients sur le site Web ou client références fournies par le vendeur. Si possible, essayez de traquer quelqu'un qui utilise ou a utilisé les données.

Si vos données sont en provenance de systèmes internes, il est toujours important d'évaluer les sources. Différents systèmes ont des buts différents et se concentrent donc sur des données différentes. Ils peuvent également collecter des données à différents moments.

Par exemple, il est pas rare pour certaines chaînes hôtelières à faire des réservations dans un système distinct de celui qu'ils utilisent à la réception lorsque les contrôles d'hôtes à. Il est possible que le client peut recevoir une offre à prix réduit entre la réservation et le check-in . Cela signifie que le prix de la chambre dans le système de réservation peut ne pas correspondre le taux dans le système de réception. Qui plus est, la réservation peut être annulé et ne jamais se rendre à la réception!

Maintenant, supposons que vous êtes d'effectuer une analyse du chiffre d'affaires de l'hôtel par ville. Il est assez important que vous sachiez que vos données de prix de la chambre est en cours provient du système de réception plutôt que le système de réservation. Mais que faire si vous essayez d'analyser combien de réservations ont été générés par le Super Bowl commerciale de votre entreprise? Dans ce cas, vous voulez voir les données du système de réservation.

L'exemple de l'hôtel montre que même les données intrinsèquement propres peuvent être problématiques. Même si les données sont exactes et exactement ce qu'il prétend être, le calendrier peut être un problème. Données changent au fil du temps.

Vérification formats

Comme mentionné plus tôt dans ce chapitre, l'une des choses que vos métadonnées fournira pour vous est une indication de la façon dont les données sont formatées. Par formaté, nous entendons la façon dont chaque élément de données particulier ressemble. Est "Code de produit" un caractère ou d'un chiffre? Est "Date de début" une date ou est-ce vraiment un timbre datetime?

Les types de données sont importants dans l'analyse statistique, car ils dictent laquelle des statistiques et des procédures statistiques peuvent être appliquées aux éléments de données. Si vous essayez de prendre la valeur moyenne d'un champ de caractère, comme «Prénom», vous allez obtenir un message d'erreur à chaque fois.

Généralement, ce type de métadonnées est très précis. Il est généralement stockée par le système qui contient des données et peut être générée automatiquement. Vérification des formats est généralement assez simple. Cette vérification est essentiellement un sous-produit de la validation des plages de données discutés dans la section suivante. Mais il ya des cas où il peut être un peu plus difficile.

Nous avons vu un tel scénario plusieurs fois que nous nous soucions de rappeler. Il arrive parfois que quand un système est d'abord conçu, l'équipe de développement tente de mettre une certaine souplesse dans les structures de données pour accueillir les améliorations futures. Parfois, ils ajoutent juste un tas de vides (et larges) alphanumériques colonnes de données sur la fin de chaque enregistrement. Ces colonnes auxiliaires sont initialement pas utilisées pour rien.

Les analystes seront toujours pécher par excès de demander plus de données plutôt que moins - fréquemment, tous données plutôt que certains. Ce fait, combiné à la nécessité d'obtenir les données rapidement, aboutit parfois à un vidage de données. Cette décharge comprend généralement les colonnes auxiliaires. Dans ces cas, les métadonnées vous dit quelque chose comme "Les champs 1-11" sont formatés comme "200 caractères alphanumériques."

Cette information est pratiquement inutile. Pour donner un sens à un champ de données de ce genre, vous avez à peu près à vous salir les mains. Il n'y a pas beaucoup que vous pouvez faire, sauf la page grâce à quelques dizaines de dossiers et d'essayer de faire une supposition éclairée sur ce qui est fait dans le domaine. Dans la plupart des cas, ces domaines ont tendance à être vide. Mais pas toujours. Les bonnes nouvelles sont que si le champ est effectivement utilisé, vous devriez être en mesure de trouver un programmeur quelque part qui sait ce qu'il est utilisé pour.

Typecasting vos données

Une des étapes les plus critiques dans la réalisation d'une analyse statistique est en vous assurant que vos données est ce qu'il prétend être. Procédures statistiques seront toujours bloquer si vous ne leur donnez pas d'informations valables sur les formats de données. Mais ces procédures sont largement aveugle à des problèmes avec la validité des données.

Comprendre comment un champ de données est formaté ne suffit pas. Avant d'aborder un ensemble de données sur une méthode statistique, vous avez besoin de comprendre ce que les données sont réellement dans chacun des domaines que vous utilisez.

La plupart des données relève de l'une des quatre catégories: nominal, ordinal, intervalle, et le rapport. Le type de données détermine quel genre de statistiques et de procédures statistiques peut être appliquée à des domaines particuliers de données. Vous ne pouvez pas prendre une moyenne d'un champ comme "Nom", par exemple.

Confondre les types de données avec les formats de données est facile (et beaucoup trop commune). Savoir si un champ de données est un personnage, entier ou en continu ne vous dit pas le type de données.

Les champs de caractères sont parfois utilisés comme des espaces réservés pour les données qui pourraient être capturés dans les futures versions d'un système. Il n'y a rien pour empêcher un tel domaine d'être utilisé pour saisir les données numériques monétaires ou autres.

L'erreur-type de données le plus courant consiste à supposer que un champ numérique, en particulier un champ de valeur entière, contient en réalité numérique ordinal données. Il est extrêmement courant pour les entreprises d'utiliser des codes numériques (nominal données) pour représenter les produits, les régions, les magasins, et diverses autres entités.

Codes de vol des compagnies aériennes sont un exemple. Régions de recensement sont une autre. Même les numéros de cartes de crédit et de sécurité sociale sont généralement stockés sous forme de nombres entiers. Mais l'ensemble de ces entités sont des identifiants simplement. Ils sont nominal variables. La numéro de carte de crédit moyenne dans le portefeuille d'une banque est une statistique de sens.

A propos Auteur

La gestion des données de base (mdm)

Au cours des dernières années, les systèmes de rétroaction ODS-style définies dans un but précis - les données de référence - ont émergé. Tous les systèmes sont emballées avec des données de référence. Ces données peuvent inclure…

L'avenir des entrepôts de données à l'époque grand de données

Le marché de l'entrepôt de données a en effet commencé à changer et à évoluer avec l'avènement de grands volumes de données. Dans le passé, il était tout simplement pas rentable pour les entreprises de stocker la quantité massive de…

Définition de gros volumes de données: le volume, la vitesse, et la variété

Big données permet aux entreprises de stocker, gérer et manipuler de grandes quantités de données disparates à la bonne vitesse et au bon moment. Pour gagner les bonnes idées, Big Data est généralement décomposé par trois…

Mettez votre grand ensemble de données

Comment allez-vous savoir comment mettre toutes vos données ensemble? Avec un grand projet de données, ce que vous voulez faire avec vos données structurées et non structurées indique pourquoi vous pouvez choisir une seule pièce de la…

La structure de base de données et mysql

MySQL est un système de gestion de bases de données relationnelles (SGBDR). Votre serveur MySQL peut gérer plusieurs bases de données en même temps. En fait, beaucoup de gens pourraient avoir différentes bases de données gérées par un seul…

Les éléments clés du serveur Microsoft SQL

Le produit Microsoft SQL Server se compose de quatre éléments principaux, trois d'entre eux acronymes sportives. Utilisez cette liste pour identifier les composants de SQL Server et de leur dire à part.Database Engine: Cette partie de SQL Server…

Comment combiner et de fusionner les ensembles de données dans r

Vous pouvez combiner des données provenant de différentes sources dans votre analyse. De manière générale, vous pouvez utiliser R de combiner différents ensembles de données de trois façons:En ajoutant des colonnes: Si les deux ensembles de…

Comment travailler avec des fichiers de données non-CSV dans r

Malgré le fait que CSV (comma-separated values) des fichiers sont très largement utilisés pour importer et exporter des données dans R, ils ne sont pas toujours le format le plus approprié. Certains formats de données permettent la…

Décrivant vos données statistiques avec des chiffres

Après avoir recueilli de bonnes données statistiques, vous pouvez résumer avec réstatistiques escriptive. Ce sont des chiffres qui décrivent un ensemble de données en fonction de ses caractéristiques importantes:Si les données sont…

Se familiariser avec les statistiques courantes

Après les données ont été recueillies, la première étape de l'analyse, il est à croquer quelques statistiques descriptives pour obtenir un sentiment initial pour les données. Par example:Où est le centre de données situé?Comment sont…

Comment les valeurs z sont utilisés dans les statistiques

Si un ensemble de données statistiques a une distribution normale, il est coutumier de normaliser toutes les données pour obtenir des scores classiques connues comme z-valeurs ou z-scores. La distribution de z-valeurs prend une distribution…

Comment créer un dictionnaire de données pour décrire vos données de biostatistique

Chaque base de données de recherche, grandes ou petites, simples ou complexes, doit être accompagnée par un dictionnaire de données qui décrit les variables contenues dans la base de données. Il sera inestimable si la personne qui a créé la…

Faire face à des problèmes de qualité dans vos données clients

Comme vous creusez dans vos données clients pour construire des campagnes de marketing ou de chercher un aperçu de votre clientèle, vous serez inévitablement confronté à la mauvaise qualité des données, parfois appelé données sale. Votre…

Les données statistiques utilisées dans les données axée sur le marketing

Quiconque a déjà utilisé un tableur est familier avec l'idée de les types de données. Les données proviennent de deux saveurs de base: numériques et de caractères - chiffres et du texte. Les données caractères sont pas impliqués dans…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Est-ce que vos données semblent corrects?