Les valeurs manquantes dans vos données

L'un des problèmes de données les plus fréquentes et malpropres pour faire face à des données manquantes. Les fichiers peuvent être incomplètes parce que les dossiers ont été abandonnées ou un périphérique de stockage remplis. Ou certains champs de données peuvent contenir aucune donnée pour certains dossiers. Le premier de ces problèmes peuvent être diagnostiqués en vérifiant simplement les comptes d'enregistrements pour les fichiers. Le deuxième problème est plus difficile à traiter.

Sommaire

Pour le dire en termes simples, quand vous trouvez un champ contenant des valeurs manquantes, vous avez deux choix:

  • Ignore-le.

  • Collez quelque chose dans le domaine.

Ignorer le problème




Dans certains cas, vous pouvez simplement trouver un champ unique avec un grand nombre de valeurs manquantes. Si oui, la meilleure chose à faire est de simplement ignorer le champ. Ne pas l'inclure dans votre analyse.

Une autre façon d'ignorer le problème est d'ignorer le dossier. Il suffit de supprimer le dossier contenant les données manquantes. Cela peut faire sens que si il ya seulement quelques enregistrements voyous. Mais si il ya plusieurs champs de données contenant un nombre important de valeurs manquantes, cette approche peut rétrécir votre dossier compte à un niveau inacceptable.

Une autre chose à regarder dehors pour avant de supprimer tout simplement les dossiers est un signe d'un motif. Par exemple, supposons que vous analysez un ensemble de données liés aux soldes de cartes de crédit à l'échelle nationale. Vous pourriez bien trouver tout un tas de documents montrant 0,00 $ soldes (peut-être autour de la moitié des dossiers). Cela ne veut pas en soi une indication de données manquantes. Toutefois, si tous les enregistrements de, disons, en Californie montrent 0,00 $ les soldes, qui indique un problème potentiel valeurs manquantes. Et il est pas un seul qui serait utilement résolu par la suppression de tous les enregistrements de la plus grand état dans le pays. Dans ce cas, il est probablement un problème de systèmes et indique qu'un nouveau fichier doit être créé.

En général, la suppression d'enregistrements est un outil facile, mais pas l'idéal, la solution aux problèmes des valeurs manquantes. Si le problème est relativement faible et il n'y a pas de tendance perceptible aux omissions, alors il peut être correct de larguer les dossiers de délinquance et de progresser. Mais souvent une approche plus intello est justifiée.

Remplir les données manquantes

Remplir les données manquantes revient à faire une supposition éclairée sur ce qui aurait été dans ce domaine. Il ya de bonnes et de mauvaises façons de le faire. Un simple (mais mauvais) approche consiste à remplacer les valeurs manquantes par la moyenne de ceux non manquantes. Dans les champs non numériques, vous pourriez être tenté de remplir les documents manquants à la valeur la plus courante dans les autres dossiers (le mode).

Ces approches sont, malheureusement, encore fréquemment utilisés dans certaines applications d'affaires. Mais elles sont largement considérées par les statisticiens que de mauvaises idées. Pour une chose, tout le point de faire l'analyse statistique est de trouver des données qui différencie un des résultats de l'autre. En remplaçant tous les enregistrements manquants avec la même valeur, vous ne l'avez pas différencié rien.

L'approche plus intello est d'essayer de trouver un moyen de prédire de façon significative quelle valeur doit être rempli sur chaque dossier qui manque une valeur. Cela implique de regarder les dossiers complets et en essayant de trouver des indices quant à ce que la valeur manquante pourrait être.

Supposons que vous analysez un fichier démographique de prédire les acheteurs probables de l'un de vos produits. Dans ce fichier, vous avez, entre autres domaines, des informations sur l'état matrimonial, nombre d'enfants, et le nombre de voitures. Pour une raison quelconque, le champ du nombre de voitures est manquant dans un tiers des dossiers.

En analysant les deux autres domaines - l'état matrimonial et nombre d'enfants - vous pouvez découvrir quelques modèles. Les personnes seules ont tendance à avoir une voiture. Les gens mariés sans enfants ont tendance à avoir deux voitures. Les gens mariés avec plus d'un enfant pourraient être plus susceptibles d'avoir trois voitures. De cette façon, vous pouvez deviner les valeurs manquantes d'une manière qui différencie réellement les dossiers. Plus de détails sur cette approche à venir.

Il est un terme général dans les statistiques et le traitement des données qui se réfère à des données discutables. Le terme bruyant est utilisé pour décrire les données qui ne sont pas fiables, corrompu, ou autrement à moins de vierge. Les données manquantes est un exemple de cela. Une description détaillée des techniques de nettoyage des données bruitées en général est au-delà de la portée de ce livre. En fait, ceci est un domaine de recherche actif dans la théorie statistique. Le fait que tous les bruits ne sont pas aussi faciles à repérer valeurs manquantes rend pénible à traiter.


» » » » Les valeurs manquantes dans vos données