Comment nettoyer les données pour l'analyse prédictive

Avant d'exécuter une analyse prédictive, vous aurez besoin pour vous assurer que les données sont propres de choses étrangères avant que vous puissiez l'utiliser dans votre modèle. Cela comprend trouver et de corriger les dossiers qui contiennent des valeurs erronées, et de tenter de combler les valeurs manquantes. Vous aurez également besoin de décider d'inclure les enregistrements en double (deux comptes de clients, par exemple).

L'objectif global est d'assurer l'intégrité de l'information que vous utilisez pour construire votre modèle prédictif. Portez une attention particulière à l'exhaustivité, l'exactitude et l'actualité des données.

Il est utile de créer statistiques descriptives (caractéristiques quantitatives) pour divers domaines, tels que le calcul min et max, la vérification distribution de fréquence (combien de fois quelque chose se produit) et en vérifiant les plages attendues. Exécution d'un contrôle régulier peut aider à vous marquez toutes les données qui est en dehors de la fourchette prévue pour complément d'enquête. Tous les enregistrements montrant retraités avec les dates de naissance dans les années 1990 peuvent être marqués par cette méthode.

En outre, le recoupement des informations est important afin que vous vous assurez que les données sont exactes. Pour une analyse plus approfondie des caractéristiques des données et l'identification de la relation entre les enregistrements de données, vous pouvez faire usage de profilage de données (analyse de la disponibilité des données et la collecte de statistiques sur la qualité des données), et des outils de visualisation.

Les données manquantes pourraient être dus au fait que l'information particulière n'a pas été enregistré. Dans un tel cas, vous pouvez tenter de combler autant que vous ne pouvez par défaut appropriés peuvent facilement être ajoutés pour remplir les blancs de certains champs.

Par exemple, pour les patients dans un service de maternité de l'hôpital où le domaine de l'égalité est une valeur manquante, l'application peut simplement remplir aussi féminine. Pour cette question, pour tout homme qui a été admis à l'hôpital avec un dossier manquant pour l'état de grossesse, ce dossier peut même être rempli comme non applicable.




Un code postal manquant pour une adresse peut être déduite à partir du nom de la rue et la ville prévue à cette adresse.

Dans les cas où l'information est inconnu ou ne peut pas être déduit, vous aurez alors besoin d'utiliser des valeurs autre d'un espace vide pour indiquer que la donnée manque sans affecter l'exactitude de l'analyse. Un vide dans les données peut signifier plusieurs choses, la plupart d'entre eux pas bonne ou utile. Chaque fois que vous pouvez, vous devez spécifier la nature de cette ébauche par lieu remplissage significative.

Tout comme il est possible de définir une rose dans un champ de maïs comme une mauvaise herbe, les valeurs aberrantes peuvent signifier différentes choses pour différentes analyses. Il est commun pour certains modèles qui seront construits uniquement pour suivre les valeurs aberrantes et leur drapeau.

Modèles de détection des fraudes et les activités criminelles surveillance sont intéressés à ces valeurs aberrantes, qui dans de tels cas indiquent quelque chose d'indésirable ayant lieu. Donc, garder les valeurs aberrantes dans l'ensemble de données dans des cas comme ceux-ci est recommandé. Cependant, lorsque les valeurs aberrantes sont considérées comme des anomalies dans les données - et seront seulement fausser les analyses et conduire à des résultats erronés - retirez-les de vos données.

Duplication des données peut également être utile ou d'un nuisance- certains il peut être nécessaire, peut indiquer la valeur, et peut refléter un état précis des données. Par exemple, un dossier d'un client avec plusieurs comptes peut être représenté à entrées multiples qui sont (techniquement, de toute façon) en double et répétitives des mêmes dossiers.

De la même façon, lorsque les enregistrements en double ne contribuent pas de valeur à l'analyse et ne sont pas nécessaires, puis les enlever peuvent être d'une valeur inestimable. Cela est particulièrement vrai pour les grands ensembles de données où la suppression de doublons peut simplifier la complexité des données et de réduire le temps nécessaire à l'analyse.

Vous pouvez préventivement empêcher que des données incorrectes de pénétrer vos systèmes en adoptant certaines procédures spécifiques:

  • Institut contrôles et qualité des données de validation pour toutes les données recueillies.

  • Permettez à vos clients de valider et d'auto-corriger leurs données personnelles.

  • Offrez à vos clients avec des valeurs possibles et attendus à choisir.

  • Exécuter régulièrement des contrôles sur l'intégrité, la cohérence et l'exactitude des données.


» » » » Comment nettoyer les données pour l'analyse prédictive