Comment nettoyer les données pour l'analyse prédictive

Avant d'exécuter une analyse prédictive, vous aurez besoin pour vous assurer que les données sont propres de choses étrangères avant que vous puissiez l'utiliser dans votre modèle. Cela comprend trouver et de corriger les dossiers qui contiennent des valeurs erronées, et de tenter de combler les valeurs manquantes. Vous aurez également besoin de décider d'inclure les enregistrements en double (deux comptes de clients, par exemple).

L'objectif global est d'assurer l'intégrité de l'information que vous utilisez pour construire votre modèle prédictif. Portez une attention particulière à l'exhaustivité, l'exactitude et l'actualité des données.

Il est utile de créer statistiques descriptives (caractéristiques quantitatives) pour divers domaines, tels que le calcul min et max, la vérification distribution de fréquence (combien de fois quelque chose se produit) et en vérifiant les plages attendues. Exécution d'un contrôle régulier peut aider à vous marquez toutes les données qui est en dehors de la fourchette prévue pour complément d'enquête. Tous les enregistrements montrant retraités avec les dates de naissance dans les années 1990 peuvent être marqués par cette méthode.

En outre, le recoupement des informations est important afin que vous vous assurez que les données sont exactes. Pour une analyse plus approfondie des caractéristiques des données et l'identification de la relation entre les enregistrements de données, vous pouvez faire usage de profilage de données (analyse de la disponibilité des données et la collecte de statistiques sur la qualité des données), et des outils de visualisation.

Les données manquantes pourraient être dus au fait que l'information particulière n'a pas été enregistré. Dans un tel cas, vous pouvez tenter de combler autant que vous ne pouvez par défaut appropriés peuvent facilement être ajoutés pour remplir les blancs de certains champs.

Par exemple, pour les patients dans un service de maternité de l'hôpital où le domaine de l'égalité est une valeur manquante, l'application peut simplement remplir aussi féminine. Pour cette question, pour tout homme qui a été admis à l'hôpital avec un dossier manquant pour l'état de grossesse, ce dossier peut même être rempli comme non applicable.

Un code postal manquant pour une adresse peut être déduite à partir du nom de la rue et la ville prévue à cette adresse.

Dans les cas où l'information est inconnu ou ne peut pas être déduit, vous aurez alors besoin d'utiliser des valeurs autre d'un espace vide pour indiquer que la donnée manque sans affecter l'exactitude de l'analyse. Un vide dans les données peut signifier plusieurs choses, la plupart d'entre eux pas bonne ou utile. Chaque fois que vous pouvez, vous devez spécifier la nature de cette ébauche par lieu remplissage significative.

Tout comme il est possible de définir une rose dans un champ de maïs comme une mauvaise herbe, les valeurs aberrantes peuvent signifier différentes choses pour différentes analyses. Il est commun pour certains modèles qui seront construits uniquement pour suivre les valeurs aberrantes et leur drapeau.

Modèles de détection des fraudes et les activités criminelles surveillance sont intéressés à ces valeurs aberrantes, qui dans de tels cas indiquent quelque chose d'indésirable ayant lieu. Donc, garder les valeurs aberrantes dans l'ensemble de données dans des cas comme ceux-ci est recommandé. Cependant, lorsque les valeurs aberrantes sont considérées comme des anomalies dans les données - et seront seulement fausser les analyses et conduire à des résultats erronés - retirez-les de vos données.

Duplication des données peut également être utile ou d'un nuisance- certains il peut être nécessaire, peut indiquer la valeur, et peut refléter un état précis des données. Par exemple, un dossier d'un client avec plusieurs comptes peut être représenté à entrées multiples qui sont (techniquement, de toute façon) en double et répétitives des mêmes dossiers.

De la même façon, lorsque les enregistrements en double ne contribuent pas de valeur à l'analyse et ne sont pas nécessaires, puis les enlever peuvent être d'une valeur inestimable. Cela est particulièrement vrai pour les grands ensembles de données où la suppression de doublons peut simplifier la complexité des données et de réduire le temps nécessaire à l'analyse.

Vous pouvez préventivement empêcher que des données incorrectes de pénétrer vos systèmes en adoptant certaines procédures spécifiques:

Institut contrôles et qualité des données de validation pour toutes les données recueillies.
Permettez à vos clients de valider et d'auto-corriger leurs données personnelles.
Offrez à vos clients avec des valeurs possibles et attendus à choisir.
Exécuter régulièrement des contrôles sur l'intégrité, la cohérence et l'exactitude des données.

A propos Auteur

Comment traiter les valeurs aberrantes causés par des erreurs dans le système

Lorsque vous comptez sur la technologie ou de l'instrumentation pour effectuer une tâche d'analyse prédictive, un pépin ici ou là peuvent causer ces instruments pour enregistrer les valeurs extrêmes ou inhabituelles. Si capteurs enregistrent…

Comment traiter les valeurs aberrantes causés par des forces extérieures

Soyez sûr que vous vérifiez soigneusement pour les valeurs aberrantes avant elles influencent votre analyse prédictive. Les valeurs aberrantes peuvent fausser les données et l'analyse des données. Par exemple, toute analyse statistique…

Comment décider de garder les valeurs aberrantes dans l'analyse prédictive

Décider d'inclure les valeurs aberrantes dans l'analyse - ou de les exclure - aura des implications pour votre modèle d'analyse prédictive. Garder les valeurs aberrantes dans le cadre des données dans votre analyse peut mener à un modèle qui…

Comment trouver la valeur dans vos données d'analyse prédictive

Tout voyage réussie exige une préparation sérieuse. Modèles d'analyse prédictive sont essentiellement une plongée en profondeur dans de grandes quantités de données. Si les données ne sont pas bien préparé, le modèle d'analyse…

Comment générer des données dérivées et de réduire sa dimension pour l'analyse prédictive

Dans cette phase de l'exploration de l'analyse prédictive, vous gagnerez une connaissance intime de vos données - qui à son tour vous aider à choisir les variables pertinentes à analyser. Cette compréhension vous aidera également à évaluer…

Comment garder prédictive des données d'analyse à jour

Après l'étape de chargement de Extract Transform Load, après que vous obtenez vos données dans cette base de données séparée, data mart, ou d'un entrepôt pour l'analyse, vous aurez besoin de conserver les données de sorte que les frais…

Comment décrire les données d'essais et de test pour l'analyse prédictive

Lorsque vos données est prêt et vous êtes sur le point de commencer à construire votre modèle prédictif pour l'analyse, il est utile de décrire votre méthodologie de test et de rédiger un plan de test. Le test doit être guidée par les…

Comment préparer les données pour un modèle d'analyse prédictive

Lorsque vous avez défini les objectifs du modèle pour l'analyse prédictive, la prochaine étape est d'identifier et de préparer les données que vous allez utiliser pour construire votre modèle. La séquence générale des mesures ressemble à…

Comment utiliser régressions linéaires dans l'analyse prédictive

Régression linéaire est une méthode statistique qui analyse et trouve les relations entre les deux variables. Dans l'analyse prédictive, il peut être utilisé pour prédire une valeur numérique d'une grandeur future.Prenons un exemple de…

Comment visualiser les résultats d'analyse de votre modèle: regroupements cachés, les classifications de données, et les valeurs aberrantes

Visualisation des résultats de votre analyse prédictive aide vraiment les parties prenantes à comprendre les prochaines étapes. Voici quelques façons d'utiliser des techniques de visualisation de rapporter les résultats de vos modèles pour…

Les valeurs manquantes dans vos données

L'un des problèmes de données les plus fréquentes et malpropres pour faire face à des données manquantes. Les fichiers peuvent être incomplètes parce que les dossiers ont été abandonnées ou un périphérique de stockage remplis. Ou…

Comment supprimer des lignes avec des données manquantes dans r

Une autre application utile de jeux partiels de trames de données est de trouver et de supprimer des lignes avec des données manquantes. La fonction R pour vérifier cela est (complete.cases). Vous pouvez essayer ce sur l'ensemble de données…

Comment les valeurs z sont utilisés dans les statistiques

Si un ensemble de données statistiques a une distribution normale, il est coutumier de normaliser toutes les données pour obtenir des scores classiques connues comme z-valeurs ou z-scores. La distribution de z-valeurs prend une distribution…

Comment traiter avec des données manquantes d'un essai clinique

La plupart des essais cliniques ont des données incomplètes pour une ou plusieurs variables, qui peut être un véritable casse-tête lors de l'analyse de vos données. Les aspects statistiques de données manquantes sont assez compliquées, donc…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment nettoyer les données pour l'analyse prédictive