8 Meilleures pratiques dans la préparation des données

Des logiciels statistiques sont extrêmement puissants de nos jours, mais ils ne peuvent pas surmonter données de mauvaise qualité. Ce qui suit est une liste des choses que vous devez faire avant de vous rendre de bâtir des modèles statistiques.

Sommaire

Vérifiez les formats de données

Votre analyse commence toujours par un fichier de données brutes. Fichiers de données brutes dans de nombreuses formes et de tailles différentes. Données Mainframe est différent de celui des données du PC, les données de feuille de calcul est formaté différemment de données Web, et ainsi de suite. Et à l'ère de grands volumes de données, vous serez sûrement confrontés avec des données provenant de diverses sources. Votre première étape dans l'analyse de vos données est de vous pouvez lire les fichiers que vous avez donné.

Vous avez besoin de regarder ce que fait chaque champ contient. Par exemple, il est sage de ne pas croire que juste parce qu'un champ est répertorié comme un champ de caractères, il contient effectivement des données de caractères.

Vérifiez les types de données

Toutes les données tombe dans une des quatre catégories qui affectent ce genre de statistiques que vous pouvez appliquer de manière appropriée à elle:

  • Données nominale est essentiellement juste un nom ou un identificateur.

  • Données ordinale met enregistrements dans l'ordre du plus bas au plus élevé.

  • Données d'intervalle représente des valeurs où les différences entre eux sont comparables.

  • Ratio de données est comme données d'intervalle, sauf qu'il permet également une valeur de 0.

Il est important de comprendre quelles sont les catégories de vos données et ce, avant que vous le nourrir dans le logiciel statistique. Sinon, vous risquez de finir avec du charabia parfaitement raisonnable prospectifs.

Graphique de vos données




Avoir le sens de la façon dont vos données est distribué est important. Vous pouvez exécuter des procédures statistiques jusqu'à ce que vous êtes bleu dans le visage, mais aucun d'entre eux vous donnera autant de perspicacité dans ce que vos données ressemble comme un simple graphique.

Vérifier l'exactitude des données

Une fois que vous êtes à l'aise que les données sont formatées comme vous le souhaitez, vous avez encore besoin de vous assurer qu'il est exact et qu'il est logique. Cette étape nécessite que vous avez une certaine connaissance du domaine dans lequel vous travaillez.

Il n'y a pas vraiment une approche coupé et séché à la vérification de l'exactitude des données. L'idée de base est de formuler certaines propriétés que vous pensez que les données doivent présenter et de tester les données pour voir si ces propriétés détiennent. Les cours des actions sont toujours positifs? Ne tous les codes de produits correspondent à la liste de ceux valables? Essentiellement, vous êtes à essayer de comprendre si les données sont vraiment ce que vous avez dit qu'il est.

Identifier les valeurs aberrantes

Les valeurs aberrantes sont des points de données qui sont hors de contrôle avec le reste des données. Ils sont soit très grands ou très petits valeurs comparées avec le reste de l'ensemble de données.

Les valeurs aberrantes sont problématiques parce qu'ils peuvent compromettre sérieusement les statistiques et les méthodes statistiques. Une seule valeur aberrante peut avoir un énorme impact sur la valeur de la moyenne. Parce que la moyenne est censé représenter le centre de données, dans un sens, cette une valeur aberrante rend inutile la moyenne.

Lorsqu'ils sont confrontés à des valeurs aberrantes, la stratégie la plus courante consiste à les supprimer. Dans certains cas, cependant, vous voudrez peut-être en tenir compte. Dans ces cas, il est généralement souhaitable de faire votre analyse à deux reprises - une fois avec les valeurs aberrantes inclus et une fois avec les valeurs aberrantes exclus. Cela vous permet d'évaluer la méthode donne des résultats plus utiles.

Traiter avec les valeurs manquantes

Les valeurs manquantes sont l'un des problèmes de données les plus courantes (et ennuyeux) que vous rencontrerez. Votre premier réflexe serait de retirer les enregistrements avec des valeurs manquantes à partir de votre analyse. Le problème avec ceci est que les valeurs manquantes sont souvent non seulement aléatoires petits pépins de données.

Vérifiez vos hypothèses sur la façon dont les données sont distribuées

De nombreuses procédures statistiques dépendent de l'hypothèse selon laquelle les données sont distribuées d'une certaine manière. Si cette hypothèse ne parvient pas à être le cas, la précision de vos prédictions souffre.

L'hypothèse la plus courante pour les techniques de modélisation abordés dans ce livre est que les données sont normalement distribué.

Ou non. Dans les cas où les données ne sont distribués que vous en avez besoin pour être, tout est pas nécessairement perdu. Il existe une variété de façons de transformer les données pour obtenir la distribution dans la forme que vous en avez besoin.

Une des meilleures façons de vérifier l'exactitude d'un modèle statistique est de réellement tester contre les données une fois qu'il est construit. Une façon de le faire est de diviser de façon aléatoire votre ensemble de données dans deux fichiers. Vous pourriez appeler ces fichiers analyse et d'essai, respectivement.

Vous devez diviser les données de manière aléatoire pour être efficace. Vous ne pouvez pas simplement diviser l'ensemble de données dans la moitié supérieure et la moitié inférieure, par exemple. Presque tous les fichiers de données sont triées en quelque sorte - par date si rien d'autre. Cela introduit des modèles systématiques qui donneront différentes parties du fichier différentes propriétés statistiques. Lorsque vous divisez le fichier au hasard, vous donnez chaque enregistrement une chance égale d'être dans les deux fichiers. Métaphoriquement, vous lancer une pièce pour chaque enregistrement de décider quel fichier il va dans. Hasard donne deux fichiers les mêmes propriétés statistiques que les données originales.

Une fois que vous avez divisé l'ensemble de données, d'annuler le fichier de test. Ensuite, passez à construire votre modèle prédictif utilisant le fichier d'analyse. Une fois que le modèle est construit, l'appliquer au fichier de test et voir comment il le fait.

Test de modèles de cette manière permet de sauvegarde contre un phénomène connu sous le nom surajustement. Essentiellement, il est possible pour les procédures statistiques pour mémoriser le fichier de données plutôt que de découvrir des relations significatives entre les variables. Si sur-ajustement se produit, le modèle permettra de tester assez mal contre le fichier de test.

Sauvegardez et documenter tout ce que vous faites

Parce que le logiciel statistique est en train de devenir tellement simple à utiliser, il est un morceau de gâteau pour commencer à générer des rapports et des graphiques, pour ne pas mentionner les fichiers de données. Vous pouvez exécuter des procédures littéralement au toucher d'un bouton. Vous pouvez générer plusieurs dizaines de graphiques basés sur différentes transformations de données dans une affaire de quelques minutes. Cela le rend assez facile de perdre la trace de ce que vous avez fait, et pourquoi.

Il est important de vous assurer que vous gardez une trace écrite de ce que vous êtes à la hauteur. Les graphiques doivent être étiquetés avec le nom (et la version) des données qui a servi à les créer. Procédures statistiques que vous créez doivent être enregistrés et documentés.

Il est également important de sauvegarder vos fichiers de données. Au cours de votre analyse, vous devrez probablement créer plusieurs versions de vos données qui reflètent diverses corrections et la transformation de variables. Vous devez enregistrer les procédures qui ont créé ces versions. Ils devraient également être documentées d'une manière qui décrit ce que les transformations que vous avez fait et pourquoi.

La documentation est pas tâche préférée de quelqu'un, mais on parle d'expérience quand nous vous encourageons fortement à ne pas compter sur votre mémoire quand il vient à vos projets d'analyse.

En travaillant à travers les étapes à peine décrites, vous optimisez la fiabilité de vos modèles statistiques. Dans de nombreux cas, le travail de préparation est en fait plus de temps que la construction du modèle réel. Mais il est nécessaire. Et vous vous remercierez à la fin pour travailler à travers elle méthodiquement.


» » » » 8 Meilleures pratiques dans la préparation des données