10 erreurs d'exploration de données communes (que vous ne pourrez pas faire)

L'exploration de données se fait par essais et erreurs, et donc, pour les mineurs de données, faire des erreurs est naturel. Les erreurs peuvent être utiles, en d'autres termes, au moins dans certaines conditions. Pas toutes les erreurs sont cependant créés égaux,. Certains sont juste mieux éviter. La liste suivante propose dix de ces erreurs. Si vous lisez attentivement, et engagez-les à la mémoire, vous pourriez éviter quelques bosses sur la courbe d'apprentissage:

  • Sauter des contrôles de qualité des données: La plupart des mineurs de données pensent développer des modèles prédictifs est plus amusant que l'examen des données pour des problèmes de qualité. Mais si vous ne parvenez pas à détecter et corriger les problèmes de qualité de données, vous pourriez vous retrouver avec des prévisions sans valeur.

  • Manquant le point: Vous avez découvert quelque chose de fascinant! Cela est bien, mais si il est pas aussi pertinente au problème de l'entreprise que vous vous apprêtez à résoudre, ainsi, il est pas du tout pertinent. Remettre sur les rails.

  • Estimant qu'un motif dans les données prouve une relation de cause à effet: Vous explorez un ensemble de données et remarquez que lorsque la variable augmente de A, B augmentations variables, aussi. Cela pourrait se produire parce variable Une influence variable B, ou parce que les influences variables B A. variable D'autre part, il se pourrait que les deux sont influencés par une autre variable que vous ne l'avez pas pris en considération. Ou peut-être une coïncidence seule fois. Qui peut dire?




  • Stretching conclusions trop loin: Ne présumez pas que les relations que vous observez dans les données se reproduiront dans des circonstances différentes. Si vos données ont été recueillies dans un environnement frais, ne présumez pas que les choses vont fonctionner de la même manière dans un réglage d'usine à chaud.

  • Les paris sur les résultats qui ne font pas de sens: Méthodes d'exploration de données sont informelles et ne sont généralement pas soutenu par la méthode scientifique et de la théorie, de sorte que vos résultats ont mieux faire au moins le sens des affaires. Si il n'y a pas d'explication de bon sens pour les résultats que vous présentez, votre direction ne sera probablement pas le prendre au sérieux, et ils ne devraient pas.

  • Tomber en amour avec une méthode de modélisation notamment: Il n'y a pas un seul type de modèle d'exploration de données qui correspond à chaque situation.

  • Mettre un modèle en production sans test adéquat: Ne misez pas votre entreprise sur un modèle prédictif jusqu'à ce que vous avez testé avec données d'exclusion et sur une petite échelle dans le domaine.

  • Ignorant les résultats ne vous plaît pas: Si vous ignorez vos données maintenant, il va revenir un jour et dire: «Je vous l'avais dit."

  • Utilisation de l'exploration de données pour répondre à tous les besoins d'analyse de données: L'exploration de données a une valeur énorme, mais certaines applications appellent encore des méthodes rigoureuses de collecte de données, l'analyse statistique formelle, et la méthode scientifique.

  • En supposant que les techniques traditionnelles d'analyse de données ne comptent plus: Reportez-vous à la balle précédente.


» » » » 10 erreurs d'exploration de données communes (que vous ne pourrez pas faire)