10 erreurs d'exploration de données communes (que vous ne pourrez pas faire)
L'exploration de données se fait par essais et erreurs, et donc, pour les mineurs de données, faire des erreurs est naturel. Les erreurs peuvent être utiles, en d'autres termes, au moins dans certaines conditions. Pas toutes les erreurs sont cependant créés égaux,. Certains sont juste mieux éviter. La liste suivante propose dix de ces erreurs. Si vous lisez attentivement, et engagez-les à la mémoire, vous pourriez éviter quelques bosses sur la courbe d'apprentissage:
Sauter des contrôles de qualité des données: La plupart des mineurs de données pensent développer des modèles prédictifs est plus amusant que l'examen des données pour des problèmes de qualité. Mais si vous ne parvenez pas à détecter et corriger les problèmes de qualité de données, vous pourriez vous retrouver avec des prévisions sans valeur.
Manquant le point: Vous avez découvert quelque chose de fascinant! Cela est bien, mais si il est pas aussi pertinente au problème de l'entreprise que vous vous apprêtez à résoudre, ainsi, il est pas du tout pertinent. Remettre sur les rails.
Estimant qu'un motif dans les données prouve une relation de cause à effet: Vous explorez un ensemble de données et remarquez que lorsque la variable augmente de A, B augmentations variables, aussi. Cela pourrait se produire parce variable Une influence variable B, ou parce que les influences variables B A. variable D'autre part, il se pourrait que les deux sont influencés par une autre variable que vous ne l'avez pas pris en considération. Ou peut-être une coïncidence seule fois. Qui peut dire?
Stretching conclusions trop loin: Ne présumez pas que les relations que vous observez dans les données se reproduiront dans des circonstances différentes. Si vos données ont été recueillies dans un environnement frais, ne présumez pas que les choses vont fonctionner de la même manière dans un réglage d'usine à chaud.
Les paris sur les résultats qui ne font pas de sens: Méthodes d'exploration de données sont informelles et ne sont généralement pas soutenu par la méthode scientifique et de la théorie, de sorte que vos résultats ont mieux faire au moins le sens des affaires. Si il n'y a pas d'explication de bon sens pour les résultats que vous présentez, votre direction ne sera probablement pas le prendre au sérieux, et ils ne devraient pas.
Tomber en amour avec une méthode de modélisation notamment: Il n'y a pas un seul type de modèle d'exploration de données qui correspond à chaque situation.
Mettre un modèle en production sans test adéquat: Ne misez pas votre entreprise sur un modèle prédictif jusqu'à ce que vous avez testé avec données d'exclusion et sur une petite échelle dans le domaine.
Ignorant les résultats ne vous plaît pas: Si vous ignorez vos données maintenant, il va revenir un jour et dire: «Je vous l'avais dit."
Utilisation de l'exploration de données pour répondre à tous les besoins d'analyse de données: L'exploration de données a une valeur énorme, mais certaines applications appellent encore des méthodes rigoureuses de collecte de données, l'analyse statistique formelle, et la méthode scientifique.
En supposant que les techniques traditionnelles d'analyse de données ne comptent plus: Reportez-vous à la balle précédente.
A propos Auteur
Comment utiliser l'analyse supervisées pour former des modèles prédictifs Dans Analytics supervisées, l'entrée et la sortie préférée font partie des données de formation. Le modèle d'analyse prédictive est présenté avec les résultats corrects dans le cadre de son processus d'apprentissage. Un tel apprentissage…
Mines vos données en utilisant la science des données À l'ère de grands volumes de données, il semble que les organisations de toutes formes et tailles sont en quête d'embauche. Ils veulent embaucher des scientifiques de données afin qu'ils puissent utiliser les données et la prise de décision…
L'exploration de données pour l'entreposage de données À certains moments, l'exploration de données pour l'entreposage de données ne sont pas mélangés avec les autres formes de business intelligence. Ce manque d'intégration se produit pour deux raisons:Les utilisateurs professionnels ne disposent…
L'entreposage de données: ce qui est un atout de données? UN entrepôt de données est une maison pour vos données de grande valeur, ou actifs de données, qui provient d'autres applications de l'entreprise, tels que celui de votre entreprise utilise pour remplir les commandes des clients pour ses…
L'avenir des entrepôts de données à l'époque grand de données Le marché de l'entrepôt de données a en effet commencé à changer et à évoluer avec l'avènement de grands volumes de données. Dans le passé, il était tout simplement pas rentable pour les entreprises de stocker la quantité massive de…
Comment corriger les erreurs de lecture de données dans r Probablement erreurs les plus courantes en R sont faites lors de la lecture des données à partir de fichiers texte à l'aide read.table () ou read.csv (). Beaucoup d'erreurs entraînent des erreurs R de lancement, mais parfois vous remarquez que…
Analyser les données statistiques à deux variables sur la TI-83 Plus La calculatrice TI-83 Plus peut effectuer une analyse statistique à une et à deux variables données. Pour les deux variables d'analyse de données, la variable de données pour la première liste de données est désignée par X et la variable de…
Déterminer le rôle de variables dans les statistiques de la psychologie Dans les statistiques de la psychologie, les études de recherche qui impliquent la collecte des données quantitatives (toutes les données qui peut être compté ou rendu sous forme de nombres) exigent habituellement que vous récupériez et…
La collecte et la validation des données d'études cliniques Si le formulaire de rapport de cas (CRF) a été soigneusement conçu et logiquement, d'entrer les données de chaque sujet au bon endroit sur la CRF devrait être simple. Ensuite, vous avez besoin pour obtenir ces données dans un ordinateur pour…
Comment traiter avec des données manquantes d'un essai clinique La plupart des essais cliniques ont des données incomplètes pour une ou plusieurs variables, qui peut être un véritable casse-tête lors de l'analyse de vos données. Les aspects statistiques de données manquantes sont assez compliquées, donc…
L'exploration de données pour les nuls Mineur de données pionnières Thomas Khabaza développé ses «Neuf lois de Data Mining" pour guider les nouveaux explorateurs de données comme ils se mettent au travail. Ce guide de référence vous montre ce que chacune de ces lois signifie…
Maîtriser votre trousse à outils d'exploration de données Un très grand nombre de mineurs de données comptent exclusivement sur les un petit sac de trucs d'exploration de données qu'ils ont appris il ya des années et ne pas investir régulièrement du temps à ajouter de nouvelles compétences à…
Les phases du processus de data mining La Cross-Industry Standard Process for Data Mining (CRISP-DM) Est le cadre dominant du processus de data mining. Il est un quelqu'un normalisation ouverte peut l'utiliser. La liste suivante décrit les différentes phases du processus.La…
Les 9 lois de l'exploration de données: un guide de référence Mineur de données pionnières Thomas Khabaza développé ses «Neuf lois de Data Mining" pour guider les nouveaux explorateurs de données comme ils se mettent au travail. Ce guide de référence vous montre ce que chacune de ces lois signifie…