L'exploration de données pour les nuls
Mineur de données pionnières Thomas Khabaza développé ses «Neuf lois de Data Mining" pour guider les nouveaux explorateurs de données comme ils se mettent au travail. Ce guide de référence vous montre ce que chacune de ces lois signifie pour votre travail quotidien.
1ère loi de Data Mining, ou «Objectifs de Droit des affaires": Objectifs d'affaires sont à l'origine de chaque solution d'exploration de données.
Un mineur de données est quelqu'un qui découvre des informations utiles à partir de données pour soutenir les objectifs d'affaires spécifiques. L'exploration de données est pas définie par la outil que vous utilisez.
2ème loi de Data Mining, ou «loi de connaissances d'entreprise": Connaissance d'affaires est au cœur de chaque étape du processus d'exploration de données.
Vous n'êtes pas obligé d'être un statisticien de fantaisie de faire l'exploration de données, mais vous devez savoir quelque chose sur ce que le signifie de données et comment l'entreprise fonctionne.
3ème loi de Data Mining ou «loi Préparation des données": La préparation des données est plus de la moitié de tous les processus d'exploration de données.
Quasiment chaque mineur de données va passer plus de temps sur la préparation des données que sur une analyse.
Loi 4 Data Mining, ou "No Free Lunch pour le Data Miner": Le modèle approprié pour une application donnée ne peut être découvert par l'expérience.
Dans l'exploration de données, des modèles sont choisis par essai et erreur.
5ème droit de Data Mining: Il ya toujours des tendances dans les données.
Comme un mineur de données, vous explorez les données à la recherche de modèles utiles. La compréhension des régularités dans les données vous permet d'influencer ce qui se passe dans le futur.
Loi de Data Mining, ou "loi Insight" 6ème: L'exploration de données amplifie la perception dans le domaine des affaires.
Méthodes d'extraction des données vous permettent de comprendre mieux votre entreprise que vous auriez pu faire sans eux.
7ème loi du Data Mining ou «loi de prédiction": Prédiction augmente informations localement par la généralisation.
L'exploration de données nous aide à utiliser ce que nous savons faire de meilleures prédictions (ou des estimations) de choses que nous ne connaissons pas.
Loi de Data Mining, ou "loi Value" 8: La valeur des résultats d'exploration de données ne soit pas déterminée par la précision ou la stabilité des modèles prédictifs.
Votre modèle doit produire de bonnes prédictions, constamment. C'est tout.
Loi de Data Mining, ou «loi du changement" 9: Tous les modèles sont sujets à changement.
Tout modèle qui vous donne de grandes prédictions aujourd'hui peut être demain inutile.
Phases du processus de Data Mining
La Cross-Industry Standard Process for Data Mining (CRISP-DM) Est le cadre dominant du processus de data mining. Il est un quelqu'un normalisation ouverte peut l'utiliser. La liste suivante décrit les différentes phases du processus.
La compréhension de l'activité: Obtenez une compréhension claire du problème que vous êtes hors de résoudre, comment elle influence votre organisation, et vos objectifs pour y faire face. Les tâches de cette phase comprennent:
Identification de vos objectifs d'affaires
Évaluer votre situation
Définir vos objectifs d'exploration de données
Produire votre plan de projet
Compréhension des données: Passez en revue les données que vous avez, documenter, d'identifier la gestion des données et les problèmes de qualité de données. Tâches pour cette phase comprennent:
Rassembler des données
Décrivant
Exploration
Vérification de la qualité
La préparation des données: Obtenez vos données prête à l'emploi pour la modélisation. Tâches pour cette phase comprennent:
Sélection des données
Nettoyage des données
Construire
Intégrer
Formatage
Modélisation: Utilisez des techniques mathématiques pour identifier les tendances au sein de vos données. Tâches pour cette phase comprennent:
Sélection techniques
Tests de Design
Modèles de construction
Evaluation des modèles
Évaluation: Passez en revue les modèles que vous avez découverts et évaluer leur potentiel pour une utilisation professionnelle. Tâches pour cette phase comprennent:
L'évaluation des résultats
Revoir le processus
Déterminer les prochaines étapes
Déploiement: Mettez vos découvertes à travailler dans les affaires courantes. Tâches pour cette phase comprennent:
Le déploiement de la planification (vos méthodes d'intégration des découvertes d'exploration de données en usage)
La présentation des résultats finaux
Revoir les résultats finaux
A propos Auteur
Gérer la portée d'un projet d'exploration de données Il n'y a pas que de vos propres intérêts qui peuvent causer la portée d'un projet d'agrandissement. Lorsque vous travaillez, vous aurez des discussions avec des collègues, et ils vont tous avoir des idées et des questions à inspirer plus…
La phase 1 du modèle de processus croquants dm: la compréhension de l'entreprise La Cross-Industry Standard Process for Data Mining (CRISP-DM) Est le cadre de processus dominant pour l'extraction de données. Dans la première phase d'un projet d'exploration de données, avant de vous approcher des données ou des outils, vous…
Comment garder prédictive des données d'analyse à jour Après l'étape de chargement de Extract Transform Load, après que vous obtenez vos données dans cette base de données séparée, data mart, ou d'un entrepôt pour l'analyse, vous aurez besoin de conserver les données de sorte que les frais…
L'exploration de données pour les données volumineuses L'exploration de données consiste à explorer et d'analyser de grandes quantités de données pour trouver des modèles pour les grandes données. Les techniques sont sortis des domaines de la statistique et de l'intelligence artificielle (IA),…
L'exploration de données pour l'entreposage de données À certains moments, l'exploration de données pour l'entreposage de données ne sont pas mélangés avec les autres formes de business intelligence. Ce manque d'intégration se produit pour deux raisons:Les utilisateurs professionnels ne disposent…
Marts de données provenant d'un entrepôt de données De nombreux experts de l'entreposage de données feraient valoir qu'une véritable data mart est un point de vente, n ° 148; et d'un entrepôt de données fournit son contenu, comme le montre cette figure.Dans un environnement comme celui…
Les sources de données et des outils de business intelligence pour entrepôt de données suprême En raison de la vaste gamme de domaines dans un entrepôt de données suprême, il a de nombreuses sources de données. Les bonnes nouvelles: Parce que beaucoup de sources externes à votre propre environnement d'entreposage, vous n'êtes pas…
Entrepôt de données: flux de données source Un entrepôt de données est, par sa nature même, un magasin physique de données distribuée. Répartition de vos actifs informationnels aide à la performance et la convivialité entre les systèmes et dans toute l'entreprise. Faire ce niveau de…
Meilleures pratiques pour grande intégration de données Beaucoup d'entreprises explorent de gros problèmes de données et à venir avec des solutions innovantes. Il est maintenant temps de prêter attention à un certain les meilleures pratiques, ou principes de base, qui vous servira ainsi que vous…
La gestion des données d'entreprise et de grands volumes de données Gestion des données de l'entreprise (GED) est un processus important dans les grandes données pour comprendre et contrôler l'économie des données de votre entreprise ou organisation. Bien que EDM est pas nécessaire pour les grandes données,…
Jeter les bases de votre stratégie Big Data Entreprises nagent dans les grandes données. Le problème est que souvent ils ne savent pas comment l'utiliser de manière pragmatique que les données pour être en mesure de prédire l'avenir, exécuter des processus d'affaires importants, ou…
10 erreurs d'exploration de données communes (que vous ne pourrez pas faire) L'exploration de données se fait par essais et erreurs, et donc, pour les mineurs de données, faire des erreurs est naturel. Les erreurs peuvent être utiles, en d'autres termes, au moins dans certaines conditions. Pas toutes les erreurs sont…
Les phases du processus de data mining La Cross-Industry Standard Process for Data Mining (CRISP-DM) Est le cadre dominant du processus de data mining. Il est un quelqu'un normalisation ouverte peut l'utiliser. La liste suivante décrit les différentes phases du processus.La…
Les 9 lois de l'exploration de données: un guide de référence Mineur de données pionnières Thomas Khabaza développé ses «Neuf lois de Data Mining" pour guider les nouveaux explorateurs de données comme ils se mettent au travail. Ce guide de référence vous montre ce que chacune de ces lois signifie…