Comment préparer les données pour l'analyse prédictive

Quand vous apprenez un nouveau langage de programmation, il est de coutume d'écrire le “ Bonjour tout le monde ” programme. Pour l'apprentissage automatique et l'analyse prédictive, la création d'un modèle de classer l'ensemble de données Iris est son “ Bonjour tout le monde ” programme équivalent. Ceci est un exemple assez simple, mais il est très efficace pour enseigner les bases de l'apprentissage automatique et l'analyse prédictive.

Sommaire

Comment obtenir l'échantillon de données,

Pour créer notre modèle prédictif, vous aurez besoin de télécharger l'échantillon Iris ensemble de données. Cette base de données est disponible gratuitement à partir de nombreuses sources, notamment dans les établissements universitaires qui offrent des services d'apprentissage automatique. Heureusement, les gens de sont assez agréables à inclure certains jeux de données d'échantillon et les fonctions de chargement de données avec leur paquet. Aux fins de ces exemples, vous aurez seulement besoin de lancer un couple de simples lignes de code pour charger les données.

Comment étiqueter vos données

Voici une observation et ses caractéristiques de chaque classe de l'ensemble de données Iris Flower.

Longueur des sépalesSépale LargeurPétale LongueurPétale LargeurClasse cible / Étiquette
5.13.51.40,2Setosa (0)
7.03.24.71.4Versicolor (1)
6.33.36.02.5Virginica (2)

L'ensemble de données Iris Flower est un jeu de données réelles multivariée de trois classes de la fleur d'iris (Iris setosa, Iris virginica, et Iris versicolor) Introduit par Ronald Fisher dans son article 1936, “. L'utilisation de multiples mesures dans Problèmes taxonomique ” Cette base de données est mieux connu pour son utilisation intensive dans le milieu universitaire pour l'apprentissage de la machine et des statistiques.




L'ensemble de données se compose de 150 cas au total, avec 50 cas de chacune des 3 classes de la fleur d'iris. L'échantillon a 4 fonctions (aussi communément appelés attributs), Qui sont des mesures de longueur et de largeur des sépales et les pétales.

La partie intéressante de ce jeu de données est que les trois classes sont un peu linéairement séparables. La Setosa classe peut être séparée des deux autres classes en traçant une ligne droite sur le graphique entre eux. La Virginica et Versicolor les classes ne peuvent pas être parfaitement séparés en utilisant une ligne droite - même si il est proche. Cela en fait un ensemble de données de candidat parfait pour faire une analyse de classification, mais pas si bon pour le clustering analyse.

Les données de l'échantillon a été déjà étiquetés. La colonne de droite (Label) ci-dessus montre les noms de chaque classe de la fleur d'iris. Le nom de classe est appelé étiquette ou un ciblage il est généralement attribué à une variable nommée y. Il est essentiellement le résultat ou le résultat de ce qui est prévu.

Dans les statistiques et la modélisation, il est souvent désigné comme le variable dépendante. Cela dépend des entrées qui correspondent à des sépales longueur et la largeur et de pétale longueur et la largeur.

Vous pouvez également vouloir savoir ce qui est différent au sujet de la scikit Iris ensemble de données prétraité, par rapport à l'ensemble de données d'origine. Pour le savoir, vous devez obtenir le fichier de données original. Vous pouvez faire une recherche Google pour iris données et le télécharger ou le voir sous tous l'une des institutions académiques.

Le résultat qui vient habituellement en premier est l'Université de Californie à Irvine de (UCI) référentiel d'apprentissage automatique des ensembles de données. L'ensemble de données Iris dans son état d'origine à partir du référentiel d'apprentissage automatique UCI peut être trouvé sur le site de l'UCI.

Si vous le téléchargez, vous devriez être capable de le voir avec un éditeur de texte. Après avoir vu les données dans le fichier, vous remarquerez qu'il ya cinq colonnes dans chaque rangée. Les quatre premières colonnes sont les mesures (dénommé Caractéristiques) Et la dernière colonne est l'étiquette. L'étiquette diffère entre l'original et scikit versions de l'ensemble de données Iris.

Une autre différence est la première ligne du fichier de données. Il comprend une rangée d'en-tête utilisé par le scikit la fonction de chargement de données. Il n'a aucun effet sur les algorithmes eux-mêmes.

La normalisation de fonctionnalités à des numéros plutôt que de les garder comme du texte, il est plus facile pour les algorithmes de processus - et il est beaucoup plus économe en mémoire. Cela est particulièrement évident si vous avez de très grands ensembles de données avec de nombreuses fonctionnalités - ce qui est souvent le cas dans des scénarios réels.

Voici des exemples de données des deux fichiers. Toutes les colonnes de données sont les mêmes à l'exception de Col5. Noter que scikit a de la classe avec des noms labels- numérique du fichier d'origine a des étiquettes de texte.

SourceCol1Col2Col3Col4Col5
scikit5.13.51.40,20
original5.13.51.40,2Iris setosa-
scikit7.03.24.71.41
original7.03.24.71.4Iris versicolor-
scikit6.33.36.02.52
original6.33.36.02.5Iris-virginica

» » » » Comment préparer les données pour l'analyse prédictive