Comment préparer les données pour l'analyse prédictive

Quand vous apprenez un nouveau langage de programmation, il est de coutume d'écrire le “ Bonjour tout le monde ” programme. Pour l'apprentissage automatique et l'analyse prédictive, la création d'un modèle de classer l'ensemble de données Iris est son “ Bonjour tout le monde ” programme équivalent. Ceci est un exemple assez simple, mais il est très efficace pour enseigner les bases de l'apprentissage automatique et l'analyse prédictive.

Sommaire

Comment obtenir l'échantillon de données,
Comment étiqueter vos données

Comment obtenir l'échantillon de données,

Pour créer notre modèle prédictif, vous aurez besoin de télécharger l'échantillon Iris ensemble de données. Cette base de données est disponible gratuitement à partir de nombreuses sources, notamment dans les établissements universitaires qui offrent des services d'apprentissage automatique. Heureusement, les gens de sont assez agréables à inclure certains jeux de données d'échantillon et les fonctions de chargement de données avec leur paquet. Aux fins de ces exemples, vous aurez seulement besoin de lancer un couple de simples lignes de code pour charger les données.

Comment étiqueter vos données

Voici une observation et ses caractéristiques de chaque classe de l'ensemble de données Iris Flower.

Longueur des sépales	Sépale Largeur	Pétale Longueur	Pétale Largeur	Classe cible / Étiquette
5.1	3.5	1.4	0,2	Setosa (0)
7.0	3.2	4.7	1.4	Versicolor (1)
6.3	3.3	6.0	2.5	Virginica (2)

L'ensemble de données Iris Flower est un jeu de données réelles multivariée de trois classes de la fleur d'iris (Iris setosa, Iris virginica, et Iris versicolor) Introduit par Ronald Fisher dans son article 1936, “. L'utilisation de multiples mesures dans Problèmes taxonomique ” Cette base de données est mieux connu pour son utilisation intensive dans le milieu universitaire pour l'apprentissage de la machine et des statistiques.

L'ensemble de données se compose de 150 cas au total, avec 50 cas de chacune des 3 classes de la fleur d'iris. L'échantillon a 4 fonctions (aussi communément appelés attributs), Qui sont des mesures de longueur et de largeur des sépales et les pétales.

La partie intéressante de ce jeu de données est que les trois classes sont un peu linéairement séparables. La Setosa classe peut être séparée des deux autres classes en traçant une ligne droite sur le graphique entre eux. La Virginica et Versicolor les classes ne peuvent pas être parfaitement séparés en utilisant une ligne droite - même si il est proche. Cela en fait un ensemble de données de candidat parfait pour faire une analyse de classification, mais pas si bon pour le clustering analyse.

Les données de l'échantillon a été déjà étiquetés. La colonne de droite (Label) ci-dessus montre les noms de chaque classe de la fleur d'iris. Le nom de classe est appelé étiquette ou un ciblage il est généralement attribué à une variable nommée y. Il est essentiellement le résultat ou le résultat de ce qui est prévu.

Dans les statistiques et la modélisation, il est souvent désigné comme le variable dépendante. Cela dépend des entrées qui correspondent à des sépales longueur et la largeur et de pétale longueur et la largeur.

Vous pouvez également vouloir savoir ce qui est différent au sujet de la scikit Iris ensemble de données prétraité, par rapport à l'ensemble de données d'origine. Pour le savoir, vous devez obtenir le fichier de données original. Vous pouvez faire une recherche Google pour iris données et le télécharger ou le voir sous tous l'une des institutions académiques.

Le résultat qui vient habituellement en premier est l'Université de Californie à Irvine de (UCI) référentiel d'apprentissage automatique des ensembles de données. L'ensemble de données Iris dans son état d'origine à partir du référentiel d'apprentissage automatique UCI peut être trouvé sur le site de l'UCI.

Si vous le téléchargez, vous devriez être capable de le voir avec un éditeur de texte. Après avoir vu les données dans le fichier, vous remarquerez qu'il ya cinq colonnes dans chaque rangée. Les quatre premières colonnes sont les mesures (dénommé Caractéristiques) Et la dernière colonne est l'étiquette. L'étiquette diffère entre l'original et scikit versions de l'ensemble de données Iris.

Une autre différence est la première ligne du fichier de données. Il comprend une rangée d'en-tête utilisé par le scikit la fonction de chargement de données. Il n'a aucun effet sur les algorithmes eux-mêmes.

La normalisation de fonctionnalités à des numéros plutôt que de les garder comme du texte, il est plus facile pour les algorithmes de processus - et il est beaucoup plus économe en mémoire. Cela est particulièrement évident si vous avez de très grands ensembles de données avec de nombreuses fonctionnalités - ce qui est souvent le cas dans des scénarios réels.

Voici des exemples de données des deux fichiers. Toutes les colonnes de données sont les mêmes à l'exception de Col5. Noter que scikit a de la classe avec des noms labels- numérique du fichier d'origine a des étiquettes de texte.

Source	Col1	Col2	Col3	Col4	Col5
scikit	5.1	3.5	1.4	0,2	0
original	5.1	3.5	1.4	0,2	Iris setosa-
scikit	7.0	3.2	4.7	1.4	1
original	7.0	3.2	4.7	1.4	Iris versicolor-
scikit	6.3	3.3	6.0	2.5	2
original	6.3	3.3	6.0	2.5	Iris-virginica

A propos Auteur

Comment charger les données dans un classement de r analyse prédictive modèle

L'ensemble de données que nous analysons de faire une prédiction sur le jeu de données sur les semences, qui peut être trouvé à l'apprentissage automatique référentiel UCI. Cette base de données dispose de 210 observations et 7 attributs…

Comment faire pour exécuter les données d'essai et d'évaluer un modèle d'apprentissage supervisé svm

L'apprentissage supervisé est une tâche d'apprentissage qui apprend à la machine à partir de données d'analyse de prédiction qui ont été marqués. Une façon de penser à propos de l'apprentissage supervisé est que l'étiquetage des…

Comment faire pour exécuter les données de formation dans un modèle d'apprentissage supervisé svm

Avant que vous pouvez nourrir le classificateur Support Vector Machine (SVM) avec les données qui ont été chargés pour l'analyse prédictive, vous devez diviser l'ensemble de données complet en un ensemble de formation et un ensemble de…

Comment visualiser le classificateur dans un modèle d'apprentissage supervisé svm

L'ensemble de données Iris est pas facile à tracer pour l'analyse prédictive dans sa forme originale, parce que vous ne pouvez pas tracer les quatre coordonnées (des fonctions) de l'ensemble de données sur un écran en deux dimensions. Par…

Comment visualiser les grappes dans un k-means modèle de l'apprentissage non supervisé

L'ensemble de données Iris est pas facile à tracer pour l'analyse prédictive dans sa forme originale. Par conséquent, vous devez réduire le nombre de dimensions en appliquant une algorithme de réduction de dimensionnalité qui fonctionne sur…

Comment ajouter des champs calculés à données dans r

Après avoir créé le sous-ensemble approprié de vos données, la prochaine étape de votre analyse est susceptible d'être effectuer quelques calculs avec R.Comment faire de l'arithmétique sur les colonnes d'une trame de donnéesR rend très…

Comment ajouter des lignes et des colonnes totaux dans r

Une tâche que vous pouvez souvent faire dans une feuille de calcul que vous pouvez aussi le faire en R calcule ligne ou de colonne totaux. La meilleure façon de le faire est d'utiliser les fonctions (rowSums) et colSums ().De même, utiliser les…

Comment calculer les corrélations de données dans r

La quantité dans laquelle deux variables de données varient ensemble peut être décrite par le Coefficient de corrélation. Dans R, vous obtenez les corrélations entre un ensemble de variables très facilement en utilisant le cor () fonction. Il…

Comment obtenir vos données sur r

Pour la même raison qu'il est pratique pour importer des données dans R utilisant CSV (comma-separated values) des fichiers, il est également pratique pour exporter les résultats de R à d'autres applications au format CSV. Pour créer un…

Comment manipuler des fichiers dans r

Parfois, vous pouvez écrire un script dans R qui va traverser un dossier donné et effectuer des actions sur toutes les données dans les fichiers ou un sous-ensemble des fichiers dans ce dossier.Pour obtenir une liste des fichiers dans un dossier…

Comment supprimer les données en double dans r

Une application très utile de sous-ensembles de données est de trouver et supprimer les valeurs en double. R comporte une fonction utile, dupliqué (), qui trouve des valeurs dupliquées et renvoie un vecteur logique qui vous indique si la valeur…

Comment au sous-ensemble des trames de données dans r

Maintenant que vous avez examiné les règles pour la création de sous-ensembles, vous pouvez l'essayer avec quelques trames de données dans R. Vous avez juste à rappeler que une trame de données est un objet bidimensionnel et contient des…

Comment suivre les corrélations de données dans r

Statisticiens aiment quand ils peuvent lier une variable de données à l'autre. R peut aider à trouver cette relation. Lumière du soleil, par exemple, est préjudiciable à jupes: Le plus le soleil brille, les jupes plus courtes deviennent.…

Objets de sous-ensembles de r

Vecteurs, des listes et des trames de données jouent un rôle important dans la représentation de données en R, afin d'être en mesure de préciser succinctement et correctement un sous-ensemble de vos données est importante.Il existe trois…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment préparer les données pour l'analyse prédictive