Comment créer et exécuter un modèle d'apprentissage non supervisé de faire des prédictions avec k-means

L'algorithme K-means nécessite un paramètre d'initialisation de l'utilisateur afin de créer une instance pour l'analyse prédictive. Il a besoin de savoir combien de K groupes à utiliser pour effectuer son travail.

Longueur des sépales	Sépale Largeur	Pétale Longueur	Pétale Largeur	Classe cible / Étiquette
5.1	3.5	1.4	0,2	Setosa (0)
7.0	3.2	4.7	1.4	Versicolor (1)
6.3	3.3	6.0	2.5	Virginica (2)

Puisque vous utilisez l'ensemble de données Iris, vous savez déjà qu'il dispose de trois pôles. L'ensemble de données Iris dispose de trois classes de la fleur d'iris (Setosa, versicolor et virginica). En général, lorsque vous créez une tâche d'apprentissage sans surveillance avec un algorithme de clustering, vous ne savez pas combien de grappes de préciser.

Certains algorithmes sont disponibles que d'essayer de déterminer le meilleur nombre de clusters, mais leurs résultats peuvent être douteuse. Une méthode de telles itération d'une gamme de clusters et puis sélectionne un nombre de grappes qui correspond le mieux à ses critères mathématiques. Cette approche nécessite de lourds calculs, peut prendre un certain temps, et peuvent toujours pas produire le meilleur K (nombre de clusters).

La meilleure façon d'obtenir des résultats immédiats est de faire une supposition éclairée sur le nombre de grappes à utiliser - baser votre estimation sur les fonctionnalités présentes dans les données (si l'une ou plusieurs caractéristiques), ou sur une autre connaissance des données que vous pouvez avoir de l'expert de domaine de l'entreprise.

Cette retomber sur des conjectures (conjecture même instruite) constitue une limitation majeure des k-moyennes algorithme.

Pour créer une instance des k-moyennes algorithme et exécuter les données à travers elle, tapez le code suivant dans l'interpréteur.

>>> From KMeans d'importation sklearn.cluster >>> kmeans = KMeans (n_clusters = 3, random_state = 111) >>> kmeans.fit (iris.data)

La première ligne de code importe la bibliothèque KMeans dans la session. La deuxième ligne crée le modèle et la stocke dans une variable nommée kmeans. Le modèle est créé avec le nombre de grappes fixé à 3. La troisième ligne correspond au modèle aux données Iris.

L'ajustement du modèle est la partie centrale de l'algorithme, où il va produire les trois groupes avec l'ensemble de données et de construire une fonction mathématique qui décrit la ligne ou une courbe qui correspond le mieux les données. Pour voir les grappes que l'algorithme produit, tapez le code suivant.

>>> Kmeans.labels_

La sortie devrait ressembler à ceci:

array ([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1, 1, 1, 1, 1, 1, 1 , 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 , 1, 0,0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0 , 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 , 0, 2, 0,2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2,0, 2, 0, 2, 0 , 2, 2, 0, 0, 2, 2, 2, 2, 2, 0, 2, 2,2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2 , 0])

Ceci est la façon dont l'algorithme K-means étiquettes les données comme appartenant à grappes, sans intervention de l'utilisateur sur les valeurs cibles. Voici la seule chose que K-means savaient ce que vous les avez fournies: le nombre de grappes. Ce résultat montre comment l'algorithme considéré les données, et ce qu'il a appris sur les relations des éléments de données à l'autre - d'où le terme apprentissage non supervisé.

Vous pouvez voir tout de suite que certains des points de données ont été mal étiquetés. Vous savez, à partir de l'ensemble de données Iris, ce que les valeurs cibles devraient être:

Les 50 premières observations doivent être étiquetés de la même (comme 1s dans ce cas).
Cette gamme est connu sous le nom Setosa classe.
Observations 51 à 100 devraient être étiquetés de la même (comme des 0 dans ce cas).
Cette gamme est connu sous le nom Classe versicolor.
Observations 101 à 150 devraient être étiquetés de la même (comme 2s dans ce cas).
Cette gamme est connu sous le nom Classe Virginica.

Il n'a pas d'importance si K-means étiquetés chaque série de 50 avec un 0, 1 ou 2. Tant que chaque série de 50 a la même étiquette, il prédit avec exactitude les résultats. Il est à vous de donner à chaque groupe un nom et de trouver un sens dans chaque grappe.

Si vous exécutez l'algorithme K-means nouveau, il peut produire un nombre tout à fait différente pour chaque ensemble de 50 - mais le sens en serait de même pour chaque ensemble (classe).

Vous pouvez créer un modèle K-means qui peut générer le même résultat à chaque fois en passant le random_state paramètre avec une valeur de départ fixe à la fonction qui crée le modèle. L'algorithme dépend aléatoire pour initialiser les centres de cluster.

Fournir une valeur de départ fixe enlève le caractère aléatoire. Cela dit essentiellement K-means pour sélectionner les mêmes points de données initiales pour initialiser les centres de cluster, chaque fois que vous exécutez l'algorithme. Il est possible d'obtenir un résultat différent en retirant le random_state paramètre de la fonction.

A propos Auteur

Comment créer un modèle d'analyse prédictive avec r régression

Vous voulez créer un modèle d'analyse prédictive que vous puissiez évaluer en utilisant les résultats connus. Pour ce faire, nous allons partager notre ensemble de données en deux ensembles: l'un pour l'apprentissage du modèle et un pour…

Comment créer un modèle d'apprentissage supervisé par régression logistique

Après vous construisez votre premier modèle prédictif de classification pour l'analyse des données, la création de plus de modèles comme il est une tâche très simples en scikit. La seule vraie différence d'un modèle à l'autre est que vous…

Comment évaluer un modèle d'apprentissage sans surveillance avec des k-means

Après que vous avez choisi votre nombre de grappes pour l'analyse prédictive et avez mis en place l'algorithme pour remplir les clusters, vous avez un modèle prédictif. Vous pouvez faire des prédictions basées sur les nouvelles données…

Comment charger des données dans un modèle d'apprentissage svm supervisé

Pour l'analyse prédictive, vous devez charger les données de vos algorithmes à utiliser. Chargement du jeu de données dans Iris scikit est aussi simple que la délivrance d'un couple de lignes de code, car scikit a déjà créé une fonction…

Comment préparer les données pour l'analyse prédictive

Quand vous apprenez un nouveau langage de programmation, il est de coutume d'écrire le “ Bonjour tout le monde ” programme. Pour l'apprentissage automatique et l'analyse prédictive, la création d'un modèle de classer l'ensemble de…

Comment faire pour exécuter les données d'essai et d'évaluer un modèle d'apprentissage supervisé svm

L'apprentissage supervisé est une tâche d'apprentissage qui apprend à la machine à partir de données d'analyse de prédiction qui ont été marqués. Une façon de penser à propos de l'apprentissage supervisé est que l'étiquetage des…

Comment faire pour exécuter les données de formation dans un modèle d'apprentissage supervisé svm

Avant que vous pouvez nourrir le classificateur Support Vector Machine (SVM) avec les données qui ont été chargés pour l'analyse prédictive, vous devez diviser l'ensemble de données complet en un ensemble de formation et un ensemble de…

Comment utiliser K-Means algorithmes de munitions dans l'analyse prédictive

K est une entrée à l'algorithme prédictif pour analyse- il représente le nombre de groupes que l'algorithme doit extraire à partir d'un ensemble de données, exprimée algébriquement comme k. Un algorithme K-means divise un ensemble de…

Comment utiliser mahout Apache pour l'analyse prédictive

Un outil open-source qui est uniquement utile dans l'analyse prédictive est Apache Mahout. Cette bibliothèque d'apprentissage comprend des versions à grande échelle de la classification, la classification, filtrage collaboratif, et d'autres…

Comment visualiser le classificateur dans un modèle d'apprentissage supervisé svm

L'ensemble de données Iris est pas facile à tracer pour l'analyse prédictive dans sa forme originale, parce que vous ne pouvez pas tracer les quatre coordonnées (des fonctions) de l'ensemble de données sur un écran en deux dimensions. Par…

Comment visualiser les grappes dans un k-means modèle de l'apprentissage non supervisé

L'ensemble de données Iris est pas facile à tracer pour l'analyse prédictive dans sa forme originale. Par conséquent, vous devez réduire le nombre de dimensions en appliquant une algorithme de réduction de dimensionnalité qui fonctionne sur…

Comment visualiser les résultats d'analyse de votre modèle: regroupements cachés, les classifications de données, et les valeurs aberrantes

Visualisation des résultats de votre analyse prédictive aide vraiment les parties prenantes à comprendre les prochaines étapes. Voici quelques façons d'utiliser des techniques de visualisation de rapporter les résultats de vos modèles pour…

Comment prélever des échantillons à partir des données r

Statisticiens doivent souvent prendre des échantillons de données, puis calculer les statistiques. Prendre un échantillon est facile avec R, car un échantillon est vraiment rien de plus qu'un sous-ensemble de données. Pour ce faire, vous faites…

Objets de sous-ensembles de r

Vecteurs, des listes et des trames de données jouent un rôle important dans la représentation de données en R, afin d'être en mesure de préciser succinctement et correctement un sous-ensemble de vos données est importante.Il existe trois…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment créer et exécuter un modèle d'apprentissage non supervisé de faire des prédictions avec k-means