Comment évaluer un modèle d'apprentissage sans surveillance avec des k-means

Après que vous avez choisi votre nombre de grappes pour l'analyse prédictive et avez mis en place l'algorithme pour remplir les clusters, vous avez un modèle prédictif. Vous pouvez faire des prédictions basées sur les nouvelles données entrantes en appelant le prédire fonction de l'instance de K-means et passant dans un tableau d'observations. Il ressemble à ceci:

>>> # Pour appeler la fonction prédire avec une seule observation >>> kmeans.predict ([5.1, 3.5, 1.4, 0.2]) Array ([1])

Quand le prédire fonction trouve le centre de l'amas que l'observation est plus proche de, il affiche l'indice de l'ensemble de ce centre de l'amas. Tableaux de Python sont indexés à 0 (ce qui est, le premier élément commence à 0). Observations plus proches d'un centre de l'amas seront regroupés dans ce cluster.

Dans cet exemple, l'algorithme k-means prédit que l'observation appartient à la classe 1 (Setosa dans ce cas) - une prédiction facile parce que la classe Setosa est linéairement séparables et loin des deux autres classes.

En outre, cet exemple comprend un peu la toute première observation de l'ensemble de données pour faire la prédiction vérifiable et facile à expliquer. Vous pouvez voir que les attributs de l'observation que nous essayons de prévoir sont très près du centre de la deuxième grappe (kmeans.cluster_centers_ [1]).

Pour voir les centres de cluster, tapez le code suivant:

>>> Kmeans.cluster_centers_array ([[5,9016129, 2,7483871, 4,39354839, 1,43387097], [5.006, 3.418, 1.464, 0.244], [6.85, 3,07368421, 5,74210526, 2,07105263]])

Pour voir les étiquettes de munitions que l'algorithme K-means produit, tapez le code suivant:

>>> Kmeans.labels_array ([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0,2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2,0, 2, 0, 2, 0, 2, 2, 0, 0, 2, 2, 2, 2, 2, 0, 2, 2,2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 0])

Vous pouvez également utiliser la prédire fonctionner pour évaluer un ensemble d'observations, comme indiqué ici:

>>> # Pour appeler la méthode prédire avec un ensemble de points de données >>> kmeans.predict ([[5.1, 3.5, 1.4, 0.2], [5.9, 3.0, 5.1, 1.8]]) Array ([1,0 ])

Bien que vous savez que la solution trois-cluster est techniquement correcte, ne soyez pas surpris si intuitivement la solution à deux-cluster semble chercher le meilleur. Si vous augmentez le nombre de grappes au-delà de trois ans, le taux de réussite de vos prédictions commence à se décomposer. Avec un peu de chance (et quelques devinettes instruits), vous aurez à choisir le meilleur nombre de clusters.

Considérons le processus que le mélange un peu de l'art avec la science. Même l'algorithme lui-même utilise aléatoire dans sa sélection des points de données initiales qu'il utilise pour commencer chaque grappe. Donc, même si vous êtes deviner, vous êtes en bonne compagnie.

L'évaluation de la performance d'un algorithme nécessite une étiquette qui représente le attendu valeur et un prédit la valeur à comparer avec. Rappelez-vous que lorsque vous appliquez un algorithme de clustering à un modèle d'apprentissage non supervisé, vous ne savez pas ce que les valeurs attendues sont - et vous ne donnez pas les étiquettes à l'algorithme de clustering.

L'algorithme met points de données en groupes sur la base des points de données qui sont similaires à l'autre- une différents points de données se retrouvent dans d'autres grappes. Pour l'ensemble de données Iris, K-means a pas de notion de Setosa, versicolor, ou Virginica classes- il ne sait qu'il est censé regrouper les données en trois groupes et de les nommer de façon aléatoire entre 0 et 2.

Le but de l'apprentissage non-supervisé est de trouver des relations significatives dans les données, de préférence où vous ne pouviez pas les voir autrement. Il est à vous de décider si ces relations sont une bonne base pour un aperçu des poursuites.

A propos Auteur

Comment créer un classement de r analyse prédictive modèle

Vous voulez créer un modèle d'analyse prédictive que vous puissiez évaluer en utilisant les résultats connus. Pour ce faire, diviser la graines ensemble de données en deux ensembles: l'un pour l'apprentissage du modèle et un pour tester le…

Comment créer un modèle d'apprentissage sans surveillance avec dbscan

Dbscan (Densité-Basé regroupement spatial des applications avec bruit) est un algorithme de clustering populaire utilisé comme une alternative à K-Means dans l'analyse prédictive. Il ne nécessite pas que vous entrez le nombre de grappes afin…

Comment créer un modèle d'analyse prédictive avec r régression

Vous voulez créer un modèle d'analyse prédictive que vous puissiez évaluer en utilisant les résultats connus. Pour ce faire, nous allons partager notre ensemble de données en deux ensembles: l'un pour l'apprentissage du modèle et un pour…

Comment créer un modèle d'apprentissage supervisé par régression logistique

Après vous construisez votre premier modèle prédictif de classification pour l'analyse des données, la création de plus de modèles comme il est une tâche très simples en scikit. La seule vraie différence d'un modèle à l'autre est que vous…

Comment charger des données dans un modèle d'apprentissage svm supervisé

Pour l'analyse prédictive, vous devez charger les données de vos algorithmes à utiliser. Chargement du jeu de données dans Iris scikit est aussi simple que la délivrance d'un couple de lignes de code, car scikit a déjà créé une fonction…

Comment préparer les données pour l'analyse prédictive

Quand vous apprenez un nouveau langage de programmation, il est de coutume d'écrire le “ Bonjour tout le monde ” programme. Pour l'apprentissage automatique et l'analyse prédictive, la création d'un modèle de classer l'ensemble de…

Comment faire pour exécuter les données d'essai et d'évaluer un modèle d'apprentissage supervisé svm

L'apprentissage supervisé est une tâche d'apprentissage qui apprend à la machine à partir de données d'analyse de prédiction qui ont été marqués. Une façon de penser à propos de l'apprentissage supervisé est que l'étiquetage des…

Comment faire pour exécuter les données de formation dans un modèle d'apprentissage supervisé svm

Avant que vous pouvez nourrir le classificateur Support Vector Machine (SVM) avec les données qui ont été chargés pour l'analyse prédictive, vous devez diviser l'ensemble de données complet en un ensemble de formation et un ensemble de…

Comment utiliser K-Means algorithmes de munitions dans l'analyse prédictive

K est une entrée à l'algorithme prédictif pour analyse- il représente le nombre de groupes que l'algorithme doit extraire à partir d'un ensemble de données, exprimée algébriquement comme k. Un algorithme K-means divise un ensemble de…

Comment utiliser mahout Apache pour l'analyse prédictive

Un outil open-source qui est uniquement utile dans l'analyse prédictive est Apache Mahout. Cette bibliothèque d'apprentissage comprend des versions à grande échelle de la classification, la classification, filtrage collaboratif, et d'autres…

Comment visualiser le classificateur dans un modèle d'apprentissage supervisé svm

L'ensemble de données Iris est pas facile à tracer pour l'analyse prédictive dans sa forme originale, parce que vous ne pouvez pas tracer les quatre coordonnées (des fonctions) de l'ensemble de données sur un écran en deux dimensions. Par…

Comment visualiser les grappes dans un k-means modèle de l'apprentissage non supervisé

L'ensemble de données Iris est pas facile à tracer pour l'analyse prédictive dans sa forme originale. Par conséquent, vous devez réduire le nombre de dimensions en appliquant une algorithme de réduction de dimensionnalité qui fonctionne sur…

Comment visualiser les résultats d'analyse de votre modèle: regroupements cachés, les classifications de données, et les valeurs aberrantes

Visualisation des résultats de votre analyse prédictive aide vraiment les parties prenantes à comprendre les prochaines étapes. Voici quelques façons d'utiliser des techniques de visualisation de rapporter les résultats de vos modèles pour…

L'exploration de données pour les données volumineuses

L'exploration de données consiste à explorer et d'analyser de grandes quantités de données pour trouver des modèles pour les grandes données. Les techniques sont sortis des domaines de la statistique et de l'intelligence artificielle (IA),…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment évaluer un modèle d'apprentissage sans surveillance avec des k-means