Comment utiliser K-Means algorithmes de munitions dans l'analyse prédictive

K est une entrée à l'algorithme prédictif pour analyse- il représente le nombre de groupes que l'algorithme doit extraire à partir d'un ensemble de données, exprimée algébriquement comme k. Un algorithme K-means divise un ensemble de données en k grappes. L'algorithme effectue les opérations suivantes:

Choisissez k éléments aléatoires de l'ensemble de données et de les étiqueter en tant que représentants de la grappe.
Associer chaque élément restant dans l'ensemble de données représentant le plus proche de la grappe, en utilisant une distance euclidienne calculée par une fonction de similitude.
Recalculer les représentants des nouvelles grappes.
Répétez les étapes 2 et 3 jusqu'à ce que les grappes ne changent pas.

Un représentant d'un cluster est la mathématique signifier (moyenne) de tous les éléments qui appartiennent au même groupe. Ce représentant est également appelé barycentre grappe. Par exemple, examiner trois articles de l'ensemble des données des fruits où

Type 1 correspond à la banane.

Type 2 correspond à des pommes.

Couleur 2 correspond au jaune.

Couleur 3 correspond au vert.

En supposant que ces éléments sont affectés au même groupe, le centre de gravité de ces trois éléments est calculé.

Item	Feature # 1 Type	Feature # 2 couleur	Feature # 3 Poids (onces)
1	1	2	5.33
2	2	3	9.33
3	1	2	2.1

Voici les calculs d'un représentant de la grappe de trois éléments qui appartiennent au même cluster. Le représentant de la grappe est un vecteur de trois attributs. Ses attributs sont la moyenne des attributs des éléments de la grappe en question.

Item	Feature # 1 Type	Feature # 2 couleur	Feature # 3 Poids (onces)
1	1	2	5.33
2	2	3	9.33
3	1	2	2.1
Représentant de cluster (Vecteur Centroid)	(1 + 2 + 1) /3=1.33	(2 + 3 + 2) /3=2.33	(5,33 + 9,33 32,1) / 3 = 3

L'ensemble de données montré suivante consiste Notes de deux produits, A et B. sept clients du classement représente le nombre de points (entre 0 et 10) que chaque client a donné à un produit - le plus de points donnés, plus le produit est classé.

L'utilisation d'un algorithme K-means et en supposant que k est égal à 2, l'ensemble de données est partitionné en deux groupes. Le reste de la procédure ressemble à ceci:

Choisissez deux éléments aléatoires de l'ensemble de données et de les étiqueter en tant que représentants de la grappe.
Le tableau suivant montre l'étape initiale de sélection des centres de gravité aléatoires à partir duquel le K-Means processus de regroupement commence. Les premiers centres de gravité sont choisis au hasard à partir des données que vous êtes sur le point d'analyse. Dans ce cas, vous êtes à la recherche pour les deux groupes, de sorte que deux éléments de données sont choisis au hasard: Les clients 1 et 5.
Dans un premier temps, le processus de regroupement construit deux grappes autour de ces deux initiales (choisis au hasard) les représentants de groupes. Ensuite, les représentants du cluster sont recalculated- le calcul est basé sur les éléments de chaque cluster.
N ° de client Évaluations des clients du produit A Évaluations des clients du produit B
1 2 2
2 3 4
3 6 8
4 7 10
5 10 14
6 9 10
7 7 9
Inspectez tous les autres éléments (client) et l'affecter à la représentante de la grappe à laquelle il est le plus semblable.
Utilisez le Distance euclidienne pour calculer le degré de similitude est un élément d'un groupe d'éléments:
Similarité de l'article I du Cluster X = sqrt {{{ left ({{f_1} - {x 1}} right)} ^ 2} + {{ left ({{f_2} - {x 2}} right) } ^ 2} + cdots + {{ left ({{f_n} - {}} x_n right)} ^ 2}}
Les valeurs {} f_1, - {} F_2, - ldots, - {} f_n sont les valeurs numériques des caractéristiques qui décrivent l'article en question. Les valeurs {} X_1, - {} X_2, - ldots, - {} x_n sont les caractéristiques (valeurs moyennes) du représentant du cluster (centre de gravité), en supposant que chaque élément a n Caractéristiques.
Par exemple, considérez l'élément appelé Client 2 (3, 4): La cote de la clientèle pour le produit A était de 3 et la cote de produit B était 4. La fonction de représentant de la grappe est (2, 2). La similarité des clients 2 à une grappe est calculé comme suit:
Similarité de l'article 2 de Cluster 1 = sqrt {{{ left ({3 - 2} right)} ^ 2} + {{ left ({4 - 2} right)} ^ 2}} = 2.23
Voici ce que le même processus ressemble avec Cluster 2:
Similarité de l'article 2 de Cluster 2 = sqrt {{{ left ({3 - 10} right)} ^ 2} + {{ left ({4 - 14} right)} ^ 2}} = 12.20
En comparant ces résultats, vous affectez l'article 2 (qui est, le client 2) pour le groupe 1, parce que les chiffres disent Point 2 est plus semblable à la classe 1.
Appliquer la même analyse de similarité à chaque autre élément dans l'ensemble de données.
Chaque fois qu'un nouveau membre se joint à un cluster, vous devez recalculer le représentant de cluster.
Cela représente les résultats de la première itération de l'algorithme K-moyenne. Notez que k est égal à 2, de sorte que vous êtes à la recherche pour les deux groupes, qui divise un ensemble de clients en deux groupes significatifs. Chaque client est analysé séparément et est affecté à l'un des groupes sur la base de la similitude du client à chacun des représentants de groupes actuels.

N ° de client	Évaluations des clients du produit A	Évaluations des clients du produit B
1	2	2
2	3	4
3	6	8
4	7	10
5	10	14
6	9	10
7	7	9

Itérer l'ensemble de données à nouveau, en passant par tous les compute element- la similitude entre chaque élément et son représentant actuel des clusters.

Notez que la clientèle est passée de 3 Cluster 1 à 2. Ce cluster est parce que la distance de la clientèle 3 au représentant de cluster de Cluster 2 est plus proche que le représentant de l'ensemble de Cluster 1.

Représentant de cluster (Vecteur Centroid)

Cluster 1	N ° de client n ° 1 (2, 2)
Cluster 2	N ° de client # 5 (10,14)

Itération # 1	Cluster à la clientèle 1	Cluster client 2
Client à examiner	ID de clients appartenant à Groupe 1	Représentant Cluster	ID de clients appartenant à Groupe 1	Représentant Cluster

1	(2, 2)	5	(10, 14)
2	1, 2	(2,4, 3)	5	(10, 14)
3	1, 2, 3	(3.6, 4.6)	5	(10, 14)
4	1, 2, 3	(3.6, 4.6)	4, 5	(8,4, 12)
6	1, 2, 3	(3.6, 4.6)	4, 5, 6	(8.6, 11.4)
7	1, 2, 3	(3.6, 4.6)	4, 5, 6, 7	(8,2, 10,8)

Voici une seconde itération de K-means sur les données des clients. Chaque client est ré-analysé. Client 2 est affecté à la classe 1, car la clientèle 2 est plus proche de la représentante du Groupe 1 de Cluster 2. Le même scénario applique à la clientèle 4. Notez que d'un représentant de la grappe est recalculé à chaque fois qu'un nouveau membre est affecté à un cluster.

Client à examiner	ID de clients appartenant à Groupe 1	Représentant Cluster	ID de clients appartenant à Groupe 2	Représentant Cluster
Itération # 2	Cluster à la clientèle 1		Cluster client 2
1	1	(3.6, 4.6)	5	(8,2, 10,8)
2	1, 2	(5,2, 3)	5	(8,2, 10,8)
3	1, 2	(5,2, 3)	5,3	(7.8, 10.2)
4	1, 2	(5,2, 3)	4, 5.3	(7.8, 10.2)
6	1, 2	(5,2, 3)	4, 5, 6,3	(7.8, 10.2)
7	1, 2	(5,2, 3)	3, 4, 5, 6, 7	(7.8, 10.2)

A propos Auteur

Système de fichiers distribué Hadoop (HDFS des) pour les grands projets de données

Le système de fichiers distribués Hadoop est un résilient approche polyvalente, cluster à la gestion des fichiers dans un environnement grand de données. HDFS est pas la destination finale pour les fichiers. Au contraire, il est un service de…

Comment choisir une architecture de cluster hadoop

Hadoop est conçu pour être déployé sur une grande grappe d'ordinateurs en réseau, avec des nœuds maîtres (qui accueillent les services qui contrôlent le stockage et le traitement de Hadoop) et nœuds esclaves (où les données sont stockées…

Gestion des clés dans nosql

Capacités de lecture rapide de clé-valeur magasins découlent de leur utilisation de clés bien définis. Ces touches sont généralement hachés, qui donne un magasin clé-valeur d'une manière très prévisible de déterminer quelle partition…

Réseautage et grappes Hadoop

Comme pour tout système distribué, le réseautage peut faire ou défaire un cluster Hadoop: Ne pas “ aller pas cher ”. Une grande partie de bavardage a lieu entre les nœuds maîtres et nœuds esclaves dans un cluster Hadoop qui est…

Notions de base de clusters de données dans l'analyse prédictive

UN dataset (ou collecte de données) est un ensemble d'éléments dans l'analyse prédictive. Par exemple, un ensemble de documents est un ensemble de données où les éléments de données sont des documents. Un ensemble d'information sociale…

Notions de base de K-moyens et des modèles de clustering dbscan pour l'analyse prédictive

Apprentissage non supervisé a de nombreux défis pour l'analyse prédictive - y compris de ne pas savoir à quoi vous attendre lorsque vous exécutez un algorithme. Chaque algorithme va produire sur les résultats différent, vous ne serez jamais…

Comment regrouper par plus proches voisins dans l'analyse prédictive

Les voisins les plus proches est un algorithme simple largement utilisé dans l'analyse prédictive pour regrouper les données en attribuant un point à un cluster en déterminant ce que les autres éléments sont le plus semblable à lui. Une…

Comment créer et exécuter un modèle d'apprentissage non supervisé de faire des prédictions avec k-means

L'algorithme K-means nécessite un paramètre d'initialisation de l'utilisateur afin de créer une instance pour l'analyse prédictive. Il a besoin de savoir combien de K groupes à utiliser pour effectuer son travail.Longueur des sépalesSépale…

Comment créer un modèle d'apprentissage sans surveillance avec dbscan

Dbscan (Densité-Basé regroupement spatial des applications avec bruit) est un algorithme de clustering populaire utilisé comme une alternative à K-Means dans l'analyse prédictive. Il ne nécessite pas que vous entrez le nombre de grappes afin…

Comment évaluer un modèle d'apprentissage sans surveillance avec des k-means

Après que vous avez choisi votre nombre de grappes pour l'analyse prédictive et avez mis en place l'algorithme pour remplir les clusters, vous avez un modèle prédictif. Vous pouvez faire des prédictions basées sur les nouvelles données…

Comment utiliser mahout Apache pour l'analyse prédictive

Un outil open-source qui est uniquement utile dans l'analyse prédictive est Apache Mahout. Cette bibliothèque d'apprentissage comprend des versions à grande échelle de la classification, la classification, filtrage collaboratif, et d'autres…

Comment visualiser les grappes dans un k-means modèle de l'apprentissage non supervisé

L'ensemble de données Iris est pas facile à tracer pour l'analyse prédictive dans sa forme originale. Par conséquent, vous devez réduire le nombre de dimensions en appliquant une algorithme de réduction de dimensionnalité qui fonctionne sur…

Comment visualiser les résultats d'analyse de votre modèle: regroupements cachés, les classifications de données, et les valeurs aberrantes

Visualisation des résultats de votre analyse prédictive aide vraiment les parties prenantes à comprendre les prochaines étapes. Voici quelques façons d'utiliser des techniques de visualisation de rapporter les résultats de vos modèles pour…

Comment crocheter un point de cluster

Un cluster (pas d'abréviation) est un ensemble de points de suture au crochet que vous travaillez dans un nombre égal de points et se rejoignent (ou clusters) en haut, formant une forme de triangle qui ressemble à une coquille maille à l'envers.…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment utiliser K-Means algorithmes de munitions dans l'analyse prédictive