Comment utiliser K-Means algorithmes de munitions dans l'analyse prédictive

K est une entrée à l'algorithme prédictif pour analyse- il représente le nombre de groupes que l'algorithme doit extraire à partir d'un ensemble de données, exprimée algébriquement comme k. Un algorithme K-means divise un ensemble de données en k grappes. L'algorithme effectue les opérations suivantes:

  1. Choisissez k éléments aléatoires de l'ensemble de données et de les étiqueter en tant que représentants de la grappe.

  2. Associer chaque élément restant dans l'ensemble de données représentant le plus proche de la grappe, en utilisant une distance euclidienne calculée par une fonction de similitude.

  3. Recalculer les représentants des nouvelles grappes.

  4. Répétez les étapes 2 et 3 jusqu'à ce que les grappes ne changent pas.

Un représentant d'un cluster est la mathématique signifier (moyenne) de tous les éléments qui appartiennent au même groupe. Ce représentant est également appelé barycentre grappe. Par exemple, examiner trois articles de l'ensemble des données des fruits où

Type 1 correspond à la banane.
Type 2 correspond à des pommes.
Couleur 2 correspond au jaune.
Couleur 3 correspond au vert.

En supposant que ces éléments sont affectés au même groupe, le centre de gravité de ces trois éléments est calculé.

ItemFeature # 1 TypeFeature # 2 couleurFeature # 3 Poids (onces)
1125.33
2239.33
3122.1

Voici les calculs d'un représentant de la grappe de trois éléments qui appartiennent au même cluster. Le représentant de la grappe est un vecteur de trois attributs. Ses attributs sont la moyenne des attributs des éléments de la grappe en question.

ItemFeature # 1 TypeFeature # 2 couleurFeature # 3 Poids (onces)
1125.33
2239.33
3122.1
Représentant de cluster (Vecteur Centroid)(1 + 2 + 1) /3=1.33(2 + 3 + 2) /3=2.33(5,33 + 9,33 32,1) / 3 = 3

L'ensemble de données montré suivante consiste Notes de deux produits, A et B. sept clients du classement représente le nombre de points (entre 0 et 10) que chaque client a donné à un produit - le plus de points donnés, plus le produit est classé.




L'utilisation d'un algorithme K-means et en supposant que k est égal à 2, l'ensemble de données est partitionné en deux groupes. Le reste de la procédure ressemble à ceci:

  1. Choisissez deux éléments aléatoires de l'ensemble de données et de les étiqueter en tant que représentants de la grappe.

    Le tableau suivant montre l'étape initiale de sélection des centres de gravité aléatoires à partir duquel le K-Means processus de regroupement commence. Les premiers centres de gravité sont choisis au hasard à partir des données que vous êtes sur le point d'analyse. Dans ce cas, vous êtes à la recherche pour les deux groupes, de sorte que deux éléments de données sont choisis au hasard: Les clients 1 et 5.

    Dans un premier temps, le processus de regroupement construit deux grappes autour de ces deux initiales (choisis au hasard) les représentants de groupes. Ensuite, les représentants du cluster sont recalculated- le calcul est basé sur les éléments de chaque cluster.

    N ° de clientÉvaluations des clients du produit AÉvaluations des clients du produit B
    122
    234
    368
    4710
    51014
    6910
    779
  2. Inspectez tous les autres éléments (client) et l'affecter à la représentante de la grappe à laquelle il est le plus semblable.

    Utilisez le Distance euclidienne pour calculer le degré de similitude est un élément d'un groupe d'éléments:

    Similarité de l'article I du Cluster X = sqrt {{{ left ({{f_1} - {x 1}} right)} ^ 2} + {{ left ({{f_2} - {x 2}} right) } ^ 2} + cdots + {{ left ({{f_n} - {}} x_n right)} ^ 2}}

    Les valeurs {} f_1, - {} F_2, - ldots, - {} f_n sont les valeurs numériques des caractéristiques qui décrivent l'article en question. Les valeurs {} X_1, - {} X_2, - ldots, - {} x_n sont les caractéristiques (valeurs moyennes) du représentant du cluster (centre de gravité), en supposant que chaque élément a n Caractéristiques.

    Par exemple, considérez l'élément appelé Client 2 (3, 4): La cote de la clientèle pour le produit A était de 3 et la cote de produit B était 4. La fonction de représentant de la grappe est (2, 2). La similarité des clients 2 à une grappe est calculé comme suit:

    Similarité de l'article 2 de Cluster 1 = sqrt {{{ left ({3 - 2} right)} ^ 2} + {{ left ({4 - 2} right)} ^ 2}} = 2.23

    Voici ce que le même processus ressemble avec Cluster 2:

    Similarité de l'article 2 de Cluster 2 = sqrt {{{ left ({3 - 10} right)} ^ 2} + {{ left ({4 - 14} right)} ^ 2}} = 12.20

    En comparant ces résultats, vous affectez l'article 2 (qui est, le client 2) pour le groupe 1, parce que les chiffres disent Point 2 est plus semblable à la classe 1.

  3. Appliquer la même analyse de similarité à chaque autre élément dans l'ensemble de données.

    Chaque fois qu'un nouveau membre se joint à un cluster, vous devez recalculer le représentant de cluster.

    Cela représente les résultats de la première itération de l'algorithme K-moyenne. Notez que k est égal à 2, de sorte que vous êtes à la recherche pour les deux groupes, qui divise un ensemble de clients en deux groupes significatifs. Chaque client est analysé séparément et est affecté à l'un des groupes sur la base de la similitude du client à chacun des représentants de groupes actuels.

  4. Itérer l'ensemble de données à nouveau, en passant par tous les compute element- la similitude entre chaque élément et son représentant actuel des clusters.

    Notez que la clientèle est passée de 3 Cluster 1 à 2. Ce cluster est parce que la distance de la clientèle 3 au représentant de cluster de Cluster 2 est plus proche que le représentant de l'ensemble de Cluster 1.

    Représentant de cluster (Vecteur Centroid)
    Cluster 1N ° de client n ° 1 (2, 2)
    Cluster 2N ° de client # 5 (10,14)
    Itération # 1Cluster à la clientèle 1Cluster client 2
    Client à examinerID de clients appartenant à Groupe 1Représentant ClusterID de clients appartenant à Groupe 1Représentant Cluster
    1(2, 2)5(10, 14)
    21, 2(2,4, 3)5(10, 14)
    31, 2, 3(3.6, 4.6)5(10, 14)
    41, 2, 3(3.6, 4.6)4, 5(8,4, 12)
    61, 2, 3(3.6, 4.6)4, 5, 6(8.6, 11.4)
    71, 2, 3(3.6, 4.6)4, 5, 6, 7(8,2, 10,8)

Voici une seconde itération de K-means sur les données des clients. Chaque client est ré-analysé. Client 2 est affecté à la classe 1, car la clientèle 2 est plus proche de la représentante du Groupe 1 de Cluster 2. Le même scénario applique à la clientèle 4. Notez que d'un représentant de la grappe est recalculé à chaque fois qu'un nouveau membre est affecté à un cluster.

Itération # 2Cluster à la clientèle 1Cluster client 2
Client à examinerID de clients appartenant à Groupe 1Représentant ClusterID de clients appartenant à Groupe 2Représentant Cluster
11(3.6, 4.6)5(8,2, 10,8)
21, 2(5,2, 3)5(8,2, 10,8)
31, 2(5,2, 3)5,3(7.8, 10.2)
41, 2(5,2, 3)4, 5.3(7.8, 10.2)
61, 2(5,2, 3)4, 5, 6,3(7.8, 10.2)
71, 2(5,2, 3)3, 4, 5, 6, 7(7.8, 10.2)

» » » » Comment utiliser K-Means algorithmes de munitions dans l'analyse prédictive