Comment regrouper par plus proches voisins dans l'analyse prédictive

Les voisins les plus proches est un algorithme simple largement utilisé dans l'analyse prédictive pour regrouper les données en attribuant un point à un cluster en déterminant ce que les autres éléments sont le plus semblable à lui. Une utilisation typique de l'algorithme des plus proches voisins suit ces étapes:

  1. Dériver une matrice de similarité des objets dans le jeu de données.

    Cette matrice, dénommée matrice de distances, tiendra les valeurs de similarité pour chaque élément dans l'ensemble de données. (Ces valeurs sont développés en détail dans l'exemple suivant.)

  2. Avec la matrice en place, de comparer chaque élément de l'ensemble de données à tous les autres éléments et de calculer la valeur de similitude.

  3. Utilisation de la matrice de distance, d'examiner chaque article pour voir si la distance à ses voisins est inférieure à une valeur que vous avez défini.

    Cette valeur est appelée le seuil.

  4. L'algorithme met chaque élément dans un groupe distinct, analyse les articles, et décide quels éléments sont similaires, et ajoute des éléments similaires à la même grappe.

  5. L'algorithme arrête lorsque tous les éléments ont été examinés.

Considérons, un ensemble de données de huit emplacements géographiques où vivent les individus. Le but est de diviser ces personnes en groupes en fonction de leurs emplacements géographiques, tel que déterminé par le Global Positioning System.

Ce graphique montre d'un simple jeu de données de données géographiques des individus. Supposons que toutes les données recueillies sur ces huit individus ont été recueillies à un moment précis dans le temps.

ID personneGPS - Longitude géographiqueGPS - Latitude géographique
1210
225
384
458
575
664
712
849



Comme avec K-means, la première pré-étape consiste à calculer les valeurs de similarité pour chaque paire d'individus. Une façon de calculer une similitude entre deux points consiste à déterminer la distance euclidienne. La valeur de similarité entre deux points est calculé comme indiqué plus haut.

Similitude entre Point A et B = Point

# 8730- (fa, 1 - Fb, 1) 2 + (Fun, deux - Fb, 2) 2+ # 133- + (fun - Fb, n) 2

Voici fa, 1 est le premier long métrage du point A, fun, deux est le second long métrage du point A, et les valeurs correspondantes étiqueté b représenter les caractéristiques de l'article B. La variable n est le nombre de fonctionnalités. Dans cet exemple, n est égal à 2. Par exemple, la similitude entre l'article 1 et 2 de l'article est calculée comme suit:

Similitude entre articles 1 et 2 = # 8730- (02/02)2 +(10-5) 2 = 5

Sur la base de cette mesure de similarité entre les éléments, vous pouvez utiliser l'algorithme du plus proche voisin pour extraire des clusters de l'ensemble de données d'emplacements géographiques.

La première étape est de placer l'individu dont l'ID est 1, la longitude est 2, et la latitude est de 10 dans le cluster C1. Ensuite, passer par tous les individus restants Computing façon similaire chacun est à l'individu en C1.

Si la similitude entre individuelle 1 et une autre personne X est inférieur à 4,5, puis individuelle X se joindra C1- sinon vous créer un nouveau cluster pour accueillir individuelle X.

Le tableau suivant montre les similitudes et les relations numériques entre individus 1 à 8. La similitude de ces éléments de données est calculée comme une distance euclidienne.

Les personnes ayant des valeurs de similarité proche de 0 ont une plus grande similitude. La moitié de la matrice est rempli parce que pas la matrice est symétrique.

Individuel # 1Individuel # 2Individuel # 3Individuel # 4Individuel # 5Individuel # 6Individuel # 7Individuel # 8
Individuel # 10563.67.077.218,0622.23
Individuel # 206.84.2454.123.164.47
Individuel # 3051.411.417,286,40
Individuel # 403.314.127.211.41
Individuel # 501.416,705
Individuel # 605,385,38
Individuel # 707.61
Individuel # 80

Vous avez attribué individuelle 1 pour le premier groupe (C1). La similitude entre 1 et individuelle individuelle 2 est égal à 5, qui est supérieure à la valeur de seuil de 4,5. Un nouveau cluster est généré - et individuelle 2 appartient. A ce stade, vous avez deux pôles d'un point chacun: C1 = {1} individuel et C2 = {2} individuel.

Déplacement de la mise au point individuelle 3, vous trouvez que la similitude entre 3 et individuelle individuelle 2 1 est supérieure à la valeur de seuil de 4,5. Ainsi vous affectez individuelle 3 à un nouveau cluster contenant un élément: C3 = {3} individuel.

Déménagement à Personnalisé 4, vous calculez combien similaire individuelle 4 personnes est de 1, 2, et 3. Le plus proche (plus similaire) à Personnalisé 4 arrive à être individuelle 1. La similitude entre 4 et 1 est d'environ 3,6, ce qui est inférieur la valeur de seuil de 4,5.

Individuel 4 jointures individuelle 1 en cluster C1.

Suivante consiste à examiner individuelle 5 et calculer combien il est similaire aux particuliers 1, 2, 3 et 4. L'élément le plus proche en distance (plus similaire) à 5 individuel est individuel 3. La similitude est # 8730-2, qui est inférieure à la valeur de seuil de 4,5. Ainsi individuelle 5 rejoint C3.

Lorsque vous examinez individuelle 6 et calculer combien il est similaire aux particuliers 1, 2, 3, 4, et 5, vous découvrez que Individuel 3 est le plus proche (plus similaire) à 6. Ainsi individuelle individuelle 6 jointures C3.

Lorsque vous examinez individuelle 7 et de calculer combien il est similaire aux particuliers 1, 2, 3, 4, 5, et 6, vous trouvez que le (plus similaire) à l'article 7 individuel le plus proche est individuel 2. Ainsi individuelle 7 jointures C2.

Lorsque vous examinez individuelle 8, et de calculer sa ressemblance aux particuliers 1, 2, 3, 4, et 5, vous trouvez que le (plus similaire) à l'article 8 individuelle la plus proche est individuelle 4. Ainsi individuelle 8 jointures C1.

Les grappes construits jusqu'ici, contenant des articles les plus semblables les uns aux autres, sont

C1 = {individuelle 1, 4 individuel, individuel 8}
C2 = {individuelle 2, individuelle 7}
C3 = {individuelle 3, 5 individuel, individuel 6}

» » » » Comment regrouper par plus proches voisins dans l'analyse prédictive