Comment regrouper par plus proches voisins dans l'analyse prédictive

Les voisins les plus proches est un algorithme simple largement utilisé dans l'analyse prédictive pour regrouper les données en attribuant un point à un cluster en déterminant ce que les autres éléments sont le plus semblable à lui. Une utilisation typique de l'algorithme des plus proches voisins suit ces étapes:

Dériver une matrice de similarité des objets dans le jeu de données.
Cette matrice, dénommée matrice de distances, tiendra les valeurs de similarité pour chaque élément dans l'ensemble de données. (Ces valeurs sont développés en détail dans l'exemple suivant.)
Avec la matrice en place, de comparer chaque élément de l'ensemble de données à tous les autres éléments et de calculer la valeur de similitude.
Utilisation de la matrice de distance, d'examiner chaque article pour voir si la distance à ses voisins est inférieure à une valeur que vous avez défini.
Cette valeur est appelée le seuil.
L'algorithme met chaque élément dans un groupe distinct, analyse les articles, et décide quels éléments sont similaires, et ajoute des éléments similaires à la même grappe.
L'algorithme arrête lorsque tous les éléments ont été examinés.

Considérons, un ensemble de données de huit emplacements géographiques où vivent les individus. Le but est de diviser ces personnes en groupes en fonction de leurs emplacements géographiques, tel que déterminé par le Global Positioning System.

Ce graphique montre d'un simple jeu de données de données géographiques des individus. Supposons que toutes les données recueillies sur ces huit individus ont été recueillies à un moment précis dans le temps.

ID personne	GPS - Longitude géographique	GPS - Latitude géographique
1	2	10
2	2	5
3	8	4
4	5	8
5	7	5
6	6	4
7	1	2
8	4	9

Comme avec K-means, la première pré-étape consiste à calculer les valeurs de similarité pour chaque paire d'individus. Une façon de calculer une similitude entre deux points consiste à déterminer la distance euclidienne. La valeur de similarité entre deux points est calculé comme indiqué plus haut.

Similitude entre Point A et B = Point

# 8730- (f_{a, 1} - F_{b, 1})² + (F_{un, deux} - F_{b, 2})²+ # 133- + (f_un - F_{b, n})²

Voici f_{a, 1} est le premier long métrage du point A, f_{un, deux} est le second long métrage du point A, et les valeurs correspondantes étiqueté b représenter les caractéristiques de l'article B. La variable n est le nombre de fonctionnalités. Dans cet exemple, n est égal à 2. Par exemple, la similitude entre l'article 1 et 2 de l'article est calculée comme suit:

Similitude entre articles 1 et 2 = # 8730- (02/02)² +(10-5)²= 5

Sur la base de cette mesure de similarité entre les éléments, vous pouvez utiliser l'algorithme du plus proche voisin pour extraire des clusters de l'ensemble de données d'emplacements géographiques.

La première étape est de placer l'individu dont l'ID est 1, la longitude est 2, et la latitude est de 10 dans le cluster C1. Ensuite, passer par tous les individus restants Computing façon similaire chacun est à l'individu en C1.

Si la similitude entre individuelle 1 et une autre personne X est inférieur à 4,5, puis individuelle X se joindra C1- sinon vous créer un nouveau cluster pour accueillir individuelle X.

Le tableau suivant montre les similitudes et les relations numériques entre individus 1 à 8. La similitude de ces éléments de données est calculée comme une distance euclidienne.

Les personnes ayant des valeurs de similarité proche de 0 ont une plus grande similitude. La moitié de la matrice est rempli parce que pas la matrice est symétrique.

Individuel # 1	Individuel # 2	Individuel # 3	Individuel # 4	Individuel # 5	Individuel # 6	Individuel # 7	Individuel # 8

Individuel # 1	0	5	6	3.6	7.07	7.21	8,062	2.23
Individuel # 2		0	6.8	4.24	5	4.12	3.16	4.47
Individuel # 3			0	5	1.41	1.41	7,28	6,40
Individuel # 4				0	3.31	4.12	7.21	1.41
Individuel # 5					0	1.41	6,70	5
Individuel # 6						0	5,38	5,38
Individuel # 7							0	7.61
Individuel # 8								0

Vous avez attribué individuelle 1 pour le premier groupe (C1). La similitude entre 1 et individuelle individuelle 2 est égal à 5, qui est supérieure à la valeur de seuil de 4,5. Un nouveau cluster est généré - et individuelle 2 appartient. A ce stade, vous avez deux pôles d'un point chacun: C1 = {1} individuel et C2 = {2} individuel.

Déplacement de la mise au point individuelle 3, vous trouvez que la similitude entre 3 et individuelle individuelle 2 1 est supérieure à la valeur de seuil de 4,5. Ainsi vous affectez individuelle 3 à un nouveau cluster contenant un élément: C3 = {3} individuel.

Déménagement à Personnalisé 4, vous calculez combien similaire individuelle 4 personnes est de 1, 2, et 3. Le plus proche (plus similaire) à Personnalisé 4 arrive à être individuelle 1. La similitude entre 4 et 1 est d'environ 3,6, ce qui est inférieur la valeur de seuil de 4,5.

Individuel 4 jointures individuelle 1 en cluster C1.

Suivante consiste à examiner individuelle 5 et calculer combien il est similaire aux particuliers 1, 2, 3 et 4. L'élément le plus proche en distance (plus similaire) à 5 individuel est individuel 3. La similitude est # 8730-2, qui est inférieure à la valeur de seuil de 4,5. Ainsi individuelle 5 rejoint C3.

Lorsque vous examinez individuelle 6 et calculer combien il est similaire aux particuliers 1, 2, 3, 4, et 5, vous découvrez que Individuel 3 est le plus proche (plus similaire) à 6. Ainsi individuelle individuelle 6 jointures C3.

Lorsque vous examinez individuelle 7 et de calculer combien il est similaire aux particuliers 1, 2, 3, 4, 5, et 6, vous trouvez que le (plus similaire) à l'article 7 individuel le plus proche est individuel 2. Ainsi individuelle 7 jointures C2.

Lorsque vous examinez individuelle 8, et de calculer sa ressemblance aux particuliers 1, 2, 3, 4, et 5, vous trouvez que le (plus similaire) à l'article 8 individuelle la plus proche est individuelle 4. Ainsi individuelle 8 jointures C1.

Les grappes construits jusqu'ici, contenant des articles les plus semblables les uns aux autres, sont

C1 = {individuelle 1, 4 individuel, individuel 8}

C2 = {individuelle 2, individuelle 7}

C3 = {individuelle 3, 5 individuel, individuel 6}

A propos Auteur

Comment utiliser K-Means algorithmes de munitions dans l'analyse prédictive

K est une entrée à l'algorithme prédictif pour analyse- il représente le nombre de groupes que l'algorithme doit extraire à partir d'un ensemble de données, exprimée algébriquement comme k. Un algorithme K-means divise un ensemble de…

Comment visualiser les données brutes analyse prédictive "

Une image vaut mille mots - surtout quand vous essayez d'obtenir une bonne poignée sur vos données d'analyse prédictive. A l'étape de pré-traitement, alors que vous vous préparez vos données, il est de pratique courante de visualiser ce que…

Comment fonctionne la technique de tri rapide dans le travail de java?

Ici, vous découvrirez comment l'une des techniques de tri les plus couramment utilisés en Java fonctionne réellement. Cette technique est appelée Quicksort, et il est d'une utilisation très ingénieuse de la récursivité.Pour la plupart…

Congruence et de similitude dans la géométrie de base commun

En mathématiques, il existe de nombreux types de similitude. Dans la géométrie de base commun, élèves de huitième année étudient la congruence et similitude que deux façons de parler de la façon dont deux formes sont les mêmes.Deux formes…

Comment calculer les percentiles dans les statistiques

Si tout ce que vous êtes intéressé à est où vous vous situez par rapport au reste du troupeau, vous avez besoin d'une statistique que les rapports position relative, et cette statistique est appelé un percentile. La ke percentile est une…

Comment localiser une valeur dans un ensemble de données en utilisant quartiles

Quartiles diviser un ensemble de données en quatre parties égales, chacun composé de 25 pour cent des valeurs triées dans l'ensemble de données. Quartiles sont liés à percentiles comme ceci:Premier quartile (Q1) = 25e centileDeuxième…

Vue d'ensemble des techniques graphiques

Plusieurs types de graphiques différents peuvent être utiles pour l'analyse des données. Ceux-ci comprennent des parcelles à tiges et à feuilles, nuages de points, des boîtes à moustaches, histogrammes, quantile-quantile (QQ), des…

Comment établir vos valeurs fondamentales

Valeurs apporter de l'énergie et direction- ils sont au cœur de ce qui fait une tique individuelle. Lorsque les gens comprennent profondément leurs valeurs, ils peuvent créer un mode de fonctionnement dans le monde qui les conduit à un vrai…

Comment caractériser une population d'êtres vivants

Les scientifiques qui étudient les organismes vivants de les examiner sous différents points de vue de la complexité. Le niveau le plus simple est le individuelle. Chaque individu est un membre d'une population. Chaque population est constitué…

Comment économiser sur la couverture santé individuelle

Si vous avez ou que vous voulez une couverture individuelle d'assurance maladie, vous pouvez faire plusieurs choses pour aider à réduire les coûts de cette assurance de santé, économiser de l'argent tout en ayant encore la protection de la…

Couleurs de la carte au photoshop elements 10

Elements fournit des commandes couleur du mappeur qui modifient les couleurs de votre image en les cartographiant à d'autres valeurs. Vous trouverez les mappeurs de couleur sur le filtre Ajustements sous-menu.Voici un exemple de chaque commande,…

L'assurance maladie pour les transcripteurs médicaux

L'accès à l'assurance maladie est une grande préoccupation pour les personnes qui envisagent la vie comme un transcripteur médical indépendant. Où allez-vous obtenir? Pouvez-vous obtenir du tout? Que faire si vous avez une condition…

Faire cavalier seul avec les entreprises individuelles

UN entreprise individuelle est, au fond, le bras de l'entreprise d'une personne qui a décidé de ne pas poursuivre l'activité de l'entreprise comme une entité juridique distincte (comme une société, un partenariat ou une société à…

Entreprise individuelle et votre import / export

L'entreprise individuelle est la plus simple des trois formes primaires de l'organisation et de la forme utilisée par la majorité des nouvelles entreprises. Il n'y a généralement pas de frais d'installation si vous décidez de faire des affaires…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment regrouper par plus proches voisins dans l'analyse prédictive