Notions de base de clusters de données dans l'analyse prédictive

UN dataset (ou collecte de données) est un ensemble d'éléments dans l'analyse prédictive. Par exemple, un ensemble de documents est un ensemble de données où les éléments de données sont des documents. Un ensemble d'information sociale utilisateurs du réseau '(nom, âge, liste d'amis, des photos et ainsi de suite) est un ensemble de données où les éléments de données sont les profils des utilisateurs de réseaux sociaux.

Clustering de données est la tâche de diviser un ensemble de données en sous-ensembles d'éléments similaires. Les articles peuvent également être appelés cas, l'observation, des entités ou des objets de données. Dans la plupart des cas, un ensemble de données est représenté sous forme de tableau - une matrice de données. Une matrice de données est un tableau de nombres, des documents ou des expressions, représentée en lignes et en colonnes comme suit:

  • Chaque ligne correspond à un élément donné dans le jeu de données.

    Les lignes sont parfois appelés éléments, des objets, des instances, ou des observations.

  • Chaque colonne représente une caractéristique particulière d'un article.

    Les colonnes sont appelés caractéristiques ou attributs.

L'application de regroupement de données à un ensemble de données génère des groupes d'éléments de données similaires. Ces groupes sont appelés groupes - collections d'objets de données similaires.

Semblable articles ont une relation solide et mesurable entre eux - des légumes frais, par exemple, sont plus semblables les uns aux autres que ce qu'ils sont à des aliments surgelés - et des techniques de clustering utilisent cette relation pour regrouper les articles.

La force d'une relation entre deux ou plusieurs éléments peut être quantifiée en tant que mesure similitude: Une fonction mathématique calcule la corrélation entre deux données. Les résultats de ce calcul, appelés valeurs de similarité, essentiellement comparer un élément de données particulier à tous les autres éléments de l'ensemble de données. Ces autres éléments seront soit plus similaire ou moins similaire par rapport à cet élément spécifique.




Similarités calculées jouent un rôle majeur dans l'attribution des articles aux groupes (groupes). Chaque groupe a un élément qui représente le mieux it- cet objet est considéré comme un représentant de la grappe.

Considérons un ensemble de données qui se compose de plusieurs types de fruits dans un panier. Le panier a des fruits de différents types tels que pommes, bananes, citrons, et les poires. Dans ce cas, les fruits sont des éléments de données. Le processus de regroupement de données extrait des groupes de fruits semblables sur cet ensemble de données (panier de fruits différents).

image0.jpg

La première étape dans un processus de regroupement de données est de traduire cet ensemble de données dans une matrice de données: Une façon de modéliser cet ensemble de données est d'avoir les lignes représentent les éléments de l'ensemble de données (fruits) - et les colonnes représentent les caractéristiques ou fonctionnalités, qui décrivent Les objets.

Par exemple, une fonction de fruit peut être le type de fruits (comme une banane ou de pomme), le poids, la couleur, ou le prix. Dans cet exemple, ensemble de données, les éléments ont trois caractéristiques: type de fruits, la couleur, et le poids.

Dans la plupart des cas, l'application d'une technique d'agrégation de données pour l'ensemble de données de fruits tel que décrit ci-dessus vous permet de

  • Récupérer groupes (clusters) de produits similaires. Vous pouvez dire que votre fruit est de N nombre de groupes. Après cela, si vous choisissez un fruit aléatoire, vous serez en mesure de faire une déclaration sur ce point comme faisant partie de l'un des groupes N.

  • Récupérer représentants munitions de chaque groupe. Dans cet exemple, un représentant de la grappe serait ramasser un type de la corbeille de fruits et de le mettre de côté. Les caractéristiques de ce fruit sont telles que ce fruit représente le mieux le groupe auquel il appartient.

Lorsque vous avez terminé le clustering, votre ensemble de données est organisée et divisée en groupements naturels.

Le regroupement des données révèle structure dans les données en extrayant des groupements naturels à partir d'un ensemble de données. Par conséquent découvrir grappes est une étape essentielle vers la formulation d'idées et des hypothèses à propos de la structure de vos données et tirer des idées pour mieux le comprendre.

Le regroupement des données peut aussi être un moyen de modéliser les données: Il représente un plus grand corps de données en clusters ou les représentants de groupes.

En outre, votre analyse peut demander tout simplement pour partitionner les données en groupes de produits similaires - comme lorsque la segmentation du marché partitions de données cible de marché dans des groupes tels que

  • Les consommateurs qui partagent les mêmes intérêts (comme la cuisine méditerranéenne)

  • Les consommateurs qui ont des besoins communs (par exemple, ceux qui ont des allergies alimentaires spécifiques)

Identifier les groupes de clients similaires peut vous aider à développer une stratégie de marketing qui répond aux besoins de groupes spécifiques.

En outre, le regroupement de données peut également vous aider à identifier, apprendre, ou de prédire la nature des nouveaux éléments de données - en particulier la façon dont les nouvelles données peuvent être liés à faire des prédictions. Par exemple, dans la reconnaissance de formes, analyse de tendances dans les données (telles que les habitudes d'achat dans certaines régions ou groupes d'âge) peut vous aider à développer l'analyse prédictive - dans ce cas, de prédire la nature des éléments de données futurs qui peuvent convenir à bien avec les modèles établis.

Le panier de fruits exemple utilise le clustering de données pour distinguer les différents éléments de données. Supposons que votre entreprise assemble des paniers de fruits personnalisés, et une nouvelle, fruit inconnu est introduit sur le marché. Vous voulez apprendre ou de prédire qui Cluster nouvel élément fera partie si vous l'ajoutez à la corbeille de fruits.

Parce que vous avez déjà appliqué le regroupement de données pour l'ensemble de données de fruits, vous avez quatre groupes - qui rend plus facile de prédire ce qui cluster (type spécifique de fruits) est approprié pour le nouvel élément. Tout ce que vous avez à faire est de comparer le fruit inconnu pour les représentants des quatre autres clusters et identifier cluster est le meilleur match.

Bien que ce processus peut sembler évident pour une personne travaillant avec un petit ensemble de données, il est pas si évident à une plus grande échelle - quand vous avez à regrouper des millions d'articles sans examiner chacun. La complexité devient exponentielle lorsque le jeu de données est vaste, diversifié et relativement incohérent - ce qui explique pourquoi les algorithmes de clustering existent: les ordinateurs ne ce type de travail meilleures.


» » » » Notions de base de clusters de données dans l'analyse prédictive