Notions de base de clusters de données dans l'analyse prédictive

UN dataset (ou collecte de données) est un ensemble d'éléments dans l'analyse prédictive. Par exemple, un ensemble de documents est un ensemble de données où les éléments de données sont des documents. Un ensemble d'information sociale utilisateurs du réseau '(nom, âge, liste d'amis, des photos et ainsi de suite) est un ensemble de données où les éléments de données sont les profils des utilisateurs de réseaux sociaux.

Clustering de données est la tâche de diviser un ensemble de données en sous-ensembles d'éléments similaires. Les articles peuvent également être appelés cas, l'observation, des entités ou des objets de données. Dans la plupart des cas, un ensemble de données est représenté sous forme de tableau - une matrice de données. Une matrice de données est un tableau de nombres, des documents ou des expressions, représentée en lignes et en colonnes comme suit:

Chaque ligne correspond à un élément donné dans le jeu de données.
Les lignes sont parfois appelés éléments, des objets, des instances, ou des observations.
Chaque colonne représente une caractéristique particulière d'un article.
Les colonnes sont appelés caractéristiques ou attributs.

L'application de regroupement de données à un ensemble de données génère des groupes d'éléments de données similaires. Ces groupes sont appelés groupes - collections d'objets de données similaires.

Semblable articles ont une relation solide et mesurable entre eux - des légumes frais, par exemple, sont plus semblables les uns aux autres que ce qu'ils sont à des aliments surgelés - et des techniques de clustering utilisent cette relation pour regrouper les articles.

La force d'une relation entre deux ou plusieurs éléments peut être quantifiée en tant que mesure similitude: Une fonction mathématique calcule la corrélation entre deux données. Les résultats de ce calcul, appelés valeurs de similarité, essentiellement comparer un élément de données particulier à tous les autres éléments de l'ensemble de données. Ces autres éléments seront soit plus similaire ou moins similaire par rapport à cet élément spécifique.

Similarités calculées jouent un rôle majeur dans l'attribution des articles aux groupes (groupes). Chaque groupe a un élément qui représente le mieux it- cet objet est considéré comme un représentant de la grappe.

Considérons un ensemble de données qui se compose de plusieurs types de fruits dans un panier. Le panier a des fruits de différents types tels que pommes, bananes, citrons, et les poires. Dans ce cas, les fruits sont des éléments de données. Le processus de regroupement de données extrait des groupes de fruits semblables sur cet ensemble de données (panier de fruits différents).

La première étape dans un processus de regroupement de données est de traduire cet ensemble de données dans une matrice de données: Une façon de modéliser cet ensemble de données est d'avoir les lignes représentent les éléments de l'ensemble de données (fruits) - et les colonnes représentent les caractéristiques ou fonctionnalités, qui décrivent Les objets.

Par exemple, une fonction de fruit peut être le type de fruits (comme une banane ou de pomme), le poids, la couleur, ou le prix. Dans cet exemple, ensemble de données, les éléments ont trois caractéristiques: type de fruits, la couleur, et le poids.

Dans la plupart des cas, l'application d'une technique d'agrégation de données pour l'ensemble de données de fruits tel que décrit ci-dessus vous permet de

Récupérer groupes (clusters) de produits similaires. Vous pouvez dire que votre fruit est de N nombre de groupes. Après cela, si vous choisissez un fruit aléatoire, vous serez en mesure de faire une déclaration sur ce point comme faisant partie de l'un des groupes N.
Récupérer représentants munitions de chaque groupe. Dans cet exemple, un représentant de la grappe serait ramasser un type de la corbeille de fruits et de le mettre de côté. Les caractéristiques de ce fruit sont telles que ce fruit représente le mieux le groupe auquel il appartient.

Lorsque vous avez terminé le clustering, votre ensemble de données est organisée et divisée en groupements naturels.

Le regroupement des données révèle structure dans les données en extrayant des groupements naturels à partir d'un ensemble de données. Par conséquent découvrir grappes est une étape essentielle vers la formulation d'idées et des hypothèses à propos de la structure de vos données et tirer des idées pour mieux le comprendre.

Le regroupement des données peut aussi être un moyen de modéliser les données: Il représente un plus grand corps de données en clusters ou les représentants de groupes.

En outre, votre analyse peut demander tout simplement pour partitionner les données en groupes de produits similaires - comme lorsque la segmentation du marché partitions de données cible de marché dans des groupes tels que

Les consommateurs qui partagent les mêmes intérêts (comme la cuisine méditerranéenne)
Les consommateurs qui ont des besoins communs (par exemple, ceux qui ont des allergies alimentaires spécifiques)

Identifier les groupes de clients similaires peut vous aider à développer une stratégie de marketing qui répond aux besoins de groupes spécifiques.

En outre, le regroupement de données peut également vous aider à identifier, apprendre, ou de prédire la nature des nouveaux éléments de données - en particulier la façon dont les nouvelles données peuvent être liés à faire des prédictions. Par exemple, dans la reconnaissance de formes, analyse de tendances dans les données (telles que les habitudes d'achat dans certaines régions ou groupes d'âge) peut vous aider à développer l'analyse prédictive - dans ce cas, de prédire la nature des éléments de données futurs qui peuvent convenir à bien avec les modèles établis.

Le panier de fruits exemple utilise le clustering de données pour distinguer les différents éléments de données. Supposons que votre entreprise assemble des paniers de fruits personnalisés, et une nouvelle, fruit inconnu est introduit sur le marché. Vous voulez apprendre ou de prédire qui Cluster nouvel élément fera partie si vous l'ajoutez à la corbeille de fruits.

Parce que vous avez déjà appliqué le regroupement de données pour l'ensemble de données de fruits, vous avez quatre groupes - qui rend plus facile de prédire ce qui cluster (type spécifique de fruits) est approprié pour le nouvel élément. Tout ce que vous avez à faire est de comparer le fruit inconnu pour les représentants des quatre autres clusters et identifier cluster est le meilleur match.

Bien que ce processus peut sembler évident pour une personne travaillant avec un petit ensemble de données, il est pas si évident à une plus grande échelle - quand vous avez à regrouper des millions d'articles sans examiner chacun. La complexité devient exponentielle lorsque le jeu de données est vaste, diversifié et relativement incohérent - ce qui explique pourquoi les algorithmes de clustering existent: les ordinateurs ne ce type de travail meilleures.

A propos Auteur

Comment convertir des données brutes en une matrice d'analyse prédictive

Avant que vous pouvez extraire des groupes d'éléments de données similaires à partir de votre ensemble de données pour votre projet d'analyse prédictive, vous pourriez avoir besoin pour représenter vos données dans un format tabulaire connu…

Comment évaluer un modèle d'apprentissage sans surveillance avec des k-means

Après que vous avez choisi votre nombre de grappes pour l'analyse prédictive et avez mis en place l'algorithme pour remplir les clusters, vous avez un modèle prédictif. Vous pouvez faire des prédictions basées sur les nouvelles données…

Comment décrire les données d'essais et de test pour l'analyse prédictive

Lorsque vos données est prêt et vous êtes sur le point de commencer à construire votre modèle prédictif pour l'analyse, il est utile de décrire votre méthodologie de test et de rédiger un plan de test. Le test doit être guidée par les…

Comment utiliser K-Means algorithmes de munitions dans l'analyse prédictive

K est une entrée à l'algorithme prédictif pour analyse- il représente le nombre de groupes que l'algorithme doit extraire à partir d'un ensemble de données, exprimée algébriquement comme k. Un algorithme K-means divise un ensemble de…

Comment utiliser mahout Apache pour l'analyse prédictive

Un outil open-source qui est uniquement utile dans l'analyse prédictive est Apache Mahout. Cette bibliothèque d'apprentissage comprend des versions à grande échelle de la classification, la classification, filtrage collaboratif, et d'autres…

Comment visualiser les résultats d'analyse de votre modèle: regroupements cachés, les classifications de données, et les valeurs aberrantes

Visualisation des résultats de votre analyse prédictive aide vraiment les parties prenantes à comprendre les prochaines étapes. Voici quelques façons d'utiliser des techniques de visualisation de rapporter les résultats de vos modèles pour…

L'entreposage de données: ce qui est un atout de données?

UN entrepôt de données est une maison pour vos données de grande valeur, ou actifs de données, qui provient d'autres applications de l'entreprise, tels que celui de votre entreprise utilise pour remplir les commandes des clients pour ses…

La structure de base de données et mysql

MySQL est un système de gestion de bases de données relationnelles (SGBDR). Votre serveur MySQL peut gérer plusieurs bases de données en même temps. En fait, beaucoup de gens pourraient avoir différentes bases de données gérées par un seul…

Les éléments clés du serveur Microsoft SQL

Le produit Microsoft SQL Server se compose de quatre éléments principaux, trois d'entre eux acronymes sportives. Utilisez cette liste pour identifier les composants de SQL Server et de leur dire à part.Database Engine: Cette partie de SQL Server…

Exploration LINQ norme groupes d'opérateurs de requête

Utilisation des opérateurs de requête standard rend le travail avec Langue Integrated Query (LINQ) considérablement plus facile. À bien des égards, vous avez probablement déjà travaillé avec des opérateurs de requête simples. Par exemple,…

Comment combiner et de fusionner les ensembles de données dans r

Vous pouvez combiner des données provenant de différentes sources dans votre analyse. De manière générale, vous pouvez utiliser R de combiner différents ensembles de données de trois façons:En ajoutant des colonnes: Si les deux ensembles de…

Objets de sous-ensembles de r

Vecteurs, des listes et des trames de données jouent un rôle important dans la représentation de données en R, afin d'être en mesure de préciser succinctement et correctement un sous-ensemble de vos données est importante.Il existe trois…

Les différences entre les données qualitatives et quantitatives

Données - l'information utilisée dans les statistiques - peut être soit qualitative ou quantitative. Les données qualitatives divise un ensemble de données (la piscine de données que vous avez recueillies) en morceaux discrets basé sur un…

Vue d'ensemble des techniques graphiques

Plusieurs types de graphiques différents peuvent être utiles pour l'analyse des données. Ceux-ci comprennent des parcelles à tiges et à feuilles, nuages de points, des boîtes à moustaches, histogrammes, quantile-quantile (QQ), des…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Notions de base de clusters de données dans l'analyse prédictive