Notions de base de K-moyens et des modèles de clustering dbscan pour l'analyse prédictive

Apprentissage non supervisé a de nombreux défis pour l'analyse prédictive - y compris de ne pas savoir à quoi vous attendre lorsque vous exécutez un algorithme. Chaque algorithme va produire sur les résultats différent, vous ne serez jamais certain que l'un résultat est meilleur que l'autre - ou même si le résultat est de toute valeur.

Lorsque vous savez ce que les résultats devraient être, vous pouvez modifier les algorithmes pour produire les résultats souhaités. Dans les ensembles de données du monde réel, vous ne devrez pas ce luxe. Vous devrez compter sur une connaissance préalable des données - ou l'intuition - de décider quels paramètres d'initialisation et les algorithmes à utiliser comme vous créez votre modèle.

Dans tâches réelles d'apprentissage non supervisé, toutefois, cette connaissance préalable est indisponible et le résultat souhaité est difficile à trouver. Choisir le bon nombre de grappes est le problème clé. Si vous arrive de tomber sur le bon nombre de grappes, vos données seront obtenir des connaissances que vous pouvez faire des prédictions très précises. D'un autre côté, devinant le mauvais nombre de grappes peut donner des résultats subpar.




K-means est un bon choix pour les ensembles de données qui ont un petit nombre de grappes avec des tailles proportionnelles et les données linéairement séparables - et vous pouvez escalader pour utiliser l'algorithme sur de très grands ensembles de données.

Penser à linéairement séparables données comme un tas de points dans un graphique qui peut être séparé en utilisant une ligne droite. Si les données ne sont pas linéairement séparables, alors versions plus avancées de K-means devront être employé - qui deviendra plus cher de calcul et peuvent ne pas convenir à de très grands ensembles de données. Dans sa mise en œuvre standard, la complexité pour calculer les centres de classes et les distances est faible.

K-means est largement utilisé pour résoudre les problèmes de grand-données, car il est simple à utiliser, efficace et hautement évolutive. Pas étonnant que la plupart des fournisseurs commerciaux utilisent l'algorithme k-means comme un élément clé de leurs paquets d'analyse prédictive.

Le dbscan (de regroupement spatial densité à base d'applications avec bruit) dans la mise en œuvre scikit-learn ne nécessite pas de paramètres d'initialisation définies par l'utilisateur pour créer une instance. Vous pouvez remplacer les paramètres par défaut lors de l'initialisation si vous voulez. Malheureusement, si vous utilisez les paramètres par défaut, l'algorithme ne peut pas fournir un match serré au résultat souhaité.

Dbscan est mieux adapté pour les ensembles de données qui ont des tailles de cluster disproportionnés, et dont les données peuvent être séparés d'une manière non-linéaire. Comme K-means, dbscan est évolutive, mais son utilisation sur de très grands ensembles de données nécessite plus de mémoire et de puissance de calcul.


» » » » Notions de base de K-moyens et des modèles de clustering dbscan pour l'analyse prédictive