Notions de base de modèles de classification pour les prédictions analytiques

Une fois que vous avez tous les outils et les données nécessaires pour commencer à créer un modèle prédictif, le plaisir commence. En général, la création d'un modèle d'apprentissage pour les tâches de classification va entraîner les étapes suivantes:

  1. Charger les données.

  2. Choisissez un classificateur.

  3. Former le modèle.




  4. Visualisez le modèle.

  5. Tester le modèle.

  6. Évaluer le modèle.

Tant la régression logistique et Support Vector Machine (SVM) des modèles de classification effectuent plutôt bien en utilisant l'ensemble de données Iris.

Longueur des sépalesSépale LargeurPétale LongueurPétale LargeurClasse cible / Étiquette
5.13.51.40,2Setosa (0)
7.03.24.71.4Versicolor (1)
6.33.36.02.5Virginica (2)

Le modèle de régression logistique avec le paramètre C = 1 était parfait dans ses prévisions, tandis que le modèle SVM et le modèle de régression logistique avec C = 150 manqué une seule prédiction. En effet, la haute précision des deux modèles est le résultat d'avoir un petit ensemble de données qui a des points de données qui sont à peu près linéairement séparables.

Fait intéressant, le modèle de régression logistique avec C = 150 avait une parcelle de surface de décision plus beau que celui avec C = 1, mais il n'a pas de meilleurs résultats. Cela ne veut pas une grosse affaire, étant donné que l'ensemble de test est si petit. Si une autre scission aléatoire entre jeu de la formation et de jeu de test avait été choisi, les résultats auraient pu facilement pu être différente.

Cela révèle une autre source de complexité qui surgit dans l'évaluation de modèle: l'effet de l'échantillonnage, et comment le choix de la formation et des ensembles de test peuvent affecter la sortie du modèle. Techniques de validation croisée peuvent aider à minimiser l'impact de l'échantillonnage aléatoire sur la performance du modèle.

Pour un ensemble de données plus vaste avec des données non-linéairement séparables, vous pouvez vous attendre les résultats de dévier encore plus. En outre, le choix du modèle approprié devient de plus en plus difficile en raison de la complexité et de la taille des données. Soyez prêt à passer beaucoup de temps à régler vos paramètres pour obtenir un ajustement idéal.

Lors de la création des modèles prédictifs, essayez quelques algorithmes et exhaustive affiner leurs paramètres jusqu'à ce que vous trouver ce qui fonctionne le mieux pour vos données. Puis comparer leurs sorties contre l'autre.


» » » » Notions de base de modèles de classification pour les prédictions analytiques