Comment tester le modèle d'analyse prédictive

Pour être en mesure de tester le modèle d'analyse prédictive vous avez construit, vous devez diviser votre ensemble de données en deux ensembles: formation et de test des ensembles de données. Ces ensembles de données doivent être choisis au hasard et devraient être une bonne représentation de la population réelle.

Sommaire

  • Des données similaires doivent être utilisés à la fois pour la formation et des ensembles de données de test.

  • Normalement, le jeu de données de formation est nettement plus grande que l'ensemble de données de test.

  • Utilisation de la base de test vous aide à éviter des erreurs telles que overfitting.

  • Le modèle formé est exécutée sur des données de test pour voir comment le modèle se produira.

Certains scientifiques de données préfèrent avoir un troisième ensemble de données qui présente des caractéristiques similaires à celles des deux premières: un validation données. L'idée est que si vous utilisez activement vos données de test pour affiner votre modèle, vous devez utiliser un séparé (troisième) jeu afin de vérifier l'exactitude du modèle.

Avoir un ensemble de données de validation, qui n'a pas été utilisé dans le cadre du processus de développement de votre modèle, permet d'assurer une estimation neutre de la précision et l'efficacité du modèle.

Si vous avez construit plusieurs modèles en utilisant différents algorithmes, l'échantillon de validation peut également vous aider à évaluer le modèle qui donne les meilleurs résultats.




Assurez-vous que vous double-vérifier votre travail développer et tester le modèle. En particulier, être sceptique si l'exécution ou l'exactitude du modèle semble trop beau pour être vrai. Des erreurs peuvent se produire où vous y attendez le moins. Un calcul erroné dates pour les données de séries chronologiques, par exemple, peut conduire à des résultats erronés.

Comment utiliser la validation croisée

Validation croisée est une technique populaire vous pouvez utiliser pour évaluer et valider votre modèle. Le même principe de l'utilisation des ensembles de données distincts pour les tests et la formation applique ici: Les données de formation est utilisé pour construire la modélisation du modèle est exécuté sur l'ensemble de test pour prédire données, il n'a pas vu avant, ce qui est une façon d'évaluer sa précision .

En contre-validation, les données historiques est divisé en numéros de X de sous-ensembles. Chaque fois qu'un sous-ensemble est choisi pour être utilisé comme données d'essai, le reste des sous-ensembles sont utilisés comme données d'apprentissage. Puis, sur la prochaine course, l'ancien ensemble de test devient l'un des ensembles de formation et l'un des anciens ensembles de formation devient l'ensemble de test.

Le processus se poursuit jusqu'à ce que chaque sous-ensemble de ce que X nombre de jeux a été utilisé comme un ensemble de test.

Par exemple, imaginez que vous avez un ensemble de données que vous avez divisé en 5 sets numérotés de 1 à 5. Dans la première manche, vous utilisez Set 1 comme l'ensemble de test et utiliser des ensembles 2, 3, 4 et 5 comme l'ensemble de la formation. Puis, dans la deuxième manche, vous utilisez Set 2 comme l'ensemble de test et séries 1, 3, 4, et 5 comme un ensemble de formation.

Vous continuez ce processus jusqu'à ce que chaque sous-ensemble des 5 séries a été utilisé comme un ensemble de test.

La validation croisée vous permet d'utiliser tous les points de données dans vos données historiques à la fois pour la formation et les tests. Cette technique est plus efficace que de simplement répartissant vos données historiques en deux ensembles, en utilisant le jeu avec le plus de données pour la formation, l'aide de l'autre ensemble pour les tests, et en laissant à cela.

Lorsque vous contre-valider vos données, vous vous protégez contre les choisissant au hasard des données de test qui est trop facile à prévoir - ce qui vous donnerait la fausse impression que votre modèle est exacte. Ou, si vous arrivez à ramasser les données de test qui est trop difficile à prévoir, vous pourriez faussement conclure que votre modèle ne fonctionne pas comme vous l'aviez espéré.

La validation croisée est largement utilisé non seulement pour valider la précision des modèles mais aussi de comparer les performances de plusieurs modèles.

Comment équilibrer biais et la variance

Biais et la variance sont deux sources d'erreurs qui peuvent avoir lieu que vous construisez votre modèle analytique.

Bias est le résultat de la construction d'un modèle qui permet de simplifier considérablement la présentation des relations entre les points de données dans les données historiques utilisées pour construire le modèle.

Variance est le résultat de la construction d'un modèle qui est explicitement spécifique aux données utilisées pour construire le modèle.

Parvenir à un équilibre entre les biais et la variance - en réduisant la variance et tolérer une certaine partialité - peut conduire à un meilleur modèle prédictif. Ce compromis conduit généralement à construire des modèles prédictifs moins complexes.

De nombreux algorithmes d'exploration de données ont été créés pour tenir compte de ce compromis entre le biais et la variance.

Comment faire pour résoudre idées

Lorsque vous testez votre modèle et vous vous trouvez va nulle part, voici quelques idées à considérer qui peuvent vous aider à revenir sur la bonne voie:

  • Vérifiez toujours votre travail. Vous avez peut-être oublié quelque chose que vous avez assumé était correct, mais l'est pas. Ces défauts peuvent apparaître (par exemple) entre les valeurs d'une variable prédictive dans votre ensemble de données, ou dans le prétraitement vous appliqué aux données.

  • Si vous avez choisi l'algorithme ne cède pas aucun résultat, essayez un autre algorithme. Par exemple, vous essayez plusieurs algorithmes de classification disponibles et en fonction de vos données et les objectifs d'affaires de votre modèle, l'un de ceux pouvez faire mieux que les autres.

  • Essayez de sélectionner différentes variables ou la création de nouvelles variables dérivées. Soyez toujours à l'affût pour les variables qui ont des pouvoirs de prédiction.

  • Foire consulter les experts du domaine de l'entreprise qui peut vous aider à donner un sens aux données, sélectionnez les variables, et interpréter les résultats du modèle.


» » » » Comment tester le modèle d'analyse prédictive