Comment tester le modèle d'analyse prédictive

Pour être en mesure de tester le modèle d'analyse prédictive vous avez construit, vous devez diviser votre ensemble de données en deux ensembles: formation et de test des ensembles de données. Ces ensembles de données doivent être choisis au hasard et devraient être une bonne représentation de la population réelle.

Sommaire

Comment utiliser la validation croisée
Comment équilibrer biais et la variance
Comment faire pour résoudre idées

Des données similaires doivent être utilisés à la fois pour la formation et des ensembles de données de test.
Normalement, le jeu de données de formation est nettement plus grande que l'ensemble de données de test.
Utilisation de la base de test vous aide à éviter des erreurs telles que overfitting.
Le modèle formé est exécutée sur des données de test pour voir comment le modèle se produira.

Certains scientifiques de données préfèrent avoir un troisième ensemble de données qui présente des caractéristiques similaires à celles des deux premières: un validation données. L'idée est que si vous utilisez activement vos données de test pour affiner votre modèle, vous devez utiliser un séparé (troisième) jeu afin de vérifier l'exactitude du modèle.

Avoir un ensemble de données de validation, qui n'a pas été utilisé dans le cadre du processus de développement de votre modèle, permet d'assurer une estimation neutre de la précision et l'efficacité du modèle.

Si vous avez construit plusieurs modèles en utilisant différents algorithmes, l'échantillon de validation peut également vous aider à évaluer le modèle qui donne les meilleurs résultats.

Assurez-vous que vous double-vérifier votre travail développer et tester le modèle. En particulier, être sceptique si l'exécution ou l'exactitude du modèle semble trop beau pour être vrai. Des erreurs peuvent se produire où vous y attendez le moins. Un calcul erroné dates pour les données de séries chronologiques, par exemple, peut conduire à des résultats erronés.

Comment utiliser la validation croisée

Validation croisée est une technique populaire vous pouvez utiliser pour évaluer et valider votre modèle. Le même principe de l'utilisation des ensembles de données distincts pour les tests et la formation applique ici: Les données de formation est utilisé pour construire la modélisation du modèle est exécuté sur l'ensemble de test pour prédire données, il n'a pas vu avant, ce qui est une façon d'évaluer sa précision .

En contre-validation, les données historiques est divisé en numéros de X de sous-ensembles. Chaque fois qu'un sous-ensemble est choisi pour être utilisé comme données d'essai, le reste des sous-ensembles sont utilisés comme données d'apprentissage. Puis, sur la prochaine course, l'ancien ensemble de test devient l'un des ensembles de formation et l'un des anciens ensembles de formation devient l'ensemble de test.

Le processus se poursuit jusqu'à ce que chaque sous-ensemble de ce que X nombre de jeux a été utilisé comme un ensemble de test.

Par exemple, imaginez que vous avez un ensemble de données que vous avez divisé en 5 sets numérotés de 1 à 5. Dans la première manche, vous utilisez Set 1 comme l'ensemble de test et utiliser des ensembles 2, 3, 4 et 5 comme l'ensemble de la formation. Puis, dans la deuxième manche, vous utilisez Set 2 comme l'ensemble de test et séries 1, 3, 4, et 5 comme un ensemble de formation.

Vous continuez ce processus jusqu'à ce que chaque sous-ensemble des 5 séries a été utilisé comme un ensemble de test.

La validation croisée vous permet d'utiliser tous les points de données dans vos données historiques à la fois pour la formation et les tests. Cette technique est plus efficace que de simplement répartissant vos données historiques en deux ensembles, en utilisant le jeu avec le plus de données pour la formation, l'aide de l'autre ensemble pour les tests, et en laissant à cela.

Lorsque vous contre-valider vos données, vous vous protégez contre les choisissant au hasard des données de test qui est trop facile à prévoir - ce qui vous donnerait la fausse impression que votre modèle est exacte. Ou, si vous arrivez à ramasser les données de test qui est trop difficile à prévoir, vous pourriez faussement conclure que votre modèle ne fonctionne pas comme vous l'aviez espéré.

La validation croisée est largement utilisé non seulement pour valider la précision des modèles mais aussi de comparer les performances de plusieurs modèles.

Comment équilibrer biais et la variance

Biais et la variance sont deux sources d'erreurs qui peuvent avoir lieu que vous construisez votre modèle analytique.

Bias est le résultat de la construction d'un modèle qui permet de simplifier considérablement la présentation des relations entre les points de données dans les données historiques utilisées pour construire le modèle.

Variance est le résultat de la construction d'un modèle qui est explicitement spécifique aux données utilisées pour construire le modèle.

Parvenir à un équilibre entre les biais et la variance - en réduisant la variance et tolérer une certaine partialité - peut conduire à un meilleur modèle prédictif. Ce compromis conduit généralement à construire des modèles prédictifs moins complexes.

De nombreux algorithmes d'exploration de données ont été créés pour tenir compte de ce compromis entre le biais et la variance.

Comment faire pour résoudre idées

Lorsque vous testez votre modèle et vous vous trouvez va nulle part, voici quelques idées à considérer qui peuvent vous aider à revenir sur la bonne voie:

Vérifiez toujours votre travail. Vous avez peut-être oublié quelque chose que vous avez assumé était correct, mais l'est pas. Ces défauts peuvent apparaître (par exemple) entre les valeurs d'une variable prédictive dans votre ensemble de données, ou dans le prétraitement vous appliqué aux données.
Si vous avez choisi l'algorithme ne cède pas aucun résultat, essayez un autre algorithme. Par exemple, vous essayez plusieurs algorithmes de classification disponibles et en fonction de vos données et les objectifs d'affaires de votre modèle, l'un de ceux pouvez faire mieux que les autres.
Essayez de sélectionner différentes variables ou la création de nouvelles variables dérivées. Soyez toujours à l'affût pour les variables qui ont des pouvoirs de prédiction.
Foire consulter les experts du domaine de l'entreprise qui peut vous aider à donner un sens aux données, sélectionnez les variables, et interpréter les résultats du modèle.

A propos Auteur

Comment créer un modèle d'analyse prédictive avec r régression

Vous voulez créer un modèle d'analyse prédictive que vous puissiez évaluer en utilisant les résultats connus. Pour ce faire, nous allons partager notre ensemble de données en deux ensembles: l'un pour l'apprentissage du modèle et un pour…

Comment définir et tester des prototypes de d'analyse prédictive

Un moyen efficace d'indiquer vos objectifs d'affaires pour l'analyse prédictive est clairement une liste à puces des décisions de l'utilisateur. Ensuite, exécutez votre prototype pour générer des prédictions et des scores pour chaque…

Comment Ensemble méthodes visant à accroître la précision analytique prévision

Comme dans le monde réel, donc avec la multiplicité des modèles d'analyse prédictive: Là où il ya l'unité, il ya la force. Plusieurs modèles peuvent être combinés de différentes manières pour faire des prédictions. Vous pouvez ensuite…

Comment évaluer et mettre à jour votre modèle d'analyse prédictive

Votre but, bien sûr, est de construire un modèle analytique prédictive qui peuvent réellement résoudre les objectifs d'affaires, il a été construit pour. Attendez-vous à passer un peu de temps à évaluer l'exactitude des prédictions de…

Comment de nouvelles prédictions analytiques avec r régression

Pour faire des prédictions analytiques avec de nouvelles données, vous utilisez simplement la fonction avec une liste des valeurs d'attribut sept. Le code suivant fait ce travail:> NewPrediction lt; - prédire (modèle,
liste (cylindres =…

Comment décrire les données d'essais et de test pour l'analyse prédictive

Lorsque vos données est prêt et vous êtes sur le point de commencer à construire votre modèle prédictif pour l'analyse, il est utile de décrire votre méthodologie de test et de rédiger un plan de test. Le test doit être guidée par les…

Comment préparer les données pour un modèle d'analyse prédictive

Lorsque vous avez défini les objectifs du modèle pour l'analyse prédictive, la prochaine étape est d'identifier et de préparer les données que vous allez utiliser pour construire votre modèle. La séquence générale des mesures ressemble à…

Comment faire pour exécuter les données de formation dans un modèle d'apprentissage supervisé svm

Avant que vous pouvez nourrir le classificateur Support Vector Machine (SVM) avec les données qui ont été chargés pour l'analyse prédictive, vous devez diviser l'ensemble de données complet en un ensemble de formation et un ensemble de…

Comment marquer vos prédictions analytiques précision

Lors de l'analyse de la qualité d'un modèle prédictif, vous aurez envie de mesurer son exactitude. L'une prévision plus précise le modèle fait, plus il est utile à l'entreprise, ce qui est une indication de sa qualité. Ceci est tout bon -…

Comment utiliser ajustement de courbe dans l'analyse prédictive

Courbe d'ajustement est un procédé utilisé dans l'analyse prédictive dans lequel le but est de créer une courbe qui représente la fonction mathématique qui correspond le mieux les (originales) des points de données réelles d'une série de…

Comment utiliser l'analyse supervisées pour former des modèles prédictifs

Dans Analytics supervisées, l'entrée et la sortie préférée font partie des données de formation. Le modèle d'analyse prédictive est présenté avec les résultats corrects dans le cadre de son processus d'apprentissage. Un tel apprentissage…

Comment utiliser régressions linéaires dans l'analyse prédictive

Régression linéaire est une méthode statistique qui analyse et trouve les relations entre les deux variables. Dans l'analyse prédictive, il peut être utilisé pour prédire une valeur numérique d'une grandeur future.Prenons un exemple de…

L'analyse prédictive pour les nuls

Un projet d'analyse prédictive de succès est exécuté étape par étape. Comme vous vous immergez dans les détails du projet, regarder pour ces grandes étapes:Définir des objectifs d'affairesLe projet commence avec l'aide d'un objectif…

L'exploration de données pour les données volumineuses

L'exploration de données consiste à explorer et d'analyser de grandes quantités de données pour trouver des modèles pour les grandes données. Les techniques sont sortis des domaines de la statistique et de l'intelligence artificielle (IA),…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment tester le modèle d'analyse prédictive