Comment expliquer les résultats analytiques prédictifs de régression r

Une fois que vous créez un modèle de régression de R pour l'analyse prédictive, vous voulez être en mesure d'expliquer les résultats de l'analyse. Pour voir quelques informations utiles sur le modèle, le type dans le code suivant:

> Résumé (modèle)

La sortie fournit des informations que vous pouvez explorer si vous souhaitez modifier votre modèle plus loin. Pour l'instant, nous allons laisser le modèle tel qu'il est. Voici les deux dernières lignes de la sortie:

Multiple R-carré: 0,8741, R-carré ajusté: 0.8633F statistique: 80.82 sur 22 et 256 DF, p-valeur: lt; 2.2e-16

Un couple de points de données se démarquer ici:

  • La R au carré multiple valeur vous indique comment bien la ligne de régression correspond aux données (qualité de l'ajustement). Une valeur de 1 signifie qu'il est un ajustement parfait. Ainsi, un r-squared valeur de 0,874 est de bon il est dit que 87,4 pour cent de la variabilité mpg est expliquée par le modèle.

  • La p-valeur vous indique combien significative les variables prédictives affectent la variable de réponse. UN p-valeur de moins de (généralement) 0,05 signifie que vous pouvez rejeter l'hypothèse nulle que les variables prédictives ont collectivement aucun effet sur la variable de réponse (mpg). La p-valeur de 2.2e-16 (à savoir, 2,2 à 16 zéros en avant de celui-ci) est beaucoup plus petit que 0,05, de sorte que les prédicteurs ont un effet sur la réponse.

Avec le modèle créé, vous pouvez faire des prédictions contre elle avec les données de test vous avez partitionné de l'ensemble des données. Pour utiliser ce modèle pour prédire le pour chaque ligne de l'ensemble de test, vous exécutez la commande suivante:

> Prédictions lt; - prédire (modèle, testSet,
intervalle = "prédire", level = 0,95)



Ceci est le code et la sortie des six premières prédictions:

> Tête (prévisions) lwr ajustement upr2 16,48993 10,530223 22,449644 18,16543 12,204615 24,126255 18,39992 12,402524 24,397326 12,09295 6,023341 18,162577 11,37966 5,186428 17,572898 11,66368 5,527497 17,79985

La sortie est une matrice qui présente les valeurs prédites de la s'adapter colonne et l'intervalle de prédiction dans le lwr et EPU colonnes - avec un niveau de 95 pour cent de confiance. Plus le niveau de confiance, plus la gamme, et vice versa.

La valeur prédite est dans le milieu de la range- afin de changer le niveau de confiance ne change pas la valeur prédite. La première colonne est le numéro de ligne de l'ensemble de données complet.

Pour voir du côté des valeurs réelles et prévues à côte de sorte que vous pouvez facilement les comparer, vous pouvez taper dans les lignes de code suivantes:

> La comparaison lt; - cbind (testSet $ ​​mpg, prédictions [1])> colnames (comparaison) lt; - c ("réelle", "prédit")

La première ligne crée une matrice à deux colonnes avec les valeurs réelles et prévues. La deuxième ligne modifie les noms des colonnes réelles et prédites. Tapez la première ligne de code pour obtenir la sortie des six premières lignes de comparaison, comme suit:

> Tête (comparaison) de predicted2 réelle 15 16,489934 16 18,165435 17 18,399926 15 12,092957 14 11,379668 14 11,66368

Nous voulons aussi voir un résumé des deux colonnes de comparer leurs moyens. Ceci est le code et la sortie du résumé:

> Résumé (comparaison) actualpredictedMin. : 10,00 min. : 8.8491st Qu:. 16.00 1er Qu:. 17.070Median: 21.50 Médiane: 22.912Mean: 22.79 Moyenne: 23.0483rd Qu:. 28.00 3ème Qu:. 29.519Max. : 44.30 Max. : 37,643

Ensuite, vous utilisez le erreur moyenne de pour cent absolue (mape), Pour mesurer la précision de notre modèle de régression. La formule pour la moyenne de l'erreur absolue est pour cent

(# 931- (| Y-Y '| / | Y |) / N) * 100

où Y est le score réel, Y 'est le score prédit, et N est le nombre de points prévus. Après avoir branché les valeurs dans la formule, vous obtenez une erreur de seulement 10,94 pour cent. Voici le code et la sortie de la console R:

> Mape lt; - (somme (abs (comparaison [1] -Comparaison [2]) / abs (comparaison [1])) / nrow (comparaison)) * 100> mape [1] 10,93689

Le code suivant vous permet de visualiser les résultats et les erreurs dans une vue de tableau:

> MapeTable lt; - cbind (comparaison, abs (comparaison [1] - la comparaison [2]) / comparaison [1], * 100)> colnames (mapeTable) [3] lt; - "Erreur de pour cent absolue"> la tête (mapeTable) réelle pour cent de error2 absolue prédit 15 16,48993 9,9328894 16 18,16543 13,5339525 17 18,39992 8,2348406 15 12,09295 19,3803097 14 11,37966 18,7167088 14 11,66368 16,688031

Voici le code qui vous permet de voir l'erreur pour cent de nouveau:

> Somme (mapeTable [3]) / nrow (comparaison)
[1] 10,93689

» » » » Comment expliquer les résultats analytiques prédictifs de régression r