Comment évaluer les données linéaires avec r

Naturellement, R fournit un ensemble de différents tests et mesures pour évaluer la façon dont votre modèle correspond à vos données, ainsi que regarder les hypothèses du modèle. Encore une fois, la liste présentée ici est loin d'être complète, mais il vous donne une idée de ce qui est possible et un point de départ pour examiner plus en profondeur la question.

Sommaire

Comment résumer le modèle

La résumé() fonction retourne immédiatement le test F pour les modèles construits avec AOV (). Pour lm () modèles, ce qui est légèrement différente. Jetez un oeil à la sortie:

> Model.summary lt; - résumé (modèle)> Model.summaryCall: LM (formule = mpg ~ poids, data = mtcars) Résidus: Min 1Q médian 3Q Max--2,3647 4,5432 -0,1252 1,4096 6.8727Coefficients: Estimation Std. Pr t valeur d'erreur (> | t |) (Intercept) 37,2851 1,8776 19,858 lt; 2e-16 *** poids -5,3445 0,5591 -9,559 1.29e-10 *** --- Signif. codes: 0 "***" 0.001 "** '0,01' * '0,05'. ' 0,1 '' 1Residual erreur standard: 3.046 sur 30 degrés de freedomMultiple R-carré: 0,7528, R-carré ajusté: 0.7446F statistique: 91.38 le 1er et le 30 DF, p-valeur: 1.294e-10

Voilà tout un tas d'informations utiles. Ici, vous voyez ce qui suit:

  • La distribution des résidus, ce qui vous donne une première idée sur la façon dont les hypothèses d'une cale de modèle linéaire




  • Les coefficients accompagnés par un test t, vous dire dans quelle mesure chaque coefficient diffère significativement de zéro

  • Les mesures de qualité d'ajustement R2 et le R ajusté2

  • Le F-test qui vous donne une idée de savoir si votre modèle explique une partie importante de la variance de vos données

Vous pouvez utiliser le coef () fonction d'extraire une matrice avec les estimations, les erreurs standard, et t-valeur et la p-valeur pour les coefficients de l'objet de résumé comme ceci:

> Coef (Model.summary) Estimation Std. Erreur de valeur t Pr (> | t |) (Intercept) 37,285126 1,877627 19,857575 8.241799e-19wt -5,344472 0,559101 -9,559044 1.293959e-10

Si ces termes ne vous disent rien, les chercher dans une bonne source sur la modélisation. Pour une introduction approfondie à appliquer et d'interpréter correctement les modèles linéaires, consultez Modèles statistiques Applied Linear, 5e édition, par Michael Kutner et al (McGraw-Hill / Irwin).

Comment tester l'impact des termes du modèle

Pour obtenir un tableau d'analyse de variance - comme le résumé() fonction permet une analyse de la variance - vous utilisez simplement le anova () fonctionner et passer le lm () objet de modèle comme argument, comme ceci:

> Model.anova lt; - analyse de variance (modèle)> Model.anovaAnalysis de variance TableResponse: mpgDf Somme Sq Sq Valeur moyenne F Pr (> F) en poids 1 847,73 847,73 91,375 1.294e-10 *** Résidus 30 278,32 9,28 --- Signif. codes: 0 "***" 0.001 "** '0,01' * '0,05'. ' 0,1 '' 1

Ici, l'objet résultant est un bloc de données qui vous permet d'extraire toute la valeur de cette table en utilisant les outils de sous-ensembles et d'indexation. Par exemple, pour obtenir le p-valeur, vous pouvez faire ce qui suit:

> Model.anova ['poids', 'Pr (> F)'] [1] 1.293959e-10

On peut interpréter cette valeur en tant que la probabilité que l'ajout de la variable poids le modèle ne fait pas de différence. La valeur p faible ici indique que le poids d'une voiture (poids) Explique une grande partie de la différence de kilométrage (mpg) Entre les voitures. Cela ne devrait pas venir comme une surprise- une voiture plus lourde fait, en effet, besoin de plus de puissance pour faire glisser son propre poids autour.

Vous pouvez utiliser le anova () fonction de comparer les différents modèles ainsi, et de nombreux logiciels de modélisation fournir cette fonctionnalité. Vous trouverez des exemples de cette situation sur la plupart des pages d'aide connexes comme ?anova.lm et ?anova.glm.


» » » » Comment évaluer les données linéaires avec r