Comment tester la normalité des données de façon formelle dans r

Les méthodes graphiques pour vérifier la normalité de données dans R laissent encore beaucoup à votre propre interprétation. Il ya beaucoup de discussion dans le monde de la statistique sur le sens de ces parcelles et ce qui peut être considéré comme normal.

Si vous vous présentez l'un de ces parcelles à dix statisticiens différents, vous pouvez obtenir dix réponses différentes. Voilà tout un exploit quand vous attendez un simple oui ou non, mais les statisticiens ne font pas de réponses simples.

Au contraire, tout ce qui tourne autour des statistiques mesurant l'incertitude. Cette incertitude est résumée dans une probabilité - souvent appelée p-valeur - et pour calculer cette probabilité, vous avez besoin d'un test formel.

Probablement le test le plus largement utilisé pour la normalité est le test de Shapiro-Wilks. La fonction pour effectuer ce test, commodément appelé shapiro.test (), ne pouvait pas être plus facile à utiliser. Vous donnez l'échantillon comme le seul et unique argument, comme dans l'exemple suivant:




> Shapiro.test (beaver2 $ temp) Shapiro-Wilks normalité testdata: beaver2 $ = 0,9334 tempW, valeur p = 7.764e-05

Cette fonction retourne un objet de liste, et de la p-valeur est contenue dans un élément appelé Val.par. Ainsi, par exemple, vous pouvez extraire la valeur de p simplement en utilisant le code suivant:

> Résultat lt; - shapiro.test (beaver2 $ temp)> Résultat $ Val.par [1] 7.763782e-05

Cette valeur-p vous indique quelles sont les chances que l'échantillon provient d'une distribution normale. Plus cette valeur, plus la chance. Les statisticiens utilisent typiquement une valeur de 0,05 comme une coupure, alors quand le p-valeur est inférieure à 0,05, on peut conclure que l'échantillon diffère de la normalité.

Dans l'exemple précédent, la p-valeur est nettement inférieure à 0,05 - et cela ne devrait pas venir comme une surprise- la distribution de la température montre deux pics séparés. Ceci est rien comme la courbe en cloche d'une distribution normale.

Lorsque vous choisissez un test, vous pourriez être plus intéressé à la normalité dans chaque échantillon. Vous pouvez tester deux échantillons en une seule ligne en utilisant le tapply () fonction, comme ceci:

> With (castor, tapply (temp, Activ, shapiro.test)

Ce code renvoie les résultats d'un test de Shapiro-Wilks de la température pour chaque groupe spécifié par la variable activ.

Les gens font souvent référence au test de Kolmogorov-Smirnov pour tester la normalité. Vous effectuez le test en utilisant le ks.test () fonction dans la base R. Mais cette fonction de R ne sont pas adaptés pour tester déviation de normality- vous pouvez l'utiliser seulement de comparer les différentes distributions.


» » » » Comment tester la normalité des données de façon formelle dans r