Comment utiliser les parcelles quantile pour vérifier la normalité de données dans r

Histogrammes laissent beaucoup à l'interprétation du spectateur. Une manière graphique mieux dans R de dire si vos données sont réparties normalement est de regarder un prétendu complot quantile-quantile (QQ).

Sommaire

Avec cette technique, vous tracez quantiles uns contre les autres. Si vous comparez deux échantillons, par exemple, vous comparez simplement les quantiles de deux échantillons. Ou, pour le dire un peu différemment, R effectue les opérations suivantes pour construire un terrain de QQ:

  • On trie les données des deux échantillons.

  • Il trace ces valeurs rangés les uns contre les autres.

Si les deux échantillons ne contiennent pas le même nombre de valeurs, R calcule par interpolation des valeurs supplémentaires pour le plus petit échantillon afin de créer deux échantillons de la même taille.

Comment comparer deux échantillons de données




Bien sûr, vous n'êtes pas obligé de le faire par vous-même, vous pouvez simplement utiliser la qqplot () fonction pour cela. Donc, pour vérifier si les températures au cours de l'activité et au repos sont répartis de manière égale, vous faites simplement ce qui suit:

> Qqplot (beaver2 $ temp [beaver2 $ activ == 1], + beaver2 $ temp [beaver2 $ activ == 0])

Cela crée un terrain où les valeurs ordonnées sont portées contre l'autre.

image0.jpg

Entre les crochets, vous pouvez utiliser un vecteur logique de sélectionner les cas que vous voulez. Ici vous sélectionnez tous les cas où la variable activ égal à égal 1 pour le premier échantillon, et tous les cas où cette variable est égal à 0 pour le second échantillon.

Comment utiliser un complot R QQ pour vérifier la normalité des données

Dans la plupart des cas, vous ne voulez pas de comparer deux échantillons uns avec les autres, mais comparer un échantillon avec un échantillon théorique qui vient d'une certaine distribution (par exemple, la distribution normale).

Pour faire un QQ plot de cette façon, R a la spéciale qqnorm () fonction. Comme son nom l'indique, cette fonction trace votre échantillon contre une distribution normale. Vous donnez simplement l'échantillon que vous voulez tracer comme premier argument et ajouter des paramètres graphiques que vous aimez.

R crée ensuite un échantillon avec des valeurs provenant de la standard distribution normale, ou une distribution normale avec une moyenne de zéro et un écart type de un. Avec ce deuxième échantillon, R crée le QQ plot comme expliqué précédemment.

R a également une qqline () fonction, ce qui ajoute une ligne à votre QQ plot normal. Cette ligne rend beaucoup plus facile d'évaluer si vous voyez une nette déviation de la normalité. Le plus proche de tous les points se trouvent à la ligne, plus la répartition de votre échantillon provient de la distribution normale. La qqline () fonction prend également l'échantillon comme un argument.

Maintenant, vous voulez faire cela pour les températures pendant la fois l'actif et la période inactive du castor. Vous pouvez utiliser le qqnorm () fonctionner deux fois pour créer deux parcelles. Pour les périodes d'inactivité, vous pouvez utiliser le code suivant:

> Qqnorm (beaver2 $ temp [beaver2 $ activ == 0], principales = «inactif»)> qqline (beaver2 $ temp [beaver2 $ activ == 0])

Vous pouvez faire de même pour la période active en changeant la valeur 0 à 1.

image1.jpg

» » » » Comment utiliser les parcelles quantile pour vérifier la normalité de données dans r