Comment décrire la variation des données dans r

Un seul numéro ne vous dit pas grand-chose sur vos données. Souvent, il est aussi important de savoir la propagation de vos données. Vous pouvez utiliser R pour regarder cette diffusion en utilisant un certain nombre d'approches différentes.

Sommaire

D'abord, vous pouvez calculer soit le variance ou la écart-type pour résumer la propagation dans un seul numéro. Pour cela, vous avez les fonctions pratiques var () pour la variance et sd () pour l'écart type. Par exemple, vous calculez l'écart-type de la variable mpg dans la trame de données voitures comme ça:

> SD (voitures $ mpg) [1] 6,026948

Suivant à la moyenne et de la variation, vous pouvez aussi jeter un oeil à les quantiles. UN quantile, ou centile, vous indique combien de vos données est inférieure à une certaine valeur. Le quantile 50 pour cent, par exemple, est rien, mais la médiane. Encore une fois, R a quelques fonctions pratiques pour vous aider à regarder les quantiles.

Comment calculer plage de données en R




Les quantiles les plus utilisées sont en fait les 0 et 100 pour cent quantiles. Vous pourriez tout aussi facilement les appeler le minimum et le maximum, parce que est ce qu'ils sont. Vous pouvez obtenir à la fois min () et max () en utilisant l'ensemble des fonctions gamme() fonction. Cette fonction vous donne idéalement la gamme des données. Donc, à savoir entre lesquels se trouvent deux valeurs tous les kilométrages, vous faites simplement ce qui suit:

> Gamme (voitures $ mpg) [1] 10,4 33,9

Comment calculer les données quartiles en R

La gamme vous donne toujours des informations limitées. Souvent statisticiens signaler la première et la troisième quartile à côté de la plage et de la médiane. Ces quartiles sont, respectivement, les 25 et 75 pour cent quantiles, qui sont les numéros dont un quart et les trois quarts des données est plus petit. Vous obtenez ces chiffres en utilisant la quantile () fonction, comme ceci:

> Quantile (voitures $ mpg) 0% 25% 50% 75% 100% 10.400 15.425 19.200 22.800 33.900

Les quartiles ne sont pas la même que la charnière inférieure et supérieure calculée dans le résumé en cinq chiffres. Les deux derniers sont, respectivement, la médiane de la moitié inférieure et supérieure de vos données, et ils diffèrent légèrement des premier et troisième quartiles. Pour obtenir les cinq statistiques d'immatriculation, vous utilisez le fivenum () fonction.

Comment se rendre sur la vitesse avec la fonction quantile en R

La quantile () fonction peut vous donner toute quantile vous voulez. Pour cela, vous utilisez le probs argument. Vous donnez le probs (ou probabilités) comme un nombre fractionnaire. Pour les 20 pour cent quantile, par exemple, vous utilisez 0.20 comme un argument pour la valeur. Cet argument prend également un vecteur comme une valeur, de sorte que vous pouvez, par exemple, obtenir les 5 pour cent et 95 pour cent quantiles comme ceci:

> Quantile (voitures $ MPG, probs = c (0,05, 0,95)) 5% à 95% 11,995 31,300

La valeur par défaut pour le probs argument est un vecteur représentant le minimum (0), le premier quartile (0,25), la médiane (0,5), le troisième quartile (0,75), et un maximum (1).

Toutes ces fonctions ont un argument na.rm qui vous permet de supprimer toutes N / A des valeurs avant de calculer la statistique respective. Si vous ne le faites pas, tout vecteur contenant N / A aura N / A Par conséquent. Cela fonctionne de manière identique à la na.rm argument de la sum () fonction.


» » » » Comment décrire la variation des données dans r