Comment utiliser des fréquences ou des densités avec vos données en r

En brisant vos données à des intervalles de R, vous perdez encore certaines informations. Pourtant, la manière la plus complète de décrire vos données est en estimant la fonction de densité de probabilité

Sommaire

(PDF) ou densité de votre variable.

Si ce concept est inconnu pour vous, ne vous inquiétez pas. Rappelez-vous que la densité est proportionnelle à la chance que toute valeur à vos données est approximativement égale à cette valeur. En fait, pour un histogramme, la densité est calculée à partir des chiffres, de sorte que la seule différence entre un histogramme des fréquences et une avec des densités, est l'ampleur de la y-axe. Pour le reste, ils sont exactement les mêmes.

Comment faire pour créer un terrain de densité

On peut estimer la fonction de densité d'une variable en utilisant le densité () fonction. La sortie de cette fonction elle-même ne vous dit pas grand-chose, mais vous pouvez facilement l'utiliser dans un complot. Par exemple, vous pouvez obtenir la densité de la variable de kilométrage mpg comme ça:

> Mpgdens lt; - densité (voitures $ mpg)



L'objet que vous obtiendrez de cette façon est une liste contenant beaucoup d'informations que vous ne avez pas vraiment besoin de regarder. Mais cette liste rend traçant la densité aussi facile que de dire “ parcelle la densité ” ;:

> Plot (mpgdens)

L'intrigue semble un peu rude sur les bords, mais la chose importante est de voir comment vos données sort. L'objet de la densité est tracée une ligne, avec les valeurs réelles de vos données sur le X-axe et la densité de la y-axe.

image0.jpg

La mpgdens objet de liste contient - entre autres choses - un élément appelé X et un appelé y. Ceux-ci représentent la X- et y-coordonnées pour tracer la densité. Lorsque R calcule la densité, la densité () fonction divise vos données dans un certain nombre de petits intervalles et calcule la densité du milieu de chaque intervalle. Ces milieux sont les valeurs pour X, et les densités calculées sont les valeurs de y.

Comment tracer densités dans un histogramme

Rappelez-vous que le hist () fonction renvoie les chiffres pour chaque intervalle. Maintenant, la chance que la valeur se trouve dans un certain intervalle est directement proportionnelle aux comtes. Les plus de valeurs que vous avez dans un certain intervalle, plus les chances que toute valeur que vous avez choisi est couché dans cet intervalle.

Ainsi, au lieu d'avoir fomenté les chefs de l'histogramme, vous pourriez tout aussi bien tracer les densités. R fait tous les calculs pour vous - la seule chose que vous devez faire est de définir la fréq argument du hist () à FAUX, comme ça:

> Hist (voitures $ mpg, col = 'grise', fréq = FALSE)

Maintenant, la parcelle sera exactement le même que avant- seules les valeurs sur le y-axe sont différents. L'échelle sur le y-axe est réglé de telle manière que vous pouvez ajouter le complot de densité sur l'histogramme. Pour cela, vous utilisez le (lignes) fonctionner avec l'objet de densité comme argument.

Ainsi, vous pouvez, par exemple, fantaisie jusqu'à l'histogramme précédente un peu plus loin en ajoutant la densité estimée en utilisant le code suivant immédiatement après la commande précédente:

> Lignes (mpgdens)

Vous voyez le résultat de ces deux commandes sur le côté droit. Rappelez-vous que (lignes) utilise le X et y des éléments de l'objet de la densité mpgdens pour tracer la ligne.


» » » » Comment utiliser des fréquences ou des densités avec vos données en r