Comment suss stats dans ggplot2 dans r

Une fois les données, la cartographie, et geoms, le quatrième élément d'un ggplot2

Sommaire

couche en R décrit comment les données doivent être résumées. Dans ggplot2, vous vous référez à ce résumé statistique comme un stat.

Une caractéristique très pratique de ggplot2 est sa gamme de fonctions pour résumer vos données dans le complot. Cela signifie que vous ne disposent souvent pas d'effectuer une pré-résumer vos données. Par exemple, la hauteur des barres dans un histogramme indique combien d'observations de quelque chose que vous avez dans vos données. Le résumé statistique pour cela est de compter les observations. Statisticiens se réfèrent à ce processus binning, et la stat de défaut pour geom_bar () est stat_bin ().

De manière analogue à la façon dont chaque geom a un défaut associé stat, chaque stat dispose également d'un défaut geom.

Donc, cela soulève la question: Comment décidez-vous si vous voulez utiliser geom ou un stat? En théorie, il n'a pas d'importance si vous choisissez la geom ou la stat premier. Dans la pratique, cependant, il est souvent intuitive de commencer avec un type de tracé première - en d'autres termes, spécifier une geom. Si vous souhaitez ensuite ajouter une autre couche de résumé statistique, utiliser un stat.

Faire un histogramme avec & lt; span class =geom_bar (). "width =" 535 "/>
Faire un histogramme avec geom_bar ().

Dans ce terrain, vous avez utilisé les mêmes données d'abord créer un nuage de points avec geom_point (), puis vous avez ajouté une ligne lisse avec stat_smooth ().

Voici quelques exemples pratiques d'utilisation stat fonctions.

StatDescriptionPar défaut Geom
stat_bin ()Compte le nombre d'observations dans les bacs.geom_bar ()
stat_smooth ()Crée une ligne lisse.geom_line ()
stat_sum ()Ajoute valeurs.geom_point ()
stat_identity ()Aucun résumé. Emplacements données est.geom_point ()
stat_boxplot ()Résume les données pour une parcelle boîte et moustaches.geom_boxplot ()

Données Binning




Vous avez déjà vu comment utiliser stat_bin () pour résumer vos données dans des bacs, parce que cela est la stat de défaut de geom_bar (). Cela signifie que les deux lignes de code suivantes produisent parcelles identiques:

> Ggplot (tremblements de terre, AES (x = profondeur)) + geom_bar (binwidth = 50)> ggplot (tremblements de terre, AES (x = profondeur)) + stat_bin (binwidth = 50)

Lissage de données

La ggplot2 forfait rend également très facile de créer des lignes de régression à travers vos données. Vous utilisez le stat_smooth () fonction pour créer ce type de ligne.

La chose intéressante à propos stat_smooth () est que cela rend l'utilisation de la régression locale par défaut. R dispose de plusieurs fonctions qui peuvent le faire, mais ggplot2 utilise le loess () fonction de régression locale. Cela signifie que si vous voulez créer un modèle de régression linéaire, vous avez à dire stat_smooth () d'utiliser une fonction lisse différente. Vous faites cela avec le méthode argument.

Pour illustrer l'utilisation d'un plus lisse, commencez par créer un nuage de chômage dans la Longley ensemble de données:

> P lt; - ggplot (Longley, AES (x = Année, y = Personnes occupées)) + geom_point ()> p

Ensuite, ajouter un plus lisse. Cela est aussi simple que d'ajouter stat_smooth () à votre ligne de code.

> P + stat_smooth ()

Votre graphique devrait ressembler le complot visant à la gauche de l'image ci-dessous.

Parfois, ggplot2 génère des messages avec conseils et informations supplémentaires. Tant que vous ne voyez pas avertissement ou une erreur, vous pouvez ignorer ces messages. Dans ce cas, stat_smooth () vous dit que le défaut lisse est une méthode appelée lœss (lissage local). Le message dit aussi que vous pouvez utiliser les méthodes de lissage alternatives.

Enfin, utiliser stat_smooth () à installer et à tracer un modèle de régression linéaire. Vous faites cela en ajoutant l'argument method =LM:

> P + stat_smooth (method = “ LM ”)

Votre graphique devrait maintenant ressembler à la parcelle vers la droite.

Ajout de lignes de régression avec & lt; span class =stat_smooth (). "width =" 535 "/>
Ajout de lignes de régression avec stat_smooth ().

Ne rien faire avec l'identité

Parfois, vous ne voulez pas ggplot2 pour résumer vos données dans le complot. Cela se produit généralement lorsque vos données est déjà pré-résumé ou lorsque chaque ligne de votre bloc de données doit être tracée séparément. Dans ces cas, vous voulez dire ggplot2 de ne rien faire du tout, et la stat de le faire est stat_identity (). Vous avez probablement remarqué que stat_identity est la statistique de défaut pour les points et les lignes.


» » » » Comment suss stats dans ggplot2 dans r