Comment tracer des données résumées dans un ggplot2 dans r

Une caractéristique très pratique de ggplot2

Sommaire

est sa gamme de fonctions pour résumer vos données R dans le complot. Cela signifie que vous ne disposent souvent pas d'effectuer une pré-résumer vos données. Par exemple, la hauteur des barres dans un histogramme indique combien d'observations de quelque chose que vous avez dans vos données.

Le résumé statistique pour cela est de compter les observations. Statisticiens se réfèrent à ce processus binning, et la stat de défaut pour geom_bar () est stat_bin ().

De manière analogue à la façon dont chaque geom a une stat de défaut associée, chaque stat a également un geom par défaut.

Donc, cela soulève la question: Comment décidez-vous si vous souhaitez utiliser un geom ou une stat? En théorie, il n'a pas d'importance si vous choisissez le geom ou la stat premier. Dans la pratique, cependant, il est souvent intuitive de commencer avec un type de tracé première - en d'autres termes, spécifier un geom. Si vous souhaitez ensuite ajouter une autre couche de résumé statistique, utiliser une stat.

Dans ce terrain, vous avez utilisé les mêmes données d'abord créer un nuage de points avec geom_point () puis vous avez ajouté une ligne lisse avec stat_smooth ().




Jetez un oeil à quelques exemples pratiques d'utilisation stat fonctions.

StatDescriptionPar défaut Geom
stat_bin ()Compte le nombre d'observations dans les bacs.geom_bar ()
stat_smooth ()Crée une ligne lisse.geom_line ()
stat_sum ()Ajoute valeurs.geom_point ()
stat_identity ()Aucun résumé. Emplacements données est.geom_point ()
stat_boxplot ()Résume les données pour une parcelle boîte et moustaches.geom_boxplot ()
Comment bin données ggplot2

Vous avez déjà vu comment utiliser stat_bin () pour résumer vos données dans des bacs, parce que cela est la stat de défaut de geom_bar (). Cela signifie que les deux lignes de code suivantes produisent parcelles identiques:

> Ggplot (tremblements de terre, AES (x = profondeur)) + geom_bar (binwidth = 50)> ggplot (tremblements de terre, AES (x = profondeur)) + stat_bin (binwidth = 50)

Comment lisser les données R dans ggplot2

La ggplot2 forfait rend également très facile de créer des lignes de régression à travers vos données. Vous utilisez le stat_smooth () fonction pour créer ce type de ligne.

La chose intéressante à propos stat_smooth () est que cela rend l'utilisation de la régression locale par défaut. R dispose de plusieurs fonctions qui peuvent le faire, mais ggplot2 utilise le loess () fonction de régression locale. Cela signifie que si vous voulez créer un modèle de régression linéaire que vous avez à dire stat_smooth () d'utiliser une fonction lisse différente. Vous faites cela avec le méthode argument.

Pour illustrer l'utilisation d'un plus lisse, commencez par créer un nuage de chômage dans la Longley ensemble de données:

> Ggplot (Longley, AES (x = Année, y = Employé)) + geom_point ()

Ensuite, ajouter un plus lisse. Cela est aussi simple que d'ajouter stat_smooth () à votre ligne de code.

> Ggplot (Longley, AES (x = Année, y = Personnes occupées)) ++ geom_point () + () stat_smooth

Enfin, dites- stat_smooth à utiliser un modèle de régression linéaire. Vous faites cela en ajoutant l'argument method = "LM".

image0.jpg
> Ggplot (Longley, AES (x = Année, y = Personnes occupées)) ++ geom_point () + stat_smooth (method = "LM")

Comment dire ggplot2 laisser vos données unsummarized

Parfois, vous ne voulez pas ggplot2 pour résumer vos données dans le complot. Cela se produit généralement lorsque vos données est déjà pré-résumé ou lorsque chaque ligne de votre bloc de données doit être tracée séparément. Dans ces cas, vous voulez dire ggplot2 de ne rien faire du tout, et la stat de le faire est stat_identity ().


» » » » Comment tracer des données résumées dans un ggplot2 dans r