Comment jeter des données à format large en r

Si vous avez une dataset fondu (un ensemble de données au format long), vous êtes prêt à le remodeler avec R. Pour illustrer le fait que le processus de remodelage conserve toutes vos données intactes, essayer de reconstruire l'original:

> Dcast (mgoals, Lieu + Game ~ variable somme) Jeu Lieu Granny Geraldine Gertrude1 1er Bruges 12 5112 2ème Gand 4 453 3 264 4 5 Gand Bruges 6 47

Pouvez-vous voir comment dcast () prend une formule comme second argument? Plus à ce sujet dans une minute, mais d'abord inspecter vos résultats. Il doit correspondre à la trame de données d'origine.

Ensuite, vous voudrez peut-être faire quelque chose de plus intéressant - par exemple, créer un résumé en lieu et joueur.

Vous utilisez le dcast () fonction de jeter une trame de données fondu. Pour être clair, vous utilisez ce pour convertir d'un format long à un grand format, mais vous pouvez également l'utiliser pour agréger dans des formats intermédiaires, similaire à la façon dont un tableau croisé dynamique fonctionne.

La dcast () fonction prend trois arguments:

  • données: Une trame de données fondu.




  • formule: Une formule qui spécifie comment vous voulez lancer les données. Cette formule prend la forme x_variable ~ y_variable. Mais il est simplifié pour faire un point. Vous pouvez utiliser plusieurs X-variables multiples y-variables et même z-variables.

  • fun.aggregate: Une fonction à utiliser si les résultats de la formule de coulée dans l'agrégation de données (par exemple, length (), sum (), ou signifier()).

Donc, pour obtenir ce résumé de lieu contre joueur, vous devez utiliser dcast () avec une formule de coulée Lieu de variable ~. Notez que la formule de coulée se réfère à colonnes dans votre bloc de données fusion:

> DCAST (mgoals variable ~ Venue, somme) variable de Bruges Ghent1 Granny 18 92 Geraldine 9 63 18 11 Gertrude

Si vous voulez obtenir une table avec le lieu courant le long des lignes et le joueur à travers les colonnes, votre formule de coulée devrait être Venue ~ variables:

> DCAST (mgoals, Venue ~ variable somme) Lieu Granny Geraldine Gertrude1 Bruges 18 9 611 9182 Gand

Il est effectivement possible d'avoir des formules de coulée plus compliquées. Selon la page d'aide pour dcast (), la formule de coulée prend ce format:

x_variable + x_2 ~ y_variable + Y_2 ~ ~ z_variable ...

Notez que vous pouvez combiner plusieurs variables dans chaque dimension avec le signe plus (+), Et vous vous séparez chaque dimension d'un tilde (~). Aussi, si vous avez deux ou plusieurs tildes dans la formule (qui est, vous inclure une z-variable), votre résultat sera un tableau multidimensionnel.

Donc, pour obtenir un résumé des objectifs en Lieu, player (variable), Et Jeu, vous faites ce qui suit:

> Dcast (mgoals, Lieu + variables ~ Jeu, somme) Lieu variables 1er 2e 3e 4th1 Bruges Granny 12 0 0 62 Bruges Geraldine 5 0 0 43 Bruges Gertrude 11 0 0 74 Gand Granny 0 4 5 05 Gand Geraldine 0 4 2 06 Gand Gertrude 0 5 0 6

Une des raisons que vous devez comprendre les données dans le format long est que les deux paquets les graphiques treillis et ggplot2 faire un large usage des données de format long. L'avantage est que vous pouvez facilement créer des parcelles de vos données qui compare les différents sous-groupes.

image0.jpg
> Bibliothèque (ggplot2)> ggplot (mgoals, AES (x = variable y = valeur, remplissez = Jeu)) + geom_bar ()

» » » » Comment jeter des données à format large en r