Comment utiliser les données dans le format grand dans les parcelles de réseau dans r

Lorsque vous avez des données dans les hautes format R, vous pouvez facilement utiliser treillis graphiques pour visualiser les sous-groupes dans vos données. Par exemple, ce qui se passe lorsque vous souhaitez analyser plus d'une variable simultanément?

Considérons l'ensemble de données intégré Longley, contenant des données sur l'emploi, le chômage, et d'autres indicateurs de la population:

> Str (Longley) 'data.frame': 16 obs. de 7 variables: $ GNP.deflator: num 83 88,5 88,2 89,5 96,2 $ ... PNB: num 234 259 258 285 329 $ ... Chômeur: NUM 236 232 368 335 210 $ ... Armed.Forces NUM 159 146 162 165 310 $ ... Population: 108 109 num 110 111 112 $ ... Année: int 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 $ ... Employé: num 60,3 61,1 60,2 61,2 63,2 ...

Une façon d'analyser facilement les différentes variables d'une trame de données est d'abord de remodeler la trame de données de grand format au format haut.




Une trame de données large contient une colonne pour chaque variable. Une trame de données de haut contient toutes les mêmes informations, mais les données sont organisées de telle manière que une colonne est réservé pour identifier le nom de la variable et une seconde colonne contient les données réelles.

Un moyen facile de remodeler une trame de données de grand format au format haute est d'utiliser la fondre () en fonction de la reshape2 package. Rappelez-vous: reshape2 ne fait pas partie de la base R - il est un paquet d'add-on qui est disponible sur CRAN. Vous pouvez l'installer avec le install.packages ("reshape2") fonction.

> Bibliothèque ("reshape2")> mlongley lt; - fondre (Longley, id.vars = "Année")> str (mlongley) 'data.frame': 96 obs. de 3 variables: $ Année: int 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 $ ... variables: Facteur W / 6 niveaux "GNP.deflator", ..: 1 1 1 1 1 1 1 1 1 1 .. . $ value: num 83 88,5 88,2 89,5 96,2 ...

Maintenant, vous pouvez tracer la trame de données de haut mlongley et utiliser les nouvelles colonnes valeur et variable dans la formule valeur ~ Année | variable.

> Xyplot (valeur ~ Année | variables, données = mlongley, + layout = c (6, 1), + par.strip.text = liste (CEX = 0,7), + échelles = liste (CEX = 0,7) +)

Les arguments supplémentaires par.strip.text et balance contrôler la taille des caractères (caractère taux d'expansion) de la bande en haut de la carte, ainsi que l'échelle.

Lorsque vous créez des parcelles avec plusieurs groupes, assurez-vous que le complot résultant est significatif. Par exemple, l'unité de PNB (court pour Produit National brut) Est probablement des milliards de dollars. En revanche, l'unité de la population est probablement des millions de personnes. (La documentation de la Longley ensemble de données est pas claire sur ce sujet.)

Soyez très prudent lorsque vous présentez parcelles comme cela - vous ne voulez pas être accusé de création tableau indésirable (trompeuse graphiques).

image0.jpg

» » » » Comment utiliser les données dans le format grand dans les parcelles de réseau dans r