Comment faire pour créer des sous-groupes de données dans r

La Couper()

Sommaire

fonction dans R crée bacs de taille égale (par défaut) dans vos données, puis classifie chaque élément dans son bac approprié.

Si cela sonne comme une bouchée, ne vous inquiétez pas. Quelques exemples devraient faire de cette viennent à la vie.

Comment utiliser coupe pour créer un nombre fixe de sous-groupes

Pour illustrer l'utilisation de Couper(), avoir un regard sur l'ensemble de données intégré state.x77, un tableau avec plusieurs colonnes et une ligne pour chaque Etat aux Etats-Unis:

> Tête (state.x77) Revenu Population analphabétisme vie Exp Assassiner HS Grad gel AreaAlabama 3615 36242,1 69.05 15.1 41.3 20 50708Alaska 365 63151,5 69.31 11.3 66.7 152 566432Arizona 2212 45301,8 70,55 7,8 58,1 15 113417Arkansas 2110 33781,9 70,66 10,1 39,9 65 51945California 21198 51141,1 71.71 10.3 62.6 20 156361Colorado 2541 48840,7 72,06 6,8 63,9 166 103766

Vous voulez travailler avec la colonne intitulée Gel. Pour extraire cette colonne, essayez ce qui suit:




> Gel lt; - state.x77 ["gel"]> tête (gel, 5) Alabama Alaska Arizona Arkansas California20152 15 65 20

Vous avez maintenant un nouvel objet, gel, un vecteur numérique nommé. Maintenant utiliser Couper() de créer trois poubelles dans vos données:

> Coupe (gel, 3, include.lowest = TRUE) [1] [-0.188,62.6] (125 188] [-0.188,62.6] (62.6,125] [5] [-0.188,62.6] (125188] (125,188 ] (62.6,125] .... [45] (125 188] (62.6,125] [-0.188,62.6] (62.6,125] [49] (125,188 (125,188]] Niveaux: [-0.188,62.6] ( 62.6,125] (125 188]

Le résultat est un facteur de trois niveaux. Les noms des niveaux semblent un peu compliqué, mais ils vous disent en notation mathématique des ensembles quelles sont les limites de vos bacs sont. Par exemple, le premier bin contient les États qui ont le gel entre -0.188 et 62,8 jours.

En réalité, bien sûr, aucun des Etats aura givre sur négatives jours - R est étant mathématiquement conservatrice et ajoute un peu de rembourrage.

Notez l'argument include.lowest = TRUE à Couper(). La valeur par défaut de cet argument est include.lowest = FALSE, qui peut parfois provoquer R d'ignorer la plus faible valeur de vos données.

Comment ajouter des étiquettes à couper

Les noms de niveau ne sont pas très convivial, le précisent certains de meilleurs noms avec le étiquettes Argument:

> Coupe (gel, 3, include.lowest = TRUE, étiquettes = c ("Low", "Med", "High")) [1] Bas Haut Bas Moyen Bas Haut Haut Bas Bas Bas Med .... [45 ] Haut Med HIGH HighLevels: HIGH

Maintenant vous avez un facteur qui classe les états en bas, moyen et élevé, selon le nombre de jours de gel qu'ils obtiennent.

Comment utiliser la table pour compter le nombre d'observations

Une pièce intéressante de l'analyse est de compter combien d'États sont dans chaque support. Vous pouvez le faire avec le table() fonction, qui compte simplement le nombre d'observations dans chaque niveau de votre facteur.

> X lt; - coupe (gel, 3, include.lowest = TRUE, étiquettes = c ("Low", "Med", "High"))> Tableau (x) XLOW Med High11 19 20

» » » » Comment faire pour créer des sous-groupes de données dans r