Comment ajouter des champs calculés à données dans r

Après avoir créé le sous-ensemble approprié de vos données, la prochaine étape de votre analyse est susceptible d'être effectuer quelques calculs avec R.

Sommaire

Comment faire de l'arithmétique sur les colonnes d'une trame de données

R rend très facile d'effectuer des calculs sur des colonnes d'une trame de données, car chaque colonne est elle-même un vecteur. Coller à la iris trame de données, essayer de faire quelques calculs sur les colonnes. Par exemple, calculer le rapport entre la longueur et la largeur des sépales:

> X lt; - iris $ Sepal.Length / iris $ Sepal.Width

Maintenant, vous pouvez utiliser tous les outils de recherche d'examiner votre résultat. Par exemple, inspecter les cinq premiers éléments de vos résultats avec le tête () fonction:

> Tête (x) [1] 1,457143 1,633333 1,468750 1,483871 1,388889 1,384615

Comme vous pouvez le voir, effectuer des calculs sur des colonnes d'une trame de données est simple. Il suffit de garder à l'esprit que chaque colonne est vraiment un vecteur, de sorte que vous avez tout simplement de se rappeler comment effectuer des opérations sur les vecteurs.

Comment utiliser avec et au sein pour améliorer la lisibilité du code




Après un court moment de la rédaction de déclarations de sous-ensembles dans R, vous êtes fatigués de taper le signe du dollar pour extraire les colonnes d'une trame de données. Heureusement, il existe un moyen de réduire la quantité de dactylographie et de faire votre code beaucoup plus lisible dans le même temps. L'astuce consiste à utiliser le avec () fonction. Essaye ça:

> Y lt; - avec (iris, Sepal.Length / Sepal.Width)

La avec () fonction vous permet de faire référence à des colonnes à l'intérieur d'une trame de données sans utiliser explicitement le signe du dollar ou même le nom de la trame de données elle-même. Ainsi, dans notre exemple, parce que vous utilisez avec (iris, ...) R sait d'évaluer à la fois Sepal.Length et Sepal.Width dans le contexte de iris.

Heureusement, vous acceptez que cela est beaucoup plus facile à lire et à comprendre. En imprimant les valeurs de votre nouvelle variable y, vous pouvez confirmer qu'il est identique à X dans l'exemple précédent.

> La tête (y) [1] 1,457143 1,633333 1,468750 1,483871 1,388889 1,384615

Vous pouvez également utiliser la identique () fonction pour obtenir R pour vous dire si ces valeurs sont, en fait, la même chose:

> Identiques (x, y) [1] TRUE

En plus de avec (), l'utile dans les () fonction vous permet d'assigner des valeurs aux colonnes de vos données très facilement. Dites que vous voulez ajouter à votre rapport calculé de la longueur des sépales à la largeur de la trame de données d'origine. Vous êtes déjà familier avec l'écrire comme ceci:

> Iris ratio de $ lt; - iris $ Sepal.Length / iris $ Sepal.Width

Maintenant, en utilisant dans les () elle se transforme en les éléments suivants:

> Iris lt; - à l'intérieur (iris, rapport lt; - Sepal.Length / Sepal.Width)

Cela fonctionne d'une manière très similaire à avec (), sauf que vous pouvez utiliser l'opérateur d'affectation (lt; -) À l'intérieur de votre fonction. Si vous regardez maintenant la structure de iris, vous remarquerez que rapport est une colonne:

> Tête (iris $ Ratio) [1] 1,457143 1,633333 1,468750 1,483871 1,388889 1,384615

» » » » Comment ajouter des champs calculés à données dans r