Comment diviser chaînes dans r

Une collection de lettres et de mots combinés est appelé chaîne. Chaque fois que vous travaillez avec du texte, vous devez être en mesure de concaténer des mots (les enchaîner) et de les diviser. Dans R, vous utilisez le coller () fonctionner pour concaténer et le StrSplit () fonctionner à diviser. Dans cette section, nous vous montrons comment utiliser les deux fonctions.

Tout d'abord, créer un vecteur de caractères appelé pangram, et attribuez-lui la valeur "The quick brown fox jumps over the lazy dog", comme suit:

> Pangram lt; - "The quick brown fox jumps over the lazy dog"> pangram [1] "The quick brown fox jumps over the lazy dog"

Pour diviser ce texte à la limites de mots (espaces), vous pouvez utiliser StrSplit () comme suit:




> StrSplit (pangram, "") [[1]] [1] "Le" renard "" "rapide" "brun" "saute" "sur" "le" "paresseux" "chien"

Notez que la première ligne de inhabituel StrSplit ()'de la sortie consiste en [[1]]. Semblable à la façon dont R affiche vecteurs, [[1]] R signifie que montre le premier élément d'une liste. Les listes sont des concepts extrêmement important dans R- Ils vous permettent de combiner toutes sortes de variables.

Dans l'exemple précédent, cette liste a qu'un seul élément. Oui, c'est ça: La liste a un élément, mais cet élément est un vecteur.

Pour extraire un élément d'une liste, vous devez utiliser doubles crochets. Divisez votre pangram en mots, et d'attribuer le premier élément d'une nouvelle variable appelée mots, en utilisant le double-crochets droits ([[]]) Sous-ensembles, comme suit:

mots lt; - StrSplit (pangram, "") [[1]]> mots [1] "Le" renard "" "rapide" "brun" "saute" "plus" "la" paresseux "" chien ""

Pour trouver les éléments uniques d'un vecteur, y compris un vecteur de texte, vous utilisez le Unique () fonction. Dans la variable mots, "la" apparaît deux fois: une fois en minuscules et une fois avec la première lettre en majuscule. Pour obtenir une liste des mots uniques, d'abord convertir mots en minuscules et ensuite utiliser unique:

> Unique (tolower (mots)) [1] "les" rapide "" brun "" Fox "" sauts "" "" plus "paresseux" [8] "chien"

» » » » Comment diviser chaînes dans r