Comment étendre la fonctionnalité de texte avec stringr dans r
Si vous avez travaillé du tout avec les fonctions de manipulation de texte de R, vous vous demandez sans doute pourquoi toutes ces fonctions ont des noms tels immémoriaux et la syntaxe apparemment divers. Si oui, vous n'êtes pas seul.
En fait, Hadley Wickham a écrit un paquet disponible à partir de CRAN qui simplifie et standardise travailler avec le texte dans R. Ce paquet est appelé stringr, et vous pouvez l'installer en utilisant la console de R ou en choisissant Outils-installer des paquets dans rstudio.
Bien que vous devez installer un paquet qu'une seule fois, vous devez le charger dans l'espace de travail en utilisant le bibliothèque () fonctionner chaque fois que vous démarrez une nouvelle session de R et envisagez d'utiliser les fonctions de ce package.
install.packages ("stringr") bibliothèque (stringr)
Voici quelques-uns des avantages de l'utilisation stringr plutôt que les fonctions standard R:
Les noms de fonctions et les arguments sont cohérents et plus descriptif. Par exemple, toutes stringr fonctions ont des noms commençant par str_ (comme str_detect () et str_replace ()).
stringr a une façon plus cohérente de traiter les cas de données manquantes ou des valeurs vides.
stringr a une façon plus uniforme de veiller à ce que les données d'entrée et de sortie sont du même type.
La stringr équivalent de grep () est str_detect (), et l'équivalent de gsub () est str_replace_all ().
Comme point de départ pour explorer stringr, vous pouvez trouver certains de ces fonctions utiles:
str_detect (): Détecte la présence ou l'absence d'un motif dans une chaîne
str_extract (): Extrait la première pièce d'une chaîne qui correspond à un modèle
str_length (): Retourne la longueur d'une chaîne (en caractères)
str_locate (): Repère la position de la première occurrence d'un motif dans une chaîne
str_match (): Extrait le premier groupe assorti d'une chaîne
str_replace (): Remplace la première occurrence d'un motif reconnu dans une chaîne
str_split (): Scinde une chaîne en un nombre variable de pièces
str_sub (): Extraits chaînes à partir d'un vecteur de caractères
str_trim (): Supprime l'espace blanc de début et de fin de chaîne
str_wrap (): Wraps cordes en paragraphes bien formatés