Comment utiliser read.csv () pour importer des données dans r

Une des façons les plus faciles et les plus fiables d'obtenir des données dans R est d'utiliser des fichiers de texte, en particulier CSV (valeurs séparées par des virgules) des fichiers. Le format de fichier CSV utilise la virgule pour séparer les différents éléments en ligne, et chaque ligne de données est dans sa propre ligne dans le fichier de texte, ce qui rend les fichiers CSV idéal pour représenter des données tabulaires.

L'avantage supplémentaire de fichiers CSV est que presque toutes les applications de données prend en charge l'exportation des données au format CSV. Cela est certainement le cas pour la plupart des applications de tableur, y compris Microsoft Excel et OpenOffice Calc.

Dans les exemples suivants, supposons que vous avez un fichier CSV stocké dans un dossier pratique dans votre système de fichiers. Pour convertir un fichier Excel au format CSV, vous devez choisir Fichier-Enregistrer sous, qui vous donne la possibilité d'enregistrer votre fichier dans une variété de formats.

Gardez à l'esprit que d'un fichier CSV peut représenter une seule feuille de calcul d'un tableur. Enfin, veillez à utiliser la rangée supérieure de votre feuille de calcul (ligne 1) pour les en-têtes de colonnes.




Dans R, vous utilisez le read.csv () fonction pour importer des données au format CSV. Cette fonction a un certain nombre d'arguments, mais le seul argument essentiel est fichier, qui précise l'emplacement et le nom. Pour lire un fichier appelé elements.csv situé à F: utilisation read.csv () avec chemin du fichier:

> Éléments lt; - read.csv (file.path ("F:", "elements.csv»))> str (éléments) 'data.frame': 10 obs. de 9 variables: $ Atomic.number: int 1 2 3 4 5 6 7 8 9 10 $ Nom: Facteur W / 10 niveaux "béryllium", "Boron", ..: 6 5 7 1 2 3 9 10 4 8 $ Symbole: Facteur W / 10 niveaux «B», «être», «C», «F», ..: 5 6 7 2 1 3 8 4 9 10 $ Groupe: INT 1 18 1 2 13 14 15 16 17 18 $ Période: int 1 1 2 2 2 2 2 2 2 2 $ Bloc: Facteur w / 2 niveaux "p", "S": 2 2 2 2 1 1 1 1 1 1 $ State.at.STP: Facteur w / 2 niveaux "Gaz", "solide": 1 1 2 2 2 2 1 1 1 1 $ Présence: Facteur w / 1 niveau "Primordial": 1 1 1 1 1 1 1 1 1 1 $ Description: Facteur W / 6 niveaux "métal alcalin", ..: 1 2 5 6 4 6 6 6 5 3

R importe les données dans une trame de données. Comme vous pouvez le voir, cet exemple a dix observations de neuf variables.

Notez que l'option par défaut est de convertir les chaînes de caractères en facteurs. Ainsi, les colonnes Nom, Bloc, State.At.STP, Occurrence, et Description tous ont été convertis en facteurs. Notez également que R convertit les espaces dans les noms de colonnes à des périodes (par exemple, dans la colonne State.At.STP).

Cette option par défaut de conversion de chaînes en facteurs lorsque vous utilisez read.table () peut être une source de grande confusion. Vous êtes souvent mieux l'importation de données qui contient des chaînes de manière à ce que les chaînes ne sont pas des facteurs convertis, mais restez vecteurs de caractères. Pour importer des données qui contient des chaînes, utilisez l'argument stringsAsFactors = FALSE à read.csv () ou read.table ():

> Éléments lt; - read.csv (file.path ("f", "elements.csv"), stringsAsFactors = FALSE)> str (éléments) 'data.frame': 10 obs. de 9 variables: $ Atomic.number: int 1 2 3 4 5 6 7 8 9 10 $ Nom: chr "hydrogène" "Helium" "Lithium" "béryllium" ... $ Symbole: chr "H" "Il" " Li "" Soyez "... $ Groupe: INT 1 18 1 2 13 14 15 16 17 18 $ Période: INT 1 1 2 2 2 2 2 2 2 2 $ Bloc: CHR" s "" s "" s "" s "... $ State.at.STP: chr" Gaz "" Gaz "" solide "" Solid "... $ Présence: chr" Primordial "" Primordial "" Primordial "" Primordial "... $ Description: chr "non métalliques" "de gaz Noble" "métal alcalin" "de métal alcalino-terreux" ...

Si vous avez un fichier dans le (Union européenne) le format de l'UE (où les virgules sont utilisés comme séparateurs décimaux et virgules sont utilisés comme séparateurs de champs), vous avez besoin d'importer à l'aide de la R read.csv2 () fonction.


» » » » Comment utiliser read.csv () pour importer des données dans r