Comment corriger les erreurs de lecture de données dans r

Probablement erreurs les plus courantes en R sont faites lors de la lecture des données à partir de fichiers texte à l'aide read.table () ou read.csv (). Beaucoup d'erreurs entraînent des erreurs R de lancement, mais parfois vous remarquez que quelque chose allait mal quand vous regardez la structure de vos données. Dans le dernier cas, vous trouverez souvent que certaines ou toutes les variables sont convertis en facteurs quand ils devraient vraiment pas être.

Lorsque R donne des erreurs ou de la structure de vos données est pas ce que vous pensez qu'elle devrait être, vérifiez les points suivants:

  • Vous avez oublié de spécifier l'argument tête = TRUE? Si oui, R va voir les noms de colonnes comme les valeurs et, en conséquence, de convertir chaque variable d'un facteur comme il le fait toujours avec les données de caractère dans un fichier texte.




  • Avez-vous eu des espaces dans vos noms de colonnes ou des données? La read.table () fonction peut interpréter espaces dans, par exemple, les noms de colonnes ou dans les données de chaîne comme un séparateur. Vous obtenez alors des erreurs de vous dire «ligne x n'a pas d'éléments y '.

  • Avez-vous eu un séparateur décimal différent? Dans certains pays, les décimales sont séparées par une virgule. Vous devez dire spécifiquement R qui est le cas en utilisant l'argument dec = "," dans le read.table () fonction.

  • Avez-vous oublié de spécifier stringsAsFactors = FALSE? Par défaut, R modifie les données de caractères à des facteurs, de sorte que vous ayez toujours ajouter cet argument si vous voulez que vos données restent variables caractères.

  • Avez-vous une autre façon de spécifier les valeurs manquantes? R lit 'N / A' dans un fichier texte comme une valeur manquante, mais le fichier peut utiliser un code différent (par exemple, «disparus»). R verra que sous forme de texte et encore convertir cette variable à un facteur. Vous résoudre ce problème en spécifiant l'argument na.strings dans le read.table () fonction.

Si vous vérifiez toujours la structure de vos données immédiatement après avoir lu, vous pouvez attraper des erreurs beaucoup plus tôt et d'éviter des heures de frustration. Votre meilleur pari est d'utiliser str () des informations sur les types et tête () pour voir si les valeurs sont ce que vous attendiez.


» » » » Comment corriger les erreurs de lecture de données dans r