Comment préparer les données en r régression pour l'analyse prédictive

Vous devez obtenir les données sous une forme que l'algorithme peut utiliser de construire un modèle analytique prédictive. Pour ce faire, vous avez à prendre un certain temps à comprendre les données et de connaître la structure des données. Tapez la fonction à savoir la structure des données. La commande et sa sortie ressemble à ceci:

> Str (autos) 'data.frame': 398 obs. de 9 variables: $ V1: num 15 18 16 18 17 15 14 14 14 15 ... $ V2: int 8 8 8 8 8 8 8 8 8 8 ... V3 $: num 307 350 318 304 302 429 454 440 455 390 $ ... V4: chr "130.0" "165.0" "150.0" "150.0" ... V5 $: num 3693 3436 3433 3504 3449 ... $ V6: num 11 12 11,5 12 10,5 10 10 8,5 8,5 9 ... V7 $: INT 70 70 70 70 70 70 70 70 70 70 ... V8 $: INT 1 1 1 1 1 1 1 1 1 1 ... V9 $: Facteur w / 305 niveaux «ambassadeur coupé amc" , ..:
 37 232 15 50 162 142 55 224 242 2 ...

En regardant la structure, vous pouvez dire qu'il ya un peu de préparation de données et de nettoyage à faire. Voici une liste des tâches nécessaires:

Renommer les noms de colonnes.
Ce ne sont pas strictement nécessaire, mais pour les besoins de cet exemple, il est préférable d'utiliser des noms de colonnes, vous pouvez comprendre et à retenir.
Changer le type de V4 de données (cheval-vapeur) À une numérique Type de données.
Dans cet exemple, cheval-vapeur est une valeur numérique non continu et une personnage Type de données.
Gérer les valeurs manquantes.
Ici cheval-vapeur a six valeurs manquantes.
Changez les attributs qui ont des valeurs discrètes à des facteurs.
Ici cylindres, l'année modèle, et origine ont des valeurs discrètes.
Jeter le V9 (nom de voiture) Attribut.
Ici nom de voiture ne pas ajouter de valeur pour le modèle que vous créez. Si le origine attribut n'a pas été donné, vous pourriez avoir dérivé à l'origine de la nom de voiture attribuer.

Pour renommer le type de colonnes dans le code suivant:

> Colnames (autos) lt; - 
c ("mpg", "cylindres", "déplacement", "puissance", "poids", "accélération", "Année de construction», «origine», 
"RARnom")

Ensuite, changer le type de données cheval-vapeur à numérique avec le code suivant:

> Autos $ chevaux lt; - as.numeric (autos $ chevaux)

Le programme va se plaindre parce que pas toutes les valeurs de puissance étaient des représentations de chaîne de nombres. Il y avait des valeurs manquantes qui ont été représentés comme “? ” personnage. Ça va pour l'instant parce R convertit chaque instance de ? en N / A.

Une façon courante de gérer les valeurs manquantes des variables continues est de remplacer chaque valeur manquante à la moyenne de l'ensemble de la colonne. La ligne de code suivante fait que:

> Autos $ puissance [is.na (autos $ ch)] lt; - moyen ($ autos chevaux, na.rm = TRUE)

Il est important d'avoir na.rm-TRUE dans le signifier fonction. Il indique à la fonction de ne pas utiliser des colonnes avec des valeurs nulles dans son calcul. Sans elle, la fonction sera de retour.

Ensuite, modifier les attributs avec des valeurs discrètes à des facteurs. Trois attributs ont été identifiés comme discrète. Les trois lignes de code suivantes modifient les attributs.

> Autos $ origine lt; - facteurs (autos) $ ORIGIN> autos $ l'année de construction cylindres facteurs (autos $ l'année de construction)> autos $ - lt; lt; - facteurs (autos cylindres $)

Enfin, supprimez l'attribut de la trame de données avec cette ligne de code:

> Autos $ RARnom lt; - NULL

À ce stade, vous avez terminé la préparation des données pour le processus de modélisation. Ce qui suit est une vue de la structure après le processus de préparation des données:

> Str (autos) 'data.frame': 398 obs. de 8 variables: $ mpg: num 15 18 16 18 17 15 14 14 14 15 ... $ cylindres: Facteur w / 5 niveaux "3", "4", "5", "6", ..:
 5 5 5 5 5 5 5 5 5 5 ... $ déplacement: num 350 318 304 307 302 429 454 440 455 390 $ ... chevaux: num 165 150 150 130 140 198 220 215 225 190 ... $ poids: num 3504 3693 3436 3433 3449. . . $ Accélération: num 11 12 11,5 12 10,5 10 9 8,5 10 8,5 $ ... Année de construction: Facteur w / 13 niveaux "70", "71", "72", ..:
 1 1 1 1 1 1 1 1 1 1 ... $ Origine: Facteur w / 3 niveaux "1", "2", "3":
 1 1 1 1 1 1 1 1 1 1 ...

A propos Auteur

Les données de grandes mines avec ruche

Hive est, une couche d'entreposage des données orientée lots construit sur les éléments de base de Hadoop (HDFS et MapReduce) et est très utile dans les grandes données. Il fournit aux utilisateurs qui connaissent SQL avec une mise en œuvre…

Comment ajouter de la couleur et une clé pour treillis graphiques dans r

Beaucoup treillis graphiques types en R - mais les graphiques à barres en particulier - ont tendance à afficher plusieurs groupes de données en même temps. Habituellement, vous pouvez distinguer les différents groupes par leur couleur ou…

Comment convertir les tables à une trame de données dans r

Lorsque vous essayez de créer des tableaux à partir d'une matrice dans R, vous vous retrouvez avec trial.table. L'object trial.table regards exactement la même que la matrice essai, mais il est vraiment pas. La différence devient clair lorsque…

Comment compter les valeurs de données uniques dans r

Pour comprendre ce que les données peuvent être pris en compte lorsque l'on travaille en R, nous allons jeter un oeil à l'ensemble de données mtcars. Cette base de données intégré décrit la consommation de carburant et dix points de 32…

Comment faire pour créer une trame de données à partir de zéro dans r

La conversion d'une matrice à une trame de données dans R ne peut pas être utilisé pour construire une trame de données avec différents types de valeurs. Si vous combinez les deux données numériques et de caractère dans une matrice, par…

Comment faire pour créer un terrain de treillis dans r

Explorer treillis graphiques dans R, d'abord jeter un oeil à l'ensemble de données intégré mtcars. Cette base de données contient 32 observations de voitures et des informations sur le moteur, comme le nombre de cylindres, automatiques contre…

Comment traiter avec des valeurs de données manquantes dans r

La cor () fonction dans R peut traiter avec des valeurs manquantes de multiples façons. Pour cela, vous définissez l'argument utilisation l'une des valeurs de texte possibles. La valeur de la utilisation argument est particulièrement important si…

Comment corriger les erreurs de lecture de données dans r

Probablement erreurs les plus courantes en R sont faites lors de la lecture des données à partir de fichiers texte à l'aide read.table () ou read.csv (). Beaucoup d'erreurs entraînent des erreurs R de lancement, mais parfois vous remarquez que…

Comment regarder la structure d'un facteur de r

R a une structure de données spéciale pour les données catégorielles, appelés facteurs. Facteurs sont étroitement liés à des personnages parce que tout vecteur de caractère peut être représenté par un facteur. Pour regarder un peu sous…

Comment préparer les données dans r

Avec R à votre portée, vous pouvez rapidement façonner vos données exactement comme vous le voulez. Voilà bien parce que dans de nombreux cas de la vie réelle, vous obtenez des tas de données dans un gros fichier, et de préférence dans un…

Comment supprimer des lignes avec des données manquantes dans r

Une autre application utile de jeux partiels de trames de données est de trouver et de supprimer des lignes avec des données manquantes. La fonction R pour vérifier cela est (complete.cases). Vous pouvez essayer ce sur l'ensemble de données…

Comment régler les contrastes pour vos données avec R

Avant de pouvoir utiliser les R AOV () fonction avec vos données, vous feriez mieux de régler le contrastes vous allez utiliser. Les contrastes sont très souvent oubliés quand faire ANOVA (analyse des variables), mais ils aident généralement…

Comment résumer un ensemble de données dans r

Si vous avez besoin d'un aperçu rapide de votre ensemble de données, vous pouvez, bien sûr, toujours utiliser la commande R str () et de regarder la structure. Mais cela vous dit quelque chose seulement sur les classes de vos variables et le…

Comment travailler avec les facteurs et les vecteurs numériques dans les modèles R et calculs

Si vous travaillez avec des facteurs de R qui ont des valeurs numériques comme les niveaux, vous devez être très prudent lors de l'utilisation de ces facteurs dans les modèles et d'autres calculs. Par exemple, vous convertissez le nombre de…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment préparer les données en r régression pour l'analyse prédictive