Comment préparer les données dans un classement de r analyse prédictive modèle

Pour exécuter une analyse prédictive, vous devez obtenir les données sous une forme que l'algorithme peut utiliser de construire un modèle. Pour ce faire, vous avez à prendre un certain temps à comprendre les données et de connaître sa structure. Tapez le fonctionner à savoir la structure des données. Voici à quoi il ressemble:

> Str (graines) 'data.frame': 210 obs. de 8 variables: V1: num $ 15,3 14,9 14,3 13,8 16,1 ... $ V2: num 14,6 14,1 13,9 14,8 15 ... $ V3: num 0,881 0,905 0,895 0,871 0,903 $ ... V4: num 5,76 5,55 5,29 5,32 5,66. .. $ V5: num 3.31 3.33 3.34 3.38 3.56 ... $ V6: num 2,22 1,02 2,7 2,26 1,35 $ ... V7: num 5,22 4,96 4,83 4,8 5,17 $ V8 ...: INT 1 1 1 1 1 1 1 1 1 1 ...

En regardant la structure, vous pouvez dire que les données a besoin d'une étape de pré-traitement et une étape de commodité:

  • Renommer les noms de colonnes. Ce ne sont pas strictement nécessaire, mais pour les besoins de cet exemple, il est plus pratique d'utiliser les noms de colonnes, vous pouvez comprendre et à retenir.




  • Modifiez l'attribut avec des valeurs catégoriques à un facteur. L'étiquette a trois catégories possibles.

Pour renommer les colonnes, tapez le code suivant:

> Colnames (graines) lt; - 
c («zone», «périmètre», «compacité», «longueur», «largeur», «asymétrie», «length2", "seedType")

Ensuite, modifiez l'attribut qui a des valeurs catégoriques à un facteur. Le code suivant modifie le type de données à un facteur:

> Graines $ seedType lt; - facteurs (semences $ seedType)

Cette commande termine la préparation des données pour le processus de modélisation. Ce qui suit est une vue de la structure après le processus de préparation des données:

> Str (mauvaises herbes) 'data.frame': 210 obs. de 8 variables: $ habitable: num 15,3 14,9 14,3 13,8 16,1 $ ... Périmètre: num 14,8 14,6 14,1 13,9 15 ... $ compacité: num 0,871 0,881 0,905 0,895 0,903 ... $ Longueur: 5,76 5,55 5,29 num 5,32 5,66. .. $ largeur: 3.31 3.33 3.34 num 3,38 $ 3,56 ... asymétrie: num 2,22 1,02 2,7 2,26 1,35 $ ... length2: num 5,22 4,96 4,83 4,8 5,17 $ ... seedType: Facteur w / 3 niveaux "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 ...

» » » » Comment préparer les données dans un classement de r analyse prédictive modèle