Comment préparer les données dans un classement de r analyse prédictive modèle

Pour exécuter une analyse prédictive, vous devez obtenir les données sous une forme que l'algorithme peut utiliser de construire un modèle. Pour ce faire, vous avez à prendre un certain temps à comprendre les données et de connaître sa structure. Tapez le fonctionner à savoir la structure des données. Voici à quoi il ressemble:

> Str (graines) 'data.frame': 210 obs. de 8 variables: V1: num $ 15,3 14,9 14,3 13,8 16,1 ... $ V2: num 14,6 14,1 13,9 14,8 15 ... $ V3: num 0,881 0,905 0,895 0,871 0,903 $ ... V4: num 5,76 5,55 5,29 5,32 5,66. .. $ V5: num 3.31 3.33 3.34 3.38 3.56 ... $ V6: num 2,22 1,02 2,7 2,26 1,35 $ ... V7: num 5,22 4,96 4,83 4,8 5,17 $ V8 ...: INT 1 1 1 1 1 1 1 1 1 1 ...

En regardant la structure, vous pouvez dire que les données a besoin d'une étape de pré-traitement et une étape de commodité:

Renommer les noms de colonnes. Ce ne sont pas strictement nécessaire, mais pour les besoins de cet exemple, il est plus pratique d'utiliser les noms de colonnes, vous pouvez comprendre et à retenir.
Modifiez l'attribut avec des valeurs catégoriques à un facteur. L'étiquette a trois catégories possibles.

Pour renommer les colonnes, tapez le code suivant:

> Colnames (graines) lt; - 
c («zone», «périmètre», «compacité», «longueur», «largeur», «asymétrie», «length2", "seedType")

Ensuite, modifiez l'attribut qui a des valeurs catégoriques à un facteur. Le code suivant modifie le type de données à un facteur:

> Graines $ seedType lt; - facteurs (semences $ seedType)

Cette commande termine la préparation des données pour le processus de modélisation. Ce qui suit est une vue de la structure après le processus de préparation des données:

> Str (mauvaises herbes) 'data.frame': 210 obs. de 8 variables: $ habitable: num 15,3 14,9 14,3 13,8 16,1 $ ... Périmètre: num 14,8 14,6 14,1 13,9 15 ... $ compacité: num 0,871 0,881 0,905 0,895 0,903 ... $ Longueur: 5,76 5,55 5,29 num 5,32 5,66. .. $ largeur: 3.31 3.33 3.34 num 3,38 $ 3,56 ... asymétrie: num 2,22 1,02 2,7 2,26 1,35 $ ... length2: num 5,22 4,96 4,83 4,8 5,17 $ ... seedType: Facteur w / 3 niveaux "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 ...

A propos Auteur

Comment préparer les données en r régression pour l'analyse prédictive

Vous devez obtenir les données sous une forme que l'algorithme peut utiliser de construire un modèle analytique prédictive. Pour ce faire, vous avez à prendre un certain temps à comprendre les données et de connaître la structure des…

Effectuer l'analyse des sentiments sur twitter

Il semble que tout le monde utilise Twitter pour faire connaître aujourd'hui ses sentiments. Bien sûr, le problème est que personne ne sait vraiment les points communs de ces sentiments - qui est, si quelqu'un pouvait tirer toute sorte de…

Comment analyser les écarts de données dans les modèles avec r

Une analyse de variance (Anova) est une technique très courante utilisée avec R de comparer les moyens entre les différents groupes de données. Pour illustrer cela, jetez un oeil à l'ensemble de données Spray insecticide:> Str (InsectSprays)…

Comment calculer les corrélations de données dans r

La quantité dans laquelle deux variables de données varient ensemble peut être décrite par le Coefficient de corrélation. Dans R, vous obtenez les corrélations entre un ensemble de variables très facilement en utilisant le cor () fonction. Il…

Comment convertir les tables à une trame de données dans r

Lorsque vous essayez de créer des tableaux à partir d'une matrice dans R, vous vous retrouvez avec trial.table. L'object trial.table regards exactement la même que la matrice essai, mais il est vraiment pas. La différence devient clair lorsque…

Comment faire pour créer une trame de données à partir de zéro dans r

La conversion d'une matrice à une trame de données dans R ne peut pas être utilisé pour construire une trame de données avec différents types de valeurs. Si vous combinez les deux données numériques et de caractère dans une matrice, par…

Comment créer un facteur de r

Pour créer un facteur R, vous utilisez le factor () fonction. Les trois premiers arguments de factor () justifier une exploration:X: Le vecteur d'entrée que vous souhaitez transformer en un facteur.niveaux: Un vecteur facultatif des valeurs qui X…

Comment créer un tableau de données dans les deux sens avec r

UN tableau à double entrée est un tableau qui décrit deux variables de données catégoriques ensemble, et R vous donne toute une panoplie d'outils pour travailler avec des tables à deux voies. Elles contiennent le nombre de cas pour chaque…

Comment corriger les erreurs de lecture de données dans r

Probablement erreurs les plus courantes en R sont faites lors de la lecture des données à partir de fichiers texte à l'aide read.table () ou read.csv (). Beaucoup d'erreurs entraînent des erreurs R de lancement, mais parfois vous remarquez que…

Comment regarder la structure d'un facteur de r

R a une structure de données spéciale pour les données catégorielles, appelés facteurs. Facteurs sont étroitement liés à des personnages parce que tout vecteur de caractère peut être représenté par un facteur. Pour regarder un peu sous…

Comment préparer les données dans r

Avec R à votre portée, vous pouvez rapidement façonner vos données exactement comme vous le voulez. Voilà bien parce que dans de nombreux cas de la vie réelle, vous obtenez des tas de données dans un gros fichier, et de préférence dans un…

Comment régler les contrastes pour vos données avec R

Avant de pouvoir utiliser les R AOV () fonction avec vos données, vous feriez mieux de régler le contrastes vous allez utiliser. Les contrastes sont très souvent oubliés quand faire ANOVA (analyse des variables), mais ils aident généralement…

Comment utiliser read.csv () pour importer des données dans r

Une des façons les plus faciles et les plus fiables d'obtenir des données dans R est d'utiliser des fichiers de texte, en particulier CSV (valeurs séparées par des virgules) des fichiers. Le format de fichier CSV utilise la virgule pour séparer…

Comment travailler avec les noms de variables dans r

Variables dans une trame de données dans la R toujours besoin d'avoir un nom. Pour accéder aux noms de variables, vous pouvez encore traiter une trame de données comme une matrice et utiliser la fonction colnames () comme ça:> Colnames…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment préparer les données dans un classement de r analyse prédictive modèle