Comment créer un classement de r analyse prédictive modèle

Vous voulez créer un modèle d'analyse prédictive que vous puissiez évaluer en utilisant les résultats connus. Pour ce faire, diviser la graines ensemble de données en deux ensembles: l'un pour l'apprentissage du modèle et un pour tester le modèle. A 70/30 entre la formation et les essais des ensembles de données suffira. Les deux prochaines lignes de code calculer et stocker les tailles de chaque ensemble de données:

> TrainSize lt; - ronde (nrow (graines) * 0,7)> testSize lt; - nrow (graines) - trainSize

À la sortie des valeurs, tapez le nom de la variable que vous avez utilisé pour stocker la valeur et appuyez sur Entrée. Voici le résultat:

> TrainSize [1] 147> testSize [1] 63

Ce code détermine les tailles pour la formation et les essais des ensembles de données. Vous ne l'avez pas fait encore créé les séries. En outre, vous ne voulez pas seulement les 147 premières observations à la formation fixés et les 63 dernières observations à l'ensemble de test. Cela créerait un mauvais modèle parce que le graines ensemble de données est ordonné dans la colonne de l'étiquette.

Ainsi vous avez à faire à la fois l'ensemble de la formation et de l'ensemble essai représentant de l'ensemble des données. Une façon de le faire est de créer la formation de définir une sélection aléatoire de l'ensemble des données.

En outre, vous voulez faire ce test reproductible de sorte que vous pouvez apprendre de la même exemple. Vous pouvez le faire en mettant l'ensemble de données pour le générateur aléatoire de sorte que vous avez le même "aléatoire" ensemble de la formation, comme ceci:




> Set.seed (123)> training_indices lt; - échantillons (seq_len (nrow (graines)),
size = trainSize)> rame lt; - semences [training_indices,]> testSet lt; - semences [-training_indices,]

L'ensemble de la formation que vous recevez de ce code contient 147 observations le long avec un résultat (seedType) De chaque observation. Lorsque vous créez le modèle, vous direz à l'algorithme qui variable est le résultat. L'algorithme de classification utilise ces résultats pour former le modèle en regardant les relations entre les variables prédictives (l'une des sept attributs) et l'étiquette (seedType).

L'ensemble de test contient le reste des données, qui est, toutes les données ne figurent pas dans le jeu de la formation. Notez que l'installation d'essai comprend également l'étiquette (seedType). Lorsque vous utilisez le prédire fonction (du modèle) avec l'ensemble de test, il ignore l'étiquette et utilise uniquement les variables prédictives, aussi longtemps que les noms de colonnes sont les mêmes car ils sont dans l'ensemble de la formation.

La fête package est l'un des plusieurs paquets dans R qui créent des arbres de décision. (Autres forfaits arbres de décision commune comprennent rpart, arbre, et randomForest.) La prochaine étape est d'utiliser le paquet pour créer un modèle d'arbre de décision, à l'aide seedType que la variable cible et toutes les autres variables comme des variables prédictives. La première étape de ce processus est d'installer le paquet et le charger dans notre session de R.

Tapez les lignes suivantes de code à installer et à charger le fête forfait:

> Install.packages («partie»)> bibliothèque (parti)

Vous êtes maintenant prêt à former le modèle. Tapez dans la ligne de code suivante:

> Modèle lt; - ctree (. seedType ~, data = rame)

Pour faire des prédictions avec de nouvelles données, vous utilisez simplement la fonction vec une liste des valeurs d'attribut sept. Le code suivant fait que:

> NewPrediction lt; - prédire (modèle, la liste (zone = 11,
périmètre = 13, compacité = 0,855, longueur = 5,
width = 2.8, l'asymétrie = 6,5, length2 = 5),
intervalle = "prédire", level = 0,95)

Ceci est le code de sortie et la nouvelle valeur de prédiction.

> NewPrediction [1] 3Levels: 1 2 3

La prédiction était type de semence 3, ce qui est pas surprenant parce valeurs ont été délibérément choisis qui étaient proches à l'observation n ° 165.


» » » » Comment créer un classement de r analyse prédictive modèle