Comment créer un modèle d'analyse prédictive avec r régression

Vous voulez créer un modèle d'analyse prédictive que vous puissiez évaluer en utilisant les résultats connus. Pour ce faire, nous allons partager notre ensemble de données en deux ensembles: l'un pour l'apprentissage du modèle et un pour tester le modèle. A 70/30 entre la formation et les essais des ensembles de données suffira. Les deux prochaines lignes de code calculer et stocker les tailles de chaque série:

> TrainSize lt; - ronde (nrow (autos) * 0,7)> testSize lt; - nrow (autos) - trainSize

À la sortie des valeurs, tapez le nom de la variable utilisée pour stocker la valeur et appuyez sur Entrée. Voici le résultat:

> TrainSize [1] 279> testSize [1] 119

Ce code détermine les tailles des ensembles de données que vous comptez faire de nos apprentissage et de test des ensembles de données. Vous ne l'avez pas encore fait créé ces ensembles. En outre, vous ne voulez pas tout simplement d'appeler les 279 premières observations de l'ensemble de la formation et appeler les 119 dernières observations de l'ensemble de test. Cela créerait un mauvais modèle, car l'ensemble de données apparaît ordonné. Plus précisément, la Année de construction colonne est ordonné du plus petit au plus grand.

De l'examen des données, vous pouvez voir que la plupart des huit cylindres, de plus grosse cylindrée plus lourd, de l'automobile plus-puissance résident sur le dessus de l'ensemble de données. De cette observation, sans avoir à courir tout algorithmes sur les données, vous pouvez déjà dire que (en général pour cet ensemble de données) des voitures plus anciennes par rapport à des voitures plus récentes comme suit:

  • Sont plus lourdes




  • Avoir huit cylindres

  • Avoir plus grosse cylindrée

  • Avoir une plus grande puissance

Bon, de toute évidence beaucoup de gens savent quelque chose sur les voitures, donc une supposition quant à ce que les corrélations sont ne sera pas trop tiré par les cheveux après avoir vu les données. Quelqu'un avec beaucoup de connaissances de l'automobile peut avoir déjà connu cela sans même regarder les données.

Ceci est juste un exemple simple d'un domaine (les voitures) que beaucoup de gens peuvent se rapporter à. Si cela était données sur le cancer, cependant, la plupart des gens ne comprennent pas immédiatement ce que signifie chaque attribut.

Ceci est où un expert du domaine et un modeleur de données sont essentielles pour le processus de modélisation. Les experts du domaine peuvent avoir la meilleure connaissance de ce qui attributs peuvent être le plus (ou moins) important - et comment les attributs corrélation avec l'autre.

Ils peuvent suggérer au modeleur de données variables à expérimenter. Ils peuvent donner de plus grands poids aux attributs les plus importants et / ou petits poids aux attributs de moindre importance (ou les supprimer complètement).

Donc, vous avez à faire un jeu de données de formation et un ensemble de données de test qui sont vraiment représentatifs de l'ensemble. Une façon de le faire est de créer la formation de définir une sélection aléatoire de l'ensemble des données. En outre, vous voulez faire ce test reproductible de sorte que vous pouvez apprendre de la même exemple.

Ainsi mis la graine pour le générateur aléatoire de sorte que nous aurons le même “ aléatoire ” ensemble d'apprentissage. Le code suivant fait cette tâche:

> Set.seed (123)> training_indices lt; - échantillons (seq_len (nrow (autos)),
size = trainSize)> rame lt; - Automobiles [training_indices,]> testSet lt; - Autos [-training_indices,]

L'ensemble de la formation contient 279 observations, avec le résultat (mpg) De chaque observation. L'algorithme de régression utilise le résultat pour former le modèle en regardant les relations entre les variables prédictives (l'une des sept attributs) et la variable de réponse (mpg).

L'ensemble de test contient le reste des données (qui est, la partie non inclus dans l'ensemble de la formation). Vous devriez remarquer que le critère énoncé comprend également la réponse (mpg) Variable.

Lorsque vous utilisez le prédire fonction (à partir du modèle) avec l'appareil d'essai, il ne tient pas compte de la variable de réponse et utilise uniquement les variables prédictives aussi longtemps que les noms de colonnes sont les mêmes que ceux de l'ensemble d'apprentissage.

Pour créer un modèle de régression linéaire qui utilise le mpg attribuer comme variable de réponse et toutes les autres variables comme variables prédictives, tapez la ligne de code suivante:

> Modèle lt; - LM (. formule = rame $ mpg ~, data = rame)

» » » » Comment créer un modèle d'analyse prédictive avec r régression