Comment créer un modèle d'analyse prédictive avec r régression

Vous voulez créer un modèle d'analyse prédictive que vous puissiez évaluer en utilisant les résultats connus. Pour ce faire, nous allons partager notre ensemble de données en deux ensembles: l'un pour l'apprentissage du modèle et un pour tester le modèle. A 70/30 entre la formation et les essais des ensembles de données suffira. Les deux prochaines lignes de code calculer et stocker les tailles de chaque série:

> TrainSize lt; - ronde (nrow (autos) * 0,7)> testSize lt; - nrow (autos) - trainSize

À la sortie des valeurs, tapez le nom de la variable utilisée pour stocker la valeur et appuyez sur Entrée. Voici le résultat:

> TrainSize [1] 279> testSize [1] 119

Ce code détermine les tailles des ensembles de données que vous comptez faire de nos apprentissage et de test des ensembles de données. Vous ne l'avez pas encore fait créé ces ensembles. En outre, vous ne voulez pas tout simplement d'appeler les 279 premières observations de l'ensemble de la formation et appeler les 119 dernières observations de l'ensemble de test. Cela créerait un mauvais modèle, car l'ensemble de données apparaît ordonné. Plus précisément, la Année de construction colonne est ordonné du plus petit au plus grand.

De l'examen des données, vous pouvez voir que la plupart des huit cylindres, de plus grosse cylindrée plus lourd, de l'automobile plus-puissance résident sur le dessus de l'ensemble de données. De cette observation, sans avoir à courir tout algorithmes sur les données, vous pouvez déjà dire que (en général pour cet ensemble de données) des voitures plus anciennes par rapport à des voitures plus récentes comme suit:

Sont plus lourdes
Avoir huit cylindres
Avoir plus grosse cylindrée
Avoir une plus grande puissance

Bon, de toute évidence beaucoup de gens savent quelque chose sur les voitures, donc une supposition quant à ce que les corrélations sont ne sera pas trop tiré par les cheveux après avoir vu les données. Quelqu'un avec beaucoup de connaissances de l'automobile peut avoir déjà connu cela sans même regarder les données.

Ceci est juste un exemple simple d'un domaine (les voitures) que beaucoup de gens peuvent se rapporter à. Si cela était données sur le cancer, cependant, la plupart des gens ne comprennent pas immédiatement ce que signifie chaque attribut.

Ceci est où un expert du domaine et un modeleur de données sont essentielles pour le processus de modélisation. Les experts du domaine peuvent avoir la meilleure connaissance de ce qui attributs peuvent être le plus (ou moins) important - et comment les attributs corrélation avec l'autre.

Ils peuvent suggérer au modeleur de données variables à expérimenter. Ils peuvent donner de plus grands poids aux attributs les plus importants et / ou petits poids aux attributs de moindre importance (ou les supprimer complètement).

Donc, vous avez à faire un jeu de données de formation et un ensemble de données de test qui sont vraiment représentatifs de l'ensemble. Une façon de le faire est de créer la formation de définir une sélection aléatoire de l'ensemble des données. En outre, vous voulez faire ce test reproductible de sorte que vous pouvez apprendre de la même exemple.

Ainsi mis la graine pour le générateur aléatoire de sorte que nous aurons le même “ aléatoire ” ensemble d'apprentissage. Le code suivant fait cette tâche:

> Set.seed (123)> training_indices lt; - échantillons (seq_len (nrow (autos)),
 size = trainSize)> rame lt; - Automobiles [training_indices,]> testSet lt; - Autos [-training_indices,]

L'ensemble de la formation contient 279 observations, avec le résultat (mpg) De chaque observation. L'algorithme de régression utilise le résultat pour former le modèle en regardant les relations entre les variables prédictives (l'une des sept attributs) et la variable de réponse (mpg).

L'ensemble de test contient le reste des données (qui est, la partie non inclus dans l'ensemble de la formation). Vous devriez remarquer que le critère énoncé comprend également la réponse (mpg) Variable.

Lorsque vous utilisez le prédire fonction (à partir du modèle) avec l'appareil d'essai, il ne tient pas compte de la variable de réponse et utilise uniquement les variables prédictives aussi longtemps que les noms de colonnes sont les mêmes que ceux de l'ensemble d'apprentissage.

Pour créer un modèle de régression linéaire qui utilise le mpg attribuer comme variable de réponse et toutes les autres variables comme variables prédictives, tapez la ligne de code suivante:

> Modèle lt; - LM (. formule = rame $ mpg ~, data = rame)

A propos Auteur

Comment expliquer les résultats analytiques prédictifs de régression r

Une fois que vous créez un modèle de régression de R pour l'analyse prédictive, vous voulez être en mesure d'expliquer les résultats de l'analyse. Pour voir quelques informations utiles sur le modèle, le type dans le code suivant:> Résumé…

Comment introduire les données dans r régression pour l'analyse prédictive

L'ensemble de données que vous allez utiliser dans cet exemple est le jeu de données Auto-MPG, qui peut être trouvé dans le référentiel de l'UCI. Cette base de données a 398 observations et 8 attributs, plus l'étiquette.La étiquette…

Comment charger des données dans un modèle d'apprentissage svm supervisé

Pour l'analyse prédictive, vous devez charger les données de vos algorithmes à utiliser. Chargement du jeu de données dans Iris scikit est aussi simple que la délivrance d'un couple de lignes de code, car scikit a déjà créé une fonction…

Comment charger les données dans un classement de r analyse prédictive modèle

L'ensemble de données que nous analysons de faire une prédiction sur le jeu de données sur les semences, qui peut être trouvé à l'apprentissage automatique référentiel UCI. Cette base de données dispose de 210 observations et 7 attributs…

Comment de nouvelles prédictions analytiques avec r régression

Pour faire des prédictions analytiques avec de nouvelles données, vous utilisez simplement la fonction avec une liste des valeurs d'attribut sept. Le code suivant fait ce travail:> NewPrediction lt; - prédire (modèle,
liste (cylindres =…

Comment décrire les données d'essais et de test pour l'analyse prédictive

Lorsque vos données est prêt et vous êtes sur le point de commencer à construire votre modèle prédictif pour l'analyse, il est utile de décrire votre méthodologie de test et de rédiger un plan de test. Le test doit être guidée par les…

Comment préparer les données en r régression pour l'analyse prédictive

Vous devez obtenir les données sous une forme que l'algorithme peut utiliser de construire un modèle analytique prédictive. Pour ce faire, vous avez à prendre un certain temps à comprendre les données et de connaître la structure des…

Comment faire pour exécuter les données de formation dans un modèle d'apprentissage supervisé svm

Avant que vous pouvez nourrir le classificateur Support Vector Machine (SVM) avec les données qui ont été chargés pour l'analyse prédictive, vous devez diviser l'ensemble de données complet en un ensemble de formation et un ensemble de…

Comment tester le modèle d'analyse prédictive

Pour être en mesure de tester le modèle d'analyse prédictive vous avez construit, vous devez diviser votre ensemble de données en deux ensembles: formation et de test des ensembles de données. Ces ensembles de données doivent être choisis au…

Comment utiliser l'analyse supervisées pour former des modèles prédictifs

Dans Analytics supervisées, l'entrée et la sortie préférée font partie des données de formation. Le modèle d'analyse prédictive est présenté avec les résultats corrects dans le cadre de son processus d'apprentissage. Un tel apprentissage…

Comment utiliser régressions linéaires dans l'analyse prédictive

Régression linéaire est une méthode statistique qui analyse et trouve les relations entre les deux variables. Dans l'analyse prédictive, il peut être utilisé pour prédire une valeur numérique d'une grandeur future.Prenons un exemple de…

L'exploration de données pour les données volumineuses

L'exploration de données consiste à explorer et d'analyser de grandes quantités de données pour trouver des modèles pour les grandes données. Les techniques sont sortis des domaines de la statistique et de l'intelligence artificielle (IA),…

Comment préparer les données dans r

Avec R à votre portée, vous pouvez rapidement façonner vos données exactement comme vous le voulez. Voilà bien parce que dans de nombreux cas de la vie réelle, vous obtenez des tas de données dans un gros fichier, et de préférence dans un…

Comment résumer un ensemble de données dans r

Si vous avez besoin d'un aperçu rapide de votre ensemble de données, vous pouvez, bien sûr, toujours utiliser la commande R str () et de regarder la structure. Mais cela vous dit quelque chose seulement sur les classes de vos variables et le…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment créer un modèle d'analyse prédictive avec r régression