Construction du modèle avec régression pas à pas

Une des raisons (mais pas la seule raison) pour l'exécution d'une analyse de régression multiple est à venir avec une formule de prédiction pour une variable de résultat, basé sur un ensemble de variables prédictives disponibles. Idéalement, vous aimeriez cette formule d'être parcimonieux - d'avoir aussi peu de variables que possible, mais encore faire de bonnes prédictions.

Alors, comment choisissez-vous, parmi un grand tas de variables prédictives, le plus petit sous-ensemble nécessaire pour faire un bon modèle de prédiction? Ceci est appelé le “ bâtiment modèle ” problème, qui est un sujet de recherche active par les statisticiens théoriques. Aucune méthode a émergé comme la meilleure façon de sélectionner les variables à inclure. Malheureusement, les chercheurs utilisent souvent des méthodes informelles qui semblent raisonnables, mais ne sont pas vraiment très bon, comme ce qui suit:

  • Faites une grande régression multiple en utilisant toutes les variables disponibles, puis déposez ceux qui ne sortent significative. Cette approche peut manquer certains prédicteurs importants en raison de la colinéarité.




  • Exécutez régressions univariées sur chaque prédicteur possible individuellement, puis sélectionnez uniquement les prédicteurs qui étaient significatifs (ou presque) significative sur les tests univariés. Mais parfois une variable prédictive vraiment important est pas significativement associée à l'issue lorsqu'il est testé par lui-même, mais seulement lorsque les effets de certaines autres variables ont été compensés. Ce problème est l'inverse du problème de la signification de disparaître - il est pas aussi commun, mais cela peut arriver.

Il est une autre façon - de nombreuses statistiques offrent des forfaits régression pas à pas, dans lequel vous fournissez toutes les variables prédictives disponibles, et le programme passe ensuite à travers un processus similaire à ce qu'un être humain (avec un esprit logique et beaucoup de temps sur les mains) pourraient faire pour identifier le meilleur sous-ensemble de ces prédicteurs. Le programme tente de façon très systématique ajoutant et supprimant les divers prédicteurs du modèle, un à la fois, pour voir ce qui prédicteurs, lorsqu'il est ajouté à un modèle, d'améliorer sensiblement sa capacité prédictive, ou lorsqu'il est retiré du modèle, faire bien pire.

Régression par étapes peut utiliser plusieurs algorithmes différents, et les modèles peut être jugée meilleure ou pire par plusieurs critères différents. En général, ces méthodes font souvent un travail décent de ce qui suit:

  • La détection et l'abandon des variables qui ne sont pas associés avec le résultat, soit en régression univariée ou multiple

  • La détection et l'abandon variables redondantes (prédicteurs qui sont fortement associées à de meilleurs prédicteurs de l'issue)

  • Détecter et y compris les variables qui peuvent ne pas avoir été significatif dans la régression univariée, mais qui sont importants lorsque vous réglez les effets des autres variables

La plupart des logiciels de régression par degrés vous permet également de “ la force ” certaines variables dans le modèle, si vous savez (à partir de preuves physiologiques) que ces variables sont des prédicteurs importants de l'issue.


» » » » Construction du modèle avec régression pas à pas