Comment sélectionner des variables indépendantes pour votre modèle économétrique
L'une des décisions les plus importantes que vous faites lorsque vous spécifiez votre modèle économétrique est variables à inclure comme variables indépendantes. Ici, vous trouverez ce que des problèmes peuvent survenir si vous incluez trop peu ou trop de variables indépendantes dans le modèle, et vous voyez comment cette erreur de spécification affecte vos résultats.
L'omission de variables pertinentes
Si une variable qui appartient dans le modèle est exclu de la fonction de régression estimée, le modèle est mal spécifié et peut causer des biais dans les coefficients estimés.
Vous avez un biais de variable omise si une variable exclue a un effet (positif ou négatif) sur votre variable dépendante et il est corrélé avec au moins un de vos variables indépendantes.
La nature mathématique de biais de spécification peut être exprimé en utilisant un modèle simple. Supposons que le vrai modèle de population est donnée par
où X1 et X2 sont les deux variables qui affectent Y. Mais en raison de l'ignorance ou manque de données, à la place vous estimez cette régression:
qui omet X2 à partir des variables indépendantes. La valeur attendue
dans cette situation est
Mais cette équation viole le théorème de Gauss-Markov parce
L'amplitude de la polarisation peut être exprimé sous la forme
où
si l'effet de X2 sur Y et
est la pente de cette régression:
qui capte la corrélation (positive ou négative) entre la variable (s) inclus et exclus.
Impact de la variable omise variable dépendante | Corrélation entre inclus et Omis variable: | |
---|---|---|
Positif | Négatif | |
Positif | Biais positif | Polarisation négative |
Négatif | Polarisation négative | Biais positif |
Dans la pratique, vous êtes susceptible d'avoir un biais de variable omise, car il est impossible de contrôler tout ce qui touche votre variable dépendante. Cependant, vous pouvez augmenter vos chances de minimiser les biais de variable omise en évitant les modèles de régression simples (avec une variable indépendante) et y compris les variables qui sont susceptibles d'être le plus important en théorie (et peut-être, mais pas nécessairement statistiquement) pour expliquer la variable dépendante .
Y compris les variables pertinentes
Si une variable ne fait pas dans le modèle et est inclus dans la fonction de régression estimée, le modèle est trop précis. Si vous overspecify le modèle de régression en incluant une variable non pertinente, les coefficients estimés restent impartiale. Cependant, il a un effet indésirable d'augmenter les erreurs types de vos coefficients.
Dans un modèle de régression simple (avec une variable indépendante), l'erreur-type estimée du coefficient de régression pour X est
où
est la variance estimée de l'erreur et
est la variation totale X.
Si vous incluez des variables supplémentaires indépendantes dans le modèle, l'erreur-type estimée pour un coefficient de régression donnée est donnée par
où
est le R-carré de la régression de Xk sur les autres variables indépendantes ou Xs. Car
le numérateur diminue. Une variable non pertinente ne aider à expliquer pas de la variation Y, sans une baisse correspondante des
les standards d'erreur augmente.
Juste parce que votre coefficient estimé est statistiquement non significatif ne permet pas pertinent. Un modèle bien spécifié comprend habituellement certaines variables qui sont statistiquement significatives et d'autres qui ne sont pas. En outre, les variables qui ne sont pas statistiquement significatif peut contribuer assez de variation expliqué avoir aucun impact négatif sur les erreurs standard.