Comment estimer la différence entre deux proportions

Pour estimer la différence entre deux proportions de la population avec un intervalle de confiance, vous pouvez utiliser le théorème central limite lorsque les tailles d'échantillon sont assez grande (typiquement, chacun au moins 30). Quand une caractéristique statistique, comme opinion sur une question (support / ne supportent pas), des deux groupes comparés est catégorique, les gens veulent faire rapport sur les différences entre les deux proportions de la population - par exemple, la différence entre la proportion de femmes et d'hommes qui soutiennent une semaine de travail de quatre jours. Comme faites-vous cela?

Vous estimez que la différence entre deux proportions de la population, p1 - p2, en prélevant un échantillon à partir de chaque population et l'utilisation de la différence des deux proportions de l'échantillon,

image0.jpg

plus ou moins une marge d'erreur. Le résultat est appelé un intervalle de confiance pour la différence de deux proportions de la population, p1 - p2.

La formule pour la différence entre deux proportions de la population pour un intervalle de confiance (CI) est

image1.jpg

et n1 sont la taille de la proportion de l'échantillon et de l'échantillon du premier échantillon, et

image2.jpg

et n2 sont la proportion d'échantillon et la taille de l'échantillon du second échantillon. La valeur z * est la valeur appropriée de la distribution normale standard pour votre niveau de confiance désiré. (Reportez-vous au tableau ci-dessous pour z *-valeurs).

z*-valeurs pour différents niveaux de confiance
Un niveau de confiancez * -value
80%1,28
90%1.645 (par convention)
95%1,96
98%2.33
99%2.58

Pour calculer un IC pour la différence entre deux proportions de la population, faire ce qui suit:

  1. Déterminer le niveau de confiance et de trouver le lieu z *-valeur.

    Faire référence à le tableau ci-dessus.

  2. Trouver la proportion d'échantillon

    image3.jpg

    pour le premier échantillon en prenant le nombre total du premier échantillon qui sont dans la catégorie d'intérêt et en divisant par la taille de l'échantillon, n1. De même, trouver

    image4.jpg

    pour le second échantillon.

  3. Prenez la différence entre les proportions de l'échantillon,

    image5.jpg



  4. Trouver

    image6.jpg

    et diviser par n1. Trouver

    image7.jpg

    et diviser par n2. Ajouter ces deux résultats ensemble et prendre la racine carrée.

  5. Multipliez z * fois le résultat de l'étape 4.

    Cette étape vous donne la marge d'erreur.

  6. Prendre

    image8.jpg

    plus ou moins la marge d'erreur de l'étape 5 pour obtenir le CI.

    L'extrémité inférieure de l'IC est

    image9.jpg

    diminuée de la marge d'erreur, et l'extrémité supérieure de l'IC est

    image10.jpg

    plus la marge d'erreur.

La formule présentée ici pour un CI pour p1 - p2 est utilisé sous la condition que les deux tailles d'échantillon sont assez grands pour le théorème central limite à appliquer et vous permettent d'utiliser un z* -value- cela est vrai lorsque vous êtes à l'aide de l'estimation de proportions enquêtes à grande échelle, par exemple. Pour de petits échantillons, les intervalles de confiance sont au-delà de la portée d'un cours de statistiques de l'intro.

Supposons que vous travaillez pour la Chambre de Las Vegas de commerce, et que vous voulez estimer avec confiance à 95% de la différence entre le pourcentage de toutes les femmes qui ont déjà allé voir un imitateur d'Elvis et le pourcentage de tous les hommes qui ont déjà allé voir un imitateur d'Elvis, afin d'aider à déterminer la façon dont vous devriez vendre vos offres de divertissement.

  1. Parce que vous voulez un intervalle de confiance de 95%, votre z *-la valeur est de 1,96.

  2. Supposons que votre échantillon aléatoire de 100 femmes comprend 53 femmes qui ont vu un imitateur d'Elvis, de sorte

    image11.jpg

    est 53 divisé par 100 = 0,53. Supposons également que votre échantillon aléatoire de 110 hommes comprend 37 hommes qui ont jamais vu un imitateur d'Elvis, de sorte

    image12.jpg

    est 37 divisé par 110 = 0,34.

  3. La différence entre ces proportions de l'échantillon (femelles - mâles) est de 0,53 à 0,34 = 0,19.

  4. Prenez 0,53 # 8727- (1 - 0,53) pour obtenir 0,2941. Puis diviser par 100 pour obtenir 0,0025. Ensuite, prendre 0,34 # 8727- (1 à 0,34) pour obtenir 0,2244. Puis diviser par 110 pour obtenir 0,0020. Ajouter ces deux résultats pour obtenir 0,0025 + 0,0020 = 0,0045. Ensuite, trouver la racine carrée de 0,0045 qui est 0,0671.

  5. 1,96 # 8727- 0,0671 vous donne 0,13, ou 13%, ce qui est la marge d'erreur.

  6. Votre intervalle de confiance de 95% pour la différence entre le pourcentage de femmes qui ont vu un imitateur d'Elvis et le pourcentage d'hommes qui ont vu un imitateur d'Elvis est de 0,19 ou 19% (qui vous avez obtenu à l'étape 3), plus ou moins 13%. L'extrémité inférieure de l'intervalle est de 0,19 - 0,13 = 0,06 ou 6% - de l'extrémité supérieure est de 0,19 + 0,13 = 0,32 ou 32%.

    Pour interpréter ces résultats dans le contexte du problème, vous pouvez dire avec confiance de 95%, un pourcentage plus élevé de femmes que d'hommes ont vu un imitateur d'Elvis, et la différence de ces pourcentages est quelque part entre 6% et 32%, en fonction de votre échantillon.

    La tentation est de dire, “ Eh bien, je savais une plus grande proportion de femmes a vu un imitateur d'Elvis parce que proportion de l'échantillon était de 0,53 pour les hommes et il était seulement de 0,34. Pourquoi dois-je encore besoin d'un intervalle de confiance ”?; Tous ces deux chiffres vous disent quelque chose sur ces 210 personnes échantillonnées. Vous devez également tenir compte de la variation en utilisant la marge d'erreur pour être en mesure de dire quelque chose à propos de l'ensemble des populations d'hommes et de femmes.

Bien sûr, il ya des gars là-bas qui ne voulait pas admettre qu'ils avaient jamais vu un imitateur d'Elvis (même si ils ont probablement semblant d'être un faire karaoké à un certain point). Cela peut créer un biais dans les résultats.

Notez que vous pourriez obtenir une valeur négative pour

image13.jpg

Par exemple, si vous aviez activé les mâles et les femelles, vous auriez obtenu -0,19 pour cette différence. Ça va, mais vous pouvez éviter des différences négatives dans les proportions de l'échantillon en ayant le groupe avec l'échantillon plus grande proportion servir le premier groupe (ici, les femelles).

Cependant, même si le groupe avec l'échantillon plus grande proportion sert le premier groupe, parfois, vous obtiendrez toujours des valeurs négatives dans l'intervalle de confiance. Supposons dans l'exemple ci-dessus que seul 0,43 des femmes avaient vu un imitateur d'Elvis. Ainsi, la différence de proportions est de 0,09, et l'extrémité supérieure de l'intervalle de confiance est de 0,09 + 0,13 = 0,22 alors que l'extrémité inférieure est de 0,09 - 0,13 = -0,04. Cela signifie que la différence est vrai raisonnablement allant de 22% à plus de femmes de plus de 4% des hommes. Il est trop proche de dire à coup sûr.


» » » » Comment estimer la différence entre deux proportions