La méthode bootstrap pour les erreurs standard et les intervalles de confiance

category Education et langues / La science / Biologie

Vous pouvez calculer l'erreur standard (SE) et l'intervalle de confiance (IC) des échantillons statistiques les plus courants (moyennes, des proportions, des comptages d'événements et les tarifs, et les coefficients de régression). Mais une SE et CI existent (théoriquement, du moins) pour quelconque numéro que vous pourriez peut-être arracher à vos données - médianes, centiles, des coefficients de corrélation et d'autres quantités qui pourraient impliquer des calculs compliqués, comme la zone sous la courbe de concentration en fonction du temps (AUC) ou estimé la probabilité de survie à cinq ans provenant d'un l'analyse de survie. Formules pour la SE et CI autour de ces chiffres pourraient ne pas être disponibles ou peuvent être désespérément difficiles à évaluer. En outre, les formules qui existent pourraient appliquent uniquement aux nombres normalement distribuées, et vous pourriez ne pas être sûr de ce type de distribution de vos données suit.

Considérons un problème très simple. Supposons que vous avez mesuré le QI de 20 sujets et ont obtenu les résultats suivants: 61, 88, 89, 89, 90, 92, 93, 94, 98, 98, 101, 102, 105, 108, 109, 113, 114 , 115, 120, et 138. Ces chiffres ont une moyenne de 100,85 et une médiane de 99,5. Parce que vous êtes un bon scientifique, vous savez que chaque fois que vous signalez un certain nombre que vous avez calculé à partir de vos données (comme un moyen ou médian), vous aurez également besoin d'indiquer la précision de cette valeur sous la forme d'une SE et CI.

Pour la moyenne, et si vous pouvez supposer que les valeurs de QI sont approximativement distribuées normalement, les choses sont assez simples. Vous pouvez calculer le SE de la moyenne que 3.54 et l'IC à 95% autour de la moyenne de 93,4 à 108,3.

Mais que dire de la SE et de CI pour la médiane, pour lesquels il n'y a pas de formules simples? Et si vous ne pouvez pas être sûr que ces valeurs de QI proviennent d'une distribution normale? Ensuite, les formules simples pourraient ne pas être fiables.

Heureusement, il existe une méthode très générale pour estimer les SE et de la CEI pour tout ce que vous pouvez calculer à partir de vos données, et il ne nécessite pas d'hypothèses sur la façon dont vos numéros sont distribués. Le SE d'un échantillon statistique est l'écart-type (SD) de la distribution d'échantillonnage pour cette statistique. Et les limites de confiance à 95% d'un échantillon statistique sont bien estimés par le 2,5e et 97,5e centiles de la distribution d'échantillonnage de cette statistique.

Donc, si vous pouviez reproduire l'ensemble de votre expérience plusieurs milliers de fois (en utilisant un autre échantillon de sujets à chaque fois), et chaque calculer de temps et de sauvegarder la valeur de la chose vous intéresse (médiane, AUC, ou autre), cette collection de des milliers de valeurs serait une très bonne approximation de la distribution d'échantillonnage de la quantité d'intérêt. Ensuite, vous pouvez estimer le SE simplement comme la SD de la distribution d'échantillonnage et les limites de confiance des centiles de la distribution.

Mais en réalité, la réalisation de ce scénario est impossible - vous avez probablement pas le temps, de la patience, ni l'argent pour effectuer vos milliers d'étude entières de fois. Heureusement, vous n'êtes pas obligé de répéter les milliers d'études de fois pour obtenir une estimation de la distribution d'échantillonnage. Vous pouvez le faire en réutilisant les données de votre une étude réelle, encore et encore! Cela peut sembler trop beau pour être vrai, et les statisticiens étaient très sceptiques de cette méthode quand il a été proposé. Ils ont appelé cela bootstrapping, la comparant à la tâche impossible de “ ramasser vous-même par les lacets ”.

Mais il se trouve que si vous continuez à réutiliser les mêmes données dans une certaine mesure, cette méthode fonctionne réellement. Au fil des ans, la procédure bootstrap est devenu un moyen accepté pour obtenir des estimations fiables de la PME et de la CEI pour presque tout ce que vous pouvez calculer à partir de votre de données en fait, il est souvent considéré comme le “ or la norme n ° 148; contre lequel différentes formules d'approximation pour les PE et les IC sont jugés.

Pour voir comment la méthode bootstrap fonctionne, voici comment vous pourriez l'utiliser pour estimer la SE et IC à 95% de la moyenne et la médiane des 20 valeurs de QI montrés plus tôt. Tu dois resample vos 20 numéros, encore et encore, de la manière suivante:

Écrivez chacun de vos mesures sur un feuillet séparé de papier et de les mettre tous dans un sac.
Dans cet exemple, vous écrivez les 20 QI mesurés sur des bouts distincts.
Atteindre et tirer un feuillet, écrire ce nombre vers le bas, et mettre le glissement dans le sac.

(Cette dernière partie est très important!)
Répétez l'étape 2 autant de fois que nécessaire pour correspondre au nombre de mesures que vous avez, retour le glissement à la poche à chaque fois.
Ceci est appelé rééchantillonnage avec ReplacemeNT, et elle produit une rééchantillonnée ensemble de données. Dans cet exemple, vous répétez l'étape 2 plus 19 fois, pour un total de 20 fois (ce qui est le nombre de mesures de QI que vous avez).
Calculer la statistique souhaitée de l'échantillon des numéros rééchantillonnées des étapes 2 et 3, et enregistrer ce numéro.
Dans cet exemple, vous trouvez la moyenne et la médiane des 20 numéros rééchantillonnées.
Répétez les étapes 2 à 4 des milliers de fois.
Chaque fois, vous générez un nouvel ensemble de données rééchantillonnée à partir duquel vous calculer et consigner les statistiques d'échantillon souhaité (dans ce cas, la moyenne et la médiane de l'ensemble de données rééchantillonnée). Vous vous retrouvez avec des milliers de valeurs de la moyenne et des milliers de valeurs de la médiane.
Dans chaque ensemble de données rééchantillonnée, certaines des valeurs original peut se produire plus d'une fois, et certains peuvent ne pas être présent à tous. Presque chaque ensemble de données rééchantillonnée sera différent de tous les autres. Le procédé d'amorçage est basé sur le fait que ces valeurs moyennes et médianes des milliers de jeux de données rééchantillonnées comprend une bonne estimation de la distribution d'échantillonnage de la moyenne et de la médiane. Collectivement, ils ressemblent le genre de résultats que vous mai avoir obtenu si vous aviez répété votre étude réelle, encore et encore.
Calculer l'écart type de vos milliers de valeurs de l'échantillon statistique.
Ce processus vous donne une “ bootstrap ” estimation de la SE de l'échantillon statistique. Dans cet exemple, vous calculez la SD des milliers de moyens pour obtenir le SE de la moyenne, et vous calculez le SD des milliers de médianes pour obtenir le SE de la médiane.
Obtenir le 2,5e et 97,5e centiles des milliers de valeurs de l'échantillon statistique.
Vous faites cela en triant vos milliers de valeurs de l'échantillon statistique dans l'ordre numérique, puis coupant le plus bas de 2,5 pour cent et le plus élevé de 2,5 pour cent de l'ensemble trié de nombres. Les valeurs petites et plus grandes qui restent sont l'estimation bootstrap des limites de confiance de 95% inférieure et supérieure de l'échantillon statistique.
Dans cet exemple, le 2,5e et 97,5e centiles des moyennes et médianes des milliers d'ensembles de données rééchantillonnées sont les limites de confiance à 95% pour la moyenne et la médiane, respectivement.

Évidemment, vous auriez jamais essayez de faire de ce processus d'amorçage à la main, mais il est assez facile à faire avec des logiciels comme le programme libre Statistics101. Vous pouvez entrer vos résultats observés et lui dire de générer, par exemple, 100.000 ensembles de données rééchantillonnées, calculer et enregistrer la moyenne et la médiane de chacun, et ensuite calculer la SD et la 2,5e et 97,5e centiles de ces 100.000 et 100.000 des moyens médianes. Voici quelques résultats d'une analyse effectuée sur cette bootstrap données:

Données réelles: 61, 88, 89, 89, 90, 92, 93, 94, 98, 98, 101, 102, 105, 108, 109, 113, 114, 115, 120, et 138. Moyenne = 99,5 100.85- Médian =

Réchantillonné Data Set #1: 61, 88, 88, 89, 89, 90, 92, 93, 98, 102, 105, 105, 105, 109, 109, 109, 109, 114, 114, et 120. Mean₁ = 99,45, Médiane₁ = 103.50

Réchantillonné Data Set #2: 61, 88, 89, 89, 90, 92, 92, 98, 98, 98, 102, 105, 105, 108, 108, 113, 113, 113, 114, et 138. Mean₂ = 100,7, Médiane₂ = 100,0

(Entre Set # 2 et la série suivante, 99,996 ensembles de données plus bootstrapped ont été générés.)

Réchantillonné Data Set #99,999: 61, 61, 88, 89, 92, 93, 93, 94, 98, 98, 98, 101, 102, 105, 109, 114, 115, 120, 120, et 138. Mean₉₉₉₉₉ = 99,45, Médiane₉₉₉₉₉ = 98.00

Réchantillonné Data Set #100,000: 61, 61, 61, 88, 89, 89, 90, 93, 93, 94, 102, 105, 108, 109, 109, 114, 115, 115, 120, et 138. Mean₁₀₀₀₀₀ = 97,7, Médiane₁₀₀₀₀₀ = 98,0

Voici un résumé des 100.000 rééchantillons:

Le SD des 100.000 signifiers = 3.46- tel est le bootstrap SE de la moyenne (SEM).
Le SD des 100.000 médianes = 4.24- tel est le bootstrap SE de la médiane.
Les 2,5e et 97,5e centiles de 100.000 moyens = 94,0 et 107.6- ce sont les limites de confiance à 95% pour le bootstrap signifier.
Les 2,5e et 97,5e centiles de 100.000 médianes = 92,5 et 108.5- ce sont les limites de confiance à 95% pour le bootstrap médiane.

Donc, vous devez déclarer votre moyenne et la médiane, avec des erreurs standard et 95% intervalle de confiance de cette façon leurs bootstrap:

Moyenne = 100.85 # 177- 3,46 (94.0-107.6) - médian = 99,5 # 177- 4,24 (92.5-108.5).

Vous remarquerez que la SE est plus grand (et le CI est plus large) pour la médiane que pour la moyenne. Ceci est généralement vrai pour les données normalement distribuées - la médiane a environ 25% plus de variabilité que la moyenne. Mais pour les données non normalement distribuées, la médiane est souvent plus précis que la moyenne.

Vous ne devez pas utiliser l'amorçage pour quelque chose d'aussi simple que la SE ou CI d'une moyenne, car il existe des formules simples pour cela. Mais la méthode bootstrap peut tout aussi facilement calculer la SE ou CI pour une médiane, un coefficient de corrélation, ou un paramètre pharmacocinétique comme l'ASC ou l'élimination La demi-vie d'un médicament, pour lesquels il n'y a pas de formules simples SE ou CI et pour qui les hypothèses de normalité pourraient ne pas appliquer.

Bootstrapping est conceptuellement simple, mais il est pas infaillible. La méthode implique certaines hypothèses et comporte certaines limites. Par exemple, il ne va probablement pas être très utile si vous avez seulement quelques valeurs observées. Voir des statistiques 101 pour plus d'informations sur l'utilisation de la méthode bootstrap (et pour le logiciel de Statistics101 libre pour faire les calculs de bootstrap très facilement).

A propos Auteur

Comment la forme d'un histogramme reflète la moyenne statistique et médian

Vous pouvez connecter la forme d'un histogramme avec la moyenne et la médiane des données statistiques que vous utilisez pour le créer. A l'inverse, la relation entre la moyenne et la médiane peut vous aider à prédire la forme de…

Comment trouver la gamme interquartile pour un échantillon statistique

Pour obtenir une mesure de la variation sur la base du résumé de cinq nombre d'un échantillon statistique, vous pouvez trouver ce qu'on appelle la gamme interquartile, ou IQR.Le but du résumé de cinq nombre est de donner des statistiques…

Comment trouver la valeur médiane dans un ensemble de données statistiques

La médiane est une statistique qui est couramment utilisé pour mesurer le centre d'un ensemble de données. Cependant, il est encore un héros méconnu de la statistique dans le sens où il ne sert presque aussi souvent qu'il devrait l'être,…

Comment rassembler un résumé de cinq numéro d'un échantillon statistique

Si vos données créent un histogramme qui ne sont pas en forme de cloche, vous pouvez utiliser un ensemble de statistiques qui est basé sur les percentiles pour décrire la grande image des données. Appelé le résumé de cinq nombre, cette…

Comment localiser une valeur dans un ensemble de données en utilisant quartiles

Quartiles diviser un ensemble de données en quatre parties égales, chacun composé de 25 pour cent des valeurs triées dans l'ensemble de données. Quartiles sont liés à percentiles comme ceci:Premier quartile (Q1) = 25e centileDeuxième…

Mesures de tendance centrale

Mesures de tendance centrale montrent le centre d'un ensemble de données. Trois des mesures les plus courantes de la tendance centrale sont la moyenne, la médiane et le mode.SignifierSignifier est un autre mot pour la moyenne. Voici la formule de…

Statistiques termes de savoir quand l'utilisation d'Excel 2007 des outils d'analyse de données

Avec les outils d'analyse des données disponibles dans Excel 2007, vous pouvez créer des feuilles de calcul qui montrent les détails de toute statistique, vous pouvez créer une formule à trouver - et vous pouvez trouver un certain nombre. Il…

Statistiques de gros volumes de données pour les nuls

Terminologie utilisée dans les statistiques

Comme chaque sujet, des statistiques a sa propre langue. La langue est ce qui vous permet de savoir ce qui est un problème pour la demande, quels résultats sont nécessaires, et la façon de décrire et d'évaluer les résultats d'une manière…

Exactitude et la précision en termes de la distribution d'échantillonnage

L'idée d'une distribution d'échantillonnage est au cœur des concepts de précision et precjeSion. Imaginez un scénario dans lequel une expérience (comme un essai clinique ou d'une enquête) est réalisé encore et encore un très grand nombre…

Centiles dans les données de biostatistique

L'idée de base de la médiane (la moitié de vos numéros sont inférieurs à la médiane) peut être étendu à d'autres fractions ailleurs 1/2. Un percentile est une valeur qu'un certain pourcentage des valeurs sont inférieures. Par exemple, 1/4…

Formules pour les limites de confiance dans les grands échantillons

La plupart des méthodes approximatives pour déterminer les limites de confiance sont basées sur l'hypothèse que votre échantillon statistique a une distribution d'échantillonnage qui est (au moins approximativement) distribué normalement.…

L'intervalle de confiance autour d'une moyenne

Tout comme le SE (erreur standard) formules dépendent du type de l'échantillon statistique que vous faites affaire avec (si vous êtes mesurer ou de compter quelque chose ou l'obtenir à partir d'un programme de régression ou d'une autre calcul),…

Praxis noyau prep: comment mesurer la moyenne arithmétique, la médiane ou le mode

Oui, le Praxis Core vous demander moyenne, la médiane et le mode. Les mesures de tendance centrale sont tous les types de la moyenne de séries de données. Lors de la préparation à l'examen Praxis de base, vous devez être en mesure de décider…

godiches.com » Education et langues » La science » Biologie » La méthode bootstrap pour les erreurs standard et les intervalles de confiance