Test d'hypothèse pour des données aberrantes

Plusieurs tests statistiques officielles qui sont conçus pour détecter les données aberrantes. Trois d'entre elles prennent la forme de tests d'hypothèses. Un test d'hypothèse est une procédure pour déterminer si une proposition peut être rejetée sur la base de données de l'échantillon. Tests d'hypothèses impliquent toujours comparer une statistique de test à partir des données d'une distribution appropriée pour déterminer si une hypothèse donnée est étayée par les données.

Sommaire

Le test de Grubbs

Avec un test de Grubbs, vous supposez que l'ensemble de données en cours de test pour les valeurs aberrantes est normalement distribué. Les hypothèses nulle et alternative sont les suivants:

H0: Il n'y a pas les valeurs aberrantes.
H1: Il ya au moins une valeur aberrante.

La statistique de test est comme suit:

image0.jpg

g = La statistique de test pour le test de Grubbs
Yi = Un seul élément dans l'ensemble de données en cours de test
Y = La moyenne de l'échantillon
s = L'écart type échantillon

La statistique de test produit l'élément de l'échantillon qui est le plus éloigné de la moyenne de l'échantillon (positif ou négatif) exprimé en écarts-types. Par exemple, si la moyenne de l'échantillon est de 5, le plus grand élément de l'échantillon est de 11, et l'écart type d'échantillon est de 2, puis la statistique de test serait (11-5) / 2 = 6/2 = 3 écarts-types de la moyenne .

La valeur critique est la suivante:

image1.jpg


n est la taille de l'échantillon tiré de la population.
t est une valeur tirée de l'étudiant t-DISTRIBUTION- il a une superficie de queue droit égal au niveau de signification et n - 2 degrés de liberté (df).

Le test peut être effectué pour déterminer si il ya une valeur aberrante, si la valeur maximale est une valeur aberrante, si la valeur minimale est une valeur aberrante, et ainsi de suite.

Par exemple, ce qui suit montre les résultats de l'application du test de Grubbs au SP 500 revient de 2009-2013. Le test est effectué pour trouver une seule valeur aberrante. Les résultats de tests de Grubbs pour une valeur aberrante:

Données: SPReturns
G = 3,8509, U = 0,9404, p = 0,01177 valeur
Hypothèse alternative: valeur la plus basse -0,0253283545257448 est une valeur aberrante

Avec un seuil de signification égale à 0,05, et une valeur p de 0,01177, la p-valeur est inférieure au seuil de signification. Par conséquent, l'hypothèse nulle d'absence de valeurs aberrantes est rejetée. En outre, le test indique que la valeur minimale dans l'ensemble de données est une valeur aberrante.

Test du chi carré

Vous pouvez tester pour les valeurs aberrantes avec la distribution du chi-carré. Les hypothèses nulle et alternative sont les suivants:

H0: Il n'y a pas les valeurs aberrantes.
H1: Il ya au moins une valeur aberrante.

La statistique de test est basé sur les différences entre les membres réels de l'ensemble de données et les membres correspondants d'une distribution de probabilité supposée, comme la normale.

Par exemple, ce qui suit montre les résultats de l'application du test du chi-carré pour le SP 500 déclarations de 2009 à 2013:

Test du chi carré pour les valeurs aberrantes
Données: SPReturns
X-carré = 14,8292, p-value = 0,01177
Hypothèse alternative: valeur la plus basse -0,0253283545257448 est une valeur aberrante

Avec un seuil de signification égale à 0,05, et une valeur p de 0,01177, la p-valeur est inférieure au seuil de signification. Par conséquent, l'hypothèse nulle d'absence de valeurs aberrantes est rejetée. En outre, le test indique que la valeur minimale dans l'ensemble de données est une valeur aberrante.

Le test Q de Dixon

Avec le test Q de Dixon, vous assumez l'ensemble de données en cours de test pour les valeurs aberrantes est normalement distribué. Les hypothèses nulle et alternative sont les suivants:

H0: Il n'y a pas les valeurs aberrantes.
H1: Il ya au moins une valeur aberrante.

La statistique de test est comme suit:

image2.jpg

Écart se réfère à la valeur absolue de la différence entre une valeur aberrante et la prochaine valeur la plus proche dans l'ensemble de données. Gamme se réfère à la différence entre la plus grande valeur dans l'ensemble de données et la valeur la plus petite dans l'ensemble de données.

Un des inconvénients à le test Q de Dixon est que vous pouvez l'appliquer seulement à un échantillon contenant entre 3 et 30 observations.

Ce qui suit montre les résultats de l'application du test Q de Dixon au SP 500 déclarations au cours des 30 premiers jours de bourse de l'année 2009:

Test de Dixon pour les valeurs aberrantes
Données: SPR
Q = 0,4359, p = 0,03185 valeur
Hypothèse alternative: valeur la plus basse -0,0116057775514049 est une valeur aberrante

Avec un seuil de signification égale à 0,05, et une valeur p de 0,03185, la p-valeur est inférieure au seuil de signification. Par conséquent, l'hypothèse nulle d'absence de valeurs aberrantes est rejetée. En outre, le test indique que la valeur minimale dans l'ensemble de données est une valeur aberrante.


» » » » Test d'hypothèse pour des données aberrantes