Test d'hypothèse pour des données aberrantes

Plusieurs tests statistiques officielles qui sont conçus pour détecter les données aberrantes. Trois d'entre elles prennent la forme de tests d'hypothèses. Un test d'hypothèse est une procédure pour déterminer si une proposition peut être rejetée sur la base de données de l'échantillon. Tests d'hypothèses impliquent toujours comparer une statistique de test à partir des données d'une distribution appropriée pour déterminer si une hypothèse donnée est étayée par les données.

Sommaire

Le test de grubbs
Test du chi carré
Le test q de dixon

Le test de Grubbs

Avec un test de Grubbs, vous supposez que l'ensemble de données en cours de test pour les valeurs aberrantes est normalement distribué. Les hypothèses nulle et alternative sont les suivants:

H₀: Il n'y a pas les valeurs aberrantes.

H₁: Il ya au moins une valeur aberrante.

La statistique de test est comme suit:

où

g = La statistique de test pour le test de Grubbs

Yi = Un seul élément dans l'ensemble de données en cours de test

Y = La moyenne de l'échantillon

s = L'écart type échantillon

La statistique de test produit l'élément de l'échantillon qui est le plus éloigné de la moyenne de l'échantillon (positif ou négatif) exprimé en écarts-types. Par exemple, si la moyenne de l'échantillon est de 5, le plus grand élément de l'échantillon est de 11, et l'écart type d'échantillon est de 2, puis la statistique de test serait (11-5) / 2 = 6/2 = 3 écarts-types de la moyenne .

La valeur critique est la suivante:

Où

n est la taille de l'échantillon tiré de la population.

t est une valeur tirée de l'étudiant t-DISTRIBUTION- il a une superficie de queue droit égal au niveau de signification et n - 2 degrés de liberté (df).

Le test peut être effectué pour déterminer si il ya une valeur aberrante, si la valeur maximale est une valeur aberrante, si la valeur minimale est une valeur aberrante, et ainsi de suite.

Par exemple, ce qui suit montre les résultats de l'application du test de Grubbs au SP 500 revient de 2009-2013. Le test est effectué pour trouver une seule valeur aberrante. Les résultats de tests de Grubbs pour une valeur aberrante:

Données: SPReturns

G = 3,8509, U = 0,9404, p = 0,01177 valeur

Hypothèse alternative: valeur la plus basse -0,0253283545257448 est une valeur aberrante

Avec un seuil de signification égale à 0,05, et une valeur p de 0,01177, la p-valeur est inférieure au seuil de signification. Par conséquent, l'hypothèse nulle d'absence de valeurs aberrantes est rejetée. En outre, le test indique que la valeur minimale dans l'ensemble de données est une valeur aberrante.

Test du chi carré

Vous pouvez tester pour les valeurs aberrantes avec la distribution du chi-carré. Les hypothèses nulle et alternative sont les suivants:

H₀: Il n'y a pas les valeurs aberrantes.

H₁: Il ya au moins une valeur aberrante.

La statistique de test est basé sur les différences entre les membres réels de l'ensemble de données et les membres correspondants d'une distribution de probabilité supposée, comme la normale.

Par exemple, ce qui suit montre les résultats de l'application du test du chi-carré pour le SP 500 déclarations de 2009 à 2013:

Test du chi carré pour les valeurs aberrantes

Données: SPReturns

X-carré = 14,8292, p-value = 0,01177

Hypothèse alternative: valeur la plus basse -0,0253283545257448 est une valeur aberrante

Le test Q de Dixon

Avec le test Q de Dixon, vous assumez l'ensemble de données en cours de test pour les valeurs aberrantes est normalement distribué. Les hypothèses nulle et alternative sont les suivants:

H₀: Il n'y a pas les valeurs aberrantes.

H₁: Il ya au moins une valeur aberrante.

La statistique de test est comme suit:

Écart se réfère à la valeur absolue de la différence entre une valeur aberrante et la prochaine valeur la plus proche dans l'ensemble de données. Gamme se réfère à la différence entre la plus grande valeur dans l'ensemble de données et la valeur la plus petite dans l'ensemble de données.

Un des inconvénients à le test Q de Dixon est que vous pouvez l'appliquer seulement à un échantillon contenant entre 3 et 30 observations.

Ce qui suit montre les résultats de l'application du test Q de Dixon au SP 500 déclarations au cours des 30 premiers jours de bourse de l'année 2009:

Test de Dixon pour les valeurs aberrantes

Données: SPR

Q = 0,4359, p = 0,03185 valeur

Hypothèse alternative: valeur la plus basse -0,0116057775514049 est une valeur aberrante

Avec un seuil de signification égale à 0,05, et une valeur p de 0,03185, la p-valeur est inférieure au seuil de signification. Par conséquent, l'hypothèse nulle d'absence de valeurs aberrantes est rejetée. En outre, le test indique que la valeur minimale dans l'ensemble de données est une valeur aberrante.

A propos Auteur

Calculer les statistiques de test appropriées pour les deux grandes populations indépendantes avec des variances inégales

Lorsque vous testez des hypothèses sur les deux moyens de la population, où les variances des deux populations ne sont pas égaux, et la taille des deux échantillons sont de grande taille (30 ou plus), la statistique de test est appropriéCette…

Calculer des statistiques de test pour les deux populations indépendantes avec des variances inégales et au moins un petit échantillon

Si les variances de deux populations indépendantes aren't égale (ou vous ne disposez pas de raison de croire qu'ils sont égaux) et au moins un échantillon est faible (moins de 30), la statistique de test est appropriéDans ce cas, vous obtenez…

Tirer des conclusions sur une population en utilisant des intervalles de confiance et tests d'hypothèses

Lorsque tirer des conclusions sur une population à partir d'échantillons choisis au hasard (un processus appelé inférence statistique), Vous pouvez utiliser deux méthodes: intervalles de confiance et tests d'hypothèses.Les intervalles de…

L'évaluation des allégations avec des tests d'hypothèses

Vous utilisez des tests d'hypothèses de contester si certains prétendent d'une population est vrai (par exemple, une demande que 90 pour cent des Américains possèdent un téléphone portable). Pour tester une hypothèse statistique, vous prenez…

Explorez tests d'hypothèses dans les statistiques commerciales

Dans les statistiques, htests ypothesis se réfère au processus de choix entre hypothèses concurrentes sur une distribution de probabilités, basée sur les données observées à partir de la distribution. Il est un sujet de base et une partie…

Trouver les statistiques de test appropriées pour les deux populations indépendantes de taille et de variance égale

Vous pouvez tester des hypothèses à propos de deux moyens de population où les populations sont indépendants les uns des autres, mais ils ont la taille et la variance égale. Avec une population égale écarts, la statistique de test nécessite…

Trouver les valeurs critiques bilatéral pour tester une hypothèse pour un petit échantillon

Lorsque vous utilisez un petit échantillon pour tester une hypothèse sur une moyenne de population, vous prenez la ou les valeurs essentielles résultant de la distribution t de Student. Pour un test bilatéral, la valeur critique estet n…

Comment faire pour déterminer une valeur de p pour tester une hypothèse nulle

Lorsque vous testez une hypothèse sur une population, vous pouvez utiliser votre statistique de test pour décider de rejeter l'hypothèse nulle, H0. Vous prenez cette décision en venant avec un certain nombre, appelé p-valeur.UN p-valeur est une…

Comment tester une hypothèse pour la moyenne d'une population

Vous pouvez utiliser un test d'hypothèse à examiner ou contester une réclamation statistiques sur une moyenne de population si la variable est numérique (par exemple, l'âge, le revenu, le temps, et ainsi de suite) et une seule population ou un…

Comment tester une hypothèse nulle sur la base d'une proportion de la population

Vous pouvez utiliser un test d'hypothèse à tester une réclamation statistiques sur la proportion de la population lorsque la variable est catégorique (par exemple, le sexe ou l'appui / opposition) et une seule population ou un groupe est à…

Comment utiliser le t-test pour manipuler des petits échantillons et écarts types inconnus

Lorsque vous utilisez une statistique de test pour une moyenne de la population, il ya deux cas où vous devez utiliser la t-au lieu de la répartition Z-distribution. Le premier cas est celui où la taille de l'échantillon est faible (en dessous…

En regardant confiance valeurs critiques d'intervalle

Les valeurs critiques (z* -values) sont une composante importante des intervalles de confiance (la technique statistique pour estimer les paramètres de la population). La z* -value, qui apparaît dans la marge d'erreur de formule, mesure le nombre…

Vue d'ensemble de tests d'hypothèses

Un moyen important de tirer des conclusions sur les propriétés d'une population est avec des tests d'hypothèses. Tu peux utiliser tests d'hypothèses à comparer une mesure de la population à une valeur spécifiée, comparer les mesures de deux…

Test de signification avec le test d'hypothèse

Tous les fameux tests de signification statistique (Student t, khi-carré, ANOVA, etc.) fonctionnent sur le même principe général - ils évaluent l'ampleur de l'effet apparent que vous voyez dans vos données contre la taille des fluctuations…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Test d'hypothèse pour des données aberrantes