Les statistiques robustes et Big Data

Une statistique est dit robuste si elle n'a pas fortement influencée par la présence de valeurs aberrantes. Par exemple, la moyenne est robuste, car il ne peut être fortement affectée par la présence de valeurs aberrantes. D'autre part, la médiane est robuste - ne soit pas affectée par les valeurs aberrantes.

Par exemple, supposons que le données suivantes représentent un échantillon des revenus des ménages dans une petite ville (mesurée en milliers de dollars par an):

32, 47, 20, 25, 56

Vous calculez la moyenne d'échantillon comme la somme des cinq observations divisé par cinq:

image0.jpg

La moyenne de l'échantillon est de 36.000 $ par an. La plupart des ménages de l'échantillon sont très proche de cette valeur.

Supposons que la place de l'échantillon comprend les valeurs suivantes:

32, 47, 20, 25, 376



Parce que le revenu du ménage de 376 000 $ est sensiblement supérieur au revenu du ménage suivant le plus proche de 32 000 $, le revenu du ménage de 376 000 $ peut être considéré comme une valeur aberrante.

Avec la valeur aberrante, la moyenne de l'échantillon est désormais la suivante:

image1.jpg

Cette mesure ne soit pas représentatif de la plupart des ménages dans la ville. Ainsi, l'utilité de la moyenne est compromise dans la présence de valeurs aberrantes.

Vous calculez la médiane de l'échantillon en triant les données de haut en bas et de trouver la valeur qui sépare l'échantillon en deux alors. En d'autres termes, la moitié des observations sont en dessous de la médiane, et la moitié sont au-dessus.

Le premier échantillon:

32, 47, 20, 25, 56

L'échantillon trié:

20, 25, 32, 47, 56

Dans ce cas, la médiane est de 32 parce que la moitié des observations restantes sont en dessous de 32 et l'autre moitié au-dessus.

Le deuxième échantillon:

32, 47, 20, 25, 376

L'échantillon trié:

20, 25, 32, 47, 376

Malgré la présence de la valeur aberrante de 376, la médiane est encore 32. Il n'a pas été affectée par la valeur aberrante. Cela montre que, contrairement à la moyenne, la médiane est robuste par rapport aux valeurs aberrantes.

D'autres exemples de statistiques robustes comprennent la médiane, l'écart absolu, et l'intervalle interquartile.


» » » » Les statistiques robustes et Big Data