Combien de propagation est là dans les données?

Lorsque vous travaillez avec des statistiques de données volumineux, vous identifiez la propagation d'un ensemble de données du centre avec plusieurs mesures sommaires: la variance, écart-type, quartiles, interquartile (IQR).

L'écart est l'écart quadratique moyen entre les éléments de l'ensemble de données et de la moyenne. Pour un échantillon de données, la variance est calculée comme ceci:

image0.jpg

  • Xje est la valeur d'un seul élément dans l'échantillon.

    image1.jpg



  • est la moyenne de l'échantillon.

  • n est la taille de l'échantillon.

L'écart-type est la racine carrée de la variance. Pour la plupart des applications, l'écart type est plus commode à utiliser que la variance comme une mesure de la propagation. En effet, la variance est mesurée en quadrillé unités, alors que l'écart-type est mesurée dans les mêmes unités que les données. Par exemple, la variance de l'ensemble de données de prix se composant serait mesuré en dollars carré, et l'écart-type serait mesurée en dollars. L'écart type est la mesure la plus largement utilisée de la propagation dans un ensemble de données.

Quartiles divisent un ensemble de données en quatre parties égales. Le premier quartile (Q1) Divise les données dans la tranche inférieure de 25 pour cent des observations et le plus élevé de 75 pour cent (25 pour cent des observations sont moins de Q1, et 75 pour cent sont plus grand que Q1). Le deuxième quartile (Q2) Divise les données dans le meilleur 50 pour cent des observations et le plus haut 50 pour cent. Le troisième quartile (Q3) Divise les données dans le meilleur 75 pour cent des observations et le plus haut 25 pour cent. L'intervalle interquartile (IQR) est égale à la différence entre les troisième et premier quartiles:

image2.jpg

L'IQR représente le milieu 50 pour cent des données.

Les quartiles de un ensemble de données sont les mieux illustrés avec un boîte à moustaches. La figure suivante montre un graphique des rendements quotidiens à ExxonMobil en 2013 de la boîte.

Box parcelle de rendements quotidiens à ExxonMobil stock en 2013.
Box parcelle de rendements quotidiens à ExxonMobil stock en 2013.

La boîte à moustaches montre plusieurs statistiques clés pour les retours ExxonMobil:

image4.jpg

Le rendement minimum est représenté sur un graphique comme un seul point au bas de la parcelle (tracé en rectangle spectacles aberrantes en tant que points particuliers). Q1 comme le montre le bas de la boîte, Q2 est la ligne noire au milieu de la boîte, et Q3 est le haut de la boîte. Le rendement maximal est représenté comme un point unique au sommet de la parcelle.


» » » » Combien de propagation est là dans les données?