Statistiques de gros volumes de données pour les nuls

Mesures de tendance centrale montrent le centre d'un ensemble de données. Trois des mesures les plus courantes de la tendance centrale sont la moyenne, la médiane et le mode.

Sommaire

Signifier

Signifier est un autre mot pour la moyenne. Voici la formule de calcul de la moyenne d'un échantillon:

image0.jpg

Avec cette formule, vous calculer la moyenne d'échantillon simplement en additionnant tous les éléments de l'échantillon, puis en divisant par le nombre d'éléments dans l'échantillon.

Voici la formule correspondante pour calculer la moyenne d'une population:

image1.jpg

Bien que la notation est légèrement différente, la procédure pour le calcul d'une moyenne de population est la même que la procédure pour calculer une moyenne d'échantillon.

Lettres grecques sont utilisés pour décrire les populations, alors que des lettres romaines sont utilisés pour décrire des échantillons.

Médiane

La médiane d'un ensemble de données est une valeur qui divise les données en deux moitiés égales. En d'autres termes, la moitié des éléments d'un ensemble de données sont moins de la médiane, et l'autre moitié sont plus grand que la médiane. La procédure de calcul de la médiane est la même pour les deux échantillons et des populations.

Mode

Le mode d'un ensemble de données est la valeur la plus fréquemment observée dans l'ensemble de données. Vous déterminez le mode de la même manière pour un échantillon et une population.

Mesures de dispersion centrale




Mesures de dispersion centrale montrent comment "étalées" les éléments d'un ensemble de données sont de la moyenne. Trois des mesures les plus courantes de la dispersion centrale sont les suivantes:

  • Gamme

  • Variance

  • L'écart-type

Gamme

La gamme d'un ensemble de données est la différence entre la valeur la plus grande et la plus petite valeur. Vous calculez la même façon pour les deux échantillons et des populations.

Variance

Vous pouvez penser de la variance de la moyenne quadrillé la différence entre les éléments d'un ensemble de données et de la moyenne. Les formules pour calculer une variance de l'échantillon et une variance de la population sont légèrement différentes.

Voici la formule de calcul de variance de l'échantillon:

image0.jpg

Et voici la formule de calcul de la variance de la population:

image1.jpg

L'écart-type

L'écart type est tout simplement la racine carrée de la variance. Il est plus communément utilisé comme une mesure de la dispersion de la variance parce qu'elle est mesurée dans les mêmes unités que les éléments de l'ensemble de données, alors que la variance est mesurée en quadrillé unités.

Mesures d'association

Mesures d'association quantifier la force et le sens de la relation entre les deux ensembles de données. Voici les deux plus couramment utilisés mesures d'association:

  • Covariance

  • Corrélation

Ces deux mesures sont utilisées pour montrer comment étroitement deux ensembles de données sont liés les uns aux autres. La principale différence entre eux est l'unité dans laquelle ils sont mesurés. La mesure de corrélation est définie pour prendre des valeurs entre 1 et -1, ce qui rend l'interprétation très facile.

Covariance

La covariance entre deux échantillons est calculé comme suit:

image0.jpg

La covariance entre deux populations est calculé comme suit:

image1.jpg

Corrélation

La corrélation entre deux échantillons est calculée comme ceci:

image2.jpg

La corrélation entre les deux populations est calculée comme ceci:

image3.jpg

» » » » Statistiques de gros volumes de données pour les nuls