Comment histogrammes peuvent dénaturer les données statistiques

Il n'y a pas de règles absolues pour la façon de créer un histogramme basé sur un ensemble de données statistiques de la personne qui fait le graphique obtient de choisir les groupes sur le X-axe ainsi que l'ampleur et points de départ et se terminant le y-axe. Juste parce qu'il ya un élément de choix, cependant, ne signifie pas que chaque choix est appropriate- en fait, un histogramme peut être fait pour être trompeuse à bien des égards.

Bien que le nombre de groupes que vous utilisez pour un histogramme est à la discrétion de la personne qui le graphique, il ya une telle chose comme aller à la mer, soit en ayant trop peu de barres, avec tout ce regroupées, ou en ayant beaucoup trop bars, où chaque petite différence est agrandie.

Pour décider du nombre de barres d'un histogramme devrait avoir, vous devriez jeter un bon coup d'oeil sur les regroupements utilisés pour former les barres sur le X-axe et voir si elles ont un sens. Par exemple, il n'a pas de sens de parler de résultats d'examen en groupes de 2 points- qui est trop de détails - trop nombreux bars. D'autre part, il n'a pas de sens à l'âge des personnes du groupe par des intervalles de 20 ans- cela ne suffit pas descriptive.

# 1 histogramme montrant temps entre éruptions pour geyser Old Faithful (& lt; i >NLT;. / i> = 222)
Histogramme # 1 montrant temps entre éruptions pour geyser Old Faithful (n = 222).

Les chiffres ci-dessus et ci-dessous illustrent ce point.

# 2 histogramme montrant temps entre éruptions pour geyser Old Faithful (& lt; i >NLT;. / i> = 222)
Histogramme # 2 montrant temps entre éruptions pour geyser Old Faithful (n = 222).



Chaque histogramme résume n = 222 observations de la quantité de temps entre les éruptions du geyser Old Faithful à Yellowstone Park. Histogramme # 1 utilise six barres qui groupe les données par intervalles de 10 minutes. Cet histogramme montre un motif laissé biaisée général, mais avec 222 observations vous sont bachotage énormément de données dans seulement six groupes- par exemple, la barre pour 75-85 minutes a plus de 90 éléments de données en elle. (Voilà plus de 40% de l'ensemble de données!) Vous pouvez décomposer plus loin que cela.

Histogramme # 2 montre le même ensemble de données, où le temps entre les éruptions est divisé en groupes de 3 minutes chacun, résultant en 19 bars. Notez le motif distinct dans les données qui se présente avec cet histogramme qui n'a pas été découvert dans l'histogramme # 1. Vous voyez deux pics distincts dans les données: un pic autour de la barre des 50 minutes, et l'un autour de la marque de 75 minutes. Un ensemble avec deux pics données est appelé bimodale- histogramme # 2 montre un exemple clair.

En regardant l'histogramme # 2, vous pouvez conclure que le geyser a deux catégories d'éruptions: un groupe qui a un temps d'attente plus court, et un autre groupe qui a un temps d'attente plus longue. Dans chaque groupe, vous voyez les données sont assez proches de l'endroit où le sommet est situé. En regardant l'histogramme # 1, vous ne pouviez pas le dire.

La y-axe d'un histogramme montre comment de nombreuses observations sont dans chaque groupe, en fonction des chiffres ou des pourcentages. Un histogramme peut être trompeuse si elle a une échelle trompeur et / ou inapproprié départ et le point final sur la y-axe.

Regarder l'échelle sur le y-axe d'un histogramme. Si elle va par grands incréments et met un point qui est beaucoup plus élevé que nécessaire de fin, vous voyez beaucoup d'espace blanc au-dessus de l'histogramme. Les hauteurs des barres sont pressés vers le bas, ce qui rend leurs différences semblent plus uniforme que ce qu'ils devraient. Si l'échelle va par petits incréments et se termine à la plus petite valeur possible, les barres deviennent tendus verticalement, exagérant les différences dans leurs hauteurs et en suggérant une plus grande différence que celle qui existe vraiment.

L'exemple suivant utilise une échelle différente sur la verticale (y) Axe que histogramme # 2.

Histogramme # 3 montrant Old Faithful fois éruption de geyser, avec des incréments verticaux plus grands
Histogramme # 3 montrant Old Faithful fois éruption de geyser, avec des incréments verticaux plus grands

Histogramme # 3 prend les anciennes données fidèles (temps entre les éruptions) et utilise incréments verticaux de 20 minutes, de 0 à 100. Comparez cela à histogramme n ° 2, qui utilise incréments verticaux de 5 minutes, de 0 à 35. histogramme # 3 a beaucoup d'espace blanc et donne l'impression que les temps sont plus équitablement répartis entre les groupes qu'ils sont vraiment. Il fait également l'ensemble de données semble plus petit, si vous ne faites pas attention à ce qui est sur la y-axe. Sur les deux graphiques, histogramme # 2 est plus approprié.


» » » » Comment histogrammes peuvent dénaturer les données statistiques