Comment le groupe de données statistiques de manière appropriée dans un histogramme

Lorsque vous créez un histogramme, il est important de regrouper les ensembles de données en plages qui vous permettent de voir des tendances significatives dans vos données statistiques. Par exemple, disons que vous voulez voir si actrices qui ont remporté un Academy Award étaient susceptibles d'être dans une certaine tranche d'âge.

L'image suivante montre un histogramme des âges de la meilleure actrice aux Oscars gagnants entre 1928 et 2009.

image0.jpg

Cette image montre des groupes de 5 ans chacun parce incréments de 5 créer des pauses naturelles pour les années et parce qu'il fournit suffisamment de bars pour chercher des motifs généraux. Par exemple, vous pouvez voir que la plupart des gagnants, environ 68 pour cent, étaient entre les âges de 25 et 40 ans, avec un pic défini entre les âges de 30 et 35.




Gardez à l'esprit que vous ne devez pas utiliser ce Regroupement particulier vous avez un peu de souplesse lors de la prise d'un histogramme. Voici quelques conseils utiles:

  • Chaque jeu de données requiert différentes gammes pour ses groupements, mais vous voulez éviter les plages qui sont trop large ou trop étroite.

  • Si un histogramme comporte gammes très large pour ses groupes, il met toutes les données dans un très petit nombre de bars qui font des comparaisons significatives impossible.

  • Si l'histogramme comporte fourchettes étroites pour ses groupes, il ressemble à une grosse série de barres minuscules qui obscurcissent la grande image. Cela peut rendre les données semblent très agitée sans motif réel.

  • Assurez-vous que vos groupes ont des largeurs égales. Si une barre est plus large que les autres, elle peut contenir plus de données que ce qu'elle devrait.

  • Une solution qui pourrait être appropriée pour votre histogramme est de prendre la plage des données (plus moins plus petit) et diviser par 10 pour obtenir 10 regroupements.

    Que faire si un gagnant est âgé de 30 ans? Ne fait-elle dans 25-30 ou 30-35? Tant que vous êtes compatible avec tous les points de données, vous pouvez soit mettre tous les points limites dans leurs barres inférieures respectives ou les mettre tous dans leurs barres supérieures respectives. La chose importante est de choisir une direction et être cohérent. Il est de pratique courante de faire les intervalles de bar gauche inclusif (qui est, les barres comprennent l'extrémité gauche mais pas à droite).


    » » » » Comment le groupe de données statistiques de manière appropriée dans un histogramme