Parcelles à tiges et à feuilles: technique graphique pour les données statistiques

UN diagramme à tiges et à feuilles est un dispositif graphique dans laquelle la distribution d'un ensemble de données est organisée par la valeur numérique des observations dans l'ensemble de données. Le schéma consiste en une "tige", montrant les différentes catégories dans les données, et une "feuille", qui montre les valeurs des observations individuelles dans l'ensemble de données.

Par exemple, ce qui suit est un diagramme à tiges et à feuilles pour les prix quotidiens de l'action Microsoft à partir du 1er Janvier 2013 au 31 Décembre 2013. Les prix varient de 25,16 $ à 38,14 $:

image0.jpg


Sur le diagramme à tiges et à feuilles, chaque ligne représente un seul catégorie- pour cet ensemble de données, chaque catégorie est un montant en dollars. Par exemple, la catégorie 32 se compose de tous les prix entre 32,00 $ et 32,99 $. Chaque prix pour Microsoft actions sont cotées en dollars et en cents. Le côté gauche de la barre indique les dollars (les tiges) - le côté droit de la barre indique les cents (les feuilles), après arrondi à la 10 cents. Par exemple, un prix de 32,23 $ est arrondi à 32,20 $, ce qui apparaît comme un 2 sur la droite; côté de la barre pour la catégorie 32. Un prix de 33,48 $ est arrondi à $ 33.50- ce apparaît comme un 5 sur la droite; côté de la barre pour la catégorie 33.

En utilisant cette technique, il est facile de voir combien les prix tombent dans chaque catégorie. Par exemple, il ya eu 14 jours de négociation dans l'ensemble de données dans laquelle le prix de l'action Microsoft était entre 25,00 $ et 25,99 $. Il y avait trois jours de négociation dans laquelle le prix de l'action Microsoft était entre 29,00 $ et 29,99 $. Un prix entre 33,00 $ et 33,99 $ est survenue plus fréquemment, et un prix compris entre 38,00 $ et 38,99 $ était la plus fréquente au cours de l'année.

Un des avantages d'un diagramme à tiges et à feuilles est qu'il est facile d'identifier le mode d'un ensemble de données. (Rappelons que la mode est la valeur qui se produit le plus souvent dans un ensemble de données.) Si vous ne regardez que les gammes de dollars, alors il est facile de repérer quelle gamme contient les la plupart des observations - celui avec la plus longue feuille. Dans ce cas, un prix dans la gamme 33 ($ 33.00- 33,99 $) serait considéré comme le mode car il contient la plupart des observations.

Un autre avantage de ce schéma est que aberrantes sont faciles à repérer. Une valeur aberrante est une observation dans un ensemble de données qui est nettement plus grande ou plus petite que les autres observations dans l'ensemble de données. Une valeur aberrante serait indiquée par un grand écart entre la première ou la dernière tige et celui suivant le plus proche. (Chapitre 10 parle plus à propos de valeurs aberrantes.)

Un inconvénient des diagrammes à tiges et à feuilles est qu'ils deviennent difficiles à interpréter pour les grands ensembles de données parce que la taille de la feuille devient lourd.


» » » » Parcelles à tiges et à feuilles: technique graphique pour les données statistiques