Lissage de données dans Excel

Les statisticiens ont généralement de regarder les grandes masses de données et de trouver difficiles à voir des modèles. Parfois, une tendance générale suggère un outil analytique particulier. Et parfois, cet outil, bien que statistiquement puissante, ne permet pas le statisticien en arriver à une explication.

La figure suivante est un tableau de home runs frappés dans la Ligue américaine de 1901 jusqu'en 2008.

image0.jpg

La tendance générale est évident que plus les années passent, plus home runs sont touchés. Montage d'une ligne de régression confirme cette idée. L'équation

Home Runs = 24,325 * Année - 465395

est un ajustement formidable pour les données. L'équation donne une valeur R-carré de 0,91, ce qui indique que le modèle linéaire très bien décrit la relation entre circuits et années.

Et ainsi . . . quoi?

Juste adaptation de la ligne de régression gloses sur les choses importantes dans le baseball - les choses à la fois grandes et petites qui composent une saison de baseball, une époque, une histoire. Et baseball a beaucoup de ces choses. L'objectif est de les amener à se révéler.

L'autre extrême de la droite de régression est de relier les points. Ce serait tout simplement donner un tas de zigzags qui sera probablement pas éclairer un siècle d'histoire.

Le problème est de savoir comment résumer sans éliminer trop: se débarrasser des zigzags, mais garder les pics et les vallées importantes. Comment faites-vous cela sans savoir ce qui est important à l'avance?




L'analyse exploratoire des données (AED) aide à montrer la voie. Une technique EDA est appelé lissage trois médian. Pour chaque point de données dans une série, remplacer ce point de données avec la médiane de trois nombres: le point de données elle-même, le point de données qui le précède, et le point de données qui suit.

Pourquoi la médiane? Contrairement à la moyenne, la médiane est pas sensible aux valeurs extrêmes qui se produisent de temps en temps - comme un zig zag ou d'un. L'effet est de filtrer le bruit et laisser hauts et des bas significatifs.

Pourquoi trois chiffres? Comme la plupart tout dans EDA, cela ne Ironclad. Pour certains ensembles de données, vous voudrez peut-être la médiane pour couvrir plusieurs numéros. Il est à la hauteur des intuitions, des expériences et des idées de l'analyste.

Une autre technique, Hanning, est une moyenne pondérée courante. Vous remplacez un point de données avec la somme d'un quart le point de données précédente, plus de la moitié du point de données, plus d'un quart de la prochaine point de données. Encore une autre technique est la skip signifier.

Dans EDA, vous ne pas simplement utiliser une technique sur un ensemble de données. Souvent, vous commencez avec une médiane lisse, répéter plusieurs fois, et puis essayer un ou deux autres.

Pour les données dans le nuage de points, appliquer le trois médiane lisse, répéter (qui est, l'appliquer aux données nouvellement lissées), Han les données lissées, et ensuite appliquer la benne signifie. Encore une fois, aucune technique (ou ordre de techniques) est bon ou mauvais. Vous appliquez ce que vous pensez illumine caractéristiques significatives des données.

Suite fait partie d'une feuille de calcul pour tout cela. La colonne A indique l'année, et la colonne B indique le nombre de home runs frappé cette année dans la Ligue américaine. Les colonnes indiquent adoucit successifs des données.

Colonne C applique les trois médiane lisse à la colonne B, et la colonne D applique les trois-médian en douceur vers la colonne C. Un rapide regard sur les chiffres montre que la répétition ne fait pas beaucoup de différence. Colonne E applique Hanning à la colonne D, et la colonne F applique la benne signifie à la colonne E.

Dans les colonnes C à F, le nombre réel de courses à la maison est utilisé pour la première valeur (pour l'année 1901) et pour la valeur finale (pour l'année 2008).

image1.jpg

Vous pouvez facilement observer l'effet de chaque technique de lissage successifs sur la ligne lissée. La clé est à droite; cliquez sur la zone de tracé et choisissez Sélectionner les données dans le menu pop-up. Cliquez sur le nom de la série de données qui représente la ligne lissée, modifier la plage de cellules de la série afin de refléter la colonne qui détient la technique de lissage particulier, et cliquez sur OK pour fermer les boîtes de dialogue d'édition.

Et maintenant, l'histoire commence à se révéler. Au lieu d'une droite de régression qui vous indique juste que la maison fonctionne augmentation que les années passent, les hauts et les bas stimulent la réflexion quant à pourquoi ils sont là. Voici une version très abrégée de l'histoire du baseball compatible avec les tours et détours de la ligne lissée.

Le segment bas plat de 1901 par 1920 signifie la “ ère de ballon mort, ” un moment où la composition d'une balle frappée inhibée boules d'aller assez loin pour devenir home runs.

Explorer et de visualiser les données stimule la pensée de ce qui se produire les modèles les découvre d'exploration. La spéculation conduit à des hypothèses vérifiables, qui conduisent à l'analyse.


» » » » Lissage de données dans Excel