Eda techniques pour tester des hypothèses

Il existe plusieurs techniques analyse exploratoire des données (AED) que vous pouvez utiliser pour tester des hypothèses sur un ensemble de données. Ceux-ci comprennent parcelle de l'ordre d'exécution, accusent un complot, histogramme, et tracé de probabilité normale.

Sommaire

Parcelle de l'ordre d'exécution

Beaucoup de techniques statistiques sont basées sur l'hypothèse que les données en cours d'analyse possède les propriétés suivantes:

  • Variables indépendantes

  • Variables tirées d'une distribution de probabilité commune

  • Variables avec des paramètres communs (par exemple, moyenne et écart type)

UN parcelle de l'ordre d'exécution teste si les données sont conformes à ces hypothèses. Par exemple, la figure suivante montre un graphique de la séquence d'exécution pour les rendements quotidiens de l'indice boursier de Standard and Poor.

Parcelle de l'ordre d'exécution des rendements quotidiens de l'indice S & P 500.
Parcelle de l'ordre d'exécution des rendements quotidiens de la SP 500.

Parce que cela est un complot de séries chronologiques, il est utilisé pour déterminer si les rendements du SP 500 sont indépendants les uns des autres, qu'ils proviennent tous de la même distribution de probabilité, et si les paramètres (moyenne et la variance) restent constantes dans le temps .

L'intrigue de l'ordre d'exécution est conçu pour répondre à ces questions:




  • Y at-il des changements dans la moyenne des données?

  • Y at-il des changements dans la variance des données?

En outre, vous utilisez le tracé de l'ordre d'exécution pour identifier les valeurs aberrantes dans les données.

L'intrigue de la rentabilité de la SP 500 montre que la moyenne et la variance des données restent stables dans le temps, et qu'il ne semble pas y avoir de valeurs aberrantes.

Parcelle de Lag

UN parcelle de latence détermine si les éléments d'un jeu de données sont aléatoire (indépendamment les uns des autres). En d'autres termes, le graphique montre si oui ou non il ya une tendance dans les données. Tendances dans les données sont incompatibles avec l'aléatoire.

Une valeur retardée est celui qui a eu lieu dans le passé. Un décalage de 1 se réfère à une observation qui a eu lieu une période dans le passé. Un décalage de 2 se réfère à une observation qui a eu lieu deux périodes dans le passé, et ainsi de suite.

Une parcelle de latence montre les valeurs d'une variable sur l'axe vertical et les valeurs de la même variable décalée sur l'axe horizontal. Par exemple, cette figure montre une parcelle de latence pour les retours quotidiens à l'indice boursier de Standard and Poor.

Parcelle de Lag des rendements quotidiens à la Standard and Poor's 500 in 2013.
Lag parcelle de rendements quotidiens de la Standard and Poor 500 en 2013.

Les points sur ce terrain sont dispersés au hasard, sans motif particulier. Ceci est cohérent avec l'hypothèse de caractère aléatoire dans les données.

Histogramme

Vous pouvez utiliser un histogramme d'identifier la répartition suivie par un ensemble de données. Un histogramme peut montrer plusieurs détails clés sur un ensemble de données, y compris les suivantes:

  • Le centre de données

  • La propagation (variabilité) des données

  • L'asymétrie des données (le cas échéant)

  • La présence de valeurs aberrantes

Par exemple, cette figure montre un histogramme pour les rendements quotidiens de l'indice boursier de Standard and Poor.

Histogramme des rendements quotidiens de l'indice S & P 500.
Histogramme des rendements quotidiens de la SP 500.

Le graphique montre que les rendements du Standard and Poor ont une moyenne d'environ 0 - les hauteurs des barres sont plus près de 0. Les rendements semblent présenter asymétrie négative (qui est, les rendements négatifs extrêmes sont plus fréquentes que des rendements positifs extrêmes) et avoir une plus grande ampleur. Il ne semble pas y avoir de valeurs aberrantes dans les données.

Tracé de probabilité normale

Utiliser un tracé de probabilité normale pour comparer un ensemble de données pour la distribution normale. L'axe vertical de ce graphique montre les quantiles de l'ensemble de données, et l'axe horizontal représente les quantiles de la distribution normale. Si un ensemble de données est normalement distribué, le graphique doit apparaître comme une ligne droite avec une pente de 1.

Quantiles sont utilisés pour diviser un ensemble de données en groupes de taille égale. Un type largement utilisé de quantile est le quartile, qui (comme discuté plus tôt) divise un ensemble de données en quatre groupes égaux, chacun composé de 25 pour cent des données. Un autre choix populaire est le percentile, qui divise un ensemble de données en une centaine de groupes égaux, constitués chacun de 1 pour cent des données.

La figure suivante montre un tracé de probabilité normale pour les rendements quotidiens de l'indice boursier de Standard and Poor.

Tracé de probabilité normale des rendements quotidiens vers le S & P 500 en 2013.
Tracé de probabilité normale des rendements quotidiens de la SP 500 en 2013.

Le graphique montre que les rendements de la SP 500 sont près d'être normale, avec des écarts dans les queues de la distribution.


» » » » Eda techniques pour tester des hypothèses