Analyse exploratoire des données graphiques (eda) techniques

EDA est basée largement sur les techniques graphiques. Vous pouvez utiliser des techniques graphiques pour identifier les propriétés les plus importantes d'un ensemble de données. Voici quelques-unes des techniques graphiques plus largement utilisés:

Sommaire

  • Les boîtes à moustaches

  • Histogrammes

  • Tracés de normalité

  • Les diagrammes de dispersion

Les boîtes à moustaches

Vous utilisez les diagrammes en boîte de montrer certaines des caractéristiques les plus importantes d'un ensemble de données, telles que les suivantes:

  • Valeur minimale

  • Valeur maximale

  • Quartiles




Quartiles séparent un ensemble de données en quatre sections égales. Le premier quartile (Q1) Est une valeur telle que ce qui suit est vrai:

25 pour cent des observations dans un jeu de données est inférieure à la première quartile.
75 pour cent des observations sont plus grand que le premier quartile.

Le deuxième quartile (Q2) Est une valeur telle que

50 pour cent des observations dans un jeu de données est inférieure à la deuxième quartile.
50 pour cent des observations sont plus importants que le deuxième quartile.

La deuxième quartile est également connu sous le nom médiane.

Le troisième quartile (Q3) Est une valeur telle que

75 pour cent des observations dans un ensemble de données sont moins que le troisième quartile.
25 pour cent des observations sont plus grands que le troisième quartile.

Vous pouvez également utiliser des boîtes à moustaches pour identifier aberrantes. Ce sont des valeurs qui sont sensiblement différent du reste de l'ensemble de données. Les valeurs aberrantes peuvent causer des problèmes pour les tests statistiques traditionnels, il est donc important de les identifier avant d'effectuer tout type d'analyse statistique.

Histogrammes

Vous utilisez histogrammes de mieux comprendre la distribution de probabilité qu'un ensemble de données suit. Avec un histogramme, l'ensemble de données est organisé en une série de valeurs ou plages de valeurs individuelles, chacun étant représenté par une barre verticale. La hauteur de la barre indique la fréquence à une valeur ou un intervalle de valeurs se produit. Avec un histogramme, il est facile de voir comment les données sont distribuées.

Les diagrammes de dispersion

Un diagramme de dispersion est une série de points qui montrent comment deux variables sont liées les unes aux autres. Une dispersion aléatoire de points indique que les deux variables ne sont pas liés, ou que la relation entre eux est très faible. Si les points ressemblent étroitement à une ligne droite, ce qui indique que la relation entre les deux variables est d'environ linéaire.

Deux variables sont linéairement liées si elles peuvent être décrits avec l'équation Y = mX + b.

X est la variable indépendante, et Y est la variable dépendante. m est le pente, qui représente l'évolution de Y en raison d'un changement donné dans X. b est le interception, qui montre la valeur de Y quand X est égale à zéro.

La figure montre un nuage de points entre deux variables dans lequel la relation semble être linéaire.

Nuage de points d'une relation linéaire.
Nuage de points d'une relation linéaire.

Les points sur le diagramme de dispersion forment presque une ligne droite. Il se penche un peu vers la gauche et se penche un peu sur la droite, mais il est à peu près droit. Cela montre que la relation est linéaire, avec une pente positive.

La figure suivante montre un nuage de points entre deux variables dans laquelle Y semble être en hausse plus rapide que X.

Nuage de points d'une relation non linéaire.
Nuage de points d'une relation non linéaire.

Voir la courbe? Cette relation est clairement non linéaire. Il est en effet une relation quadratique. Une relation quadratique prend la forme Y = aX2 + bX + c.

La figure suivante montre un nuage de points dans lequel il ne semble pas y avoir de relation entre X et Y.

nuage de points avec aucune relation entre les variables & lt; i>Xlt; / i> et lt; i> Y.lt; / i>
Nuage de points avec aucune relation entre les variables X et Y.

Les variables dans le nuage de points indiqués sont sans rapport ou independent- vous pouvez voir cela en l'absence de tout motif dans les données.

En plus de montrer la relation entre deux variables, un nuage de points peut aussi montrer la présence de valeurs aberrantes. La figure suivante montre un ensemble de données avec une observation qui est sensiblement différente de celle des autres observations.

Nuage de points avec une valeur aberrante.
Nuage de points avec une valeur aberrante.

Le point de valeur aberrante doit être approfondie pour déterminer si elle est le résultat d'une erreur ou d'autres problèmes. Il est possible que la valeur aberrante devra être éliminées des données.

Tracés de normalité

Tracés de normalité sont utilisés pour voir à quel point les éléments d'un ensemble de données suivent la distribution normale. L'hypothèse de normalité est commun dans de nombreuses disciplines. Par exemple, il est souvent supposé dans la finance et l'économie que les rendements de stocks sont normalement distribués. L'hypothèse de normalité est très pratique, et de nombreux tests statistiques sont basées sur cette hypothèse.

L'application de tests statistiques qui supposent la normalité à un non-normale dataset donnerait des résultats très discutables. Par conséquent, il est important de déterminer si oui ou non les données est normalement distribué avant d'effectuer un quelconque de ces tests statistiques.


» » » » Analyse exploratoire des données graphiques (eda) techniques