Comment suivre les corrélations de données dans r

Statisticiens aiment quand ils peuvent lier une variable de données à l'autre. R peut aider à trouver cette relation. Lumière du soleil, par exemple, est préjudiciable à jupes: Le plus le soleil brille, les jupes plus courtes deviennent. Ainsi, le nombre d'heures d'ensoleillement en corrélation avec la longueur de la jupe.

De toute évidence, il n'y a pas vraiment une relation causale directe ici - vous ne trouverez pas de jupes courtes pendant l'été dans les régions polaires. Mais, dans de nombreux cas, la recherche de relations causales commence par regarder corrélations.

Pour illustrer cela, jetez un oeil à la célèbre iris ensemble de données dans l'arrêt R. Un des plus grands statisticiens de tous les temps, Sir Ronald Fisher, cet ensemble de données utilisé pour illustrer comment les mesures multiples peut être utilisé pour discriminer entre les différentes espèces. Cette base de données contient cinq variables, comme vous pouvez le voir en utilisant le (noms) fonction:




> Noms (iris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length" [4] "Petal.Width" "Espèces"

Il contient des mesures de caractéristiques de fleurs pour trois espèces d'iris et de 50 fleurs pour chaque espèce. Deux variables décrivent les sépales (Sepal.Length et Sepal.Width), Deux autres variables décrivent les pétales (Petal.Length et Petal.Width), Et la dernière variable (Espèce) Est un facteur indiquant de quelle espèce la fleur vient.

Bien que les apparences peuvent être trompeuses, vous voulez globe oculaire vos données avant de creuser plus profondément en elle. Pour tracer une grille de nuages ​​de points pour toutes les combinaisons de deux variables dans votre ensemble de données, vous pouvez simplement utiliser la plot () fonctionner sur votre trame de données, comme ceci:

> Plot (iris [-5])

Parce que les nuages ​​de points ne sont utiles que pour les variables continues, vous pouvez déposer toutes les variables qui ne sont pas en continu. Trop de variables dans la matrice de l'intrigue rend les parcelles difficiles à voir. Dans le code précédent, vous déposez la variable Espèce, parce que ce facteur.

Vous pouvez voir le résultat de cette simple ligne de code. Les noms de variables apparaissent dans les cases sur la diagonale, indiquant les variables qui sont tracées le long de la X-et l'axe y-axe. Par exemple, la deuxième parcelle sur la troisième ligne a Sepal.Width sur X-axe et Petal.Length sur y-axe.

image0.jpg

» » » » Comment suivre les corrélations de données dans r