Comment résumer un ensemble de données dans r

Si vous avez besoin d'un aperçu rapide de votre ensemble de données, vous pouvez, bien sûr, toujours utiliser la commande R str ()

Sommaire

et de regarder la structure. Mais cela vous dit quelque chose seulement sur les classes de vos variables et le nombre d'observations. En outre, la fonction tête () vous donne, au mieux, une idée de la façon dont les données sont stockées dans l'ensemble de données.

Comment faire pour obtenir la sortie

Pour avoir une meilleure idée de la répartition de vos variables dans l'ensemble de données, vous pouvez utiliser la résumé() fonctionner comme ceci:

> Résumé de (voitures) mpg cyl h gearMin. : 10,40 min. : 4.000 automobiles: 13 3: 151e Qu:. 15,43 1er Qu:. 4.000 manuel: 19 4: 12Median: 19.20 Médiane: 6,0005: 5Mean: 20.09 Moyenne: 6.1883rd Qu:. 22.80 3ème Qu:. 8.000Max. : 33.90 Max. : 8.000



La résumé() fonction fonctionne mieux si vous utilisez simplement R interactive à la ligne de commande pour la numérisation de votre ensemble de données rapidement. Vous ne devriez pas essayer de l'utiliser dans une fonction personnalisée que vous-même écrit.

La sortie de la résumé() fonction montre pour chaque variable d'un ensemble de statistiques descriptives, selon le type de la variable:

  • Variables numériques: résumé() vous donne la plage, les quartiles, la médiane et la moyenne.

  • Les variables actives: résumé() vous donne une table avec des fréquences.

  • Variables numériques et des facteurs: résumé() vous donne le nombre de valeurs manquantes, si il y en a.

  • Les variables de caractères: résumé() ne vous donne pas d'information du tout en dehors de la longueur et de la classe (qui est 'personnage').

Comment résoudre un problème

Avez-vous vu les valeurs étranges pour la variable cyl? Un rapide regard sur le résumé peut vous dire il ya quelque chose de louche, comme, par exemple, le minimum et le premier quartile ont exactement la même valeur. En effet, la variable cyl a seulement trois valeurs et serait mieux comme un facteur. Donc, nous allons mettre cette variable hors de sa misère:

> Voitures $ cyl lt; - as.factor (voitures $ cyl)

» » » » Comment résumer un ensemble de données dans r