Trouver les valeurs aberrantes dans vos données le foot
En analysant les données pour vos infographie, vous devez être conscient que certains points de données - connu sous le nom aberrantes - jeter si loin en dehors de la norme, comme pour appeler l'attention sur eux. Dans les cas les plus graves, ils peuvent même fausser les données et de créer une image trompeuse du sujet. Vous devez reconnaître quand vous avez une valeur aberrante et ensuite décider quoi faire à ce sujet.
Cette table contient un exemple simple pour illustrer ce concept. Les deux ensembles de données représentent les notes d'un élève, pendant huit semaines, sur deux exams- hebdomadaire les chiffres sont la pour cent correct à l'examen. L'ensemble de données sur la gauche (le premier examen) ne contient pas une aberration, mais l'ensemble de données sur le droit (le deuxième examen) fait. L'une valeur aberrante est indiqué en caractères gras.
Notes d'examen hebdomadairesSemaine | Grades (pas aberrant) | Grades (une valeur) |
---|
1 | 90% | 90% |
2 | 88% | 88% |
3 | 90% | 90% |
4 | 85% | 50% |
5 | 86% | 86% |
6 | 87% | 87% |
7 | 85% | 85% |
8 | 84% | 84% |
Moyenne | 87% | 83% |
La moyenne dans la colonne du milieu peint une image assez précise de la réussite de l'élève dans des tests réguliers. La seule valeur aberrante (gras) (50%) dans l'ensemble de données sur le droit jette une clé dans les œuvres, cependant, laisser tomber la moyenne de l'étudiant par quatre points de pourcentage et de biaiser les données.
Qu'est-ce que un journaliste de données faire dans un tel cas? Voici quelques options:
Jetez la valeur aberrante. Si vous utilisez uniquement la moyenne dans votre graphique et êtes concerné qu'il est trompeur, éliminer la valeur aberrante comme une aberration et ensuite calculer la moyenne, sans que la semaine, comme le montre la figure.
Dans cet exemple, jeter la valeur aberrante signifierait score au test moyenne de cet élève grimpe à 87%, ce qui (comme la première colonne indique) est une meilleure représentation de la réussite sur la durée.
Si vous y allez avec cette option, assurez-vous d'ajouter une note expliquant tout: dans ce cas, la suppression d'un point de données. Toujours être aussi transparent que possible.
Afficher les données tel quel. Que vous utilisiez juste la moyenne dans votre graphique ou tracer toutes les données dans un graphique, vous pouvez toujours présenter les données exactement comme il est venu à vous, comme le montre la figure suivante.
Dans ce cas, vous devriez ajouter une note appelant à la valeur aberrante afin que votre lecteur est pleinement conscient de cela.
Construire un la ligne de meilleur ajustement . Cette option concerne uniquement si vous allez créer un graphique montrant toutes les données. Une ligne de meilleur ajustement - également appelé régression linéaire - est un moyen visuel de vos données: littéralement la ligne qui représente vos points de données dispersées meilleur.
A propos Auteur
Comment traiter les valeurs aberrantes causés par des forces extérieures Soyez sûr que vous vérifiez soigneusement pour les valeurs aberrantes avant elles influencent votre analyse prédictive. Les valeurs aberrantes peuvent fausser les données et l'analyse des données. Par exemple, toute analyse statistique…
Test d'hypothèse pour des données aberrantes Plusieurs tests statistiques officielles qui sont conçus pour détecter les données aberrantes. Trois d'entre elles prennent la forme de tests d'hypothèses. Un test d'hypothèse est une procédure pour déterminer si une proposition peut être…
Les statistiques robustes et Big Data Une statistique est dit robuste si elle n'a pas fortement influencée par la présence de valeurs aberrantes. Par exemple, la moyenne est robuste, car il ne peut être fortement affectée par la présence de valeurs aberrantes. D'autre part, la…
Parcelles à tiges et à feuilles: technique graphique pour les données statistiques UN diagramme à tiges et à feuilles est un dispositif graphique dans laquelle la distribution d'un ensemble de données est organisée par la valeur numérique des observations dans l'ensemble de données. Le schéma consiste en une "tige",…
Données en douceur dans vos tableaux de bord et des rapports Excel Trending est très populaire dans les tableaux de bord et des rapports Excel. UN tendance est une mesure de la variance sur un intervalle défini - généralement des périodes telles que des jours, des mois ou des années.Certains secteurs…
Pour les aînés: comment identifier les parties d'un tableau Excel Chaque partie de l'organigramme a un nom, et apprendre le jargon Microsoft Excel peut vous aider à formater les parties spécifiques. La liste suivante souligne certaines des caractéristiques clés d'un tableau:Zone de graphique: L'ensemble du…
Tendance centrale: au-delà des bases La moyenne et médiane sont les deux mesures les plus fréquemment rapportés fiables et du centre, et ils sont utilisés dans une grande variété de situations. Toutefois, si vous êtes sérieusement étudier les statistiques, vous devez être…
Des ensembles de données et de statistiques descriptives problèmes Soyez conscient des parts de toute statistique descriptive vous calculez (par exemple, des dollars, des pieds ou miles par gallon). Quelques statistiques descriptives sont dans les mêmes unités que les données, et certains ne sont pas. Résoudre…
Comment calculer les percentiles dans les statistiques Si tout ce que vous êtes intéressé à est où vous vous situez par rapport au reste du troupeau, vous avez besoin d'une statistique que les rapports position relative, et cette statistique est appelé un percentile. La ke percentile est une…
Comment trouver la valeur médiane dans un ensemble de données statistiques La médiane est une statistique qui est couramment utilisé pour mesurer le centre d'un ensemble de données. Cependant, il est encore un héros méconnu de la statistique dans le sens où il ne sert presque aussi souvent qu'il devrait l'être,…
Comment rassembler un résumé de cinq numéro d'un échantillon statistique Si vos données créent un histogramme qui ne sont pas en forme de cloche, vous pouvez utiliser un ensemble de statistiques qui est basé sur les percentiles pour décrire la grande image des données. Appelé le résumé de cinq nombre, cette…
Comment faire une boîte à moustaches d'un résumé de cinq nombre UN boîte à moustaches est un graphique unidimensionnel des données numériques basées sur le résumé en cinq nombres. Ce résumé comprend les statistiques suivantes: la valeur minimale, le 25e percentile (connu sous le nom Q1), La médiane, le…
Praxis noyau prep: comment mesurer la moyenne arithmétique, la médiane ou le mode Oui, le Praxis Core vous demander moyenne, la médiane et le mode. Les mesures de tendance centrale sont tous les types de la moyenne de séries de données. Lors de la préparation à l'examen Praxis de base, vous devez être en mesure de décider…
Examen PMP: statistiques pour les distributions normales et cumulatifs PMP (Les professionnels de la gestion de projet) appliquent souvent des statistiques de base à leurs projets. Pour l'examen de certification PMP, voici ce que vous devez savoir lorsqu'ils traitent avec des distributions normales et cumulatifs:Les…