Comment traiter les valeurs aberrantes causés par des erreurs dans le système

Lorsque vous comptez sur la technologie ou de l'instrumentation pour effectuer une tâche d'analyse prédictive, un pépin ici ou là peuvent causer ces instruments pour enregistrer les valeurs extrêmes ou inhabituelles. Si capteurs enregistrent les valeurs d'observation qui ne respectent pas les normes de base de contrôle de qualité, ils peuvent produire de véritables perturbations qui sont reflétées dans les données.

Quelqu'un exécutant la saisie de données, par exemple, peut facilement ajouter un supplément de 0 à la fin d'une valeur par erreur, prendre l'entrée hors de portée et produire une valeur aberrante.

Si vous êtes à la recherche à des données d'observation recueillies par un capteur d'eau installée à Baltimore Port - et il rapporte une profondeur de 20 pieds au niveau moyen de la mer au-dessus de l'eau - vous avez une valeur aberrante. Le capteur est évidemment faux, sauf Baltimore est complètement recouvert par l'eau.

Les données peuvent finir par avoir des valeurs aberrantes en raison d'événements externes ou une erreur par une personne ou un instrument.

Si un événement réel comme un flash crash est imputable à une erreur dans le système, ses conséquences sont encore réelle - mais si vous connaissez la source du problème, vous pouvez conclure qu'une faille dans les données, pas votre modèle, était de blâmer si votre modèle ne prédit pas l'événement.

Connaître la source de la valeur aberrante guidera votre décision sur la façon de traiter avec elle. Les valeurs aberrantes qui étaient le résultat d'erreurs de saisie de données peuvent facilement être corrigées après consultation de la source de données. Les valeurs aberrantes qui reflètent un changement réel peuvent vous inviter à changer votre modèle.




Il n'y a pas de one-size-fits-all réponse lorsque vous êtes décider d'inclure ou ne pas tenir compte des données extrême qui est pas une erreur ou d'une panne. Votre réponse dépend de la nature de l'analyse que vous faites - et sur le type de modèle que vous construisez. Dans quelques cas, la façon de traiter avec ces valeurs aberrantes est simple:

  • Si vous tracez votre valeur aberrante à une erreur de saisie de données lorsque vous consultez la source de données, vous pouvez facilement corriger les données et (probablement) que le modèle reste intacte.

  • Si ce capteur d'eau à Baltimore Port signale l'eau à une profondeur de 20 pieds au dessus du niveau moyen de la mer, et vous êtes à Baltimore, regarder par la fenêtre:

  • Si Baltimore est pas complètement recouvert par l'eau, le capteur est évidemment faux.

  • Si vous voyez un poisson regardant dans à vous, la réalité a changed- vous pourriez avoir à réviser votre modèle.

  • Le krach éclair peut avoir été un événement ponctuel (sur le court terme, de toute façon), mais ses effets étaient réels - et si vous avez étudié le marché sur le long terme, vous savez que quelque chose de semblable peut se produire à nouveau. Si votre entreprise est dans la finance et vous traiter avec le marché boursier tout le temps, vous voulez que votre modèle pour tenir compte de telles aberrations.

  • En général, si le résultat d'un événement normalement considéré comme une valeur aberrante peut avoir un impact significatif sur votre entreprise, envisagez comment faire face à ces événements dans votre analyse. Gardez ces points généraux à l'esprit à propos de valeurs aberrantes:

    • L'ensemble de données est plus petit, plus importantes les valeurs aberrantes d'impact peut avoir sur l'analyse.

    • Comme vous développez votre modèle, assurez-vous que vous développez également des techniques pour trouver des valeurs aberrantes et à comprendre systématiquement leur impact sur votre entreprise.

    • Aberrantes de détection peut être du même processus complexe qu'il n'y a pas de manière simple de les identifier.

    • UN expert du domaine (quelqu'un qui connaît le domaine de la modélisation de vous) est votre meilleur feu à la personne pour vérifier si un point de données est valide, une valeur aberrante vous pouvez ignorer, ou une valeur aberrante, vous devez prendre en compte. L'expert de domaine doit être en mesure d'expliquer les facteurs qui créé la valeur aberrante, ce que sa gamme de variabilité est, et son impact sur l'entreprise.

    • Les outils de visualisation peuvent vous aider à repérer les valeurs aberrantes dans les données. Aussi, si vous connaissez la plage attendue de valeurs que vous pouvez facilement vérifier les données qui se situe en dehors de cette fourchette.


    » » » » Comment traiter les valeurs aberrantes causés par des erreurs dans le système