Comment préparer les données pour un modèle d'analyse prédictive

Lorsque vous avez défini les objectifs du modèle pour l'analyse prédictive, la prochaine étape est d'identifier et de préparer les données que vous allez utiliser pour construire votre modèle. La séquence générale des mesures ressemble à ceci:

Sommaire

  1. Identifiez vos sources de données.

    Les données peuvent être dans différents formats ou résider dans divers endroits.

  2. Identifier comment vous allez accéder à ces données.

    Parfois, vous avez besoin d'acquérir des données de tiers ou des données appartenant à une division différente dans votre organisation, etc.

  3. Considérez les variables à inclure dans votre analyse.

    Une approche standard est de commencer avec un large éventail de variables et d'éliminer ceux qui offrent aucune valeur prédictive pour le modèle.

  4. Déterminez si vous souhaitez utiliser les variables dérivées.




    Dans de nombreux cas, une variable dérivée (comme le ratio prix-per-gain utilisé pour analyser les cours des actions) aurait un impact direct sur le modèle plus que ne le ferait la variable brute.

  5. Explorez la qualité de vos données, en cherchant à comprendre à la fois l'état et les limites.

    La précision des prédictions du modèle est directement liée aux variables que vous sélectionnez et la qualité de vos données. Vous voulez répondre à certaines questions spécifiques données à ce point:

    • Est les données complète?

    • At-il des valeurs aberrantes?

    • Les données doivent-nettoyage?

    • Avez-vous besoin de remplir des valeurs manquantes, gardez-les comme ils sont, ou les éliminer?

    Comprendre vos données et ses propriétés peut vous aider à choisir l'algorithme qui sera le plus utile dans la construction de votre modèle. Par example:

    • Algorithmes de régression peuvent être utilisées pour analyser les données de séries chronologiques.

    • Les algorithmes de classification peuvent être utilisées pour analyser les données discrètes.

    • Association algorithmes peuvent être utilisés pour les données corrélées avec des attributs.

    L'ensemble de données utilisé pour former et tester le modèle doit contenir des renseignements commerciaux pertinents pour répondre au problème que vous essayez de résoudre. Si votre objectif est (par exemple) pour déterminer quel client est susceptible de désabonnement, puis l'ensemble de données que vous choisissez doit contenir des informations sur les clients qui ont brassés dans le passé, en plus de clients qui ont pas.

    Certains modèles créés pour extraire des données et de donner du sens à ses relations sous-jacentes - par exemple, ceux construits avec des algorithmes de clustering - pas besoin ont un résultat final particulier à l'esprit.

    Deux problèmes se posent lorsqu'ils traitent avec les données que vous construisez votre modèle: underfitting et overfitting.

    Underfitting

    Underfitting est lorsque votre modèle ne peut pas détecter toutes les relations dans vos données. Cela est généralement une indication que les variables essentielles - celles avec le pouvoir prédictif - ne sont pas inclus dans votre analyse. Par exemple, une analyse des stocks qui comprend uniquement des données provenant d'un marché haussier (où les prix globaux des actions sont à la hausse) ne tient pas compte des crises ou des bulles qui peuvent apporter des corrections majeures à la performance globale des stocks.

    A défaut d'inclure des données qui couvre à la fois taureau et marchés baissiers (lorsque les prix globaux des actions sont en baisse) conserve le modèle de produire la meilleure sélection de portefeuille possible.

    Overfitting

    Overfitting est lorsque votre modèle comprend des données qui n'a pas de pouvoir de prédiction mais il est seulement spécifique à l'ensemble de données que vous analysez. Bruit - des variations aléatoires dans l'ensemble de données - peuvent trouver son chemin dans le modèle, de sorte que l'exécution du modèle sur un ensemble de données différent, produit une baisse importante des performances et la précision prédictive du modèle. La barre latérale accompagnant fournit un exemple.

    Si votre modèle fonctionne très bien sur un jeu de données particulier et ne sous-performe lorsque vous testez sur un ensemble de données différent, overfitting suspect.


    » » » » Comment préparer les données pour un modèle d'analyse prédictive