Comment préparer les données pour un modèle d'analyse prédictive

Lorsque vous avez défini les objectifs du modèle pour l'analyse prédictive, la prochaine étape est d'identifier et de préparer les données que vous allez utiliser pour construire votre modèle. La séquence générale des mesures ressemble à ceci:

Sommaire

Underfitting
Overfitting

Identifiez vos sources de données.
Les données peuvent être dans différents formats ou résider dans divers endroits.
Identifier comment vous allez accéder à ces données.
Parfois, vous avez besoin d'acquérir des données de tiers ou des données appartenant à une division différente dans votre organisation, etc.
Considérez les variables à inclure dans votre analyse.
Une approche standard est de commencer avec un large éventail de variables et d'éliminer ceux qui offrent aucune valeur prédictive pour le modèle.
Déterminez si vous souhaitez utiliser les variables dérivées.

Dans de nombreux cas, une variable dérivée (comme le ratio prix-per-gain utilisé pour analyser les cours des actions) aurait un impact direct sur le modèle plus que ne le ferait la variable brute.
Explorez la qualité de vos données, en cherchant à comprendre à la fois l'état et les limites.
La précision des prédictions du modèle est directement liée aux variables que vous sélectionnez et la qualité de vos données. Vous voulez répondre à certaines questions spécifiques données à ce point:
Est les données complète?
At-il des valeurs aberrantes?
Les données doivent-nettoyage?
Avez-vous besoin de remplir des valeurs manquantes, gardez-les comme ils sont, ou les éliminer?

Comprendre vos données et ses propriétés peut vous aider à choisir l'algorithme qui sera le plus utile dans la construction de votre modèle. Par example:

Algorithmes de régression peuvent être utilisées pour analyser les données de séries chronologiques.
Les algorithmes de classification peuvent être utilisées pour analyser les données discrètes.
Association algorithmes peuvent être utilisés pour les données corrélées avec des attributs.

L'ensemble de données utilisé pour former et tester le modèle doit contenir des renseignements commerciaux pertinents pour répondre au problème que vous essayez de résoudre. Si votre objectif est (par exemple) pour déterminer quel client est susceptible de désabonnement, puis l'ensemble de données que vous choisissez doit contenir des informations sur les clients qui ont brassés dans le passé, en plus de clients qui ont pas.

Certains modèles créés pour extraire des données et de donner du sens à ses relations sous-jacentes - par exemple, ceux construits avec des algorithmes de clustering - pas besoin ont un résultat final particulier à l'esprit.

Deux problèmes se posent lorsqu'ils traitent avec les données que vous construisez votre modèle: underfitting et overfitting.

Underfitting

Underfitting est lorsque votre modèle ne peut pas détecter toutes les relations dans vos données. Cela est généralement une indication que les variables essentielles - celles avec le pouvoir prédictif - ne sont pas inclus dans votre analyse. Par exemple, une analyse des stocks qui comprend uniquement des données provenant d'un marché haussier (où les prix globaux des actions sont à la hausse) ne tient pas compte des crises ou des bulles qui peuvent apporter des corrections majeures à la performance globale des stocks.

A défaut d'inclure des données qui couvre à la fois taureau et marchés baissiers (lorsque les prix globaux des actions sont en baisse) conserve le modèle de produire la meilleure sélection de portefeuille possible.

Overfitting

Overfitting est lorsque votre modèle comprend des données qui n'a pas de pouvoir de prédiction mais il est seulement spécifique à l'ensemble de données que vous analysez. Bruit - des variations aléatoires dans l'ensemble de données - peuvent trouver son chemin dans le modèle, de sorte que l'exécution du modèle sur un ensemble de données différent, produit une baisse importante des performances et la précision prédictive du modèle. La barre latérale accompagnant fournit un exemple.

Si votre modèle fonctionne très bien sur un jeu de données particulier et ne sous-performe lorsque vous testez sur un ensemble de données différent, overfitting suspect.

A propos Auteur

Comment décider de garder les valeurs aberrantes dans l'analyse prédictive

Décider d'inclure les valeurs aberrantes dans l'analyse - ou de les exclure - aura des implications pour votre modèle d'analyse prédictive. Garder les valeurs aberrantes dans le cadre des données dans votre analyse peut mener à un modèle qui…

Comment Ensemble méthodes visant à accroître la précision analytique prévision

Comme dans le monde réel, donc avec la multiplicité des modèles d'analyse prédictive: Là où il ya l'unité, il ya la force. Plusieurs modèles peuvent être combinés de différentes manières pour faire des prédictions. Vous pouvez ensuite…

Comment évaluer et mettre à jour votre modèle d'analyse prédictive

Votre but, bien sûr, est de construire un modèle analytique prédictive qui peuvent réellement résoudre les objectifs d'affaires, il a été construit pour. Attendez-vous à passer un peu de temps à évaluer l'exactitude des prédictions de…

Comment identifier les données pour l'analyse prédictive

Pour votre projet d'analyse prédictive, vous aurez besoin d'identifier les sources de données appropriées, les données du pool de ces sources, et le mettre dans un format structuré bien organisé. Ces tâches peuvent être très difficiles et…

Comment garder prédictive des données d'analyse à jour

Après l'étape de chargement de Extract Transform Load, après que vous obtenez vos données dans cette base de données séparée, data mart, ou d'un entrepôt pour l'analyse, vous aurez besoin de conserver les données de sorte que les frais…

Comment de nouvelles prédictions analytiques avec r régression

Pour faire des prédictions analytiques avec de nouvelles données, vous utilisez simplement la fonction avec une liste des valeurs d'attribut sept. Le code suivant fait ce travail:> NewPrediction lt; - prédire (modèle,
liste (cylindres =…

Comment décrire les données d'essais et de test pour l'analyse prédictive

Lorsque vos données est prêt et vous êtes sur le point de commencer à construire votre modèle prédictif pour l'analyse, il est utile de décrire votre méthodologie de test et de rédiger un plan de test. Le test doit être guidée par les…

Comment préparer les données dans un classement de r analyse prédictive modèle

Pour exécuter une analyse prédictive, vous devez obtenir les données sous une forme que l'algorithme peut utiliser de construire un modèle. Pour ce faire, vous avez à prendre un certain temps à comprendre les données et de connaître sa…

Comment marquer vos prédictions analytiques précision

Lors de l'analyse de la qualité d'un modèle prédictif, vous aurez envie de mesurer son exactitude. L'une prévision plus précise le modèle fait, plus il est utile à l'entreprise, ce qui est une indication de sa qualité. Ceci est tout bon -…

Comment tester le modèle d'analyse prédictive

Pour être en mesure de tester le modèle d'analyse prédictive vous avez construit, vous devez diviser votre ensemble de données en deux ensembles: formation et de test des ensembles de données. Ces ensembles de données doivent être choisis au…

Comment utiliser l'analyse supervisées pour former des modèles prédictifs

Dans Analytics supervisées, l'entrée et la sortie préférée font partie des données de formation. Le modèle d'analyse prédictive est présenté avec les résultats corrects dans le cadre de son processus d'apprentissage. Un tel apprentissage…

Comment utiliser régressions linéaires dans l'analyse prédictive

Régression linéaire est une méthode statistique qui analyse et trouve les relations entre les deux variables. Dans l'analyse prédictive, il peut être utilisé pour prédire une valeur numérique d'une grandeur future.Prenons un exemple de…

Comment visualiser les résultats d'analyse de votre modèle: regroupements cachés, les classifications de données, et les valeurs aberrantes

Visualisation des résultats de votre analyse prédictive aide vraiment les parties prenantes à comprendre les prochaines étapes. Voici quelques façons d'utiliser des techniques de visualisation de rapporter les résultats de vos modèles pour…

L'analyse prédictive pour les nuls

Un projet d'analyse prédictive de succès est exécuté étape par étape. Comme vous vous immergez dans les détails du projet, regarder pour ces grandes étapes:Définir des objectifs d'affairesLe projet commence avec l'aide d'un objectif…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment préparer les données pour un modèle d'analyse prédictive