Comment identifier les données pour l'analyse prédictive

Pour votre projet d'analyse prédictive, vous aurez besoin d'identifier les sources de données appropriées, les données du pool de ces sources, et le mettre dans un format structuré bien organisé. Ces tâches peuvent être très difficiles et nécessiteront sans doute une coordination minutieuse entre les différents gestionnaires de données au sein de votre organisation.

Vous aurez également besoin de sélectionner les variables que vous allez analyser. Ce processus doit tenir compte des contraintes de données, les contraintes du projet, et les objectifs d'affaires en considération.

Les variables que vous sélectionnez doit avoir le pouvoir prédictif. En outre, vous devez tenir compte de variables qui sont à la fois précieuse et réalisable pour votre projet dans le budget et les délais. Par exemple, si vous êtes à l'analyse des transactions bancaires dans une enquête criminelle, des enregistrements téléphoniques pour toutes les parties concernées peuvent être pertinentes pour l'analyse, mais pas accessible aux analystes.




Attendez-vous à passer un temps considérable sur cette phase du projet. La collecte des données, analyse des données, et le processus d'aborder le contenu des données, la qualité, et la structure peuvent ajouter à une liste de choses à faire de temps.

Pendant le processus d'identification de données, elle aide à comprendre vos données et de son properties- cette connaissance vous aidera à choisir l'algorithme à utiliser pour construire votre modèle. Par exemple, les données de séries chronologiques peuvent être analysés par les algorithmes de classification de régression peut être utilisée pour analyser les données discrètes.

La sélection des variables est affectée par la façon dont vous comprenez les données. Ne soyez pas surpris si vous avez à regarder et évaluer des centaines de variables, au moins au début. Heureusement, que vous travaillez avec ces variables et commencer à gagner des informations clés, vous commencez à les circonscrire à quelques dizaines. Aussi, attendez-sélection de variables pour changer que votre compréhension des changements de données tout au long du projet.

Vous trouverez peut-être bénéfique pour construire un inventaire de données que vous pouvez utiliser pour suivre ce que vous savez, ce que vous ne savez pas, et ce qui manque peut-être. L'inventaire de données devrait inclure une liste des différents éléments de données et les attributs qui sont pertinents dans les étapes ultérieures du processus.

Par exemple, vous voudrez peut-être documenter si des segments sont des codes postaux manquants ou dossiers pendant une période de temps spécifique manquant.

Votre go-to personnes pour la connaissance de l'entreprise (également appelés experts de connaissances de domaine) Vous aidera à choisir les variables clés qui peuvent influencer positivement les résultats de votre projet. Ils peuvent aider à vous expliquer l'importance de ces variables, ainsi que où et comment les obtenir, entre autres, une contribution précieuse.


» » » » Comment identifier les données pour l'analyse prédictive