Comment faire pour extraire, transformer et charger des données pour l'analyse prédictive

Après il est initialement collectées, les données sont généralement dispersé dans une déclaration il réside dans plusieurs systèmes de bases de données et ou doit être analysé avant prédire rien. Avant que vous pouvez l'utiliser pour un modèle d'analyse prédictive, vous avez à le consolider en un seul endroit. En outre, vous ne voulez pas travailler sur les données qui résident dans les systèmes opérationnels - qui est d'avoir des ennuis.

Au lieu de cela, placer une partie de celui-ci dans un endroit où vous pouvez travailler sur librement sans affecter les opérations. ETL (extraction, transformation et chargement) est le processus qui permet d'atteindre cet état souhaitable.

De nombreuses organisations ont plusieurs databases- votre modèle prédictif sera probablement utiliser les données de chacun d'eux. ETL est le processus qui recueille toutes les informations nécessaires et le place dans un environnement séparé où vous pouvez lancer votre analyse.




ETL est pas, cependant, une fois et pour tous Notice d'utilisation en général il est un processus continu qui rafraîchit les données et le maintient à jour. Soyez sûr que vous exécutez vos processus ETL de nuit ou à d'autres moments lorsque la charge sur le système d'exploitation est faible.

  • L'étape d'extraction recueille les données souhaitées dans sa forme brute des systèmes opérationnels.

  • L'étape de transformation rend les données recueillies prêt à être utilisé dans votre modèle prédictif - fusionnant, générer les attributs dérivés souhaités, et de mettre les données transformées dans le format approprié pour répondre aux exigences de l'entreprise.

  • L'étape de chargement place les données dans son emplacement désigné, où vous pouvez lancer votre analyse à ce sujet - par exemple, dans un magasin de données, entrepôt de données, ou d'une autre base de données.

Vous devez suivre une approche systématique pour construire vos processus ETL pour remplir les exigences de l'entreprise. Il est une bonne pratique de conserver une copie des données d'origine dans une zone séparée de sorte que vous pouvez toujours revenir à elle en cas d'erreur perturbe la transformation ou les étapes de chargement des processus.

Votre processus ETL doit intégrer modularité - la séparation des tâches et d'accomplir le travail en plusieurs étapes. Cette approche présente des avantages au cas où vous voulez de retraiter ou de recharger les données, ou si vous voulez utiliser certaines de ces données pour une analyse différente ou pour construire différents modèles prédictifs. La conception de votre ETL devrait être en mesure d'accueillir les grandes modifications des exigences d'affaires - avec des changements minimes à votre processus ETL.


» » » » Comment faire pour extraire, transformer et charger des données pour l'analyse prédictive