La transformation des données dans Hadoop

L'idée de moteurs ETL Hadoop inspiration a gagné beaucoup de traction au cours des dernières années. Après tout, Hadoop est un stockage de données flexible et plate-forme de traitement qui peut supporter d'énormes quantités de données et des opérations sur ces données. Dans le même temps, il est tolérant aux pannes, et il offre la possibilité de capital et logiciels réductions de coûts.

Malgré la popularité de Hadoop comme un moteur ETL, cependant, beaucoup de gens (y compris un cabinet d'analystes célèbre) ne recommandent pas Hadoop comme la seule pièce de la technologie pour votre stratégie de ETL. Ceci est largement dû développer des flux ETL nécessite beaucoup d'expertise à propos de la base de données des systèmes existants de votre organisation, la nature de la donnée elle-même, ainsi que les rapports et les applications qui en dépendent.




En d'autres termes, les DBA, les développeurs et les architectes dans votre département IT auraient besoin de se familiariser assez avec Hadoop pour mettre en œuvre les flux ETL nécessaires. Par exemple, beaucoup de codage manuel intensif avec Pig, ruche, ou même MapReduce peut être nécessaire de créer même le plus simple des flux de données - qui met votre entreprise sur le crochet pour ces compétences si elle suit cette voie.

Vous devez coder des éléments tels que le débogage parallèle, les services de gestion des applications (telles que l'enregistrement de pointage et de l'erreur et la gestion des événements). En outre, tenir compte des exigences de l'entreprise tels que glossarization et être capable de montrer la lignée de vos données.

Il ya des exigences réglementaires pour les rapports standard nombre de l'industrie, où la lignée de données est besoin- l'organisation de l'information doivent être en mesure de montrer où les points de données dans le rapport proviennent, comment les données ont de vous, et ce qui a été fait pour les données.

Même pour les systèmes de bases de données relationnelles, ETL est suffisamment complexe qu'il existe des produits spécialisés populaires qui fournissent des interfaces pour gérer et développer les flux ETL. Certains de ces produits outil est MAINTENANT en ETL basée à Hadoop et d'autres développement basé sur Hadoop. Toutefois, en fonction de vos besoins, vous pouvez avoir besoin d'écrire une partie de votre propre code pour soutenir votre logique de transformation.


» » » » La transformation des données dans Hadoop