Importation de données avec Sqoop

Prêt à plonger dans l'importation de données avec Sqoop? Commencez par jeter un oeil à la figure, qui illustre les étapes d'une opération typique Sqoop d'importation à partir d'un SGBDR ou un système d'entrepôt de données. Rien de trop compliqué ici - juste un type tableau de données à partir d'un des produits (typique) société fictive étant importé dans un cluster Hadoop typique d'un système de gestion de données typique (DMS).

image0.jpg

Lors de l'étape 1, Sqoop utilise le connecteur approprié pour récupérer les métadonnées de table produits à partir des DMS cibles. (Les métadonnées est utilisé pour cartographier les types de la table des produits aux types de données dans le langage Java de données.)




Étape 2 utilise ensuite ces métadonnées pour générer et compiler une classe Java qui sera utilisé par une ou plusieurs tâches de carte d'importer les lignes réelles de la table Products. Sqoop sauve la classe Java généré au espace temporaire ou à un répertoire que vous spécifiez de sorte que vous pouvez exploiter pour le traitement ultérieur de vos enregistrements de données.

Le code Java généré Sqoop qui est enregistré pour vous est comme le cadeau qui continue à donner! Avec ce code, Sqoop importe les enregistrements de la DMS et les stocke à HDFS utilisant l'un des trois formats que vous pouvez choisir: Avro données binaires, les fichiers de séquence binaire, ou des fichiers texte délimités. Ensuite, ce code est disponible pour vous pour le traitement de données suivant.

Fichiers de séquence sont un choix naturel, si vous importez des types de données binaires et vous aurez besoin de la classe Java généré pour sérialiser et désérialiser vos données plus tard - peut-être pour le traitement de MapReduce ou l'exportation. Données Avro - basé sur le cadre de sérialisation propre Apache - est utile si vous avez besoin d'interagir avec d'autres applications après l'importation à HDFS.

Si vous choisissez de stocker vos données importées en format texte délimité, vous pouvez trouver le code Java généré précieuse plus tard que vous analysez et effectuer des conversions de formats de données sur vos nouvelles données. Vous verrez que le code généré permet également de fusionner des ensembles de données après les opérations d'importation Sqoop, et le code Java généré peut aider à éviter l'ambiguïté lors du traitement des données de texte délimité.

Enfin, lors de l'étape 3, Sqoop divise les enregistrements de données dans le tableau des produits à travers un certain nombre de tâches de carte (avec le nombre de mappers éventuellement spécifiés par l'utilisateur) et importe les données de la table dans HDFS, Hive ou HBase.


» » » » Importation de données avec Sqoop