Hadoop Sqoop pour Big Data

Sqoop (SQL-à-Hadoop) est un outil grand de données qui offre la possibilité d'extraire des données à partir des données magasins non Hadoop, transformer les données en une forme utilisable par Hadoop, puis charger les données dans HDFS. Ce processus est appelé ETL, pour Extract, Transform et Load.

Tout en obtenant des données dans Hadoop est essentiel pour le traitement utilisant MapReduce, il est également essentiel d'obtenir des données sur Hadoop et dans une source de données externe pour une utilisation dans d'autres types d'application. Sqoop est en mesure de le faire aussi bien.

Alors qu'il est parfois nécessaire de déplacer les données en temps réel, il est le plus souvent nécessaire pour charger ou décharger des données en vrac. Pig, Sqoop est un interpréteur de ligne de commande. Vous tapez les commandes Sqoop dans l'interpréteur et ils sont exécutés un à la fois. Quatre caractéristiques clés se trouvent dans Sqoop:




  • L'importation en vrac: Sqoop peut importer des tables individuelles ou des bases de données entières dans HDFS. Les données sont stockées dans les répertoires et les fichiers natifs dans le système de fichiers HDFS.

  • Entrée directe: Sqoop peut importer et cartographier SQL (relationnelle) bases de données directement dans la ruche et HBase.

  • L'interaction de données: Sqoop peut générer des classes Java de sorte que vous pouvez interagir avec les données par programmation.

  • L'exportation de données: Sqoop peut exporter les données directement à partir de HDFS dans une base de données relationnelle en utilisant une définition de la table cible basée sur les spécificités de la base de données cible.

Sqoop fonctionne en regardant la base de données que vous voulez importer et en sélectionnant une fonction d'importation approprié pour les données source. Après il reconnaît l'entrée, il lit alors les métadonnées de la table (ou base de données) et crée une définition de classe de vos exigences d'entrée.

Vous pouvez forcer Sqoop d'être très sélectif de sorte que vous obtenez seulement les colonnes que vous cherchez avant l'entrée plutôt que de faire une entrée entière, puis la recherche de vos données. Cela peut économiser beaucoup de temps. L'importation réelle de la base de données externe à HDFS est effectuée par un travail de MapReduce créé dans les coulisses par Sqoop.

Sqoop est un outil efficace pour les non-programmeurs. L'autre point important à noter est le recours à des technologies sous-jacentes comme HDFS et MapReduce. Vous voyez cela à plusieurs reprises tout au long de l'élément de l'écosystème Hadoop.