Hadoop Sqoop pour Big Data

Sqoop (SQL-à-Hadoop) est un outil grand de données qui offre la possibilité d'extraire des données à partir des données magasins non Hadoop, transformer les données en une forme utilisable par Hadoop, puis charger les données dans HDFS. Ce processus est appelé ETL, pour Extract, Transform et Load.

Tout en obtenant des données dans Hadoop est essentiel pour le traitement utilisant MapReduce, il est également essentiel d'obtenir des données sur Hadoop et dans une source de données externe pour une utilisation dans d'autres types d'application. Sqoop est en mesure de le faire aussi bien.

Alors qu'il est parfois nécessaire de déplacer les données en temps réel, il est le plus souvent nécessaire pour charger ou décharger des données en vrac. Pig, Sqoop est un interpréteur de ligne de commande. Vous tapez les commandes Sqoop dans l'interpréteur et ils sont exécutés un à la fois. Quatre caractéristiques clés se trouvent dans Sqoop:

L'importation en vrac: Sqoop peut importer des tables individuelles ou des bases de données entières dans HDFS. Les données sont stockées dans les répertoires et les fichiers natifs dans le système de fichiers HDFS.
Entrée directe: Sqoop peut importer et cartographier SQL (relationnelle) bases de données directement dans la ruche et HBase.
L'interaction de données: Sqoop peut générer des classes Java de sorte que vous pouvez interagir avec les données par programmation.
L'exportation de données: Sqoop peut exporter les données directement à partir de HDFS dans une base de données relationnelle en utilisant une définition de la table cible basée sur les spécificités de la base de données cible.

Sqoop fonctionne en regardant la base de données que vous voulez importer et en sélectionnant une fonction d'importation approprié pour les données source. Après il reconnaît l'entrée, il lit alors les métadonnées de la table (ou base de données) et crée une définition de classe de vos exigences d'entrée.

Vous pouvez forcer Sqoop d'être très sélectif de sorte que vous obtenez seulement les colonnes que vous cherchez avant l'entrée plutôt que de faire une entrée entière, puis la recherche de vos données. Cela peut économiser beaucoup de temps. L'importation réelle de la base de données externe à HDFS est effectuée par un travail de MapReduce créé dans les coulisses par Sqoop.

Sqoop est un outil efficace pour les non-programmeurs. L'autre point important à noter est le recours à des technologies sous-jacentes comme HDFS et MapReduce. Vous voyez cela à plusieurs reprises tout au long de l'élément de l'écosystème Hadoop.

A propos Auteur

Hadoop système de fichiers distribué (HDFS) fédération

La solution à l'expansion des grappes Hadoop indéfiniment est de fédérer l'NameNode. Avant Hadoop 2 est entré en scène, les clusters Hadoop ont dû vivre avec le fait que NameNode placé des limites à la mesure dans laquelle ils pourraient…

Hadoop porc ou de latin pour les Big Data

La puissance et la flexibilité de Hadoop pour les grandes données sont immédiatement visibles pour les développeurs de logiciels principalement parce que l'écosystème Hadoop a été construit par les développeurs, pour les développeurs.…

Importation de données dans la ruche avec Sqoop

Ici, vous importez la totalité de la base de données directement à partir de l'ordre de service MySQL dans la ruche et exécutez une requête HiveQL contre la base de données nouvellement importée sur Hadoop. La liste suivante vous montre…

Importation de données dans HBase avec Sqoop

Sqoop peut être utilisé pour transformer un schéma de base de données relationnelle dans un schéma HBase. Bien sûr, l'objectif principal ici est de démontrer comment Sqoop peut importer des données à partir d'un SGBDR ou entrepôt de…

Importation de données dans HDFS avec Sqoop

Imaginez une base de données relationnelle utilisée par une société de service fictif qui a été pris (vous l'aurez deviné) les appels de service Apache Hadoop et veut maintenant déplacer certains de ses données vers Hadoop pour exécuter…

Importation de données avec Sqoop

Prêt à plonger dans l'importation de données avec Sqoop? Commencez par jeter un oeil à la figure, qui illustre les étapes d'une opération typique Sqoop d'importation à partir d'un SGBDR ou un système d'entrepôt de données. Rien de trop…

Entrée divise dans le MapReduce Hadoop de

La façon HDFS a été mis en place, il se décompose très gros fichiers dans de grands blocs (par exemple, mesure 128 Mo), et stocke trois exemplaires de ces blocs sur les différents nœuds du cluster. HDFS n'a pas connaissance du contenu de ces…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Sqoop exportations en utilisant l'approche d'insertion et de mise à jour mise à jour

Avec le mode d'insertion, les dossiers exportés par Sqoop sont ajoutés à la fin de la table cible. Sqoop fournit également un mode de mise à jour que vous pouvez utiliser en fournissant le --update-clé commande argument de ligne. Cette action…

Connecteurs et pilotes Sqoop

Connecteurs Sqoop vont généralement de pair avec un pilote JDBC. Sqoop ne liez pas les pilotes JDBC, car ils sont souvent propriétaires et sous licence par le SGBDR ou DW vendeur. Donc, il ya trois scénarios possibles pour Sqoop, selon le type…

Sqoop 2.0 preview

Avec tout le succès entourant Sqoop 1.x sur sa graduation de l'incubateur Apache, Sqoop a lancée! Donc, comme vous vous en doutez, Sqoop 2.0 est dans les travaux avec de nouvelles fonctionnalités intéressantes sur le chemin. Vous pouvez voir que…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

L'architecture de la ruche apache

Comme vous examinez les éléments de Apache Hive montrées, vous pouvez voir au bas cette ruche se trouve au sommet du système Hadoop Distributed File (HDFS) et les systèmes de MapReduce.Dans le cas de MapReduce, les figureshows deux composants…

Les données de grandes mines avec ruche

Hive est, une couche d'entreposage des données orientée lots construit sur les éléments de base de Hadoop (HDFS et MapReduce) et est très utile dans les grandes données. Il fournit aux utilisateurs qui connaissent SQL avec une mise en œuvre…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Hadoop Sqoop pour Big Data