Hadoop porc ou de latin pour les Big Data

La puissance et la flexibilité de Hadoop pour les grandes données sont immédiatement visibles pour les développeurs de logiciels principalement parce que l'écosystème Hadoop a été construit par les développeurs, pour les développeurs. Cependant, pas tout le monde est un développeur de logiciels. Pig a été conçu pour rendre Hadoop plus accessible et utilisable par non-développeurs.

Pig est un environnement interactif, ou basée sur un script d'exécution soutenir Pig latin, une langue utilisée pour exprimer les flux de données. La langue latine Pig supporte le chargement et le traitement des données d'entrée avec une série d'opérateurs qui transforment les données d'entrée et produire la sortie désirée.

L'environnement d'exécution Pig dispose de deux modes:

  • Mode local: Tous les scripts sont exécutés sur une seule machine. Hadoop MapReduce et HDFS ne sont pas tenus.

  • Hadoop: Également appelé mode MapReduce, tous les scripts sont exécutés sur un cluster Hadoop donné.

Sous les couvertures, Pig crée un ensemble de carte et réduire emplois. L'utilisateur est absous des préoccupations de l'écriture de code, la compilation, l'emballage, la présentation, et de récupérer les résultats. À bien des égards, le cochon est analogue à SQL dans le monde de SGBDR.

Le langage Pig Latin fournit une manière abstraite d'obtenir des réponses de grands volumes de données en se concentrant sur les données et non la structure d'un programme de logiciel personnalisé. Cochon fait prototypage très simple. Par exemple, vous pouvez exécuter un script de porc sur une petite représentation de votre environnement grand de données pour assurer que vous obtenez les résultats souhaités avant de vous engager à traiter toutes les données.




Programmes de porcs peuvent être exécutés de trois manières différentes, chacun d'eux compatible avec le mode local et Hadoop:

  • Script: Simplement un fichier contenant des commandes Pig Latin, identifié par le .cochon suffixe (par exemple, file.pig ou myscript.pig). Les commandes sont interprétées par Pig et exécutées dans un ordre séquentiel.

  • Grunt: Grunt est un interpréteur de commandes. Vous pouvez taper Pig Latin sur la ligne de commande grognement et Grunt exécutera la commande en votre nom. Ceci est très utile pour le prototypage et “ si ” scénarios.

  • Embarqué: Programmes de porcs peuvent être exécutées dans le cadre d'un programme Java.

Pig Latin a une syntaxe très riche. Il prend en charge des opérateurs pour les opérations suivantes:

  • Le chargement et le stockage de données

  • Les données de streaming

  • Filtrage de données

  • Regroupement et rejoindre données

  • Tri des données

  • Combinaison et séparation de données

Pig Latin prend également en charge une grande variété de types, expressions, fonctions, opérateurs de diagnostic, les macros et les commandes du système de fichiers.

Pour obtenir plus d'exemples, visitez le site Web de porc dans les Apache.com.


» » » » Hadoop porc ou de latin pour les Big Data