Pig latin dans les programmes de porcs de Hadoop

Pig latin est la langue pour les programmes de porc. Pig traduit le script Pig Latin en emplois MapReduce qu'il peut être exécuté dans clusters Hadoop. En venant avec Pig Latin, l'équipe de développement a suivi trois principes clés de la conception:

  • Rester simple. Pig Latin fournit une méthode simplifiée pour interagir avec Java MapReduce. Il est une abstraction, en d'autres termes, qui simplifie la création de programmes parallèles sur le cluster Hadoop pour le flux et l'analyse des données. Les tâches complexes peuvent nécessiter une série de transformations de données interdépendantes - ces séries sont codés comme flux de données de séquences.

    Rédaction transformation de données et de flux comme des scripts Pig Latin place de programmes Java MapReduce rend ces programmes plus facile à écrire, comprendre, et de maintenir parce que a) vous ne devez écrire le travail en Java, b) vous ne devez pas penser à termes de MapReduce, et c) ne vous ont pas besoin de venir avec un code personnalisé pour soutenir les types de données riches.




    Pig Latin fournit un langage plus simple à exploiter votre cluster Hadoop, rendant ainsi plus facile pour les plus de gens à exploiter la puissance de Hadoop et deviennent productifs plus tôt.

  • Assurez-il intelligent. Vous vous souviendrez que le Pig Latin compilateur fait le travail de transformer un programme Pig Latin dans une série d'emplois Java MapReduce. L'astuce consiste à faire en sorte que le compilateur peut optimiser l'exécution de ces emplois Java MapReduce automatiquement, permettant à l'utilisateur de se concentrer sur la sémantique plutôt que sur la façon d'optimiser et d'accéder aux données.

    Pour toi Types SQL là-bas, cette discussion seront sembler familier. SQL est configuré comme une requête déclarative que vous utilisez pour accéder à des données structurées stockées dans un SGBDR. Le moteur SGBDR traduit d'abord la requête d'une méthode d'accès aux données et puis regarde les statistiques et génère une série d'approches d'accès aux données. L'optimiseur de coûts choisit l'approche la plus efficace pour l'exécution.

  • Ne pas limiter le développement. Assurez-Cochon extensible afin que les développeurs peuvent ajouter des fonctions pour répondre à leurs problèmes commerciaux particuliers.

Traditionnels entrepôts de données de SGBDR utilisent le modèle de traitement de données ETL, où vous eXtract données provenant de sources extérieures, tRANSFORMER pour l'adapter à vos besoins opérationnels, puis lADO dans l'objectif final, que ce soit un magasin de données opérationnelle, un entrepôt de données, ou d'une autre variante de base de données.

Cependant, avec de grandes données, vous voulez généralement à réduire la quantité de données que vous avez déplacer, si vous vous retrouvez apportant le traitement de données elle-même.

La langue des flux de données de porc, donc, reçoit une passe sur l'ancienne approche ETL et ELT va de pair avec la place: EXtract les données de vos diverses sources, lOad dans HDFS, puis tRANSFORMER comme nécessaire pour préparer les données pour une analyse ultérieure.


» » » » Pig latin dans les programmes de porcs de Hadoop