Pig latin dans les programmes de porcs de Hadoop

Pig latin est la langue pour les programmes de porc. Pig traduit le script Pig Latin en emplois MapReduce qu'il peut être exécuté dans clusters Hadoop. En venant avec Pig Latin, l'équipe de développement a suivi trois principes clés de la conception:

Rester simple. Pig Latin fournit une méthode simplifiée pour interagir avec Java MapReduce. Il est une abstraction, en d'autres termes, qui simplifie la création de programmes parallèles sur le cluster Hadoop pour le flux et l'analyse des données. Les tâches complexes peuvent nécessiter une série de transformations de données interdépendantes - ces séries sont codés comme flux de données de séquences.
Rédaction transformation de données et de flux comme des scripts Pig Latin place de programmes Java MapReduce rend ces programmes plus facile à écrire, comprendre, et de maintenir parce que a) vous ne devez écrire le travail en Java, b) vous ne devez pas penser à termes de MapReduce, et c) ne vous ont pas besoin de venir avec un code personnalisé pour soutenir les types de données riches.

Pig Latin fournit un langage plus simple à exploiter votre cluster Hadoop, rendant ainsi plus facile pour les plus de gens à exploiter la puissance de Hadoop et deviennent productifs plus tôt.
Assurez-il intelligent. Vous vous souviendrez que le Pig Latin compilateur fait le travail de transformer un programme Pig Latin dans une série d'emplois Java MapReduce. L'astuce consiste à faire en sorte que le compilateur peut optimiser l'exécution de ces emplois Java MapReduce automatiquement, permettant à l'utilisateur de se concentrer sur la sémantique plutôt que sur la façon d'optimiser et d'accéder aux données.
Pour toi Types SQL là-bas, cette discussion seront sembler familier. SQL est configuré comme une requête déclarative que vous utilisez pour accéder à des données structurées stockées dans un SGBDR. Le moteur SGBDR traduit d'abord la requête d'une méthode d'accès aux données et puis regarde les statistiques et génère une série d'approches d'accès aux données. L'optimiseur de coûts choisit l'approche la plus efficace pour l'exécution.
Ne pas limiter le développement. Assurez-Cochon extensible afin que les développeurs peuvent ajouter des fonctions pour répondre à leurs problèmes commerciaux particuliers.

Traditionnels entrepôts de données de SGBDR utilisent le modèle de traitement de données ETL, où vous eXtract données provenant de sources extérieures, tRANSFORMER pour l'adapter à vos besoins opérationnels, puis lADO dans l'objectif final, que ce soit un magasin de données opérationnelle, un entrepôt de données, ou d'une autre variante de base de données.

Cependant, avec de grandes données, vous voulez généralement à réduire la quantité de données que vous avez déplacer, si vous vous retrouvez apportant le traitement de données elle-même.

La langue des flux de données de porc, donc, reçoit une passe sur l'ancienne approche ETL et ELT va de pair avec la place: EXtract les données de vos diverses sources, lOad dans HDFS, puis tRANSFORMER comme nécessaire pour préparer les données pour une analyse ultérieure.

A propos Auteur

L'intégration de Hadoop avec r

Au début, les grandes données et R ne sont pas amis naturels. R programmation nécessite que tous les objets sont chargés dans la mémoire principale d'une seule machine. Les limites de cette architecture sont vite rendu compte quand Big Data…

Hadoop porc ou de latin pour les Big Data

La puissance et la flexibilité de Hadoop pour les grandes données sont immédiatement visibles pour les développeurs de logiciels principalement parce que l'écosystème Hadoop a été construit par les développeurs, pour les développeurs.…

Hadoop Sqoop pour Big Data

Sqoop (SQL-à-Hadoop) est un outil grand de données qui offre la possibilité d'extraire des données à partir des données magasins non Hadoop, transformer les données en une forme utilisable par Hadoop, puis charger les données dans HDFS. Ce…

Comment écrire des applications MapReduce

L'API MapReduce est écrit en Java, donc applications MapReduce sont basées sur Java principalement. La liste suivante indique les composants d'une application de MapReduce que vous pouvez développer:Driver (obligatoire): Ceci est la coquille de…

Importation de données avec Sqoop

Prêt à plonger dans l'importation de données avec Sqoop? Commencez par jeter un oeil à la figure, qui illustre les étapes d'une opération typique Sqoop d'importation à partir d'un SGBDR ou un système d'entrepôt de données. Rien de trop…

Modes locaux et distribués de l'exécution de scripts de porcs dans Hadoop

Avant vous pouvez exécuter votre premier script de cochon dans Hadoop, vous devez avoir une poignée sur la façon dont les programmes de porc peuvent être fournis avec le serveur de porc.Pig dispose de deux modes pour l'exécution de scripts:Mode…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

Scripts Pig interfaces dans Hadoop

Le langage de programmation Pig est conçu pour gérer tout type de données jeté son chemin - structurée, semi-structurée, les données non structurées, you name it. Programmes de porcs peuvent être emballés de trois manières…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Les scripts latin de porc dans Hadoop

Hadoop est un écosystème riche et évolue rapidement avec un ensemble croissant de nouvelles applications. Plutôt que d'essayer de faire face à toutes les exigences de nouvelles capacités, de porc est conçu pour être extensible via fonctions…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

L'écosystème du client HBase

HBase est écrit en Java, un langage élégant pour la construction de technologies distribuées comme HBase, mais le visage il - pas tout le monde qui veut prendre avantage des innovations Hbase est un développeur Java. Voilà pourquoi il ya un…

Couche 3 de la grosse pile de données: l'organisation des services et des outils de données

L'organisation des services de données et des outils, couche 3 de la grosse pile de données, la capture, valider et assembler différents éléments de données dans de grandes collections contextuellement pertinents. Parce que Big Data est…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Pig latin dans les programmes de porcs de Hadoop