Les scripts latin de porc dans Hadoop

Hadoop est un écosystème riche et évolue rapidement avec un ensemble croissant de nouvelles applications. Plutôt que d'essayer de faire face à toutes les exigences de nouvelles capacités, de porc est conçu pour être extensible via fonctions définies par l'utilisateur, aussi connu comme UDF.

UDF peuvent être écrits dans un certain nombre de langages de programmation, y compris Java, Python et javascript. Les développeurs sont également l'affichage et le partage d'une collection croissante de fonctions UDF en ligne. (Cherchez Piggy Bank et DataFu, pour ne citer que deux exemples de ces collections en ligne.) Une partie de l'UDF Cochon qui font partie de ces dépôts sont des fonctions de chargement / stockage (XML, par exemple), les fonctions de date et heure, le texte, les mathématiques, Statistiques et fonctions.

Pig peut également être intégré dans les langues d'accueil tels que Java, Python et javascript, ce qui vous permet d'intégrer Cochon avec vos applications existantes. Il contribue également à surmonter les limitations dans la langue de porc. Une des limitations les plus couramment référencé est que Pig ne supporte pas les états des flux de commande: if / else, while, pour la boucle, et l'état des déclarations.

Pig supporte nativement les flux de données, mais doit être intégrée dans une autre langue de fournir des flux de contrôle. Il ya des compromis, mais de l'intégration de porc dans un langage de contrôle de flux. Par exemple, si une déclaration Pig est intégré dans une boucle, chaque fois que les itération de la boucle et exécute l'instruction de porc, ce qui provoque un emploi MapReduce séparée afin de fonctionner.


» » » » Les scripts latin de porc dans Hadoop