Modes locaux et distribués de l'exécution de scripts de porcs dans Hadoop

Avant vous pouvez exécuter votre premier script de cochon dans Hadoop, vous devez avoir une poignée sur la façon dont les programmes de porc peuvent être fournis avec le serveur de porc.

Pig dispose de deux modes pour l'exécution de scripts:




  • Mode local: Tous les scripts sont exécutés sur une seule machine sans nécessiter Hadoop MapReduce et HDFS. Cela peut être utile pour développer et tester la logique de porc. Si vous utilisez un petit ensemble de données au développeur ou tester votre code, puis mode local pourrait être plus rapide que de passer par l'infrastructure de MapReduce.

    Mode local ne nécessite pas de Hadoop. Lorsque vous exécutez en mode local, le programme Pig exécute dans le contexte d'une machine virtuelle Java locale, et l'accès aux données se fait via le système de fichiers local d'une seule machine. Le mode local est en fait une simulation locale de MapReduce dans la classe de LocalJobRunner de Hadoop.

  • Mode MapReduce (également appelé mode Hadoop): Pig est exécuté sur le cluster Hadoop. Dans ce cas, le script de porc est converti en une série d'emplois MapReduce qui sont ensuite exécutés sur le cluster Hadoop.

    image0.jpg

Si vous avez un téraoctet de données que vous souhaitez effectuer des opérations sur et vous souhaitez développer un programme interactif, vous pourrez bientôt trouver des choses ralentir considérablement, et vous pouvez commencer à la croissance de votre stockage. Mode local vous permet de travailler avec un sous-ensemble de vos données d'une manière plus interactive afin que vous puissiez comprendre la logique (et de travailler sur les bugs) de votre programme de porc.

Après vous avez des choses mises en place comme vous le souhaitez et vos opérations sont bien rodés, vous pouvez exécuter le script sur l'ensemble de l'utilisation du mode de MapReduce données complètes.


» » » » Modes locaux et distribués de l'exécution de scripts de porcs dans Hadoop