Votre premier programme de Hadoop: bonjour Hadoop!

Après le cluster Hadoop est installé et fonctionne, vous pouvez exécuter votre premier programme de Hadoop. Cette application est très simple, et calcule le total des miles parcourus pour tous les vols effectués en un an. L'année est définie par le fichier de données que vous lisez dans votre application.

Pour garder les choses un peu plus simples ici, vous exécutez un script de Cochon pour calculer le total de miles parcourus. Vous verrez la carte et de réduire les phases volent par dans la sortie.

Voici le code pour ce script Pig:

documents = LOAD '2013_subset.csv' UTILISATION PigStorage (',') AS(Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,Dest,Distance:int,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay, LateAircraftDelay) -milage_recs = GROUPE enregistre ALL-tot_miles = FOREACH milage_recs PRODUIRE SUM (records.Distance) -Store tot_miles EN / user / root / totalmiles-



Vous voulez mettre ce code dans un fichier sur votre VM, donc d'abord créer un fichier. droit; cliquez sur le bureau de votre VM et sélectionnez Créer un document dans le menu contextuel qui apparaît et le nom du document. Ensuite, ouvrez le document dans un éditeur, coller dans le code, et enregistrez le fichier.

De la ligne de commande, exécutez la commande suivante pour exécuter le script Pig:

totalmiles.pig porc

Vous verrez de nombreuses lignes de sortie, puis enfin une “! Succès ” message, suivi par plus de statistiques, et puis finalement l'invite de commande. Après votre travail Pig est terminée, vous pouvez voir votre sortie:

HDFS DFS -cat / user / root / totalmiles / partie-R-00000

Roulement de tambour, s'il vous plaît # 133- Et la réponse est: 775 009 272

Et avec cela, vous avez exécuté votre première application Hadoop!


» » » » Votre premier programme de Hadoop: bonjour Hadoop!