Hadoop pour les nuls

La Shell Hadoop

Sommaire

Commandes d'administration hadoop
Le hadoop dfsadmin options de commande

est une famille de commandes que vous pouvez exécuter à partir de la ligne de commande de votre système d'exploitation. La coquille a deux ensembles de commandes: une pour la manipulation de fichiers (semblables dans le but et la syntaxe de commandes Linux que beaucoup d'entre nous savent et l'amour) et l'autre pour l'administration Hadoop. La liste suivante récapitule la première série de commandes pour vous, indiquant que la commande ne fait ainsi que l'utilisation et des exemples, le cas échéant.

chat: Chemins copies source à stdout.
Utilisation: DFS HDFS -CAT URI [URI # 133-]
Exemple:

HDFS DFS -cat HDFS: /// file1
DFS HDFS -cat file: /// fichier2 / user / Hadoop / file3

chgrp: Modifie l'association de groupe de fichiers. Avec -R, rend le changement de manière récursive par le biais de la structure de répertoire. L'utilisateur doit être le propriétaire du fichier ou le super-utilisateur.

Utilisation: HDFS DFS -chgrp [-R] GROUPE URI [URI # 133-]

chmod: Modifie les permissions des fichiers. Avec -R, rend le changement de manière récursive par le biais de la structure de répertoire. L'utilisateur doit être le propriétaire du fichier ou le super-

Utilisation: HDFS DFS -chmod [-R] URI [URI # 133-]

Exemple: HDFS DFS -chmod 777 test / data1.txt

chown: Change le propriétaire des fichiers. Avec -R, rend le changement de manière récursive par le biais de la structure de répertoire. L'utilisateur doit être le super-utilisateur.

Utilisation: HDFS DFS -chown [-R] [le propriétaire] [: [GROUPE]] URI [URI]

Exemple: HDFS DFS -chown -R hduser2 / opt / Hadoop / logs

copyFromLocal: Fonctionne de façon similaire à la mettre commande, sauf que la source est limitée à une référence de fichier local.

Utilisation: HDFS DFS -copyFromLocal URI

Exemple: HDFS dfs -copyFromLocal entrée / docs / HDFS data2.txt: //localhost/user/rosemary/data2.txt

copyToLocal: Fonctionne de façon similaire à la obtenir commande, sauf que la destination est limitée à une référence de fichier local.

Utilisation: HDFS DFS -copyToLocal [-ignorecrc] [-crc] URI

Exemple: HDFS DFS -copyToLocal data2.txt data2.copy.txt

compter: Compte le nombre de répertoires, fichiers et d'octets dans les chemins qui correspondent au modèle de fichier spécifié.

Utilisation: HDFS DFS -count [q]

Exemple: HDFS DFS -count HDFS: //nn1.example.com/file1 HDFS: //nn2.example.com/file2

cp: Copie un ou plusieurs fichiers à partir d'une source spécifiée vers une destination spécifiée. Si vous spécifiez plusieurs sources, la destination spécifiée doit être un répertoire.

Utilisation: HDFS DFS -cp URI [URI # 133-]

Exemple: HDFS DFS -cp / user / Hadoop / file1 / user / Hadoop / fichier2 / user / Hadoop / dir

du: Affiche la taille du fichier spécifié, ou les tailles des fichiers et des répertoires qui sont contenus dans le répertoire spécifié. Si vous spécifiez le -s option affiche un résumé global de la taille des fichiers plutôt que la taille des fichiers individuels. Si vous spécifiez le -h option formate la taille des fichiers d'une manière "lisible".

Utilisation: HDFS DFS -du [-s] [-h] URI [URI # 133-]

Exemple: HDFS DFS -du / user / Hadoop / dir1 / user / Hadoop / file1

DUS: Affiche un résumé de l'équivalent de fichier HDFS DFS -du -s.

Utilisation: HDFS DFS -dus

effacer: Vide la corbeille. Lorsque vous supprimez un fichier, il est pas immédiatement retiré de HDFS, mais est renommé à un fichier dans le /déchets répertoire. Tant que le fichier reste là, vous pouvez restaurer si vous changez d'avis, bien que la dernière copie du fichier supprimé peut être restauré.

Utilisation: HDFS DFS -expunge

obtenir: Copie les fichiers sur le système de fichiers local. Les fichiers qui échoue à un contrôle de redondance cyclique (CRC) peuvent encore être copiés si vous spécifiez le -ignorecrc option. Le CRC est une technique courante pour détecter les erreurs de transmission de données. Fichiers de vérification CRC ont la .CRC l'extension et sont utilisés pour vérifier l'intégrité des données d'un autre fichier. Ces fichiers sont copiés si vous spécifiez le -CRC option.

Utilisation: HDFS DFS -get [-ignorecrc] [-crc]

Exemple: HDFS DFS -get / user / Hadoop / file3 localfile

getmerge: Concatène les fichiers src et écrit le résultat dans le fichier de destination local spécifié. Pour ajouter un caractère de nouvelle ligne à la fin de chaque fichier, spécifiez le addnl option.

Utilisation: HDFS DFS -getmerge [addnl]

Exemple: HDFS DFS -getmerge / user / Hadoop / mydir / ~ / addnl RESULT_FILE

ls: Retours statistiques pour les fichiers ou les répertoires spécifiés.

Utilisation: HDFS DFS -ls

Exemple: HDFS DFS -ls / user / Hadoop / file1

lsr: Sert de la version récursive de ls- similaire à la commande Unix ls -R.

Utilisation: HDFS DFS -lsr

Exemple: HDFS DFS -lsr / user / Hadoop

mkdir: Crée des répertoires sur un ou plusieurs chemins spécifiés. Son comportement est similaire à la Unix mkdir -p commande, ce qui crée tous les répertoires qui mènent vers le répertoire spécifié si elles ne sont pas déjà.

Utilisation: HDFS DFS -mkdir

Exemple: HDFS DFS -mkdir / user / Hadoop / dir5 / temp

moveFromLocal: Fonctionne de façon similaire à la mettre commande, sauf que la source est supprimé après la copie.

Utilisation: HDFS DFS -moveFromLocal

Exemple: HDFS DFS -moveFromLocal localfile1 localfile2 / user / Hadoop / hadoopdir

mv: Déplace un ou plusieurs fichiers à partir d'une source spécifiée vers une destination spécifiée. Si vous spécifiez plusieurs sources, la destination spécifiée doit être un répertoire. Déplacement de fichiers entre systèmes de fichiers est interdit.

Utilisation: HDFS DFS -mv URI [URI # 133-]

Exemple: HDFS DFS -mv / user / Hadoop / file1 / user / Hadoop / file2

mettre: Copie les fichiers du système de fichiers local au système de fichier de destination. Cette commande peut également lire des données depuis stdin et écrire dans le système de fichiers de destination.

Utilisation: HDFS DFS -put ...

Exemple: HDFS DFS -put localfile1 localfile2 / user / Hadoop / hadoopdir- HDFS DFS -put - / user / Hadoop / hadoopdir (lit entrée de stdin)

rm: Supprime un ou plusieurs fichiers spécifiés. Cette commande ne supprime pas les répertoires ou des fichiers vides. Pour contourner la poubelle (si elle est activée) et supprimer les fichiers spécifiés immédiatement, spécifiez le -skipTrash option.

Utilisation: HDFS DFS -rm [-skipTrash] URI [URI # 133-]

Exemple: HDFS DFS -rm HDFS: //nn.example.com/file9

RMR: Sert de la version récursive de -rm.

Utilisation: HDFS DFS -rmr [-skipTrash] URI [URI # 133-]

Exemple: HDFS DFS -rmr / user / Hadoop / dir

setrep: Modifie le facteur de réplication pour un fichier ou un répertoire spécifié. Avec -R, rend le changement de manière récursive par le biais de la structure de répertoire.

Utilisation: HDFS DFS -setrep [-R]

Exemple: HDFS dfs -setrep 3 -R / user / Hadoop / dir1

stat: Affiche des informations sur le chemin d'accès spécifié.

Utilisation: DFS HDFS -STAT URI [URI # 133-]

Exemple: HDFS DFS -stat / user / Hadoop / dir1

queue: Affiche la dernière kilo-octet d'un fichier spécifié stdout. La syntaxe soutient l'Unix -F option, qui permet le fichier spécifié à surveiller. Comme de nouvelles lignes sont ajoutées au fichier par un autre processus, ttous met à jour l'affichage.

Utilisation: HDFS DFS -tail [-f] URI

Exemple: HDFS DFS -tail / user / Hadoop / dir1

test: Renvoie les attributs du fichier ou du répertoire spécifié. Indique -e pour déterminer si le fichier ou le répertoire exists- -z pour déterminer si le fichier ou le répertoire est empty- et -ré pour déterminer si l'URI est un répertoire.

Utilisation: HDFS DFS -test - [EZD] URI

Exemple: HDFS DFS -test / user / Hadoop / dir1

texte: Affiche un fichier source spécifié au format texte. Formats de fichiers d'entrée valides sont fermeture éclair et TextRecordInputStream.

Utilisation: HDFS DFS -text

Exemple: HDFS DFS -text /user/hadoop/file8.zip

touchz: Crée un nouveau fichier vide de la taille 0 dans le chemin d'accès spécifié.

Utilisation: HDFS DFS -touchz

Exemple: HDFS DFS -touchz / user / Hadoop / file12

Commandes d'administration Hadoop

Tout administrateur Hadoop digne doit maîtriser un ensemble complet de commandes pour l'administration de cluster. La liste suivante récapitule les commandes les plus importantes, indiquant que la commande ne fait ainsi que la syntaxe et des exemples. Connaissez-les, et vous avancerez un long chemin sur la voie de la sagesse Hadoop.

équilibreur: Exécute l'utilitaire de cluster d'équilibrage. La valeur de seuil spécifiée, ce qui représente un pourcentage de la capacité du disque, est utilisé pour remplacer la valeur de seuil par défaut (10 pour cent). Pour arrêter le processus de rééquilibrage, appuyez sur Ctrl + C.
Syntaxe: Hadoop équilibreur [Nveau ]
Exemple: Hadoop équilibreur Nveau 20
daemonlog: Obtient ou définit le niveau de journalisation pour chaque démon (également connu en tant que service). Se connecte à http: // hôte: port / logLevel log = nom et gravures ou définit le niveau du démon qui est en cours d'exécution au journal host: port. Démons Hadoop générer des fichiers journaux qui vous aident à déterminer ce qui se passe sur le système, et vous pouvez utiliser la daemonlog commande pour modifier temporairement le niveau d'un composant Hadoop journal lorsque vous êtes le débogage du système. Le changement devient effective lorsque le démon redémarre.
Syntaxe: Hadoop daemonlog -getlevel - Hadoop daemonlog -setlevel
Exemple: Hadoop daemonlog -getlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker- hadoop daemonlog -setlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker DEBUG
datanode: Exécute le service de DataNode HDFS, qui coordonne le stockage sur chaque nœud esclave. Si vous spécifiez -rollback, l'DataNode est annulée à la version précédente. Arrêtez le DataNode et distribuer la version précédente Hadoop avant d'utiliser cette option.
Syntaxe: Hadoop datanode [-rollback]
Exemple: Hadoop datanode -rollback
dfsadmin: Exécute un certain nombre de Hadoop Distributed File System (HDFS) des opérations administratives. Utilisez le -Aidez-moi option pour voir une liste de toutes les options prises en charge. Les options génériques sont un ensemble commun des options supportées par plusieurs commandes.
Syntaxe: Hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode entrer | laisser | obtenir | attendre] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress état | détails | vigueur] [filename -metasave] [-setQuota ...] [-clrQuota ...] [-restoreFailedStorage True | false | chèque] [-help [cmd]]
mradmin: Exécute un certain nombre d'opérations administratives MapReduce. Utilisez le -Aidez-moi option pour voir une liste de toutes les options prises en charge. Encore une fois, les options génériques sont un ensemble commun d'options qui sont soutenus par plusieurs commandes. Si vous spécifiez -refreshServiceAcl, recharge le fichier de politique d'autorisation de niveau de service (JobTracker recharge le fichier de politique d'autorisation) - -refreshQueues Recharge les listes de contrôle d'accès de file d'attente (ACL) et l'Etat (JobTracker recharge la mapred-queues.xml fichier)- -refreshNodes rafraîchit les informations des hôtes à la JobTracker- -refreshUserToGroupsMappings rafraîchit l'utilisateur à des groupes-mappings- -refreshSuperUserGroupsConfiguration refreshes groupes de proxys super-utilisateur et mappings- -aider [cmd] affiche l'aide pour la commande donnée ou pour toutes les commandes si aucun est spécifié.
Syntaxe: Hadoop mradmin [GENERIC_OPTIONS] [-refreshServiceAcl] [-refreshQueues] [-refreshNodes] [-refreshUserToGroupsMappings] [-refreshSuperUserGroupsConfiguration] [-help [cmd]]
Exemple: Hadoop mradmin -help -refreshNodes
JobTracker: Exécute le nœud MapReduce JobTracker, qui coordonne le système de traitement de données pour Hadoop. Si vous spécifiez -dumpConfiguration, la configuration qui est utilisé par le JobTracker et la configuration de file d'attente au format JSON sont écrits sur la sortie standard.
Syntaxe: Hadoop JobTracker [-dumpConfiguration]
Exemple: Hadoop JobTracker -dumpConfiguration
NameNode: Exécute le NameNode, qui coordonne le stockage pour l'ensemble du cluster Hadoop. Si vous spécifiez -format, l'NameNode est commencé, formaté, puis avec arrêt- -améliorer, l'NameNode commence avec l'option de mise à niveau après une nouvelle version Hadoop est distributed- avec -rollback, l'NameNode est annulée à la version précédente (souvenez-vous d'arrêter le cluster et distribuer la version précédente avant d'utiliser Hadoop cette option) - avec -finaliser, l'état précédent du système de fichier est supprimé, la mise à niveau la plus récente devient permanente, restauration est plus disponible, et l'arrêt-NameNode est enfin, avec -importCheckpoint, une image est chargé à partir du répertoire de point de contrôle (comme spécifié par le fs.checkpoint.dir la propriété) et enregistré dans le répertoire courant.
Syntaxe: Hadoop NameNode [-format] | [-upgrade] | [-rollback] | [-Finaliser] | [-importCheckpoint]
Exemple: Hadoop NameNode -Finaliser
NameNode secondaire: Exécute le NameNode secondaire. Si vous spécifiez -point de contrôle, un point de contrôle sur la NameNode secondaire est effectuée si la taille de la EditLog (un journal de transactions qui enregistre chaque changement qui se produit aux métadonnées du système de fichiers) est supérieure ou égale à fs.checkpoint.size- spécifier -force et un point de contrôle est effectuée indépendamment de la EditLog SIZE- spécifier -geteditsize et la taille EditLog est imprimé.
Syntaxe: Hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]
Exemple: Hadoop de la -geteditsize
TaskTracker: Exécute un nœud MapReduce TaskTracker.
Syntaxe: Hadoop TaskTracker
Exemple: Hadoop TaskTracker

Le Hadoop dfsadmin Options de commande

La dfsadmin outils sont un ensemble spécifique d'outils conçus pour vous aider à extirper des informations sur votre système Hadoop Distributed File (HDFS). Comme un bonus supplémentaire, vous pouvez les utiliser pour effectuer des opérations d'administration sur HDFS ainsi.

Option	Ce qu'il fait
-rapport	Rapports informations et des statistiques du système de fichiers de base.
-safemode entrer \| laisser \| obtenir \| patienter	Gère sûr mode, un état dans lequel NameNode change de nom Tothe l'espace ne sont pas acceptées et les blocs peut être neitherreplicated ni supprimé. Le NameNode est en mode sans échec duringstart-up afin qu'il ne démarre pas prématurément replicatingblocks Même si il ya déjà suffisamment de répliques dans thecluster.
-refreshNodes	Force le NameNode de relire sa configuration, y compris ladfs.hosts.exclude fichier. Les NameNodedecommissions noeuds après leurs blocs ont été répliquées ontomachines qui resteront actives.
-finalizeUpgrade	Termine le processus de mise à niveau HDFS. Répertoires DataNodes et NameNodedelete de travail de la version précédente.
-état upgradeProgress \| détails \| vigueur	Prie le standard ou état actuel de mise à niveau thedistributed détaillée, ou force la mise à niveau de procéder.
-filename metasave	Enregistre des structures de données primaires de la NameNode à nom de fichier dans un répertoire that'sspecified par le hadoop.log.dir property.File nom de fichier, qui isoverwritten si elle existe déjà, contient une ligne pour chaque Sur ce nombre éléments: a) DataNodes qui sont échangent des battements de coeur avec theNameNode- b) blocs qui sont en attente d'être c) replicated- blocksthat sont replicated- et D) des blocs qui sont en attente estsupprimé.
-setQuota ...	Définit une limite supérieure sur le nombre de noms dans le directorytree. Vous pouvez définir cette limite (un entier long) pour une ou moredirectories simultanément.
-clrQuota...	Efface la limite supérieure sur le nombre de noms dans le directorytree. Vous pouvez effacer cette limite pour une ou plusieurs directoriessimultaneously.
-restoreFailedStorage true \| false \| chèque	Active ou désactive les tentatives automatiques pour rétablir répliques de failedstorage. Si un emplacement de stockage défectueux devient availableagain, le système tente de restaurer les modifications et l'fsimage lors d'un point de contrôle. L'option de vérification retourne le réglage actuel.
-aider [cmd]	Affiche l'aide de la commande donnée ou pour allcommands si aucun est spécifié.

A propos Auteur

Hadoop système de fichiers distribué (HDFS) haute disponibilité

Souvent dans l'enfance de Hadoop, une grande quantité de discussion a été centrée sur la représentation de la NameNode d'un point de défaillance unique. Hadoop, dans l'ensemble, a toujours eu une architecture robuste et tolérants aux pannes,…

Hadoop Distributed File commandes shell du système

La Shell Hadoop est une famille de commandes que vous pouvez exécuter à partir de la ligne de commande de votre système d'exploitation. La coquille a deux ensembles de commandes: une pour la manipulation de fichiers (semblables dans le but et la…

Hadoop Sqoop pour Big Data

Sqoop (SQL-à-Hadoop) est un outil grand de données qui offre la possibilité d'extraire des données à partir des données magasins non Hadoop, transformer les données en une forme utilisable par Hadoop, puis charger les données dans HDFS. Ce…

Système de fichiers distribué Hadoop (HDFS des) pour les grands projets de données

Le système de fichiers distribués Hadoop est un résilient approche polyvalente, cluster à la gestion des fichiers dans un environnement grand de données. HDFS est pas la destination finale pour les fichiers. Au contraire, il est un service de…

Comment démarrer avec ruche apache

Il n'y a pas de meilleure façon de voir ce qui est ce que l'installation du logiciel ruche et lui donner un essai. Comme avec d'autres technologies dans l'écosystème Hadoop, il ne faut pas longtemps pour commencer.Si vous avez le temps et la…

Entrée divise dans le MapReduce Hadoop de

La façon HDFS a été mis en place, il se décompose très gros fichiers dans de grands blocs (par exemple, mesure 128 Mo), et stocke trois exemplaires de ces blocs sur les différents nœuds du cluster. HDFS n'a pas connaissance du contenu de ces…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Gestion des fichiers avec les commandes du système de fichiers Hadoop

HDFS est l'une des deux principales composantes de l'Hadoop Structures à l'autre est le paradigme de calcul connu comme MapReduce. UN système de fichiers distribué est un système de fichier qui gère le stockage dans un cluster en réseau des…

Réplication de blocs de données dans le système de fichiers Hadoop distribué

Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son…

Mettre en place l'environnement de Hadoop avec bigtop apache

Si vous êtes à l'aise de travailler avec VM et Linux, vous pouvez installer Bigtop sur un autre VM que ce qui est recommandé. Si vous êtes vraiment audacieux et avoir le matériel, allez-y et essayez d'installer Bigtop sur un cluster de machines…

Défaillances de nœuds et disques esclaves dans HDFS

Comme la mort et les impôts, les pannes de disque (et assez de temps donné, même les échecs nœud ou rack), sont inévitables dans le système Hadoop Distributed File (HDFS). Dans l'exemple montré, même si un seul rack devait échouer, le…

Nœuds esclaves dans le système de fichiers distribué Hadoop (HDFS)

Dans un cluster Hadoop, chaque noeud de données (également connue en tant que nœud esclave) Exécute un processus de fond nommée DataNode. Ce processus d'arrière-plan (également connu en tant que démon) Garde la trace des tranches de données…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Les options de commande hadoop de dfsadmin

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Hadoop pour les nuls