Comment optimiser tâches MapReduce

Mis à part l'optimisation du code de l'application réelle avec MapReduce pour les grands projets de données, vous pouvez utiliser certaines techniques d'optimisation pour améliorer la fiabilité et la performance. Ils se répartissent en trois catégories: matériels / topologie du réseau, synchronisation, et le système de fichier.

Sommaire

Big matériel de données / la topologie du réseau
Big synchronisation de données
Big système de fichiers de données

Big matériel de données / la topologie du réseau

Indépendant d'application, le matériel et les réseaux les plus rapides seront probablement donner les temps d'exécution les plus rapides pour votre logiciel. Un avantage distinct de MapReduce est la capacité de fonctionner sur des clusters peu coûteux de matériel de base et des réseaux standard. Si vous ne faites pas attention à l'endroit où vos serveurs sont organisés physiquement, vous ne serez pas obtenir les meilleures performances et le degré élevé de tolérance aux pannes nécessaire pour soutenir les tâches de données volumineux.

Du matériel de base est souvent stocké dans des racks dans le centre de données. La proximité du matériel dans le rack offre un avantage de performance par opposition au déplacement de données et / ou un code de rack,. Au cours de la mise en œuvre, vous pouvez configurer votre MapReduce moteur d'être au courant et profiter de cette proximité.

Garder les données et le code est ainsi l'une des meilleures optimisations pour MapReduce la performance. En substance, plus les éléments de traitement de matériel sont à l'autre, le moins de latence, vous aurez à traiter.

Big synchronisation de données

Parce qu'il est inefficace pour contenir tous les résultats de votre cartographie dans le noeud, les mécanismes de synchronisation de copier les résultats de la cartographie aux nœuds réduisant immédiatement après qu'ils ont terminé sorte que le traitement peut commencer tout de suite. Toutes les valeurs de la même clé sont envoyés à la même réducteur, en assurant de nouveau de meilleures performances et une meilleure efficacité.

Les sorties de réduction sont écrites directement dans le système de fichiers, donc il doit être conçu et réglé pour de meilleurs résultats.

Big système de fichiers de données

Votre mise en œuvre de MapReduce est soutenu par un système de fichiers distribué. La différence majeure entre les systèmes de fichiers locaux et distribués est la capacité. Pour gérer les énormes quantités d'informations dans un grand monde de données, les systèmes de fichiers doivent être répartis sur plusieurs machines ou des nœuds dans un réseau.

Implémentations MapReduce reposent sur un style maître-esclave de la distribution, où le nœud maître stocke toutes les métadonnées, droits d'accès, de cartographie et de localisation des fichiers et des blocs, et ainsi de suite. Les esclaves sont des noeuds où les données réelles sont stockées. Toutes les demandes vont au maître, puis sont traitées par le noeud esclave appropriée. Comme vous contemplez la conception du système de fichiers, vous devriez considérer les points suivants:

Maintenir au chaud: Comme on pouvait s'y attendre, le nœud maître pourrait obtenir surchargés de travail parce que tout commence par là. En outre, si le nœud maître échoue, le système de fichiers est inaccessible jusqu'à ce que le maître est restauré. Une optimisation très important est de créer une “ de secours à chaud ” nœud maître qui peut sauter dans le service en cas de problème avec le maître en ligne.
Le plus gros le meilleur: Taille du fichier est également une considération importante. Beaucoup de petits fichiers (moins de 100 Mo) doivent être évités. Systèmes de fichiers distribués à l'appui moteurs de MapReduce travaillent mieux quand ils sont remplis avec un nombre modeste de gros fichiers.
La vision à long terme: Parce que les charges de travail sont gérés par lots, la bande passante réseau très soutenue est plus important que le temps d'exécution rapides des cartographes ou réducteurs. L'approche optimale est pour le code pour diffuser beaucoup de données quand il est en train de lire et de nouveau quand il est temps d'écrire sur le système de fichiers.
Conserver en toute sécurité: Mais pas trop. Ajout de couches de sécurité sur le système de fichiers distribué sera dégrader ses performances. Les permissions de fichiers sont là pour se prémunir contre les conséquences involontaires, comportement pas malveillant. La meilleure approche est d'assurer que seuls les utilisateurs autorisés ont accès à l'environnement de centre de données et pour maintenir le système de fichiers distribué protégée de l'extérieur.

A propos Auteur

Entrée divise dans le MapReduce Hadoop de

La façon HDFS a été mis en place, il se décompose très gros fichiers dans de grands blocs (par exemple, mesure 128 Mo), et stocke trois exemplaires de ces blocs sur les différents nœuds du cluster. HDFS n'a pas connaissance du contenu de ces…

Gardez une trace de blocs de données avec NameNode dans HDFS

Le NameNode agit comme le carnet d'adresses pour le système de fichiers distribués Hadoop (HDFS) parce qu'il sait non seulement ce qui bloque constituent des fichiers individuels, mais aussi où chacun de ces blocs et leurs répliques sont…

Gérer grandes ressources de données et des applications avec fil de Hadoop

La planification des tâches et de suivi pour les grandes données sont des parties intégrantes de Hadoop MapReduce et peuvent être utilisés pour gérer les ressources et les applications. Les premières versions de Hadoop faveur d'un système de…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Réplication de blocs de données dans le système de fichiers Hadoop distribué

Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Défaillances de nœuds et disques esclaves dans HDFS

Comme la mort et les impôts, les pannes de disque (et assez de temps donné, même les échecs nœud ou rack), sont inévitables dans le système Hadoop Distributed File (HDFS). Dans l'exemple montré, même si un seul rack devait échouer, le…

Nœuds esclaves dans le système de fichiers distribué Hadoop (HDFS)

Dans un cluster Hadoop, chaque noeud de données (également connue en tant que nœud esclave) Exécute un processus de fond nommée DataNode. Ce processus d'arrière-plan (également connu en tant que démon) Garde la trace des tranches de données…

Nœuds esclaves dans les clusters Hadoop

Dans un univers Hadoop, nœuds esclaves sont où les données Hadoop est stockée et où le traitement de données a lieu. Les services suivants permettent nœuds esclaves pour stocker et traiter les données:NodeManager: Coordonne les ressources…

Le maître de l'application de fil dans Hadoop

Contrairement à d'autres FIL (Yet Another Négociateur ressources) des composants, aucun composant dans Hadoop 1 correspond directement à la maîtrise de l'application. En substance, ce travail est que la JobTracker fait pour chaque application,…

Comment utiliser Apache Hadoop pour l'analyse prédictive

Hadoop est une plate-forme de logiciel libre, open-source pour l'écriture et l'exécution d'applications qui traitent une grande quantité de données pour l'analyse prédictive. Il permet un traitement parallèle distribué de grands ensembles de…

Couche 3 de la grosse pile de données: l'organisation des services et des outils de données

L'organisation des services de données et des outils, couche 3 de la grosse pile de données, la capture, valider et assembler différents éléments de données dans de grandes collections contextuellement pertinents. Parce que Big Data est…

Les données de grandes mines avec ruche

Hive est, une couche d'entreposage des données orientée lots construit sur les éléments de base de Hadoop (HDFS et MapReduce) et est très utile dans les grandes données. Il fournit aux utilisateurs qui connaissent SQL avec une mise en œuvre…

Performance et Big Data

Juste avoir un ordinateur plus rapide ne suffit pas pour assurer le bon niveau de performances pour gérer les grands volumes de données. Vous devez être en mesure de distribuer les composants de votre grand service de données à travers une…

godiches.com » Ordinateurs et logiciels » Big Data » Ingénierie » Comment optimiser tâches MapReduce