Big data et les origines de MapReduce

MapReduce est de plus en plus utile pour les gros volumes de données. Au début des années 2000, certains ingénieurs de Google sont penchés sur l'avenir et a déterminé que pendant que leurs solutions actuelles pour des applications telles que ramper web, la fréquence de requête, et ainsi de suite étaient suffisants pour la plupart des exigences actuelles, ils étaient insuffisantes pour la complexité qu'ils prévoyaient que la Web mise à l'échelle de plus en plus d'utilisateurs.

Ces ingénieurs ont déterminé que si le travail peut être réparti sur les ordinateurs peu coûteux et ensuite connecté sur le réseau sous la forme d'un “ cluster, ” ils pourraient résoudre le problème. Répartition seul était pas une réponse suffisante. Cette répartition du travail doit être effectué en parallèle pour les trois raisons suivantes:

Le traitement doit être en mesure d'élargir et contracter automatiquement.
Le traitement doit être en mesure de procéder indépendamment de défaillances dans le réseau ou les systèmes individuels.
Développeurs tirant parti de cette approche doivent être en mesure de créer des services qui sont faciles à exploiter par d'autres développeurs. Par conséquent, cette approche doit être indépendant de l'endroit où les données et les calculs ont signé.

MapReduce a été conçu comme un modèle de programmation générique. Certaines des premières implémentations fournies à toutes les exigences clés de l'exécution en parallèle, la tolérance aux pannes, équilibrage de charge, et la manipulation de données. Les ingénieurs en charge du projet nommé MapReduce d'initiative, car il combine deux capacités de langages informatiques fonctionnelles existant: carte et réduire.

Les ingénieurs de Google MapReduce conçus pour résoudre un problème pratique spécifique. Par conséquent, il a été conçu comme un modèle de programmation combinée à la mise en œuvre de ce modèle - en substance, une implémentation de référence.

La mise en œuvre de référence a été utilisé pour démontrer la faisabilité et l'efficacité du concept et pour aider à assurer que ce modèle serait largement adopté par l'industrie informatique. Au fil des ans, d'autres implémentations de MapReduce ont été créés et sont disponibles à la fois open source et des produits commerciaux.

A propos Auteur

Comment lancer une application de MapReduce Hadoop en 1

Pour voir comment le JobTracker et TaskTracker travaillent ensemble pour mener une action de MapReduce, jetez un oeil à l'exécution d'une application de MapReduce. La figure montre les interactions, et la liste d'étape suivante énonce le…

Comment écrire des applications MapReduce

L'API MapReduce est écrit en Java, donc applications MapReduce sont basées sur Java principalement. La liste suivante indique les composants d'une application de MapReduce que vous pouvez développer:Driver (obligatoire): Ceci est la coquille de…

Entrée divise dans le MapReduce Hadoop de

La façon HDFS a été mis en place, il se décompose très gros fichiers dans de grands blocs (par exemple, mesure 128 Mo), et stocke trois exemplaires de ces blocs sur les différents nœuds du cluster. HDFS n'a pas connaissance du contenu de ces…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Pig latin dans les programmes de porcs de Hadoop

Pig latin est la langue pour les programmes de porc. Pig traduit le script Pig Latin en emplois MapReduce qu'il peut être exécuté dans clusters Hadoop. En venant avec Pig Latin, l'équipe de développement a suivi trois principes clés de la…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Exécution des modèles statistiques dans le MapReduce Hadoop de

Conversion de modèles statistiques pour fonctionner en parallèle est une tâche difficile. Dans le paradigme traditionnel pour la programmation parallèle, accès à la mémoire est régulée par l'utilisation de les discussions - les…

Comment utiliser Apache Hadoop pour l'analyse prédictive

Hadoop est une plate-forme de logiciel libre, open-source pour l'écriture et l'exécution d'applications qui traitent une grande quantité de données pour l'analyse prédictive. Il permet un traitement parallèle distribué de grands ensembles de…

Comment utiliser mahout Apache pour l'analyse prédictive

Un outil open-source qui est uniquement utile dans l'analyse prédictive est Apache Mahout. Cette bibliothèque d'apprentissage comprend des versions à grande échelle de la classification, la classification, filtrage collaboratif, et d'autres…

Comment optimiser tâches MapReduce

Mis à part l'optimisation du code de l'application réelle avec MapReduce pour les grands projets de données, vous pouvez utiliser certaines techniques d'optimisation pour améliorer la fiabilité et la performance. Ils se répartissent en trois…

Comment utiliser MapReduce pour Big Data

MapReduce est un cadre logiciel qui est idéal pour les grandes données, car il permet aux développeurs d'écrire des programmes qui peuvent traiter des quantités massives de données non structurées en parallèle sur un groupe distribué de…

Gérer la virtualisation pour Big Data

Virtualisation sépare ressources et des services de l'environnement de la livraison physique sous-jacente, qui vous permet de créer de nombreux systèmes virtuels au sein d'un seul système physique. Une des principales raisons pour lesquelles les…

Les questions de performance dans la gestion des données d'architecture grand

Votre architecture big de données doit également effectuer de concert avec l'infrastructure de soutien de votre organisation. Par exemple, vous pourriez être intéressé par l'exécution de modèles afin de déterminer si il est sûr de forer du…

Performance et Big Data

Juste avoir un ordinateur plus rapide ne suffit pas pour assurer le bon niveau de performances pour gérer les grands volumes de données. Vous devez être en mesure de distribuer les composants de votre grand service de données à travers une…

godiches.com » Ordinateurs et logiciels » Big Data » Ingénierie » Big data et les origines de MapReduce