Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul distribué.

Le système Hadoop Distributed File (HDFS) a été développé pour permettre aux entreprises de gérer plus facilement d'énormes volumes de données de manière simple et pragmatique. Hadoop permet de gros problèmes à être décomposés en éléments plus petits de sorte que l'analyse peut être fait rapidement et de manière rentable. HDFS est une approche résiliente polyvalent, cluster à la gestion des fichiers dans un environnement grand de données.

HDFS est pas la destination finale pour les fichiers. Au contraire, il est une donnée «service» qui offre un ensemble unique de capacités nécessaires lorsque les volumes de données et la vitesse sont élevés.

MapReduce est un cadre logiciel qui permet aux développeurs d'écrire des programmes qui peuvent traiter des quantités massives de données non structurées en parallèle sur un groupe distribué de processeurs. MapReduce a été conçu par Google comme un moyen d'exécuter efficacement un ensemble de fonctions contre une grande quantité de données en mode batch.

La "carte" composante distribue le problème de programmation ou des tâches à travers un grand nombre de systèmes et gère le placement des tâches d'une manière qui équilibre la charge et gère la récupération des échecs. Après le calcul distribué est terminée, une autre fonction appelée «réduire» regroupe tous les éléments de retour ensemble pour fournir un résultat. Un exemple d'utilisation MapReduce serait de déterminer le nombre de pages d'un livre sont écrits dans chacune des 50 langues différentes.


» » » » Gestion des données de grandes avec Hadoop HDFS et MapReduce: