Comment choisir une architecture de cluster hadoop
Hadoop est conçu pour être déployé sur une grande grappe d'ordinateurs en réseau, avec des nœuds maîtres (qui accueillent les services qui contrôlent le stockage et le traitement de Hadoop) et nœuds esclaves (où les données sont stockées et traitées). Vous pouvez, toutefois, exécutez Hadoop sur un seul ordinateur, ce qui est une excellente façon d'apprendre les rudiments de Hadoop en expérimentant dans un espace contrôlé.
Hadoop dispose de deux modes de déploiement: le mode pseudo-distribué et le mode entièrement distribué, qui tous deux sont décrits ici.
Mode pseudo-distribué (noeud unique)
Un seul nœud Hadoop déploiement est considéré comme en cours d'exécution dans Hadoop distribué pseudo- Mode, où tous les services Hadoop, y compris les services de maître et esclave, tous exécutés sur un nœud de calcul unique. Ce type de déploiement est utile pour tester rapidement des applications alors que vous êtes les développer sans avoir à vous soucier de l'aide Hadoop ressources du cluster quelqu'un d'autre pourrait avoir besoin.
Il est également un moyen pratique d'expérimenter avec Hadoop, comme la plupart d'entre nous ne disposent pas des grappes d'ordinateurs à notre disposition.
Mode entièrement distribuée (un cluster de nœuds)
Un déploiement Hadoop où les services de maître et esclave Hadoop exécutées sur un cluster d'ordinateurs est en cours d'exécution dans ce qui est connu sous le nom mode entièrement distribuée. Ceci est un mode approprié pour les clusters de production et de pôles de développement. Une autre distinction peut être faite ici: un pôle de développement a généralement un petit nombre de noeuds et est utilisé pour prototyper les charges de travail qui finira par exécuter sur un cluster de production.
A propos Auteur
Hadoop considérations de rack Un principe de base de Hadoop est mise à l'échelle avec des nœuds esclaves supplémentaires pour répondre à l'augmentation de stockage de données et les exigences de traitement des minéraux. Dans un modèle de scale-out, vous devez examiner…
Hadoop Zookeeper pour Big Data Plus grande technique de Hadoop pour traiter de grands défis de données est sa capacité à diviser et conquérir avec Zookeeper. Après le problème a été divisé, la conquête repose sur la capacité de répartie et emploient des techniques de…
Ibm grande sql et Hadoop IBM a une longue histoire de collaboration avec SQL et de la technologie de base de données. En accord avec cette histoire, la solution d'IBM pour SQL sur Hadoop exploite des composants de ses technologies de base de données relationnelles qui…
Modes locaux et distribués de l'exécution de scripts de porcs dans Hadoop Avant vous pouvez exécuter votre premier script de cochon dans Hadoop, vous devez avoir une poignée sur la façon dont les programmes de porc peuvent être fournis avec le serveur de porc.Pig dispose de deux modes pour l'exécution de scripts:Mode…
Gérer grandes ressources de données et des applications avec fil de Hadoop La planification des tâches et de suivi pour les grandes données sont des parties intégrantes de Hadoop MapReduce et peuvent être utilisés pour gérer les ressources et les applications. Les premières versions de Hadoop faveur d'un système de…
Gestion des données de grandes avec Hadoop HDFS et MapReduce: Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…
Réseautage et grappes Hadoop Comme pour tout système distribué, le réseautage peut faire ou défaire un cluster Hadoop: Ne pas aller pas cher . Une grande partie de bavardage a lieu entre les nœuds maîtres et nœuds esclaves dans un cluster Hadoop qui est…
Réplication de blocs de données dans le système de fichiers Hadoop distribué Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son…
Les applications en cours avant hadoop 2 Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…
Nœuds esclaves dans les clusters Hadoop Dans un univers Hadoop, nœuds esclaves sont où les données Hadoop est stockée et où le traitement de données a lieu. Les services suivants permettent nœuds esclaves pour stocker et traiter les données:NodeManager: Coordonne les ressources…
L'écosystème Hadoop Apache Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…
Le maître de l'application de fil dans Hadoop Contrairement à d'autres FIL (Yet Another Négociateur ressources) des composants, aucun composant dans Hadoop 1 correspond directement à la maîtrise de l'application. En substance, ce travail est que la JobTracker fait pour chaque application,…
Le gestionnaire de ressources de fil La composante de base de fil (Yet Another négociateur des ressources) est le gestionnaire de ressources, qui régit toutes les ressources de traitement de données dans le cluster Hadoop. Autrement dit, le gestionnaire de ressources est un…
Le gestionnaire de noeud de fil dans Hadoop Chaque nœud esclave dans un autre négociateur des ressources (FIL) a un démon Node Manager, qui agit comme un esclave pour le gestionnaire de ressources. Comme avec le TaskTracker, chaque nœud esclave dispose d'un service qu'il lie au service de…