Autres facteurs de forme de déploiement pour Hadoop

Bien que Hadoop fonctionne mieux quand il est installé sur un ordinateur physique, où le traitement a un accès direct au stockage et réseau dédié, Hadoop a déploiements alternatifs. Et bien qu'ils soient moins efficaces que le matériel dédié, dans certains cas, des solutions de rechange sont des options intéressantes.

Sommaire

Les serveurs virtualisés

Une tendance majeure dans les centres informatiques au cours de la dernière décennie est la virtualisation, où un grand serveur peut héberger plusieurs “ machines virtuelles ” qui ressemblent et agissent comme des machines simples. Au lieu d'un matériel dédié, ensemble des applications et les référentiels d'une organisation est déployée sur le matériel virtualisé.

Cette approche présente de nombreux avantages: La centralisation de l'informatique simplifie la maintenance, investissement, il est maximisée en raison de moins de cycles CPU inutilisés, et l'empreinte globale de matériel est plus faible, ce qui entraîne un coût total de possession réduit.




Organisations dans lesquelles les déploiements informatiques sont entièrement virtualisés parfois exigent que chaque nouvelle application, suivre ce modèle. Bien que Hadoop peut être déployé de cette manière, essentiellement comme un cluster virtuel (avec nœuds maîtres virtuels et aux nœuds esclaves virtuelles), rendement en souffre, en partie parce que pour la plupart des environnements virtualisés, le stockage est basée-SAN et n'a pas fixé localement.

Parce que Hadoop est conçu pour fonctionner mieux lorsque tous les cœurs de processeur disponibles sont en mesure d'avoir un accès rapide à tourner indépendamment disques, un goulot d'étranglement est créé comme toute la carte et réduire les tâches commencer le traitement des données par l'intermédiaire du réseau limité entre le CPU et le SAN. Depuis le degré d'isolement entre les ressources de serveurs virtualisés est limitée (serveurs de partager des ressources virtuelles avec l'autre), les charges de travail Hadoop peuvent également être affectés par d'autres activités.

Lorsque les performances de votre serveur virtuel est affecté par la charge de travail d'un autre serveur, qui est en fait connu dans les milieux informatiques comme un “ bruyant voisin ” problème!

Environnements virtualisés peuvent être très utiles, même si, dans certains cas. Par exemple, si votre organisation doit effectuer une analyse exploratoire temps d'un grand ensemble de données, vous pouvez facilement créer un cluster temporaire dans votre environnement virtualisé. Cette méthode est souvent un moyen plus rapide d'obtenir l'approbation interne plutôt que d'endurer les tracas bureaucratiques de se procurer du nouveau matériel dédié.

Comme vous expérimentez avec Hadoop, vous exécutez souvent sur vos machines portables via une machine virtuelle (VM). Hadoop est extrêmement lent dans ce genre d'environnement, mais si vous utilisez de petits ensembles de données, il est un outil d'apprentissage et de test précieux.

Déploiements cloud

Variations des environnements virtualisés sont des fournisseurs de cloud computing tels que Amazon, Rackspace, SoftLayer et IBM. La plupart des grands fournisseurs de cloud public ont maintenant MapReduce Hadoop ou offres disponibles pour l'utilisation. Encore une fois, leur rendement est inférieur au déploiement d'un cluster sur du matériel dédié, mais il est l'amélioration.

Fournisseurs de cloud font environnements Hadoop optimisés disponible là où des nœuds esclaves ont localement stockage et réseau dédié ci-joint. En outre, les hyperviseurs deviennent beaucoup plus efficace, avec réduction des frais généraux et de la latence.

Ne pas envisager une solution de cloud computing pour les applications à long terme, parce que le coût de la location des ressources de cloud computing est significativement plus élevé que celui de posséder et de maintenir un système comparable. Avec un fournisseur de cloud, vous payez pour la commodité et pour être en mesure de décharger les frais généraux de l'approvisionnement matériel. Cependant, le nuage est une plate-forme idéale pour les tâches les essais, de l'éducation, et de traitement de données une seule fois.

Mis à part la performance et de coût, vous avez considérations réglementaires avec les déploiements de cloud public. Si vous avez des données sensibles, qui doivent être stockés soit en interne ou dans le pays, un déploiement de cloud public est pas une option. Dans les cas de ce genre, où vous avez besoin de la commodité d'un déploiement en nuage, un cloud privé est une bonne option, si elle est disponible.


» » » » Autres facteurs de forme de déploiement pour Hadoop