Comment choisir une distribution de Hadoop

Distributions Hadoop Commercial offrent différentes combinaisons de composants Open Source de l'Apache Software Foundation et ailleurs - l'idée est que les différents composants ont été intégrés dans un seul produit, vous évitant l'effort d'avoir à monter votre propre ensemble de composants intégrés. En plus de logiciels libres, les vendeurs offrent généralement des logiciels propriétaires, un soutien, des services de conseil et de formation.

Comment allez-vous choisir une distribution Hadoop des nombreuses options qui sont disponibles? Quand il vient à mettre en place votre propre environnement, vous êtes celui qui doit choisir, et ce choix doit être fondée sur un ensemble de critères conçus pour vous aider à prendre la meilleure décision possible.

Pas toutes les distributions Hadoop avoir les mêmes composants (même si elles ont toutes les capacités de base de Hadoop), et tous les composants dans un seul distribution particulière ne sont pas compatibles avec d'autres distributions.

Les critères de sélection de la distribution le plus approprié peuvent être articulés comme cette série de questions importantes:

  • Que voulez-vous atteindre avec Hadoop?

  • Comment pouvez-vous utiliser Hadoop pour avoir un aperçu de l'entreprise?

  • Quels sont les problèmes affaires voulez-vous résoudre?

  • Quelles sont les données seront analysées?

  • Êtes-vous prêt à utiliser des composants propriétaires, ou préférez-vous les offres open source?




  • Est l'infrastructure Hadoop que vous envisagez suffisamment flexible pour tous vos cas d'utilisation?

  • Quels sont les outils existants vous souhaitez intégrer avec Hadoop?

  • Vos administrateurs ont besoin d'outils de gestion? (La distribution de base de Hadoop ne comprend pas les outils d'administration.)

  • Sera l'offre que vous choisissez vous permettent de déplacer à un produit différent sans obstacles tels que vendor lock-in? (Code d'application qui est pas transférables à d'autres distributions ou des données stockées dans des formats propriétaires représentent de bons exemples de lock-in.)

  • Voulez la distribution vous envisagez de répondre à vos besoins futurs, dans la mesure où vous êtes en mesure d'anticiper ces besoins?

Une approche pour distributions comparaison est de créer un matrice de fonction - un tableau qui détaille les spécifications et caractéristiques de chaque distribution que vous envisagez. Votre choix peut alors compter sur l'ensemble des caractéristiques et spécifications qui répond le mieux aux exigences autour de vos problèmes commerciaux spécifiques.

D'autre part, si vos exigences comprennent le prototypage et d'expérimentation, le choix de la dernière distribution Apache Hadoop officielle pourrait se révéler être la meilleure approche. Les versions les plus récentes ont certainement des caractéristiques les plus passionnants nouveaux, mais si vous voulez la stabilité vous ne voulez pas l'excitation. Pour plus de stabilité, chercher une branche de version antérieure qui a été disponibles assez longtemps pour avoir des versions incrémentales (ceux-ci comprennent généralement des corrections de bugs et fonctionnalités mineures).

Chaque fois que vous pensez open source Hadoop distributions, donner la pensée d'un moment (ou peut-être la pensée »de nombreux moments) à la notion de ouverte fidélité source - la mesure dans laquelle une distribution particulière est compatible avec les composants open source dont il dépend. Haute fidélité facilite l'intégration avec d'autres produits qui sont conçus pour être compatibles avec les composants open source. Basse fidélité? Pas tellement.

L'approche open source pour le développement de logiciel lui-même est une partie importante de votre Hadoop plans, car elle favorise la compatibilité avec une foule d'outils tiers que vous pouvez exploiter dans votre propre déploiement Hadoop. L'approche open source permet également un engagement avec la communauté Hadoop, qui vous donne, à son tour, la possibilité de puiser dans une piscine profonde de compétences et l'innovation pour enrichir votre expérience de Hadoop.

Parce que Hadoop est un écosystème en pleine croissance, certaines parties continuent à mûrir comme la communauté développe outillage pour répondre aux demandes de l'industrie. Un aspect de cette évolution est connu comme rétroportage, où vous appliquez une nouvelle modification du logiciel ou un correctif à une version du logiciel qui est plus ancienne que la version à laquelle le patch est applicable.

Un exemple est NameNode basculement: Cette capacité est une partie de Hadoop 2 mais a été backported (dans sa forme bêta) par un certain nombre de distributions dans leurs offres basées sur Hadoop-1 pour autant que un an avant Hadoop 2 est devenu généralement disponibles.

Pas toutes les distributions engage activement dans rétroportage nouveau contenu au même degré, mais la plupart le font pour des articles tels que des corrections de bugs. Si vous voulez une licence de production pour la technologie avant-gardistes, cela est certainement une option- pour la stabilité, cependant, il est pas une bonne idée.

La majorité des distributions Hadoop inclure du code propriétaire d'un certain type, qui vient souvent sous la forme d'installateurs et d'un ensemble d'outils de gestion. Ces distributions émergent habituellement de différents modèles d'affaires.

Par exemple, un modèle d'entreprise peut se résumer de cette façon: “ vous établir comme un leader de l'open source et pionnier, le marché de votre entreprise comme ayant la meilleure expertise, et de vendre ce savoir-faire en tant que service ”. Red Hat, Inc. est un exemple d'un vendeur qui utilise ce modèle.

Contrairement à cette approche, le et prolongation étreinte modèle d'affaires a renforcer les capacités des fournisseurs qui étendent les capacités du logiciel open source. MapR et IBM, qui offrent tous deux des systèmes de fichiers alternative au système Hadoop Distributed File (HDFS), sont de bons exemples.

Parfois, les gens jettent l'erreur “ fourche ” étiqueter ces innovations, faisant usage de jargon utilisé par les programmeurs de logiciels pour décrire des situations où quelqu'un prend une copie d'un programme open source comme le point de départ de leur propre développement (indépendant).

Les systèmes de fichiers alternatifs offerts par MapR et IBM sont complètement différents systèmes de fichiers, et non une fourchette de l'open source HDFS. Les deux entreprises permettent à leurs clients de choisir leur système de fichiers distribué HDFS propriétaires ou. Néanmoins, dans cette approche, la compatibilité est critique, et le vendeur doit rester à jour avec les interfaces évolution. Les clients ont besoin de savoir que les fournisseurs peuvent être invoqués pour soutenir leurs extensions.


» » » » Comment choisir une distribution de Hadoop