En comparant les distributions Hadoop

Vous verrez que l'écosystème Hadoop a de nombreux composants, qui tous existent en tant que leurs propres projets Apache. Parce que Hadoop a considérablement augmenté, et fait face à d'autres changements importants, différentes versions de ces composants open source de la communauté pourraient ne pas être compatible avec d'autres composants. Cela pose des difficultés considérables pour les personnes qui cherchent à obtenir un démarrage indépendant avec Hadoop par téléchargement et la compilation des projets directement à partir de Apache.

Red Hat est, pour beaucoup de gens, le modèle de la façon de faire de l'argent avec succès dans le marché des logiciels open source. Qu'est-ce que Red Hat a fait est de prendre Linux (un système d'exploitation open source), regrouper toutes ses composantes nécessaires, construire une installation simple, et fournir un soutien versé à tous les clients.

De la même manière que Red Hat a fourni un emballage pratique pour Linux, un certain nombre de sociétés ont fourni Hadoop et certaines technologies connexes dans leurs propres distributions Hadoop. Cette liste décrit les plus éminents:

  • Cloudera: Peut-être le joueur le plus connu dans le domaine, Cloudera est en mesure de réclamer Doug Cutting, co-fondateur de Hadoop, comme son architecte en chef. Cloudera est considéré par beaucoup comme le leader du marché dans l'espace Hadoop parce qu'il a publié la première distribution de Hadoop commerciale et il est un contributeur très actif de code pour l'écosystème Hadoop.

    Cloudera Enterprise, un produit positionné par Cloudera au centre de ce qu'il appelle la “ Enterprise Data Hub, ” comprend la distribution Hadoop de Cloudera pour (CDH), une distribution de Hadoop base-open-source et ses projets connexes ainsi que son gestionnaire exclusif Cloudera. On y trouve aussi un abonnement de support technique pour les composantes de base du CDH.

    Modèle d'affaires principal de Cloudera a longtemps été basée sur sa capacité à tirer parti de sa distribution CDH populaire et fournir des services et du soutien payés. À l'automne 2013, Cloudera a annoncé officiellement qu'il se concentre sur l'ajout de composants propriétaires à valeur ajoutée sur le dessus de l'open source Hadoop à agir comme un facteur de différenciation.




    Aussi, Cloudera en a fait une pratique courante pour accélérer l'adoption du code source alpha et bêta niveau ouvert pour Hadoop nouvelles versions. Son approche est de prendre composants qu'il juge être mature et moderniser les dans les bibliothèques open source prêtes pour la production existantes qui sont inclus dans la distribution.

  • EMC: HD Pivotal, la distribution Hadoop d'EMC, intègre nativement le traitement massivement parallèle (MPP) base de données de la technologie EMC (anciennement connu comme Greenplum, et maintenant connu sous le nom HAWQ) avec Hadoop. Le résultat est une distribution Hadoop haute performance avec un véritable traitement de SQL pour Hadoop. Requêtes basées sur SQL et d'autres outils de business intelligence peuvent être utilisées pour analyser les données qui sont stockées dans HDFS.

  • Hortonworks: Un autre joueur majeur dans le marché Hadoop, Hortonworks a le plus grand nombre de committers et contributeurs de code pour les composantes de l'écosystème Hadoop. (Committers sont les gardiens de projets Apache et ont le pouvoir d'approuver les modifications de code.)

    Hortonworks est une spin-off de Yahoo !, qui était le pilote de l'entreprise d'origine du projet Hadoop, car il avait besoin d'une plate-forme à grande échelle pour soutenir son activité de moteur de recherche. De tous les vendeurs de distributions Hadoop, Hortonworks est le plus engagé dans le mouvement open source, basé sur le volume du travail de développement, il contribue à la communauté, et parce que tous ses efforts de développement sont (éventuellement) plié dans la base de code open source.

    Le modèle d'affaires Hortonworks repose sur sa capacité à tirer parti de sa distribution HDP populaire et fournir des services et du soutien payés. Toutefois, il ne vend pas de logiciels propriétaires. Plutôt, la société appuie avec enthousiasme l'idée de travailler au sein de la communauté open source pour développer des solutions qui répondent entreprise longs exigences (par exemple, un traitement plus rapide des requêtes avec la ruche).

    Hortonworks a forgé un certain nombre de relations avec des sociétés établies dans l'industrie de la gestion des données: Teradata, Microsoft, Informatica et SAS, par exemple. Bien que ces entreprises ne disposent pas de leurs propres offres Hadoop, en interne, ils collaborer avec Hortonworks pour fournir des solutions Hadoop intégrés avec leurs propres ensembles de produits.

    L'offre Hortonworks Hadoop est la plateforme de données Hortonworks (HDP), qui comprend Hadoop ainsi que l'outillage et des projets connexes. Aussi, contrairement à Cloudera, Hortonworks libère versions seulement HDP avec le code de niveau de production de la communauté open source.

  • IBM: Big Blue propose une gamme d'offres Hadoop, avec l'accent mis autour de la valeur ajoutée sur le dessus de l'open source Hadoop pile.

  • Intel: Le processeur Intel Distribution pour Hadoop (Intel Distribution) assure le traitement et la gestion de données distribuée pour les applications d'entreprise qui analysent les données de grandes.

    Les principales caractéristiques comprennent une excellente performance avec des optimisations pour les processeurs Intel Xeon, Intel stockage SSD, et la sécurité Intel 10GbE de données via le chiffrement et le déchiffrement dans HDFS, et le contrôle d'accès basé sur les rôles avec une granularité de niveau cellulaire dans HBase- améliorée requête Hive soutien à la performance pour l'analyse statistique d'un connecteur pour R, l'open source package- statistique populaire et graphiques analytiques grâce à Intel Graph Builder.

  • MapR: Pour une distribution complète pour Hadoop et les projets connexes qui est indépendante de l'Apache Software Foundation, ne cherchez pas plus loin que MapR. Bénéficiant d'aucune dépendance Java ou la dépendance sur le système de fichiers Linux, MapR est promue comme la seule distribution Hadoop qui offre une protection complète des données, pas de points uniques de défaillance, et des avantages significatifs de facilité d'utilisation.

    Trois éditions MapR sont disponibles: M3, M5 et M7. Le M3 Edition est gratuit et disponible pour la production illimitée utilisation- MapR M5 est un logiciel d'abonnement de niveau intermédiaire et offre-MapR M7 est une distribution complète pour Hadoop et HBase qui comprend Pig, Hive, Sqoop, et bien plus encore.


» » » » En comparant les distributions Hadoop