10 technologies émergentes Hadoop pour garder un oeil sur

Avec Hadoop frapper mainstream avec une vengeance, les projets open source liés à Hadoop sont fleurissent un peu partout. Voici les dix meilleurs projets les plus intéressants de Hadoop émergents pour vous de garder un oeil sur. Certains d'entre eux pourrait bien stagner et mourir tranquillement si un remplacement était supérieure à venir le long, mais la plupart de ces spécimens évolution va probablement devenir des composants standard dans la plupart des distributions Hadoop.

Sommaire

Cette liste se concentre sur les projets de la communauté Apache, car cet écosystème a été celui où la majorité des projets existants traditionnels Hadoop sont développés et maintenus. Aussi, les projets Apache ont des critères de gouvernance solides qui favorisent un processus de développement ouvert où les contributions de ses membres sont jugés sur leur mérite technique plutôt que sur un agenda d'entreprise.

Accumulo

Accumulo est un projet de stockage de données pour Hadoop, développé à l'origine par la National Security Agency (NSA) du gouvernement des États-Unis. Accumulo est une mise en œuvre BigTable pour Hadoop. Plus précisément, Accumulo est une carte triés multidimensionnelle, où chaque ligne possède une clé unique, les lignes sont stockées dans l'ordre de tri sur la base de cette clé, et chaque rangée peuvent avoir plusieurs versions (en d'autres termes, dimensions).

Il y avait beaucoup d'intérêt pour la NSA en utilisant HBase comme un magasin de données à grande échelle, mais il ne répond pas aux exigences de sécurité internes de la NSA. Les ingénieurs de la NSA ont ensuite construit Accumulo comme leur propre mise en œuvre BigTable et plus tard contribué à la communauté Apache. Le projet a depuis grandi Accumulo une communauté active de développement, avec les contributeurs d'un certain nombre d'organisations différentes - pas seulement les types d'ANE, en d'autres termes. Accumulo, maintenant soutenu par un certain nombre de grands fournisseurs de Hadoop, est de voir un taux d'adoption de plus en plus.

La principale caractéristique distinguant Accumulo d'autres implémentations BigTable est la sécurité à base de cellules, qui garantit que seuls les utilisateurs autorisés peuvent voir les données stockées dans toutes les lignes interrogés. Ceci est mis en œuvre par le biais d'étiquettes de sécurité, qui sont stockés à chaque rangée.

Perceuse

Un certain nombre de technologies émergentes et concurrentes sont là pour essayer de résoudre le problème SQL-sur-Hadoop. Bien que la plupart de ces technologies sont les solutions mono-entreprise, certains d'entre eux sont axé sur la collectivité, avec Hive l'exemple le plus frappant. Drill Apache est inspiré par le papier Google Dremel, qui présente un design pour un système interactif qui peut interroger les données stockées dans un système de fichiers distribué comme HDFS et ne pas avoir à compter sur MapReduce. L'objectif de conception pour Drill est d'être capable d'évoluer à des milliers de serveurs et de fournir des temps de réponse pour les requêtes subminute d'exploitation par rapport aux données pétaoctet échelle.

Au printemps 2014, Drill est encore un projet d'incubateur Apache, ce qui signifie qu'il n'a pas encore été accepté comme un projet à part entière Apache et est encore l'établissement d'une base de code stable et la gouvernance du projet. Mais il a un grand potentiel, alors ne soyez pas surpris si elle fait son chemin hors de l'incubateur bientôt.

Faucon

Avec l'intégration accrue des Hadoop dans des environnements d'entreposage de données, l'industrie voit un besoin important pour les capacités d'intégration de données et de gouvernance dans Hadoop. Les approches actuelles pour l'intégration des données et répondant à des critères de gouvernance impliquent ces deux choix:

  • Acheter un tel outillage auprès de fournisseurs établis tels que IBM et Informatica.




  • Ecrire vastes bibliothèques de code personnalisé.

Voilà ce que le projet Apache Falcon vise à répondre à un ensemble de services de gestion de données construites spécifiquement pour Hadoop. Comme Drill, Falcon est un projet d'incubateur Apache.

Les services de gestion de données à Falcon sont principalement axées sur la gestion de transfert de données et de transformation de données. Si vous n'êtes pas familier avec la gestion des données entre les bases de données transactionnelles et les bases de données de l'entrepôt, ce processus de transfert de données et de la transformation est communément connu sous le nom Extract, Transform et Load (ETL). Dans le cadre du cadre pour la manipulation de processus ETL, Falcon inclut la possibilité de stocker les métadonnées pour les données comme il est passé à travers les différentes étapes ETL. Falcon peut alors fournir des services pour la gestion du cycle de vie des données (par exemple, l'exécution des politiques de rétention), la réplication des données et le suivi de la lignée de données.

Giraph

Hadoop est assez bonne au stockage et le traitement des données dans les tableaux traditionnels (la ruche) et dans le style plus récent BigTable (HBase et Accumulo), mais dans de nombreux cas, les structures de stockage de données alternatives sont plus adaptés à la tâche à accomplir. Données du graphique semble assez différent de données de la table: Il n'a pas de lignes ou colonnes. Il est tout simplement un graphique, où les nœuds individuels (également connus comme sommets) Sont reliés les uns aux autres par des bords.

Pensez-y: Un énormes défis techniques que Google fait face est de trouver la meilleure façon de calculer le classement des résultats de recherche. Un facteur dans ce est de déterminer comment les pages Web individuelles populaires sont, selon le nombre de liens entrants proviennent d'autres pages web. De loin le moyen le plus pratique pour calculer ce pour toutes les pages est de représenter l'ensemble du World Wide Web comme un graphique, où les pages sont les nœuds et les liens sont les sommets. Pour capturer son travail de base de données graphique, Google a publié un document sur sa base de données graphique, qui est nommé Prégel.

Apache Giraph, un moteur de traitement graphique qui est basé sur le papier Prégel et a été construit spécifiquement pour Hadoop, peuvent lire et écrire des données à partir d'un certain nombre de sources Hadoop Hive standard, y compris, HBase et Accumulo.

La communauté Giraph est assez vaste et diversifié, avec des committers de code à partir d'un certain nombre d'organisations, y compris Facebook, Twitter et LinkedIn. Giraph est fermement établi comme le principal moteur de traitement graphique pour Hadoop, en termes de code échéance, la performance, et l'adoption. Fournisseurs Major Hadoop appuient maintenant Giraph et sera probablement l'inclure. (Le projet Apache BigTop fait déjà.)

Knox passerelle

Comme un système distribué avec des centaines ou des milliers d'ordinateurs individuels, les clusters Hadoop sont le cauchemar d'un administrateur de sécurité. Pour aggraver les choses, les nœuds de calcul dans un cluster Hadoop ont tous de multiples services qui parlent les uns aux autres et, dans certains cas, nécessitent une connectivité directe avec les applications clientes. Additionnez tous ces facteurs et vous avez une surface massive des ordinateurs avec des ports ouverts que vous devez protéger. Pour résoudre ce problème, Hortonworks a commencé le projet Apache Knox Gateway, qui est encore à ses débuts comme un projet d'incubateur Apache.

L'objectif principal de Knox Gateway est de fournir un périmètre de sécurité pour les clusters Hadoop. Elle accomplit cette mission en fournissant un point central pour l'authentification de cluster sur le bord d'un cluster Hadoop. En dehors de la grappe elle-même, Knox passerelle gère toutes les demandes entrantes des clients à un cluster ça gardiennage et achemine ensuite les demandes valides vers le service approprié dans le cluster Hadoop. En ce sens, Knox Gateway est littéralement une passerelle sécurisée pour toutes les communications entre le cluster Hadoop et le monde extérieur. Knox passerelle permet aux administrateurs réseau pour isoler le cluster Hadoop du monde extérieur, parce que tant que les serveurs Knox Gateway sont actifs, les clients disposent d'une connexion sécurisée à leurs services Hadoop.

Samza

Un aspect passionnant de fil est la possibilité de faire fonctionner différents types de charges de travail sur un cluster Hadoop. Avec MapReduce, vous êtes limité au traitement par lots, mais avec de nouvelles technologies telles que la Spark et Tez (dont nous parlons ci-dessous) et le foret précitée, Hadoop serez en mesure de supporter des requêtes interactives ainsi. Une autre classe de la charge de travail est des flux de données, qui est ce que le projet Apache Samza vise à attaquer. (Les données de streaming fonctionne pour traiter les données en temps réel au lieu de compter sur le stop-and-go aspect de traitement par lots.)

Le projet a été lancé par Samza ingénieurs de LinkedIn, qui avaient besoin d'un moteur de données de transmission en continu. Plutôt que de garder leur code interne, les ingénieurs développent LinkedIn Samza dans la communauté open source Apache. Au moment d'écrire ces lignes, Samza est encore à ses débuts comme un projet d'incubateur Apache. Bien que les moteurs d'autres données de streaming existent (comme Spark streaming et Storm, discuté ci-dessous), l'équipe LinkedIn a décidé de construire son propre moteur qui serait le mieux à ses besoins.

Sentinelle

La section sur le projet Knox passerelle ci-dessus met en vedette certains des défis de sécurité avec Hadoop. Bien que Knox passerelle traite autorisation système (veiller à ce que les utilisateurs sont autorisés à se connecter aux services du cluster Hadoop), il ne traite pas de la nécessité pressante de l'autorisation de données, où il ya des besoins de l'entreprise pour restreindre l'accès à des sous-ensembles de données. Un exemple courant est le besoin de cacher les tables qui contiennent des données sensibles telles que les numéros de cartes de crédit des analystes à la recherche de modèles de comportement. Le projet Apache Sentry a été lancé par Cloudera comme un moyen de fournir ce type de contrôle d'accès aux données stockées dans son projet Impala et dans la ruche. Au printemps 2014, Sentry est un projet d'incubateur Apache.

Sentry introduit le concept de différentes classes de rôle d'utilisateur à Hadoop, tout en permettant le classement des actifs de données dans Impala ou Hive. Selon la classification qui est appliquée au niveau base de données, une table ou vue, seuls les utilisateurs ayant les rôles appropriés seraient en mesure d'accéder aux données.

Étincelle

Le projet Spark Apache est rapidement devenu un nom de ménage (au moins dans Hadoop des ménages) en 2014 quand il est devenu un projet de haut niveau Apache (ce qui signifie qu'il est diplômé de l'état de l'incubateur) et un certain nombre de sociétés de distribution Hadoop alignés pour annoncer l'appui. Spark, comme un cadre cluster de calcul, est un autre projet qui est de réaliser l'énorme potentiel FILS amène à Hadoop dans le soutien de différents cadres de traitement de données.

Spark a été initialement développé par des chercheurs de l'Université de Berkeley, qui a créé la société Databricks retour en 2013 pour commercialiser, gagne rapidement de 14 millions $ en financement de capital de risque.

L'excitation autour de Spark vient de sa simplicité relative par rapport à MapReduce et son beaucoup plus de flexibilité pour le streaming et les charges de travail interactifs. En outre contrairement à MapReduce, Spark fait son traitement des données en mémoire, ce qui donne des avantages de performance considérables. Dans le même temps, il peut traiter de plus grands ensembles de données qui ne correspondent pas à la mémoire à partir du disque, mais il offre encore des avantages de performance parce Spark n'a pas besoin d'adhérer à la carte rigide de MapReduce et réduire les cycles, qui sont souvent pas optimale pour de nombreux algorithmes.

Comme un cadre général, Spark dispose d'un certain nombre de projets de l'enfant pour le traitement de données plus spécialisées: Spark streaming des flux de données en temps réel feeds- Shark, pour SQL interactive queries- machine Learning Library (MLlib) pour la machine Learning- et GraphX ​​pour le traitement graphique .

Orage

Apache Storm est le troisième moteur de l'analyse des données de streaming couvert dans cet article (avec Samza et Spark streaming que les deux autres), ce qui est un témoignage de la façon dont beaucoup d'attention l'analyse en temps réel est obtiennent dans la communauté Hadoop. Mais ces approches divergentes sont également des indications qu'il est encore tôt dans l'évolution des flux de données sur l'analyse Hadoop, car aucun de ces trois a émergé comme un chef de file. Tempête a été un projet actif la plus longue, après avoir été remis à la communauté open source après avoir été acquis par Twitter en 2011. tempête est maintenant un projet d'incubateur Apache.

Merci de travailler par les développeurs Hortonworks qui ont apporté dans la communauté Apache, la tempête a été équipée de travailler avec le cadre de fil. Ceci a provoqué la tempête dans l'écosystème Hadoop comme un traitement alternatif en temps réel.

Tez

Semblable à ce qui se passe avec les moteurs d'analyse de données de transmission en continu, un certain nombre de solutions ont émergé avec MapReduce pour le traitement distribué interactive. Spark est un exemple éminent de ces cadres. L'autre exemple majeur d'un tel cadre est Apache Tez, qui est largement tirée par Hortonworks.

La solution Hortonworks le défi SQL-sur-Hadoop est d'améliorer la ruche. Pour relever ce défi, Hortonworks annoncé son initiative de Stinger, qui a impliqué un certain nombre de changements à la ruche, impliquant un meilleur support pour les normes ANSI SQL et bien meilleures performances. Une limitation clé dans la ruche est sa dépendance à MapReduce pour le traitement des requêtes. MapReduce est limitée dans sa capacité à faire face à des opérations SQL communs tels que des jointures et des groupes garages, ce qui se traduit en très mauvaise performance par rapport aux autres solutions de bases de données relationnelles massivement parallèles fonctionnant à grande échelle comparable. Hortonworks annoncé le projet Tez de présenter un cadre alternatif de MapReduce, qui est optimisé pour plus optimales (et flexibles) possibilités de traitement de données. Tez sera également utilisé comme le cadre sous-jacent de Cochon.


» » » » 10 technologies émergentes Hadoop pour garder un oeil sur