10 technologies émergentes Hadoop pour garder un oeil sur

Avec Hadoop frapper mainstream avec une vengeance, les projets open source liés à Hadoop sont fleurissent un peu partout. Voici les dix meilleurs projets les plus intéressants de Hadoop émergents pour vous de garder un oeil sur. Certains d'entre eux pourrait bien stagner et mourir tranquillement si un remplacement était supérieure à venir le long, mais la plupart de ces spécimens évolution va probablement devenir des composants standard dans la plupart des distributions Hadoop.

Sommaire

Accumulo
Perceuse
Faucon
Giraph
Knox passerelle
Samza
Sentinelle
Étincelle
Orage
Tez

Cette liste se concentre sur les projets de la communauté Apache, car cet écosystème a été celui où la majorité des projets existants traditionnels Hadoop sont développés et maintenus. Aussi, les projets Apache ont des critères de gouvernance solides qui favorisent un processus de développement ouvert où les contributions de ses membres sont jugés sur leur mérite technique plutôt que sur un agenda d'entreprise.

Accumulo

Accumulo est un projet de stockage de données pour Hadoop, développé à l'origine par la National Security Agency (NSA) du gouvernement des États-Unis. Accumulo est une mise en œuvre BigTable pour Hadoop. Plus précisément, Accumulo est une carte triés multidimensionnelle, où chaque ligne possède une clé unique, les lignes sont stockées dans l'ordre de tri sur la base de cette clé, et chaque rangée peuvent avoir plusieurs versions (en d'autres termes, dimensions).

Il y avait beaucoup d'intérêt pour la NSA en utilisant HBase comme un magasin de données à grande échelle, mais il ne répond pas aux exigences de sécurité internes de la NSA. Les ingénieurs de la NSA ont ensuite construit Accumulo comme leur propre mise en œuvre BigTable et plus tard contribué à la communauté Apache. Le projet a depuis grandi Accumulo une communauté active de développement, avec les contributeurs d'un certain nombre d'organisations différentes - pas seulement les types d'ANE, en d'autres termes. Accumulo, maintenant soutenu par un certain nombre de grands fournisseurs de Hadoop, est de voir un taux d'adoption de plus en plus.

La principale caractéristique distinguant Accumulo d'autres implémentations BigTable est la sécurité à base de cellules, qui garantit que seuls les utilisateurs autorisés peuvent voir les données stockées dans toutes les lignes interrogés. Ceci est mis en œuvre par le biais d'étiquettes de sécurité, qui sont stockés à chaque rangée.

Perceuse

Un certain nombre de technologies émergentes et concurrentes sont là pour essayer de résoudre le problème SQL-sur-Hadoop. Bien que la plupart de ces technologies sont les solutions mono-entreprise, certains d'entre eux sont axé sur la collectivité, avec Hive l'exemple le plus frappant. Drill Apache est inspiré par le papier Google Dremel, qui présente un design pour un système interactif qui peut interroger les données stockées dans un système de fichiers distribué comme HDFS et ne pas avoir à compter sur MapReduce. L'objectif de conception pour Drill est d'être capable d'évoluer à des milliers de serveurs et de fournir des temps de réponse pour les requêtes subminute d'exploitation par rapport aux données pétaoctet échelle.

Au printemps 2014, Drill est encore un projet d'incubateur Apache, ce qui signifie qu'il n'a pas encore été accepté comme un projet à part entière Apache et est encore l'établissement d'une base de code stable et la gouvernance du projet. Mais il a un grand potentiel, alors ne soyez pas surpris si elle fait son chemin hors de l'incubateur bientôt.

Faucon

Avec l'intégration accrue des Hadoop dans des environnements d'entreposage de données, l'industrie voit un besoin important pour les capacités d'intégration de données et de gouvernance dans Hadoop. Les approches actuelles pour l'intégration des données et répondant à des critères de gouvernance impliquent ces deux choix:

Acheter un tel outillage auprès de fournisseurs établis tels que IBM et Informatica.
Ecrire vastes bibliothèques de code personnalisé.

Voilà ce que le projet Apache Falcon vise à répondre à un ensemble de services de gestion de données construites spécifiquement pour Hadoop. Comme Drill, Falcon est un projet d'incubateur Apache.

Les services de gestion de données à Falcon sont principalement axées sur la gestion de transfert de données et de transformation de données. Si vous n'êtes pas familier avec la gestion des données entre les bases de données transactionnelles et les bases de données de l'entrepôt, ce processus de transfert de données et de la transformation est communément connu sous le nom Extract, Transform et Load (ETL). Dans le cadre du cadre pour la manipulation de processus ETL, Falcon inclut la possibilité de stocker les métadonnées pour les données comme il est passé à travers les différentes étapes ETL. Falcon peut alors fournir des services pour la gestion du cycle de vie des données (par exemple, l'exécution des politiques de rétention), la réplication des données et le suivi de la lignée de données.

Giraph

Hadoop est assez bonne au stockage et le traitement des données dans les tableaux traditionnels (la ruche) et dans le style plus récent BigTable (HBase et Accumulo), mais dans de nombreux cas, les structures de stockage de données alternatives sont plus adaptés à la tâche à accomplir. Données du graphique semble assez différent de données de la table: Il n'a pas de lignes ou colonnes. Il est tout simplement un graphique, où les nœuds individuels (également connus comme sommets) Sont reliés les uns aux autres par des bords.

Pensez-y: Un énormes défis techniques que Google fait face est de trouver la meilleure façon de calculer le classement des résultats de recherche. Un facteur dans ce est de déterminer comment les pages Web individuelles populaires sont, selon le nombre de liens entrants proviennent d'autres pages web. De loin le moyen le plus pratique pour calculer ce pour toutes les pages est de représenter l'ensemble du World Wide Web comme un graphique, où les pages sont les nœuds et les liens sont les sommets. Pour capturer son travail de base de données graphique, Google a publié un document sur sa base de données graphique, qui est nommé Prégel.

Apache Giraph, un moteur de traitement graphique qui est basé sur le papier Prégel et a été construit spécifiquement pour Hadoop, peuvent lire et écrire des données à partir d'un certain nombre de sources Hadoop Hive standard, y compris, HBase et Accumulo.

La communauté Giraph est assez vaste et diversifié, avec des committers de code à partir d'un certain nombre d'organisations, y compris Facebook, Twitter et LinkedIn. Giraph est fermement établi comme le principal moteur de traitement graphique pour Hadoop, en termes de code échéance, la performance, et l'adoption. Fournisseurs Major Hadoop appuient maintenant Giraph et sera probablement l'inclure. (Le projet Apache BigTop fait déjà.)

Knox passerelle

Comme un système distribué avec des centaines ou des milliers d'ordinateurs individuels, les clusters Hadoop sont le cauchemar d'un administrateur de sécurité. Pour aggraver les choses, les nœuds de calcul dans un cluster Hadoop ont tous de multiples services qui parlent les uns aux autres et, dans certains cas, nécessitent une connectivité directe avec les applications clientes. Additionnez tous ces facteurs et vous avez une surface massive des ordinateurs avec des ports ouverts que vous devez protéger. Pour résoudre ce problème, Hortonworks a commencé le projet Apache Knox Gateway, qui est encore à ses débuts comme un projet d'incubateur Apache.

L'objectif principal de Knox Gateway est de fournir un périmètre de sécurité pour les clusters Hadoop. Elle accomplit cette mission en fournissant un point central pour l'authentification de cluster sur le bord d'un cluster Hadoop. En dehors de la grappe elle-même, Knox passerelle gère toutes les demandes entrantes des clients à un cluster ça gardiennage et achemine ensuite les demandes valides vers le service approprié dans le cluster Hadoop. En ce sens, Knox Gateway est littéralement une passerelle sécurisée pour toutes les communications entre le cluster Hadoop et le monde extérieur. Knox passerelle permet aux administrateurs réseau pour isoler le cluster Hadoop du monde extérieur, parce que tant que les serveurs Knox Gateway sont actifs, les clients disposent d'une connexion sécurisée à leurs services Hadoop.

Samza

Un aspect passionnant de fil est la possibilité de faire fonctionner différents types de charges de travail sur un cluster Hadoop. Avec MapReduce, vous êtes limité au traitement par lots, mais avec de nouvelles technologies telles que la Spark et Tez (dont nous parlons ci-dessous) et le foret précitée, Hadoop serez en mesure de supporter des requêtes interactives ainsi. Une autre classe de la charge de travail est des flux de données, qui est ce que le projet Apache Samza vise à attaquer. (Les données de streaming fonctionne pour traiter les données en temps réel au lieu de compter sur le stop-and-go aspect de traitement par lots.)

Le projet a été lancé par Samza ingénieurs de LinkedIn, qui avaient besoin d'un moteur de données de transmission en continu. Plutôt que de garder leur code interne, les ingénieurs développent LinkedIn Samza dans la communauté open source Apache. Au moment d'écrire ces lignes, Samza est encore à ses débuts comme un projet d'incubateur Apache. Bien que les moteurs d'autres données de streaming existent (comme Spark streaming et Storm, discuté ci-dessous), l'équipe LinkedIn a décidé de construire son propre moteur qui serait le mieux à ses besoins.

Sentinelle

La section sur le projet Knox passerelle ci-dessus met en vedette certains des défis de sécurité avec Hadoop. Bien que Knox passerelle traite autorisation système (veiller à ce que les utilisateurs sont autorisés à se connecter aux services du cluster Hadoop), il ne traite pas de la nécessité pressante de l'autorisation de données, où il ya des besoins de l'entreprise pour restreindre l'accès à des sous-ensembles de données. Un exemple courant est le besoin de cacher les tables qui contiennent des données sensibles telles que les numéros de cartes de crédit des analystes à la recherche de modèles de comportement. Le projet Apache Sentry a été lancé par Cloudera comme un moyen de fournir ce type de contrôle d'accès aux données stockées dans son projet Impala et dans la ruche. Au printemps 2014, Sentry est un projet d'incubateur Apache.

Sentry introduit le concept de différentes classes de rôle d'utilisateur à Hadoop, tout en permettant le classement des actifs de données dans Impala ou Hive. Selon la classification qui est appliquée au niveau base de données, une table ou vue, seuls les utilisateurs ayant les rôles appropriés seraient en mesure d'accéder aux données.

Étincelle

Le projet Spark Apache est rapidement devenu un nom de ménage (au moins dans Hadoop des ménages) en 2014 quand il est devenu un projet de haut niveau Apache (ce qui signifie qu'il est diplômé de l'état de l'incubateur) et un certain nombre de sociétés de distribution Hadoop alignés pour annoncer l'appui. Spark, comme un cadre cluster de calcul, est un autre projet qui est de réaliser l'énorme potentiel FILS amène à Hadoop dans le soutien de différents cadres de traitement de données.

Spark a été initialement développé par des chercheurs de l'Université de Berkeley, qui a créé la société Databricks retour en 2013 pour commercialiser, gagne rapidement de 14 millions $ en financement de capital de risque.

L'excitation autour de Spark vient de sa simplicité relative par rapport à MapReduce et son beaucoup plus de flexibilité pour le streaming et les charges de travail interactifs. En outre contrairement à MapReduce, Spark fait son traitement des données en mémoire, ce qui donne des avantages de performance considérables. Dans le même temps, il peut traiter de plus grands ensembles de données qui ne correspondent pas à la mémoire à partir du disque, mais il offre encore des avantages de performance parce Spark n'a pas besoin d'adhérer à la carte rigide de MapReduce et réduire les cycles, qui sont souvent pas optimale pour de nombreux algorithmes.

Comme un cadre général, Spark dispose d'un certain nombre de projets de l'enfant pour le traitement de données plus spécialisées: Spark streaming des flux de données en temps réel feeds- Shark, pour SQL interactive queries- machine Learning Library (MLlib) pour la machine Learning- et GraphX pour le traitement graphique .

Orage

Apache Storm est le troisième moteur de l'analyse des données de streaming couvert dans cet article (avec Samza et Spark streaming que les deux autres), ce qui est un témoignage de la façon dont beaucoup d'attention l'analyse en temps réel est obtiennent dans la communauté Hadoop. Mais ces approches divergentes sont également des indications qu'il est encore tôt dans l'évolution des flux de données sur l'analyse Hadoop, car aucun de ces trois a émergé comme un chef de file. Tempête a été un projet actif la plus longue, après avoir été remis à la communauté open source après avoir été acquis par Twitter en 2011. tempête est maintenant un projet d'incubateur Apache.

Merci de travailler par les développeurs Hortonworks qui ont apporté dans la communauté Apache, la tempête a été équipée de travailler avec le cadre de fil. Ceci a provoqué la tempête dans l'écosystème Hadoop comme un traitement alternatif en temps réel.

Tez

Semblable à ce qui se passe avec les moteurs d'analyse de données de transmission en continu, un certain nombre de solutions ont émergé avec MapReduce pour le traitement distribué interactive. Spark est un exemple éminent de ces cadres. L'autre exemple majeur d'un tel cadre est Apache Tez, qui est largement tirée par Hortonworks.

La solution Hortonworks le défi SQL-sur-Hadoop est d'améliorer la ruche. Pour relever ce défi, Hortonworks annoncé son initiative de Stinger, qui a impliqué un certain nombre de changements à la ruche, impliquant un meilleur support pour les normes ANSI SQL et bien meilleures performances. Une limitation clé dans la ruche est sa dépendance à MapReduce pour le traitement des requêtes. MapReduce est limitée dans sa capacité à faire face à des opérations SQL communs tels que des jointures et des groupes garages, ce qui se traduit en très mauvaise performance par rapport aux autres solutions de bases de données relationnelles massivement parallèles fonctionnant à grande échelle comparable. Hortonworks annoncé le projet Tez de présenter un cadre alternatif de MapReduce, qui est optimisé pour plus optimales (et flexibles) possibilités de traitement de données. Tez sera également utilisé comme le cadre sous-jacent de Cochon.

A propos Auteur

Traitement de Graph dans Hadoop

L'une des technologies les plus excitantes émergents NoSQL implique le stockage et le traitement des données graphiques. Vous pourriez penser que cette déclaration est de vieilles nouvelles parce que les scientifiques informatiques ont mis au…

Hadapt et Hadoop

Vers la fin de l'année 2010, Hadapt a été formé comme une start-up par deux étudiants de l'Université de Yale et professeur adjoint de science informatique. Professeur Daniel Abadi et Kamil Bajda-Pawlikowski, un étudiant au doctorat du…

Hadoop système de fichiers distribué (HDFS) fédération

La solution à l'expansion des grappes Hadoop indéfiniment est de fédérer l'NameNode. Avant Hadoop 2 est entré en scène, les clusters Hadoop ont dû vivre avec le fait que NameNode placé des limites à la mesure dans laquelle ils pourraient…

Comment choisir une architecture de cluster hadoop

Hadoop est conçu pour être déployé sur une grande grappe d'ordinateurs en réseau, avec des nœuds maîtres (qui accueillent les services qui contrôlent le stockage et le traitement de Hadoop) et nœuds esclaves (où les données sont stockées…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

Hawq Pivotal et Hadoop

En 2010, EMC et VMware, les leaders du marché dans la prestation de l'informatique comme un service via le cloud computing, acquis Greenplum Corporation, les gens qui avaient obtenu gain de cause le produit MPP Greenplum Data Warehouse (DW) sur le…

Applications en temps réel et en streaming dans Hadoop

Le flux de processus de fils ressemble beaucoup comme un cadre de l'exécution du lot. Vous pourriez vous demander, “? Qu'est-il arrivé à cette idée de flexibilité pour les différents modes d'applications ” Eh bien, le seul cadre de…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Sécurisation de vos données dans Hadoop

Comme Hadoop entre le courant dominant de l'informatique et commence à être utilisé d'une manière importante dans les environnements de production, les mêmes préoccupations en matière de sécurité applicables aux systèmes informatiques tels…

Access SQL et ruche apache

Apache Hive est incontestablement interface d'interrogation de données la plus répandue dans la communauté Hadoop. À l'origine, les objectifs de conception pour la ruche étaient pas pour assurer la compatibilité de SQL complète et de haute…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Comment utiliser mahout Apache pour l'analyse prédictive

Un outil open-source qui est uniquement utile dans l'analyse prédictive est Apache Mahout. Cette bibliothèque d'apprentissage comprend des versions à grande échelle de la classification, la classification, filtrage collaboratif, et d'autres…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » 10 technologies émergentes Hadoop pour garder un oeil sur