L'intégration de Hadoop avec r

Au début, les grandes données et R ne sont pas amis naturels. R programmation nécessite que tous les objets sont chargés dans la mémoire principale d'une seule machine. Les limites de cette architecture sont vite rendu compte quand Big Data devient une partie de l'équation.

Sommaire

Rhive
Rhadoop
Révolution r
Ibm biginsights big r

En revanche, les systèmes de fichiers distribués tels que Hadoop sont absents des techniques statistiques solides, mais sont idéales pour mise à l'échelle des opérations et des tâches complexes. Vertical mise à l'échelle des solutions - qui nécessite des investissements dans le matériel de superinformatique coûteuse - ne peuvent souvent pas rivaliser avec le rapport coût-valeur rendement offert par distribués, des grappes de matériel de marchandise.

Pour se conformer aux limitations, de la langue de R seule machine en mémoire, de données scientifiques avaient souvent pour restreindre l'analyse à un sous-ensemble des données de l'échantillon disponible. Avant l'intégration plus profonde avec Hadoop, programmeurs en langage R offraient une stratégie de scale-out pour surmonter les défis en mémoire posés par de grands ensembles de données sur les machines simples.

Ceci a été réalisé en utilisant des systèmes et paging message-passing. Cette technique est en mesure de faciliter le travail sur des ensembles de données trop grand pour stocker dans la mémoire principale simultaneously- de Toutefois, son approche de programmation de bas niveau présente une courbe d'apprentissage abrupte pour ceux peu familiers avec les paradigmes de programmation parallèle.

Des approches alternatives cherchent à intégrer les capacités statistiques de R avec les groupes distribués Hadoop de deux façons: l'interfaçage avec des langues de requête SQL, et l'intégration avec Hadoop streaming. Avec l'ancien, l'objectif est de tirer parti des plates-formes d'entreposage de données SQL existantes telles que Hive et Pig. Ces schémas simplifier la programmation d'emploi en utilisant Hadoop déclarations SQL de style afin d'offrir une programmation de haut niveau pour mener des travaux statistiques sur les données Hadoop.

Pour les programmeurs qui souhaitent programmer emplois MapReduce en langues (y compris R) autres que Java, une deuxième option est de faire usage de l'API Streaming Hadoop. Soumis par les utilisateurs emplois MapReduce subissent des transformations de données avec l'aide de flux standard UNIX et sérialisation, garantissant entrée compatible Java pour Hadoop - indépendamment de la langue à l'origine entré par le programmeur.

Développeurs continuent d'explorer diverses stratégies pour tirer parti de la capacité de calcul distribué de MapReduce et la capacité de stockage presque illimitée de HDFS d'une manière qui pourrait être exploitée par R.

Intégration de Hadoop avec R est en cours, avec des offres disponibles auprès d'IBM (Big R dans le cadre de BigInsights) et Analytics Revolution (Révolution R __gVirt_NP_NN_NNPS<__ Enterprise). Combler des solutions qui intègrent programmation de haut niveau et l'interrogation de langues avec Hadoop, comme RHive et RHadoop, sont également disponibles.

Fondamentalement, chaque système a pour but de fournir les capacités analytiques profondes de la langue de R à beaucoup plus grands ensembles de données.

RHive

Le cadre RHive sert de pont entre le langage R et Hive. RHive délivre les bibliothèques statistiques riches et des algorithmes de R aux données stockées dans Hadoop en étendant SQL comme langage de requête Hive (HiveQL) avec des fonctions spécifiques-R. Grâce aux fonctions RHive, vous pouvez utiliser HiveQL d'appliquer R modèles statistiques à des données dans votre cluster Hadoop que vous avez catalogué en utilisant la ruche.

RHadoop

Un autre framework open source disponible pour les programmeurs R est RHadoop, une collection de paquets destinés à les aider à gérer la distribution et l'analyse des données avec Hadoop. Trois paquets de la note - rmr2, rhdfs et rhbase - fournir la plupart des fonctionnalités de RHadoop:

rmr2: Le paquet de rmr2 soutient la traduction de la langue de R en emplois Hadoop MapReduce conformes (production efficace, code MapReduce bas niveau à partir du code R de niveau supérieur).
rhdfs: Le paquet rhdfs fournit une API de langage R pour la gestion de fichiers sur les magasins HDFS. Utilisation rhdfs, les utilisateurs peuvent lire des magasins HDFS à une trame de données R (matrice), et de même écrire des données à partir de ces matrices R retour en stockage HDFS.
rhbase: rhbase paquets fournissent une API de langage R ainsi, mais leur but dans la vie est de faire face à la gestion de base de données pour les magasins Hbase, plutôt que des fichiers HDFS.

Révolution R

Révolution R (par Revolution Analytics) est un R offre commerciale avec l'appui de l'intégration de R sur les systèmes distribués Hadoop. Révolution R promet de livrer une meilleure performance, la fonctionnalité et la convivialité R sur Hadoop. Pour fournir des analyses profondes semblable à R, R Révolution rend l'utilisation de la bibliothèque de Scaler de l'entreprise - une collection d'algorithmes d'analyse statistique développées spécifiquement pour les collections Big Data échelle de l'entreprise.

Scaler vise à offrir une exécution rapide du code de programme de R sur des clusters Hadoop, permettant au développeur de R se concentrer exclusivement sur leurs algorithmes statistiques et non sur MapReduce. En outre, il gère de nombreuses tâches d'analyse, tels que la préparation des données, la visualisation et les tests statistiques.

IBM BigInsights Big R

Big R offre une intégration de bout en bout entre R et Hadoop l'offre d'IBM, BigInsights, permettant aux développeurs de R pour analyser les données Hadoop. L'objectif est d'exploiter la syntaxe de programmation de R et paradigmes de codage, tout en assurant que les données opérés séjours dans HDFS. Types de données R servent de procurations à ces magasins de données, ce qui signifie que les développeurs R ne doivent pas penser à des constructions de MapReduce bas niveau ou des langages de script Hadoop-spécifiques (comme cochon).

La technologie BigInsights Big R prend en charge plusieurs sources de données - y compris les fichiers plats, HBase, et les formats de stockage de la ruche - tout en assurant l'exécution en parallèle et partitionné de code R sur le cluster Hadoop. Il cache beaucoup des complexités sous-jacentes dans les HDFS et MapReduce cadres, permettant fonctions Big R pour effectuer des analyses de données globales - sur des données structurées et non structurées.

Enfin, l'évolutivité de moteur statistique de Big R permet aux développeurs R de faire usage de deux techniques statistiques prédéfinis, ainsi que l'auteur de nouveaux algorithmes eux-mêmes.

A propos Auteur

Hadoop système de fichiers distribué (HDFS) fédération

La solution à l'expansion des grappes Hadoop indéfiniment est de fédérer l'NameNode. Avant Hadoop 2 est entré en scène, les clusters Hadoop ont dû vivre avec le fait que NameNode placé des limites à la mesure dans laquelle ils pourraient…

Hadoop porc ou de latin pour les Big Data

La puissance et la flexibilité de Hadoop pour les grandes données sont immédiatement visibles pour les développeurs de logiciels principalement parce que l'écosystème Hadoop a été construit par les développeurs, pour les développeurs.…

Hadoop Sqoop pour Big Data

Sqoop (SQL-à-Hadoop) est un outil grand de données qui offre la possibilité d'extraire des données à partir des données magasins non Hadoop, transformer les données en une forme utilisable par Hadoop, puis charger les données dans HDFS. Ce…

Modes locaux et distribués de l'exécution de scripts de porcs dans Hadoop

Avant vous pouvez exécuter votre premier script de cochon dans Hadoop, vous devez avoir une poignée sur la façon dont les programmes de porc peuvent être fournis avec le serveur de porc.Pig dispose de deux modes pour l'exécution de scripts:Mode…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

Pig latin dans les programmes de porcs de Hadoop

Pig latin est la langue pour les programmes de porc. Pig traduit le script Pig Latin en emplois MapReduce qu'il peut être exécuté dans clusters Hadoop. En venant avec Pig Latin, l'équipe de développement a suivi trois principes clés de la…

Hawq Pivotal et Hadoop

En 2010, EMC et VMware, les leaders du marché dans la prestation de l'informatique comme un service via le cloud computing, acquis Greenplum Corporation, les gens qui avaient obtenu gain de cause le produit MPP Greenplum Data Warehouse (DW) sur le…

R sur Hadoop et la langue de r

La discipline de l'apprentissage machine dispose d'un catalogue riche et vaste de techniques. Mahout apporte une gamme d'outils statistiques et des algorithmes à la table, mais il ne saisit qu'une fraction de ces techniques et des algorithmes, que…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Exécution des modèles statistiques dans le MapReduce Hadoop de

Conversion de modèles statistiques pour fonctionner en parallèle est une tâche difficile. Dans le paradigme traditionnel pour la programmation parallèle, accès à la mémoire est régulée par l'utilisation de les discussions - les…

Les scripts latin de porc dans Hadoop

Hadoop est un écosystème riche et évolue rapidement avec un ensemble croissant de nouvelles applications. Plutôt que d'essayer de faire face à toutes les exigences de nouvelles capacités, de porc est conçu pour être extensible via fonctions…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Big analyse de données fournisseurs de solutions

Un certain nombre de fournisseurs sur le marché aujourd'hui soutenir le besoin croissant de solutions de données de grandes pour votre entreprise. Voici une liste de quelques solutions que vous pourriez trouver intéressant:IBM adopte une approche…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » L'intégration de Hadoop avec r