R sur Hadoop et la langue de r

La discipline de l'apprentissage machine dispose d'un catalogue riche et vaste de techniques. Mahout apporte une gamme d'outils statistiques et des algorithmes à la table, mais il ne saisit qu'une fraction de ces techniques et des algorithmes, que la tâche de convertir ces modèles à un cadre de MapReduce est un défi.

Au fil du temps, Mahout est sûr de continuer à développer sa boîte à outils statistiques, mais en attendant, tous les scientifiques et les statisticiens de données là-bas doivent être conscients de la variante du logiciel de modélisation statistique - qui est où R entre en jeu.




Le langage R est un environnement puissant et populaire langage et le développement statistique open-source. Il offre un écosystème d'analyse riches qui peuvent aider les scientifiques de données à l'exploration de données, la visualisation, l'analyse statistique et de l'informatique, la modélisation, l'apprentissage machine, et la simulation. Le langage R est couramment utilisé par les statisticiens, les mineurs de données, analystes de données, et (aujourd'hui) de données scientifiques.

Programmeurs en langage R ont accès à la Réseau global R Archive (CRAN), les bibliothèques qui, comme du temps de cette écriture, contient plus de 3000 paquets d'analyse statistique. Ces add-ons peuvent être tirés dans tout projet de R, fournissant des outils analytiques riches pour l'exécution de la classification, la régression, le clustering, modélisation linéaire et des algorithmes d'apprentissage machine plus spécialisés.

La langue est accessible à ceux qui sont familiers avec les types simples de structure de données - vecteurs, scalaires, des trames de données (matrices), etc. - couramment utilisés par les statisticiens ainsi que des programmeurs.

Hors de la boîte, l'un des écueils majeurs avec l'aide du langage R est le manque de soutien qu'elle offre pour l'exécution de tâches simultanées. Outils de langage statistique R comme excellent à une analyse rigoureuse, mais manquent d'évolutivité et de support natif pour les calculs parallèles.

Ces systèmes sont non distribuable et ne sont pas conçus pour être évolutifs pour le pétaoctet-monde moderne des grandes données. Propositions pour surmonter ces limitations doivent étendre la portée de R-delà de chargement en mémoire et environnements d'exécution informatique unique, tout en conservant le flair de R pour les algorithmes statistiques facilement déployables.


» » » » R sur Hadoop et la langue de r