Exécution des modèles statistiques dans le MapReduce Hadoop de

Conversion de modèles statistiques pour fonctionner en parallèle est une tâche difficile. Dans le paradigme traditionnel pour la programmation parallèle, accès à la mémoire est régulée par l'utilisation de les discussions - les sous-processus créés par le système d'exploitation de distribuer une unique mémoire partagée entre plusieurs processeurs.

Des facteurs tels que les conditions de course entre les threads concurrents - lorsque deux ou plusieurs threads essaient de modifier les données partagées dans le même temps - peut influer sur les performances de votre algorithme, ainsi que d'affecter la précision des résultats statistiques de vos sorties du programme - en particulier pour les long l'exécution des analyses de grandes séries d'échantillons.

Une approche pragmatique à ce problème est de supposer que pas beaucoup de statisticiens connaître les tenants et les aboutissants de MapReduce (et vice-versa), et vous ne pouvez attendre, ils seront conscients de tous les pièges qui entraîne la programmation parallèle. Contributeurs au projet Hadoop ont (et continuent à se développer) des outils statistiques avec ces réalités à l'esprit.

Le résultat: Hadoop offre de nombreuses solutions pour mettre en œuvre les algorithmes nécessaires pour effectuer la modélisation et l'analyse statistique, sans surcharger le statisticien nuancées considérations de programmation parallèle.


» » » » Exécution des modèles statistiques dans le MapReduce Hadoop de