Exécution des modèles statistiques dans le MapReduce Hadoop de
Conversion de modèles statistiques pour fonctionner en parallèle est une tâche difficile. Dans le paradigme traditionnel pour la programmation parallèle, accès à la mémoire est régulée par l'utilisation de les discussions - les sous-processus créés par le système d'exploitation de distribuer une unique mémoire partagée entre plusieurs processeurs.
Des facteurs tels que les conditions de course entre les threads concurrents - lorsque deux ou plusieurs threads essaient de modifier les données partagées dans le même temps - peut influer sur les performances de votre algorithme, ainsi que d'affecter la précision des résultats statistiques de vos sorties du programme - en particulier pour les long l'exécution des analyses de grandes séries d'échantillons.
Une approche pragmatique à ce problème est de supposer que pas beaucoup de statisticiens connaître les tenants et les aboutissants de MapReduce (et vice-versa), et vous ne pouvez attendre, ils seront conscients de tous les pièges qui entraîne la programmation parallèle. Contributeurs au projet Hadoop ont (et continuent à se développer) des outils statistiques avec ces réalités à l'esprit.
Le résultat: Hadoop offre de nombreuses solutions pour mettre en œuvre les algorithmes nécessaires pour effectuer la modélisation et l'analyse statistique, sans surcharger le statisticien nuancées considérations de programmation parallèle.
A propos Auteur
Comment écrire des applications MapReduce L'API MapReduce est écrit en Java, donc applications MapReduce sont basées sur Java principalement. La liste suivante indique les composants d'une application de MapReduce que vous pouvez développer:Driver (obligatoire): Ceci est la coquille de…
Modes locaux et distribués de l'exécution de scripts de porcs dans Hadoop Avant vous pouvez exécuter votre premier script de cochon dans Hadoop, vous devez avoir une poignée sur la façon dont les programmes de porc peuvent être fournis avec le serveur de porc.Pig dispose de deux modes pour l'exécution de scripts:Mode…
Apprentissage machine avec cornac dans Hadoop Apprentissage automatique se réfère à une branche des techniques d'intelligence artificielle qui fournit des outils permettant d'ordinateurs pour améliorer leur analyse basée sur des événements antérieurs. Ces systèmes informatiques…
Gérer grandes ressources de données et des applications avec fil de Hadoop La planification des tâches et de suivi pour les grandes données sont des parties intégrantes de Hadoop MapReduce et peuvent être utilisés pour gérer les ressources et les applications. Les premières versions de Hadoop faveur d'un système de…
Gestion des données de grandes avec Hadoop HDFS et MapReduce: Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…
Bases de données de traitement massivement parallèle Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…
Pig latin dans les programmes de porcs de Hadoop Pig latin est la langue pour les programmes de porc. Pig traduit le script Pig Latin en emplois MapReduce qu'il peut être exécuté dans clusters Hadoop. En venant avec Pig Latin, l'équipe de développement a suivi trois principes clés de la…
R sur Hadoop et la langue de r La discipline de l'apprentissage machine dispose d'un catalogue riche et vaste de techniques. Mahout apporte une gamme d'outils statistiques et des algorithmes à la table, mais il ne saisit qu'une fraction de ces techniques et des algorithmes, que…
Les applications en cours avant hadoop 2 Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…
L'écosystème Hadoop Apache Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…
L'écosystème du client HBase HBase est écrit en Java, un langage élégant pour la construction de technologies distribuées comme HBase, mais le visage il - pas tout le monde qui veut prendre avantage des innovations Hbase est un développeur Java. Voilà pourquoi il ya un…
Big analyse de données fournisseurs de solutions Un certain nombre de fournisseurs sur le marché aujourd'hui soutenir le besoin croissant de solutions de données de grandes pour votre entreprise. Voici une liste de quelques solutions que vous pourriez trouver intéressant:IBM adopte une approche…
Comment utiliser Apache Hadoop pour l'analyse prédictive Hadoop est une plate-forme de logiciel libre, open-source pour l'écriture et l'exécution d'applications qui traitent une grande quantité de données pour l'analyse prédictive. Il permet un traitement parallèle distribué de grands ensembles de…
Big data et les origines de MapReduce MapReduce est de plus en plus utile pour les gros volumes de données. Au début des années 2000, certains ingénieurs de Google sont penchés sur l'avenir et a déterminé que pendant que leurs solutions actuelles pour des applications telles que…