Comment utiliser mahout Apache pour l'analyse prédictive

Un outil open-source qui est uniquement utile dans l'analyse prédictive est Apache Mahout. Cette bibliothèque d'apprentissage comprend des versions à grande échelle de la classification, la classification, filtrage collaboratif, et d'autres algorithmes d'exploration de données qui peuvent soutenir une grande échelle d'analyse prédictive modèle.

Une façon hautement recommandé pour traiter les données nécessaires pour un tel modèle est de courir Mahout dans un système qui est déjà en cours d'exécution Hadoop. Hadoop désigne une machine maître qui orchestre les autres machines (comme Carte machines et réduire machines) employées dans son traitement distribué. Mahout doit être installé sur cette machine maître.

Imaginez que vous avez grande quantité de données en streaming - Google News articles - et vous souhaitez mettre en cluster par thème, en utilisant l'un des algorithmes de clustering. Après avoir installé Hadoop et Mahout, vous pouvez exécuter l'un des algorithmes - tels que K-means - sur vos données.

La mise en œuvre des K-means sous Mahout utilise une approche de MapReduce, ce qui le rend différent de la mise en œuvre normale de K-means. Mahout subdivise le K-means dans ces sous-procédures:

KmeansMapper lit le jeu de données d'entrée et assignera chaque point d'entrée à ses plus proches moyens initialement sélectionnés (représentants du cluster).
KmeansCombiner procédure prendra tous les dossiers - paires - produites par KmeansMapper et produit des sommes partielles pour faciliter le calcul des représentants de groupes ultérieurs.
KmeansReducer reçoit les valeurs produites par tous les sous-tâches (multiplexeurs) pour calculer les centroïdes des grappes réelles qui est la sortie finale de K-means.
KmeansDriver gère les itérations de la procédure jusqu'à ce que tous les groupes ont convergé. La sortie d'une itération donnée, une sortie de grappes partielle, est utilisée comme entrée pour l'itération suivante. Le processus de cartographie et de réduire l'ensemble de données jusqu'à ce que l'affectation des dossiers et des grappes montrent pas d'autres changements.

Apache Mahout est un projet- sa fonctionnalité récemment développé a encore beaucoup d'espace pour accueillir des extensions. Dans l'intervalle, Mahout utilise déjà MapReduce pour mettre en œuvre la classification, clustering, et d'autres techniques d'apprentissage automatique - et peut le faire sur une grande échelle.

A propos Auteur

Hadoop MapReduce pour Big Data

Pour comprendre pleinement les capacités de Hadoop MapReduce, il est important de différencier entre MapReduce (l'algorithme) et une mise en œuvre de MapReduce. Hadoop MapReduce est une implémentation de l'algorithme développé et maintenu par…

Comment choisir une architecture de cluster hadoop

Hadoop est conçu pour être déployé sur une grande grappe d'ordinateurs en réseau, avec des nœuds maîtres (qui accueillent les services qui contrôlent le stockage et le traitement de Hadoop) et nœuds esclaves (où les données sont stockées…

Apprentissage machine avec cornac dans Hadoop

Apprentissage automatique se réfère à une branche des techniques d'intelligence artificielle qui fournit des outils permettant d'ordinateurs pour améliorer leur analyse basée sur des événements antérieurs. Ces systèmes informatiques…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Applications en temps réel et en streaming dans Hadoop

Le flux de processus de fils ressemble beaucoup comme un cadre de l'exécution du lot. Vous pourriez vous demander, “? Qu'est-il arrivé à cette idée de flexibilité pour les différents modes d'applications ” Eh bien, le seul cadre de…

R sur Hadoop et la langue de r

La discipline de l'apprentissage machine dispose d'un catalogue riche et vaste de techniques. Mahout apporte une gamme d'outils statistiques et des algorithmes à la table, mais il ne saisit qu'une fraction de ces techniques et des algorithmes, que…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Notions de base de K-moyens et des modèles de clustering dbscan pour l'analyse prédictive

Apprentissage non supervisé a de nombreux défis pour l'analyse prédictive - y compris de ne pas savoir à quoi vous attendre lorsque vous exécutez un algorithme. Chaque algorithme va produire sur les résultats différent, vous ne serez jamais…

Comment créer et exécuter un modèle d'apprentissage non supervisé de faire des prédictions avec k-means

L'algorithme K-means nécessite un paramètre d'initialisation de l'utilisateur afin de créer une instance pour l'analyse prédictive. Il a besoin de savoir combien de K groupes à utiliser pour effectuer son travail.Longueur des sépalesSépale…

Comment créer un modèle d'apprentissage sans surveillance avec dbscan

Dbscan (Densité-Basé regroupement spatial des applications avec bruit) est un algorithme de clustering populaire utilisé comme une alternative à K-Means dans l'analyse prédictive. Il ne nécessite pas que vous entrez le nombre de grappes afin…

Comment évaluer un modèle d'apprentissage sans surveillance avec des k-means

Après que vous avez choisi votre nombre de grappes pour l'analyse prédictive et avez mis en place l'algorithme pour remplir les clusters, vous avez un modèle prédictif. Vous pouvez faire des prédictions basées sur les nouvelles données…

Comment utiliser Apache Hadoop pour l'analyse prédictive

Hadoop est une plate-forme de logiciel libre, open-source pour l'écriture et l'exécution d'applications qui traitent une grande quantité de données pour l'analyse prédictive. Il permet un traitement parallèle distribué de grands ensembles de…

Comment utiliser K-Means algorithmes de munitions dans l'analyse prédictive

K est une entrée à l'algorithme prédictif pour analyse- il représente le nombre de groupes que l'algorithme doit extraire à partir d'un ensemble de données, exprimée algébriquement comme k. Un algorithme K-means divise un ensemble de…

Comment visualiser les grappes dans un k-means modèle de l'apprentissage non supervisé

L'ensemble de données Iris est pas facile à tracer pour l'analyse prédictive dans sa forme originale. Par conséquent, vous devez réduire le nombre de dimensions en appliquant une algorithme de réduction de dimensionnalité qui fonctionne sur…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment utiliser mahout Apache pour l'analyse prédictive