Comment utiliser mahout Apache pour l'analyse prédictive

Un outil open-source qui est uniquement utile dans l'analyse prédictive est Apache Mahout. Cette bibliothèque d'apprentissage comprend des versions à grande échelle de la classification, la classification, filtrage collaboratif, et d'autres algorithmes d'exploration de données qui peuvent soutenir une grande échelle d'analyse prédictive modèle.

Une façon hautement recommandé pour traiter les données nécessaires pour un tel modèle est de courir Mahout dans un système qui est déjà en cours d'exécution Hadoop. Hadoop désigne une machine maître qui orchestre les autres machines (comme Carte machines et réduire machines) employées dans son traitement distribué. Mahout doit être installé sur cette machine maître.

Imaginez que vous avez grande quantité de données en streaming - Google News articles - et vous souhaitez mettre en cluster par thème, en utilisant l'un des algorithmes de clustering. Après avoir installé Hadoop et Mahout, vous pouvez exécuter l'un des algorithmes - tels que K-means - sur vos données.




La mise en œuvre des K-means sous Mahout utilise une approche de MapReduce, ce qui le rend différent de la mise en œuvre normale de K-means. Mahout subdivise le K-means dans ces sous-procédures:

  • KmeansMapper lit le jeu de données d'entrée et assignera chaque point d'entrée à ses plus proches moyens initialement sélectionnés (représentants du cluster).

  • KmeansCombiner procédure prendra tous les dossiers - paires - produites par KmeansMapper et produit des sommes partielles pour faciliter le calcul des représentants de groupes ultérieurs.

  • KmeansReducer reçoit les valeurs produites par tous les sous-tâches (multiplexeurs) pour calculer les centroïdes des grappes réelles qui est la sortie finale de K-means.

  • KmeansDriver gère les itérations de la procédure jusqu'à ce que tous les groupes ont convergé. La sortie d'une itération donnée, une sortie de grappes partielle, est utilisée comme entrée pour l'itération suivante. Le processus de cartographie et de réduire l'ensemble de données jusqu'à ce que l'affectation des dossiers et des grappes montrent pas d'autres changements.

Apache Mahout est un projet- sa fonctionnalité récemment développé a encore beaucoup d'espace pour accueillir des extensions. Dans l'intervalle, Mahout utilise déjà MapReduce pour mettre en œuvre la classification, clustering, et d'autres techniques d'apprentissage automatique - et peut le faire sur une grande échelle.


» » » » Comment utiliser mahout Apache pour l'analyse prédictive