L'analyse des sentiments social avec Hadoop

Analyse de sentiment social est facilement le plus démesuré de l'Hadoop utilise, ce qui ne devrait pas être une surprise, étant donné que le monde est connecté en permanence et la population actuelle expressive. Ce cas d'utilisation exploite le contenu des forums, des blogs et sociaux autres ressources médiatiques pour développer le sens de ce que les gens font (par exemple, les événements de la vie) et comment ils réagir au monde autour d'eux (sentiment).

Parce que les données à base de texte ne correspondait pas naturellement dans une base de données relationnelle, Hadoop est un endroit pratique pour explorer et lancer des analyses sur ces données.

La langue est difficile à interpréter, même pour les êtres humains à des moments - surtout si vous lisez un texte écrit par des gens dans un groupe social qui est différente de la vôtre. Ce groupe de personnes peut être parlant votre langue, mais leurs expressions et le style sont complètement étranger, de sorte que vous avez aucune idée si ils parlent une bonne expérience ou une mauvaise.

Par exemple, si vous entendez le mot bombe en référence à un film, cela pourrait signifier que le film était mauvaise (ou bonne, si vous faites partie du mouvement de la jeunesse qui interprète “ Il est da bombe ” comme un compliment) - bien sûr, si vous êtes dans le secteur de la sécurité aérienne, le mot bombe a une signification tout à fait différente. Le point est que le langage est utilisé dans de nombreuses façons variables et est en constante évolution.

Lorsque vous analysez le sentiment sur les médias sociaux, vous pouvez choisir parmi de multiples approches. La méthode de base analyse par programme le texte, extrait des chaînes, et applique des règles. Dans les situations simples, cette approche est raisonnable. Mais, comme l'évolution des exigences et règles deviennent plus complexes, de codage manuellement texte-extractions devient rapidement plus possible du point de vue de la maintenance du code, en particulier pour l'optimisation des performances.

Approches fondées sur les règles Grammar- et à traitement de texte sont coûteux en calcul, ce qui est une considération importante dans l'extraction à grande échelle dans Hadoop. Le plus impliqué les règles (qui est inévitable pour des fins complexes telles que l'extraction de sentiment), plus le traitement qui est nécessaire.




Alternativement, une approche fondée sur des statistiques-est de plus en plus commun pour l'analyse des sentiments. Plutôt que d'écrire manuellement des règles complexes, vous pouvez utiliser les modèles d'apprentissage automatique orientée classification-à Apache Mahout. Le hic est que vous aurez besoin de former vos modèles avec des exemples de sentiment positif et négatif. Les données plus de formation que vous fournissez (par exemple, le texte de tweets et votre classement), plus la précision de vos résultats.

Le cas d'utilisation pour l'analyse de sentiment social peut être appliquée à un large éventail d'industries. Par exemple, considérer la sécurité alimentaire: Essayer de prédire ou d'identifier le déclenchement de maladies d'origine alimentaire le plus rapidement possible est extrêmement important de responsables de la santé.

La figure suivante montre une application Hadoop ancrée qui ingère tweets utilisant extracteurs basés sur la maladie potentielle: grippe ou INTOXICATION ALIMENTAIRE.

image0.jpg

Voyez-vous la carte de chaleur produite qui montre l'emplacement géographique des tweets? Une caractéristique des données dans un monde de Big Data est que la plupart de celui-ci est spatialement enrichi: Il contient des informations localité (et attributs temporels, aussi). Dans ce cas, le profil Twitter a été inverse conçu en recherchant l'emplacement publié.

Comme il se trouve, beaucoup de comptes Twitter ont des emplacements géographiques dans le cadre de leurs profils publics (ainsi que les avertissements indiquant clairement que leurs pensées sont leur propre plutôt que de parler de leurs employeurs).

Comment bien d'un moteur de prédiction des médias sociaux peut être pour le déclenchement de la grippe ou un incident d'intoxication alimentaire? Considérons les exemples de données anonymisées indiqués. Vous pouvez voir que les signaux de médias sociaux ont emporté tous les autres indicateurs pour prédire une épidémie de grippe dans un comté des États-Unis spécifique au cours de la fin de l'été et en début d'automne.

image1.jpg

Cet exemple montre un autre avantage qui découle de l'analyse des médias sociaux: Il vous donne une occasion sans précédent d'étudier l'information d'attribut dans les profils des affiches. Accordé, ce que les gens disent sur eux-mêmes dans leurs profils Twitter sont souvent incomplètes (par exemple, le code d'emplacement est pas remplie) ou non significative (le code de localisation pourrait dire nuage).

Mais vous pouvez apprendre beaucoup sur les gens au fil du temps, en fonction de ce qu'ils disent. Par exemple, un client peut avoir tweeted (posté sur Twitter) l'annonce de la naissance de son bébé, une photo Instagram de sa dernière peinture, ou un détachement Facebook déclarant qu'elle ne peut pas croire le comportement de Walter White dans la nuit dernière de Breaking Bad finale.

Dans cet exemple, omniprésente, votre entreprise peut extraire un événement de la vie qui remplit une famille-graphe (un nouvel enfant est une mise à jour valable pour un profil de Master Data Management fondée sur la personne), un passe-temps (peinture), et un attribut d'intérêt (que vous aimez le spectacle Breaking Bad).

En analysant les données sociales de cette façon, vous avez la possibilité d'étoffer les qualités personnelles de l'information tels que les loisirs, les anniversaires, les événements de la vie, des emplacements géographiques (pays, état, et de la ville, par exemple), l'employeur, le sexe, l'état matrimonial, et Plus.

Supposons un instant que vous êtes le CIO d'une compagnie aérienne. Vous pouvez utiliser les affectations de voyageurs fréquents heureux ou en colère pour vérifier non seulement le sentiment, mais arrondir également des profils de clients pour votre programme de fidélisation en utilisant les informations des médias sociaux.

Imaginez combien mieux vous pouvez cibler des clients potentiels avec les informations que vous venez partagée - par exemple, un e-mail indiquant au client que la saison 5 de Breaking Bad est maintenant disponible sur le système des médias de l'avion ou annonçant que les enfants de moins de deux ans volent gratuitement.

Il est également un bon exemple de la façon dont les systèmes de dossier (par exemple, des ventes ou des bases de données d'abonnement) peuvent répondre à des systèmes d'engagement (par exemple, des canaux de support). Bien que la rédemption et Voyage de l'histoire des membres de fidélité est dans une base de données relationnelle, le système d'engagement peut mettre à jour les dossiers (par exemple, une colonne).


» » » » L'analyse des sentiments social avec Hadoop