Les techniques d'analyse et d'extraction pour le Big Data

En général, les solutions d'analyse de texte pour les grandes données utilisent une combinaison de techniques statistiques et de traitement du langage naturel (NLP) pour extraire des informations à partir de données non structurées. PNL est un domaine vaste et complexe qui a développé au cours des 20 dernières années.

Sommaire

Un des principaux objectifs de la PNL est de déterminer la signification du texte. Natural Language Processing utilise généralement des concepts linguistiques telles que les structures et parties du discours grammaticales. Souvent, l'idée derrière ce type d'analyse est de déterminer qui a fait quoi à qui, quand, où, comment, et pourquoi.

PNL effectue une analyse sur le texte à différents niveaux:

  • Analyse lexicale / morphologique examine les caractéristiques d'un mot individuel - y compris les préfixes, suffixes, les racines et les parties du discours (nom, verbe, adjectif, etc.) - des informations qui contribueront à la compréhension de ce que signifie le mot dans le contexte du texte fourni. Analyse lexicale dépend d'un dictionnaire, ou dans une liste de mots qui fournit des informations sur ces mots.

  • Analyse syntaxique utilise la structure grammaticale de disséquer le texte et mettre des mots individuels dans leur contexte. Ici vous élargissez votre regard d'un seul mot à la phrase ou la phrase complète. Cette étape peut schématiser la relation entre les mots (la grammaire) ou rechercher des séquences de mots qui forment des phrases correctes ou pour des séquences de nombres qui représentent des dates ou des valeurs monétaires.




  • L'analyse sémantique détermine les significations possibles d'une phrase. Cela peut inclure l'examen de l'ordre des mots et la structure de la phrase et lever l'ambiguïté des mots en reliant la syntaxe trouvée dans les expressions, des phrases et des paragraphes.

  • Analyse au niveau du discours les tentatives pour déterminer le sens du texte au-delà du niveau de la phrase.

Comprendre les informations extraites de Big Data

Certaines techniques, combinées avec d'autres techniques statistiques ou linguistiques pour automatiser le marquage et le balisage des documents de texte, permet d'extraire les types d'informations suivants:

  • Conditions: Un autre nom pour les mots clés.

  • Entités: Souvent appelé entités nommées, ce sont des exemples spécifiques d'abstractions. Les exemples sont des noms de personnes, noms de sociétés, des emplacements géographiques, des informations de contact, des dates, des heures, des devises, des titres et des positions, et ainsi de suite. Par exemple, un logiciel de synthèse analytique peut extraire l'entité Jane Doe comme une personne visée dans le texte en cours d'analyse. L'entité 3 mars 2007 peut être extrait comme une date, et ainsi de suite.

  • Réalités: Aussi appelé relations, faits indiquent le qui / quoi / où les relations entre les deux entités. John Smith est le PDG de la société Y et L'aspirine réduit la fièvre sont des exemples de faits.

  • Événements: Alors que certains experts utilisent les termes fait, relations, et événement interchangeable, d'autres la distinction entre les événements et les faits, déclarant que les événements contiennent généralement une dimension de temps et provoquent faits changent souvent. Les exemples incluent un changement de direction au sein d'une entreprise ou le statut d'un processus de vente.

  • Concepts: Ce sont des jeux de mots et des phrases qui indiquent une idée ou un sujet particulier avec lequel l'utilisateur est concerné. Par exemple, le concept client mécontent peut inclure les mots colère, déçu, et confus et les phrases service de débranchement, n'a pas rappelé, et gaspillage d'argent - entre autres. Ainsi, le concept client mécontent peut être extrait sans les mots malheureux ou client apparaissant dans le texte.

  • Sentiments: Analyse des sentiments est utilisé pour identifier les points de vue ou des émotions dans le texte sous-jacent. Certaines techniques font en classant texte comme, par exemple, subjective (opinion) ou objectif (fait), en utilisant des techniques d'apprentissage automatique ou la PNL. Analyse des sentiments est devenu très populaire dans “ voix du client ” sortes d'applications.

Big taxonomies de données

Taxonomies sont souvent critiques à un texte d'analyse. UN taxonomie est une méthode pour organiser l'information dans les relations hiérarchiques. Il est parfois désigné comme un moyen d'organisation de catégories. Parce que une taxonomie définit les relations entre les termes utilisées par une société, il est plus facile de trouver et ensuite analyser le texte.

Par exemple, un fournisseur de services de télécommunications offre à la fois avec et sans fil. Dans le service sans fil, l'entreprise peut soutenir les téléphones cellulaires et l'accès Internet. L'entreprise peut alors avoir deux ou plusieurs façons de catégoriser service de téléphone cellulaire, tels que les plans et les types de téléphones. La taxonomie pourrait atteindre tout le chemin vers le bas pour les parties d'un téléphone lui-même.

Les taxonomies peuvent également utiliser des synonymes et des expressions alternatives, en reconnaissant que téléphone portable, téléphone cellulaire, et le téléphone portable sont tous les mêmes. Ces taxonomies peuvent être très complexes et peuvent prendre beaucoup de temps pour se développer.


» » » » Les techniques d'analyse et d'extraction pour le Big Data