Les techniques d'analyse et d'extraction pour le Big Data

En général, les solutions d'analyse de texte pour les grandes données utilisent une combinaison de techniques statistiques et de traitement du langage naturel (NLP) pour extraire des informations à partir de données non structurées. PNL est un domaine vaste et complexe qui a développé au cours des 20 dernières années.

Sommaire

Comprendre les informations extraites de big data
Big taxonomies de données

Un des principaux objectifs de la PNL est de déterminer la signification du texte. Natural Language Processing utilise généralement des concepts linguistiques telles que les structures et parties du discours grammaticales. Souvent, l'idée derrière ce type d'analyse est de déterminer qui a fait quoi à qui, quand, où, comment, et pourquoi.

PNL effectue une analyse sur le texte à différents niveaux:

Analyse lexicale / morphologique examine les caractéristiques d'un mot individuel - y compris les préfixes, suffixes, les racines et les parties du discours (nom, verbe, adjectif, etc.) - des informations qui contribueront à la compréhension de ce que signifie le mot dans le contexte du texte fourni. Analyse lexicale dépend d'un dictionnaire, ou dans une liste de mots qui fournit des informations sur ces mots.
Analyse syntaxique utilise la structure grammaticale de disséquer le texte et mettre des mots individuels dans leur contexte. Ici vous élargissez votre regard d'un seul mot à la phrase ou la phrase complète. Cette étape peut schématiser la relation entre les mots (la grammaire) ou rechercher des séquences de mots qui forment des phrases correctes ou pour des séquences de nombres qui représentent des dates ou des valeurs monétaires.
L'analyse sémantique détermine les significations possibles d'une phrase. Cela peut inclure l'examen de l'ordre des mots et la structure de la phrase et lever l'ambiguïté des mots en reliant la syntaxe trouvée dans les expressions, des phrases et des paragraphes.
Analyse au niveau du discours les tentatives pour déterminer le sens du texte au-delà du niveau de la phrase.

Comprendre les informations extraites de Big Data

Certaines techniques, combinées avec d'autres techniques statistiques ou linguistiques pour automatiser le marquage et le balisage des documents de texte, permet d'extraire les types d'informations suivants:

Conditions: Un autre nom pour les mots clés.
Entités: Souvent appelé entités nommées, ce sont des exemples spécifiques d'abstractions. Les exemples sont des noms de personnes, noms de sociétés, des emplacements géographiques, des informations de contact, des dates, des heures, des devises, des titres et des positions, et ainsi de suite. Par exemple, un logiciel de synthèse analytique peut extraire l'entité Jane Doe comme une personne visée dans le texte en cours d'analyse. L'entité 3 mars 2007 peut être extrait comme une date, et ainsi de suite.
Réalités: Aussi appelé relations, faits indiquent le qui / quoi / où les relations entre les deux entités. John Smith est le PDG de la société Y et L'aspirine réduit la fièvre sont des exemples de faits.
Événements: Alors que certains experts utilisent les termes fait, relations, et événement interchangeable, d'autres la distinction entre les événements et les faits, déclarant que les événements contiennent généralement une dimension de temps et provoquent faits changent souvent. Les exemples incluent un changement de direction au sein d'une entreprise ou le statut d'un processus de vente.
Concepts: Ce sont des jeux de mots et des phrases qui indiquent une idée ou un sujet particulier avec lequel l'utilisateur est concerné. Par exemple, le concept client mécontent peut inclure les mots colère, déçu, et confus et les phrases service de débranchement, n'a pas rappelé, et gaspillage d'argent - entre autres. Ainsi, le concept client mécontent peut être extrait sans les mots malheureux ou client apparaissant dans le texte.
Sentiments: Analyse des sentiments est utilisé pour identifier les points de vue ou des émotions dans le texte sous-jacent. Certaines techniques font en classant texte comme, par exemple, subjective (opinion) ou objectif (fait), en utilisant des techniques d'apprentissage automatique ou la PNL. Analyse des sentiments est devenu très populaire dans “ voix du client ” sortes d'applications.

Big taxonomies de données

Taxonomies sont souvent critiques à un texte d'analyse. UN taxonomie est une méthode pour organiser l'information dans les relations hiérarchiques. Il est parfois désigné comme un moyen d'organisation de catégories. Parce que une taxonomie définit les relations entre les termes utilisées par une société, il est plus facile de trouver et ensuite analyser le texte.

Par exemple, un fournisseur de services de télécommunications offre à la fois avec et sans fil. Dans le service sans fil, l'entreprise peut soutenir les téléphones cellulaires et l'accès Internet. L'entreprise peut alors avoir deux ou plusieurs façons de catégoriser service de téléphone cellulaire, tels que les plans et les types de téléphones. La taxonomie pourrait atteindre tout le chemin vers le bas pour les parties d'un téléphone lui-même.

Les taxonomies peuvent également utiliser des synonymes et des expressions alternatives, en reconnaissant que téléphone portable, téléphone cellulaire, et le téléphone portable sont tous les mêmes. Ces taxonomies peuvent être très complexes et peuvent prendre beaucoup de temps pour se développer.

A propos Auteur

Outils de Text Mining pour Big Data

Voici un aperçu de quelques-uns des joueurs dans le grand marché de données d'analyse de texte. Certains sont petits tandis que d'autres sont des noms familiers. Certains appellent ce qu'ils font grandes analyse de texte de données, tandis que…

Mettez grandes données à utiliser

Text Analytics peuvent être utilisés pour aider à avoir un aperçu des données. Donc, si les données sont big data? Cela voudrait dire que le données non structurées en cours d'analyse est un volume élevé, à grande vitesse, ou les deux.Big…

Text Analytics for big données non structurées

De nombreuses méthodes existent pour l'analyse de données non structurées pour votre grande initiative de données. Historiquement, ces techniques sont sortis de domaines techniques tels que traitement du langage naturel (NLP), la découverte de…

Les normes de base communes: grades 6-12 règles et conventions du langage

Dans les normes de base communes pour la langue pour les élèves de 6-12, les étudiants reçoivent des conseils sur le bon usage de la grammaire et les autres conventions de la langue anglaise. Les normes de langue pour chaque niveau sont…

Les normes de base communes: K-5 règles et les conventions de la langue anglaise

Les normes fondamentales communes pour la langue décrivent les niveaux de qualité à laquelle les élèves doivent maîtriser des aspects particuliers de la langue anglaise utilisée en lecture, écriture, expression orale et écoute. Voici un…

Les normes de base communes: lecture et de déchiffrer des textes informatifs en k-5

Vous remarquerez de nombreuses similitudes sur les normes fondamentales communes entre les normes de lecture pour la littérature et les normes de lecture pour les textes informatifs, mais il est important de se rappeler que les normes pour les…

Les parties du discours dans une phrase

La partie du discours est une partie importante de l'identité de chaque mot dans la langue anglaise. Certains mots peuvent fonctionner que comme une partie du discours. Ils ne changent jamais. Ils peuvent effectuer un travail dans la phrase, et…

Comment les entreprises utilisent des statistiques d'analyse de régression

L'analyse de régression est un outil statistique utilisé pour l'étude des relations entre les variables. Habituellement, l'enquêteur cherche à savoir l'effet causal d'une variable sur une autre - l'effet d'une hausse des prix sur demande, par…

Recherche basée sur mot clé par rapport à la recherche sémantique: Seo

Vous avez probablement appris par votre recherche SEO que les moteurs de recherche utilisent des mots clés pour correspondre à des résultats aux requêtes. Cependant, ce ne est pas tout à fait vrai. Les moteurs de recherche ont d'abord été…

Mémoriser les paroles des chansons que du texte

Une bonne façon de mémoriser des paroles est de regarder la chanson comme un monologue ou une histoire. Écrire ou taper les mots, y compris la ponctuation, de sorte que vous pouvez examiner les paroles en dehors de la mélodie et de jeter un oeil…

Introduction à l'analyse technique pour les investisseurs en actions

Pour tirer le meilleur profit de l'utilisation de l'analyse technique, vous avez besoin de comprendre comment il fonctionne et ce qu'il est que vous regardez. L'analyse technique est basée sur les hypothèses suivantes.Le prix est l'alpha et…

Composants de haut niveau de XBRL et leurs définitions

La figure suivante illustre les composants logiques de haut niveau du langage XBRL. La spécification XBRL définit ces composants logiques de haut niveau et les moyens physiques par lesquels les exprimer. Le tableau suivant fournit une brève…

Comment traduire les données de médias de Social CRM dans métriques

Quand beaucoup de gens pensent d'abord à des données et des analyses Social CRM, qu'ils pensent de résultats quantitatifs adaptés pour les feuilles de calcul, et ils peuvent donner des aperçus puissants par l'analyse des facteurs quantitatifs.…

Comment utiliser diagrammes entité-relation dans votre entreprise rapport d'analyse

Si vous êtes à la recherche d'un moyen de définir la façon dont les données sont mis en place dans votre entreprise système d'analyse, vous allez adorer la diagramme entité-relation (ERD). La DRE vous aide à organiser et à documenter les…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » Les techniques d'analyse et d'extraction pour le Big Data