Comment chercher vos données d'analyse prédictive

Pour utiliser vos données d'analyse prédictive vous devez savoir comment trouver l'information que vous voulez trouver. Il ya deux principaux concepts de la recherche de vos données en vue de l'utiliser dans l'analyse prédictive:

Sommaire

  • Se préparer à aller au-delà de la recherche de base de mots clés

  • Faire vos données interrogeable sémantiquement

Comment utiliser la recherche par mot-clé dans l'analyse prédictive

Imaginez si vous étiez chargé de la recherche de grandes quantités de données. Une façon d'aborder le problème consiste à émettre une requête de recherche qui consiste (évidemment) de mots. L'outil de recherche cherche correspondant à des mots dans la base, l'entrepôt de données, ou va fouiller dans tout texte dans lequel vos données réside.

Supposons que vous êtes émettant la requête de recherche ci-dessous: le Président des États-Unis se rend en Afrique. Les résultats de la recherche seront constitués de texte qui contient exactement un ou une combinaison des mots Président, États-Unis, visites, Afrique. Vous pouvez obtenir de l'information exacte que vous cherchez, mais pas toujours.

Que dire des documents qui ne contiennent pas l'un des mots mentionné précédemment, mais une combinaison de ce qui suit: Le voyage d'Obama au Kenya.




Aucun des mots que vous avez initialement recherchés sont là - mais les résultats de la recherche sont sémantiquement (de façon significative) utile. Comment pouvez-vous préparer vos données pour être sémantiquement récupérable? Comment pouvez-vous aller au-delà de la recherche par mot clé traditionnelle? Vos réponses sont peut être trouvée si vous continuez à lire.

Comment utiliser des recherches sémantiques à base de l'analyse prédictive

Une illustration de la façon dont la sémantique basée sur la recherche qui fonctionne est un projet qui Anasse Bari conduit au Groupe de la Banque mondiale, une organisation internationale dont la mission principale est de lutter contre la pauvreté dans le monde.

Le projet visait à enquêter sur la recherche d'entreprise à grande échelle existante et d'analyse sur le marché et construire un prototype d'un cadre de pointe qui organiserait les données de la Banque mondiale - dont la plupart était une collection structurée de documents, publications, rapports de projet, mémoires, et des études de cas.

Cette connaissance massif précieux est une ressource utilisée vers la mission principale de la Banque de réduire la pauvreté mondiale. Mais le fait qu'il est non structuré rend difficile d'accès, de capture, de partager, de comprendre, de recherche, de données mienne, et de visualiser.

La Banque mondiale est une immense organisation, avec de nombreuses divisions dans le monde entier. L'une des principales divisions cherchait à avoir un cadre et était prêt à allouer des ressources pour aider l'équipe de Bari était le Réseau du développement humain à la Banque mondiale.

Le vice-président du Réseau du développement humain décrit un problème qui est né de l'ambiguïté: Sa division utilisé plusieurs termes et concepts qui ont la même signification globale, mais des nuances différentes.

Par exemple, des termes tels que climatologie, le changement climatique, l'épuisement de l'ozone de gaz, et les émissions à effet de serre étaient tous sémantiquement liés, mais pas identiques dans le sens. Il voulait une capacité de recherche assez intelligent pour extraire les documents qui contenaient des concepts connexes lorsque quelqu'un recherche un de ces termes.

Le «cadre de prototype pour cette capacité que l'équipe sélectionnée Bari était la gestion de l'information non structurée Architecture (UIMA), une solution basée sur un logiciel. Conçu à l'origine par IBM Research, UIMA est disponible dans le logiciel IBM comme IBM Content Analytics, un des outils qui alimentés IBM Watson, le célèbre ordinateur qui a gagné le jeu Jeopardy.

L'équipe Bari a uni ses forces avec une équipe très talentueuse d'IBM Content Management et Enterprise Search, et plus tard avec une équipe IBM Watson, de collaborer à ce projet.

Un Gestion de l'information non structurée (de UIM) solution est un système logiciel qui analyse de grands volumes d'informations non structurées (texte, audio, vidéo, images, etc.) pour découvrir, organiser et offrir des connaissances pertinentes pour le client ou l'application de l'utilisateur final.

La ontologie d'un domaine est un ensemble de concepts et de termes associés à un domaine particulier. Une solution basée sur UIMA utilise ontologies pour fournir l'étiquetage sémantique, qui permet enrichi recherche indépendante du format de données (texte, discours, présentation PowerPoint, e-mail, la vidéo, et ainsi de suite). UIMA ajoute une autre couche de données capturées, puis ajoute métadonnées pour identifier les données qui peuvent être structurées et sémantiquement cherché.

La recherche sémantique est basé sur la signification contextuelle des termes de recherche tels qu'ils apparaissent dans l'espace de données interrogeable qui UIMA construit. La recherche sémantique est plus précis que la recherche en fonction de mots-clés d'habitude en raison d'une requête de l'utilisateur retourne des résultats de recherche non seulement des documents qui contiennent les termes de recherche, mais aussi des documents qui sont sémantiquement pertinents à la requête.

Si vous êtes à la recherche de la biodiversité en Afrique, un (par mots-clés) recherche typique retourne les documents qui ont les mots exacts la biodiversité et Afrique. Une recherche sémantique basé sur UIMA reviendra non seulement les documents qui ont ces deux mots, mais aussi tout ce qui est sémantiquement pertinente pour “ la biodiversité en Afrique ” les documents qui contiennent ces combinaisons de mots que “ ressources végétales en Afrique, n ° 148; “ ressources animales au Maroc, n ° 148; ou “ les ressources génétiques au Zimbabwe ”.

Grâce à l'étiquetage et l'utilisation des ontologies sémantique, l'information devient sémantiquement récupérable, indépendamment de la langue ou le milieu dans lequel l'information a été créé (Word, PowerPoint, e-mail, la vidéo, et ainsi de suite). Cette solution fournit une plate-forme unique où les données peuvent être capturées, organisés, échangés et rendus sémantiquement récupérable.

Dictionnaires de synonymes et les termes connexes sont open-source (disponible gratuitement) - ou vous pouvez développer vos propres dictionnaires spécifiques à votre domaine ou à vos données. Vous pouvez construire une feuille de calcul avec la racine du mot et de ses mots connexes correspondantes, synonymes et des termes plus larges. La feuille de calcul peut être téléchargé en un outil de recherche tels que IBM Content Analytics (ICA) pour alimenter les recherche d'entreprise et d'analyse de contenu.


» » » » Comment chercher vos données d'analyse prédictive