Comment convertir des données brutes en une matrice d'analyse prédictive

Avant que vous pouvez extraire des groupes d'éléments de données similaires à partir de votre ensemble de données pour votre projet d'analyse prédictive, vous pourriez avoir besoin pour représenter vos données dans un format tabulaire connu comme un matrice de données

Sommaire

. Ceci est une étape de prétraitement qui vient avant le regroupement des données.

Comment faire pour créer une matrice de l'analyse prédictive des termes dans les documents

Supposons que l'ensemble de données que vous êtes sur le point d'analyse est contenue dans un ensemble de documents Microsoft Word. La première chose que vous devez faire est de convertir l'ensemble des documents dans une matrice de données. Plusieurs outils commerciaux et open-source peut gérer cette tâche, produire une matrice, dans lequel chaque ligne correspond à un document dans l'ensemble de données. Des exemples de ces outils comprennent RapidMiner, et les paquets de text-mining R.

UN document est, par essence, un ensemble de mots. UN terme est un ensemble d'un ou de plusieurs mots.

Chaque terme qui contient un document est mentionné soit une ou plusieurs fois dans le même document. Le nombre de fois qu'un terme est mentionné dans un document peut être représenté par fréquence du terme (TF), d'une valeur numérique.

Nous construisons la matrice des termes dans le document comme suit:




  • Les termes qui apparaissent dans tous les documents sont inscrits dans la rangée supérieure.

  • Les titres de documents sont listés en bas de la colonne de gauche

  • Les nombres qui apparaissent à l'intérieur des cellules de la matrice correspondent à la fréquence de chaque terme.

Par exemple, le document est représenté comme un ensemble de nombres (5,16,0,19,0,0.) Où 5 correspond au nombre de fois où le terme analyse prédictive est répété, 16 correspond au nombre de fois l'informatique est répétée, et ainsi de suite. Ceci est la façon la plus simple de convertir un ensemble de documents dans une matrice.

Analyses prédictivesL'informatiqueApprentissageClustering2,013Anthropologie
Document A51601900
Le document B862300
Document C052339
Document D1913467
Document E216160213
Document de F130191642

Notions de base de la sélection terme de l'analyse prédictive

Un défi en regroupant les documents de texte est de déterminer la façon de sélectionner les meilleures conditions pour représenter tous les documents de la collection. Quelle est l'importance d'un terme est dans une collection de documents peut être calculé de différentes façons.

Si, par exemple, vous comptez le nombre de fois qu'un terme est répété dans un document et à comparer ce total avec combien de fois il se retrouve dans toute la collection, vous obtenez un sens de l'importance relative de la le terme à d'autres termes.

Fonder l'importance relative d'un terme sur sa fréquence dans une collection est souvent connu comme pondération. Le poids que vous affectez peut être fondée sur deux principes:

  • Les termes qui apparaissent à plusieurs reprises dans un document sont favorisés par rapport termes qui apparaissent une seule fois.

  • Termes qui sont utilisés dans relativement peu de documents sont favorisées sur les termes qui sont mentionnés dans tous les documents.

Si (par exemple) le terme siècle est mentionné dans tous les documents dans votre ensemble de données, vous pourriez ne pas envisager d'affecter assez de poids pour avoir une colonne de sa propre dans la matrice.

De même, si vous avez affaire à un ensemble de données d'utilisateurs d'un réseau social en ligne, vous pouvez facilement convertir ce jeu de données dans une matrice. ID utilisateur ou les noms occuperont l'rows- les colonnes liste des caractéristiques qui décrivent le mieux les utilisateurs.


» » » » Comment convertir des données brutes en une matrice d'analyse prédictive