Comment convertir des données brutes en une matrice d'analyse prédictive

Avant que vous pouvez extraire des groupes d'éléments de données similaires à partir de votre ensemble de données pour votre projet d'analyse prédictive, vous pourriez avoir besoin pour représenter vos données dans un format tabulaire connu comme un matrice de données

Sommaire

Comment faire pour créer une matrice de l'analyse prédictive des termes dans les documents
Notions de base de la sélection terme de l'analyse prédictive

. Ceci est une étape de prétraitement qui vient avant le regroupement des données.

Comment faire pour créer une matrice de l'analyse prédictive des termes dans les documents

Supposons que l'ensemble de données que vous êtes sur le point d'analyse est contenue dans un ensemble de documents Microsoft Word. La première chose que vous devez faire est de convertir l'ensemble des documents dans une matrice de données. Plusieurs outils commerciaux et open-source peut gérer cette tâche, produire une matrice, dans lequel chaque ligne correspond à un document dans l'ensemble de données. Des exemples de ces outils comprennent RapidMiner, et les paquets de text-mining R.

UN document est, par essence, un ensemble de mots. UN terme est un ensemble d'un ou de plusieurs mots.

Chaque terme qui contient un document est mentionné soit une ou plusieurs fois dans le même document. Le nombre de fois qu'un terme est mentionné dans un document peut être représenté par fréquence du terme (TF), d'une valeur numérique.

Nous construisons la matrice des termes dans le document comme suit:

Les termes qui apparaissent dans tous les documents sont inscrits dans la rangée supérieure.
Les titres de documents sont listés en bas de la colonne de gauche
Les nombres qui apparaissent à l'intérieur des cellules de la matrice correspondent à la fréquence de chaque terme.

Par exemple, le document est représenté comme un ensemble de nombres (5,16,0,19,0,0.) Où 5 correspond au nombre de fois où le terme analyse prédictive est répété, 16 correspond au nombre de fois l'informatique est répétée, et ainsi de suite. Ceci est la façon la plus simple de convertir un ensemble de documents dans une matrice.

Analyses prédictives	L'informatique	Apprentissage	Clustering	2,013	Anthropologie

Document A	5	16	0	19	0	0
Le document B	8	6	2	3	0	0
Document C	0	5	2	3	3	9
Document D	1	9	13	4	6	7
Document E	2	16	16	0	2	13
Document de F	13	0	19	16	4	2

Notions de base de la sélection terme de l'analyse prédictive

Un défi en regroupant les documents de texte est de déterminer la façon de sélectionner les meilleures conditions pour représenter tous les documents de la collection. Quelle est l'importance d'un terme est dans une collection de documents peut être calculé de différentes façons.

Si, par exemple, vous comptez le nombre de fois qu'un terme est répété dans un document et à comparer ce total avec combien de fois il se retrouve dans toute la collection, vous obtenez un sens de l'importance relative de la le terme à d'autres termes.

Fonder l'importance relative d'un terme sur sa fréquence dans une collection est souvent connu comme pondération. Le poids que vous affectez peut être fondée sur deux principes:

Les termes qui apparaissent à plusieurs reprises dans un document sont favorisés par rapport termes qui apparaissent une seule fois.
Termes qui sont utilisés dans relativement peu de documents sont favorisées sur les termes qui sont mentionnés dans tous les documents.

Si (par exemple) le terme siècle est mentionné dans tous les documents dans votre ensemble de données, vous pourriez ne pas envisager d'affecter assez de poids pour avoir une colonne de sa propre dans la matrice.

De même, si vous avez affaire à un ensemble de données d'utilisateurs d'un réseau social en ligne, vous pouvez facilement convertir ce jeu de données dans une matrice. ID utilisateur ou les noms occuperont l'rows- les colonnes liste des caractéristiques qui décrivent le mieux les utilisateurs.

A propos Auteur

Comment regrouper par plus proches voisins dans l'analyse prédictive

Les voisins les plus proches est un algorithme simple largement utilisé dans l'analyse prédictive pour regrouper les données en attribuant un point à un cluster en déterminant ce que les autres éléments sont le plus semblable à lui. Une…

Comment visualiser les données brutes analyse prédictive "

Une image vaut mille mots - surtout quand vous essayez d'obtenir une bonne poignée sur vos données d'analyse prédictive. A l'étape de pré-traitement, alors que vous vous préparez vos données, il est de pratique courante de visualiser ce que…

Modifier les propriétés d'un document dans SharePoint 2010

Dans SharePoint 2010, vous pouvez utiliser un document de modifier le menu ou le ruban pour afficher et modifier les propriétés d'un document. Par défaut, SharePoint 2010 ne demande que ces trois propriétés:Nom: Le nom de fichier. Par exemple,…

Gérer le contenu avec SharePoint ensembles de documents en ligne

Dans SharePoint Online, l'un des Microsoft Office 365 suite de produits, un ensemble de documents vous permet de regrouper des documents sur la base de certains critères et ensuite travailler avec le groupe de documents comme une seule entité.Par…

Apprenez à connaître le Word 2007 courrier fonctionnalité de fusion

Courrier Merge est une fonctionnalité de Word 2007 qui vous permet de prendre un seul document, comme une lettre, ajouter une liste de noms et de données, et de les combiner (fusionner) le tout dans un ensemble final de documents, dont chacun est…

L'analyse statistique avec Excel pour les nuls

Excel peut vous aider à faire toutes sortes de calculs. Voici une sélection de fonctions de feuille de statistiques d'Excel. Chacun retourne une valeur dans une cellule sélectionnée.Tendance centrale et de variabilitéFonctionQu'est-ce qu'il…

Comment faire pour créer une trame de données à partir d'une matrice dans r

Vous pouvez créer une trame de données à partir d'une matrice dans R. Jetez un oeil à le nombre de paniers marqués par Granny et son amie Géraldine. Si vous créez une matrice baskets.team avec le nombre de paniers pour les deux dames, vous…

Comment déterminer une structure de données en r

La première décision que vous devez faire avant d'analyser vos données est de savoir comment représenter ces données à l'intérieur de R. Si vos données n'a qu'une dimension, alors vous savez déjà que les vecteurs représentent ce type de…

Copiez une matrice à un autre sur la TI-83 Plus

Il ya plusieurs situations dans lesquelles vous pouvez copier le contenu d'une matrice à un autre sur la plus calculatrice TI-83 graphique. L'un d'eux est lorsque vous souhaitez définir une nouvelle matrice en ajoutant lignes et de colonnes d'une…

Comment multiplier les matrices par l'autre

Multipliant les matrices est très utile lors de la résolution des systèmes d'équations. En effet, on peut multiplier une matrice inverse de sa part et d'autre du signe égal à finalement obtenir la matrice variable sur un côté et la solution…

Messing avec les questions de la matrice sur le test de mathématiques de loi

Chaque fois que dans un certain temps l'acte peut glisser un problème de matrice dans le test de mathématiques. Si vous en voyez un, ne paniquez pas. Ils sont faciles à traiter quand vous passez en revue l'approche.Une matrice est simplement un…

Stratégie de loi pour multiplier une matrice par un nombre réel

Vous pouvez rencontrer des questions ACT Math qui vous demandent de multiplier une matrice entière par un nombre réel. Heureusement, cette opération est simple: il suffit de multiplier le nombre entier pour chaque élément dans la matrice. Cela…

Stratégie de loi pour multiplier une matrice verticale par une matrice horizontale

Sur le test ACT Math, vous aurez probablement à multiplier paires de matrices qui ont soit une ligne ou une colonne. Un moyen facile de multiplier une matrice verticale par une matrice horizontale est de mettre en place une petite grille qui…

Ajouter un document à l'acte! Onglet Documents

Dans ACT! 2008, l'ajout d'un fichier à l'onglet Documents est facile et vaut bien l'effort. L'onglet Documents, que vous pouvez trouver sur les contacts, les groupes ou les fenêtres Entreprises, vous permet d'attacher ou de créer un raccourci…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment convertir des données brutes en une matrice d'analyse prédictive