Bases de données structurées et non structurées dans l'analyse prédictive

Les données contenues dans les bases de données, documents, e-mails et autres fichiers de données pour l'analyse prédictive peuvent être classés soit comme des données structurées ou non structurées. Structuré données est bien organisé, suit un ordre cohérent, il est relativement facile de rechercher et de recherche, et peut être facilement accessible et comprise par une personne ou un programme d'ordinateur.

Un exemple classique de données structurées est une feuille de calcul Excel avec des colonnes marquées. Ces données structurées est-têtes de colonnes consistent- - généralement brèves, des descriptions précises du contenu dans chaque colonne - vous dire exactement quel type de contenu à attendre.

Les données structurées sont généralement stockées dans des schémas bien définis tels que les bases de données. Il est généralement sous forme de tableau, avec des colonnes et des lignes qui définissent clairement ses attributs.

Unstructured données, d'autre part, tend à être de forme libre, non tabulaire, dispersée, et pas facilement retrievable- ces données nécessite une intervention délibérée de lui donner un sens. Divers e-mails, documents, pages Web et des fichiers (si le texte, audio et / ou vidéo) dans des endroits épars sont des exemples de données non structurées.

Il est difficile de catégoriser le contenu des données non structurées. Il tend à être principalement du texte, il est généralement créé dans un méli-mélo de styles de forme libre, et de trouver tous les attributs que vous pouvez utiliser pour décrire ou groupe, il est pas une mince tâche.

Le contenu de données non structurées est difficile de travailler avec ou sens de programmation. Les programmes d'ordinateur ne peuvent pas analyser ou de générer des rapports sur ces données, tout simplement parce qu'il manque de structure, n'a pas de caractère dominant sous-jacent, et les éléments individuels de données avoir aucun terrain d'entente.




En général, il ya un pourcentage plus élevé de données non structurées que des données structurées dans le monde. Les données non structurées exige plus de travail pour le rendre utile, il reçoit plus d'attention - donc tendance à consommer plus de temps.

Ne pas sous-estimer l'importance des données structurées et la puissance qu'il apporte à votre analyse. Il est beaucoup plus efficace pour analyser les données structurées que d'analyser les données non structurées. Les données non structurées peuvent également être coûteux pour prétraiter pour l'analyse que vous construisez un projet d'analyse prédictive. La sélection des données pertinentes, son nettoyage, et les transformations ultérieures peut être longue et fastidieuse.

Les données nouvellement organisées résultants de ces étapes de prétraitement nécessaires peuvent ensuite être utilisés dans un modèle d'analyse prédictive. La transformation de gros de données non structurées cependant, peut avoir à attendre jusqu'à ce que vous avez votre modèle d'analyse prédictive et en cours d'exécution.

Analyse d'exploration de données et de texte existe deux approches pour les documents texte de structuration, reliant leur contenu, de regroupement et résumant leurs données, et de découvrir des modèles dans ces données. Les deux disciplines fournissent un cadre riche d'algorithmes et techniques pour exploiter le texte dispersés à travers une mer de documents.

Il est également intéressant de noter que les plateformes des moteurs de recherche fournissent des outils facilement disponibles pour les données d'indexation et de le rendre consultable.

Comparons les données structurées et non structurées.

CaractéristiquesStructuréUnstructured
AssociationOrganiséDispersés et dispersé
ApparenceFormellement définiForme libre
AccessibilitéFacile d'accès et de rechercheDifficile d'accès et de recherche
DisponibilitéPercentagewise inférieurePercentagewise supérieur
AnalyseEfficace pour analyserPrétraitement supplémentaire est nécessaire

Les données non structurées ne manque pas complètement la structure - vous avez juste à démasquer. Même le texte à l'intérieur des fichiers numériques a encore une structure qui lui est associée, montrant souvent dans les métadonnées - par exemple, les titres des documents, les fichiers dates de dernière modification, et les noms de leurs auteurs.

La même chose vaut pour les e-mails: Le contenu peut être non structurée, mais les données structurées est associé avec eux - par exemple, la date et le temps qu'ils ont été envoyés, les noms de leurs expéditeurs et des destinataires, si elles contiennent des pièces jointes.

La ligne de séparation entre les deux types de données ne sont pas toujours claires. En général, vous pouvez toujours trouver certains attributs de données non structurées qui peuvent être considérées comme des données structurées. Que cette structure est le reflet de la teneur de ces données - ou utile dans l'analyse de données - ne sait pas au mieux.

Pour cette question, les données structurées peuvent contenir des données non structurées en son sein. Dans un formulaire web, par exemple, les utilisateurs peuvent être invités à améliorer les informations sur un produit en choisissant une réponse de choix multiples - mais aussi présentés avec une boîte de commentaires où ils peuvent fournir des commentaires supplémentaires.

Les réponses de choix multiples sont structured- le champ de commentaire est structuré en raison de sa forme libre nature. Ces cas doivent être considérés comme un mélange de données structurées et non structurées. La plupart des données est un composite des deux.

Pour un projet d'analyse prédictive de succès, les deux vos données structurées et non structurées doivent être combinées dans un format logique qui peut être analysé.


» » » » Bases de données structurées et non structurées dans l'analyse prédictive