L'exploration de données pour les données volumineuses

L'exploration de données consiste à explorer et d'analyser de grandes quantités de données pour trouver des modèles pour les grandes données. Les techniques sont sortis des domaines de la statistique et de l'intelligence artificielle (IA), avec un peu de gestion de base de données jeté dans le mix.

En règle générale, l'objectif de l'exploration de données est soit le classement ou la prédiction. Dans la classification, l'idée est de trier les données en groupes. Par exemple, un agent de commercialisation pourrait être intéressé par les caractéristiques de ceux qui ont répondu par rapport qui n'a pas répondu à une promotion.

Ce sont deux classes. En prévision, l'idée est de prédire la valeur d'une variable continue. Par exemple, un agent de commercialisation pourrait être intéressé à prédire ceux qui sera répondre à une promotion.

Algorithmes typiques utilisés dans l'extraction de données sont les suivants:

  • Les arbres de classification: Une technique de data-mining populaire qui est utilisé pour classer une variable dépendante à partir des mesures d'une ou plusieurs variables prédictives. Le résultat est un arbre avec des noeuds et des liens entre les nœuds qui peuvent être lus à la forme si-alors des règles.




  • Régression logistique: Une technique statistique qui est une variante de la régression standard, mais étend le concept pour faire face à la classification. Il produit une formule qui prédit la probabilité de l'événement en fonction des variables indépendantes.

  • Les réseaux de neurones: Un algorithme de logiciel qui est calqué sur l'architecture parallèle du cerveau des animaux. Le réseau se compose de noeuds d'entrée, calques masqués et noeuds de sortie. Chaque unité se voit attribuer un poids. Des données est donnée au noeud d'entrée, et par un système d'essai et d'erreur, l'algorithme ajuste les coefficients de pondération jusqu'à ce qu'il rencontre un certain critère d'arrêt. Certaines personnes ont comparé cela à une approche boîte noire.

  • Techniques de clustering comme K plus proches voisins: Une technique qui identifie les groupes de dossiers semblables. Le plus proche K-technique voisin calcule les distances entre le dossier et les points dans le (la formation) des données historiques. Il attribue ensuite cet enregistrement à la classe de son voisin le plus proche dans un ensemble de données.

Voici un exemple d'arbre de classification. Considérez la situation où une compagnie de téléphone veut déterminer quels clients résidentiels sont susceptibles de débrancher leur service.

La compagnie de téléphone a informations comprenant les attributs suivants: combien de temps la personne a eu le service, combien il dépense sur le service, si le service a été problématique, qu'il a le meilleur plan d'appel dont il a besoin, où il vit, comment vieux, il est, qu'il a d'autres services groupés ensemble, informations sur la concurrence concernant d'autres plans de transporteurs, et si il a encore le service.

Bien sûr, vous pouvez trouver de nombreux attributs plus que cela. Le dernier attribut est le résultat Variable- ceci est ce que le logiciel va utiliser pour classer les clients dans l'un des deux groupes - peut-être appelés non-migrants et les risques de vol.

L'ensemble de données est divisé en données d'entraînement et un ensemble de données de test. Les données de la formation consiste en des observations (appelés attributs) et une variable de résultat (binaire dans le cas d'un modèle de classification) - dans ce cas, les restants ou les risques de vol.

L'algorithme est exécuté sur les données de formation et est livré avec un arbre qui peut être lue comme une série de règles. Par exemple, si les clients ont été avec la compagnie depuis plus de dix ans et ils sont plus de 55 ans, ils sont susceptibles de rester clients loyaux.

Ces règles sont ensuite exécutés sur l'ensemble de données de test afin de déterminer comment ce modèle est bonne sur “ de nouvelles données ”. Mesures de précision sont fournis pour le modèle. Par exemple, une technique populaire est la matrice de confusion. Cette matrice est un tableau qui fournit des informations sur le nombre de cas ont été correctement par rapport incorrectement classé.

Si le modèle semble bon, il peut être déployé sur d'autres données, comme il est disponible (qui est, en l'utilisant pour prédire de nouveaux cas de risque de fuite). Basé sur le modèle, la société pourrait décider, par exemple, d'envoyer des offres spéciales aux clients qui il pense sont les risques de vol.


» » » » L'exploration de données pour les données volumineuses