Comment trouver la valeur dans vos données d'analyse prédictive

Tout voyage réussie exige une préparation sérieuse. Modèles d'analyse prédictive sont essentiellement une plongée en profondeur dans de grandes quantités de données. Si les données ne sont pas bien préparé, le modèle d'analyse prédictive va sortir de la plongée sans poissons. La clé pour trouver la valeur dans l'analyse prédictive est de préparer les données - soigneusement et méticuleusement - que votre modèle va utiliser pour faire des prédictions.

Sommaire

Traitement de données à l'avance peuvent être une pierre d'achoppement dans le processus d'analyse prédictive. Acquérir de l'expérience dans la construction de modèles prédictifs - et, en particulier, la préparation des données - enseigne l'importance de la patience. Sélection, le traitement, le nettoyage et la préparation des données est laborieuse. Il est la tâche la plus fastidieuse dans le cycle de vie analyse prédictive. Cependant, une bonne préparation et systématique des données va augmenter considérablement les chances que vos analyses de données porteront leurs fruits.

Même si cela prend du temps et des efforts pour construire ce premier modèle prédictif, une fois que vous prenez la première étape - la construction du premier modèle qui trouve la valeur dans vos données - puis les futurs modèles seront moins de ressources et de temps, même avec tout nouveau des ensembles de données. Même si vous ne l'utilisez pas les mêmes données pour le prochain modèle, vos analystes de données auront acquis une expérience précieuse avec le premier modèle.

Comment se plonger dans vos données d'analyse prédictive

En utilisant une analogie de fruits, vous avez non seulement pour enlever le mauvais pelage ou le couvercle, mais creuser en elle pour se rendre à l'nucleus- que vous obtenez plus près du noyau, vous arrivez à la meilleure partie du fruit. La même règle vaut pour les grandes données.

image0.jpg

Notions de base de l'analyse des données validité prédictive




Les données ne sont pas toujours valide lorsque vous le rencontrez première. La plupart des données sont soit incomplet (il manque certains attributs ou des valeurs) ou bruyant (contenant des valeurs aberrantes ou des erreurs). Dans les domaines de la bio-informatique biomédicale, par exemple, les valeurs aberrantes peuvent conduire les analyses pour générer des résultats incorrects ou trompeurs.

Les valeurs aberrantes dans les données du cancer, par exemple, peuvent être un facteur important qui biaise la précision des traitements médicaux: des échantillons d'expression du gène peut apparaître comme positifs de cancer faux parce qu'ils ont été analysés contre un échantillon qui contenait des erreurs.

Des données incohérentes sont des données qui contient les écarts dans les attributs de données. Par exemple, un enregistrement de données peut avoir deux attributs qui ne correspondent pas: par exemple, un code (comme 20037) et un état correspondant (Delaware). Des données incorrectes peuvent conduire à la modélisation prédictive tort, ce qui conduit à des résultats analytiques trompeuses qui vont entraîner de mauvaises décisions de la haute direction.

Par exemple, l'envoi de coupons pour les couches à des gens qui ont pas d'enfants est une erreur assez évident. Mais il peut arriver facilement si le département marketing d'une entreprise de la couche se termine avec des résultats invalides de leur modèle d'analyse prédictive.

Gmail peut pas toujours proposer les bonnes personnes si vous essayez de combler les clients potentiels que vous pourriez avoir oublié d'inclure dans une liste e-mail groupe. Facebook, pour donner un autre exemple, peut suggérer des amis qui pourraient ne pas être le type que vous cherchez.

Dans de tels cas, il est possible qu'il y ait une trop grande marge d'erreur dans les modèles ou les algorithmes. Dans la plupart des cas, les défauts et les anomalies dans les données sont d'abord sélectionnés pour alimenter le modèle prédictif - mais les algorithmes qui alimentent le modèle prédictif pourrait avoir de grands morceaux de données non valides.

Notions de base de la variété de données dans l'analyse prédictive

L'absence d'uniformité dans les données est un autre grand défi connu comme variété de données. Du flot ininterrompu de données non structurées de texte (générés par e-mails, présentations, rapports de projet, des textes, des tweets) aux états structurés bancaires, données de géolocalisation, et les données démographiques des clients, les entreprises sont affamés pour cette variété de données.

L'agrégation de ces données et de la préparer pour l'analyse est une tâche complexe. Comment pouvez-vous intégrer les données générées à partir de différents systèmes tels que Twitter, Opentable.com, recherche Google, et une troisième partie qui suit les données des clients? Eh bien, la réponse est qu'il n'y a pas de solution commune. Chaque situation est différente, et le scientifique de données a généralement à faire beaucoup de manoeuvre pour intégrer les données et la préparer pour l'analyse.

Même ainsi, une approche simple pour la normalisation peut favoriser l'intégration des données de différentes sources: Vous êtes d'accord avec vos fournisseurs de données à un format de données standard que votre système peut gérer - un cadre qui peut faire toutes vos sources de données génèrent des données qui est lisible par les humains et machines. Pensez-y comme un nouveau langage que toutes les sources de grand-données prendront la parole chaque fois qu'ils sont dans le monde de grand-données.


» » » » Comment trouver la valeur dans vos données d'analyse prédictive