Comment trouver la valeur dans vos données d'analyse prédictive

Tout voyage réussie exige une préparation sérieuse. Modèles d'analyse prédictive sont essentiellement une plongée en profondeur dans de grandes quantités de données. Si les données ne sont pas bien préparé, le modèle d'analyse prédictive va sortir de la plongée sans poissons. La clé pour trouver la valeur dans l'analyse prédictive est de préparer les données - soigneusement et méticuleusement - que votre modèle va utiliser pour faire des prédictions.

Sommaire

Comment se plonger dans vos données d'analyse prédictive
Notions de base de l'analyse des données validité prédictive
Notions de base de la variété de données dans l'analyse prédictive

Traitement de données à l'avance peuvent être une pierre d'achoppement dans le processus d'analyse prédictive. Acquérir de l'expérience dans la construction de modèles prédictifs - et, en particulier, la préparation des données - enseigne l'importance de la patience. Sélection, le traitement, le nettoyage et la préparation des données est laborieuse. Il est la tâche la plus fastidieuse dans le cycle de vie analyse prédictive. Cependant, une bonne préparation et systématique des données va augmenter considérablement les chances que vos analyses de données porteront leurs fruits.

Même si cela prend du temps et des efforts pour construire ce premier modèle prédictif, une fois que vous prenez la première étape - la construction du premier modèle qui trouve la valeur dans vos données - puis les futurs modèles seront moins de ressources et de temps, même avec tout nouveau des ensembles de données. Même si vous ne l'utilisez pas les mêmes données pour le prochain modèle, vos analystes de données auront acquis une expérience précieuse avec le premier modèle.

Comment se plonger dans vos données d'analyse prédictive

En utilisant une analogie de fruits, vous avez non seulement pour enlever le mauvais pelage ou le couvercle, mais creuser en elle pour se rendre à l'nucleus- que vous obtenez plus près du noyau, vous arrivez à la meilleure partie du fruit. La même règle vaut pour les grandes données.

Notions de base de l'analyse des données validité prédictive

Les données ne sont pas toujours valide lorsque vous le rencontrez première. La plupart des données sont soit incomplet (il manque certains attributs ou des valeurs) ou bruyant (contenant des valeurs aberrantes ou des erreurs). Dans les domaines de la bio-informatique biomédicale, par exemple, les valeurs aberrantes peuvent conduire les analyses pour générer des résultats incorrects ou trompeurs.

Les valeurs aberrantes dans les données du cancer, par exemple, peuvent être un facteur important qui biaise la précision des traitements médicaux: des échantillons d'expression du gène peut apparaître comme positifs de cancer faux parce qu'ils ont été analysés contre un échantillon qui contenait des erreurs.

Des données incohérentes sont des données qui contient les écarts dans les attributs de données. Par exemple, un enregistrement de données peut avoir deux attributs qui ne correspondent pas: par exemple, un code (comme 20037) et un état correspondant (Delaware). Des données incorrectes peuvent conduire à la modélisation prédictive tort, ce qui conduit à des résultats analytiques trompeuses qui vont entraîner de mauvaises décisions de la haute direction.

Par exemple, l'envoi de coupons pour les couches à des gens qui ont pas d'enfants est une erreur assez évident. Mais il peut arriver facilement si le département marketing d'une entreprise de la couche se termine avec des résultats invalides de leur modèle d'analyse prédictive.

Gmail peut pas toujours proposer les bonnes personnes si vous essayez de combler les clients potentiels que vous pourriez avoir oublié d'inclure dans une liste e-mail groupe. Facebook, pour donner un autre exemple, peut suggérer des amis qui pourraient ne pas être le type que vous cherchez.

Dans de tels cas, il est possible qu'il y ait une trop grande marge d'erreur dans les modèles ou les algorithmes. Dans la plupart des cas, les défauts et les anomalies dans les données sont d'abord sélectionnés pour alimenter le modèle prédictif - mais les algorithmes qui alimentent le modèle prédictif pourrait avoir de grands morceaux de données non valides.

Notions de base de la variété de données dans l'analyse prédictive

L'absence d'uniformité dans les données est un autre grand défi connu comme variété de données. Du flot ininterrompu de données non structurées de texte (générés par e-mails, présentations, rapports de projet, des textes, des tweets) aux états structurés bancaires, données de géolocalisation, et les données démographiques des clients, les entreprises sont affamés pour cette variété de données.

L'agrégation de ces données et de la préparer pour l'analyse est une tâche complexe. Comment pouvez-vous intégrer les données générées à partir de différents systèmes tels que Twitter, Opentable.com, recherche Google, et une troisième partie qui suit les données des clients? Eh bien, la réponse est qu'il n'y a pas de solution commune. Chaque situation est différente, et le scientifique de données a généralement à faire beaucoup de manoeuvre pour intégrer les données et la préparer pour l'analyse.

Même ainsi, une approche simple pour la normalisation peut favoriser l'intégration des données de différentes sources: Vous êtes d'accord avec vos fournisseurs de données à un format de données standard que votre système peut gérer - un cadre qui peut faire toutes vos sources de données génèrent des données qui est lisible par les humains et machines. Pensez-y comme un nouveau langage que toutes les sources de grand-données prendront la parole chaque fois qu'ils sont dans le monde de grand-données.

A propos Auteur

Comment construire déployables modèles d'analyse prédictive

Construire un modèle de l'analyse prédictive ne se traduit pas automatiquement par le déploiement de ce modèle en production. Un modèle peut avec succès et avec précision prédire l'issue ouvrable suivant et ne pas être déployable. (Un…

Comment décider de garder les valeurs aberrantes dans l'analyse prédictive

Décider d'inclure les valeurs aberrantes dans l'analyse - ou de les exclure - aura des implications pour votre modèle d'analyse prédictive. Garder les valeurs aberrantes dans le cadre des données dans votre analyse peut mener à un modèle qui…

Comment faire pour extraire, transformer et charger des données pour l'analyse prédictive

Après il est initialement collectées, les données sont généralement dispersé dans une déclaration il réside dans plusieurs systèmes de bases de données et ou doit être analysé avant prédire rien. Avant que vous pouvez l'utiliser pour un…

Comment aller vivre avec le modèle d'analyse prédictive

Après le développement de votre modèle d'analyse prédictive et avec succès le tester, vous êtes prêt à le déployer dans l'environnement de production. Le but ultime d'un projet d'analyse prédictive est de mettre le modèle que vous…

Comment identifier les données pour l'analyse prédictive

Pour votre projet d'analyse prédictive, vous aurez besoin d'identifier les sources de données appropriées, les données du pool de ces sources, et le mettre dans un format structuré bien organisé. Ces tâches peuvent être très difficiles et…

Comment garder prédictive des données d'analyse à jour

Après l'étape de chargement de Extract Transform Load, après que vous obtenez vos données dans cette base de données séparée, data mart, ou d'un entrepôt pour l'analyse, vous aurez besoin de conserver les données de sorte que les frais…

Comment charger les données dans un classement de r analyse prédictive modèle

L'ensemble de données que nous analysons de faire une prédiction sur le jeu de données sur les semences, qui peut être trouvé à l'apprentissage automatique référentiel UCI. Cette base de données dispose de 210 observations et 7 attributs…

Comment décrire les données d'essais et de test pour l'analyse prédictive

Lorsque vos données est prêt et vous êtes sur le point de commencer à construire votre modèle prédictif pour l'analyse, il est utile de décrire votre méthodologie de test et de rédiger un plan de test. Le test doit être guidée par les…

Comment préparer les données pour un modèle d'analyse prédictive

Lorsque vous avez défini les objectifs du modèle pour l'analyse prédictive, la prochaine étape est d'identifier et de préparer les données que vous allez utiliser pour construire votre modèle. La séquence générale des mesures ressemble à…

Comment préparer les données dans un classement de r analyse prédictive modèle

Pour exécuter une analyse prédictive, vous devez obtenir les données sous une forme que l'algorithme peut utiliser de construire un modèle. Pour ce faire, vous avez à prendre un certain temps à comprendre les données et de connaître sa…

Comment utiliser l'analyse supervisées pour former des modèles prédictifs

Dans Analytics supervisées, l'entrée et la sortie préférée font partie des données de formation. Le modèle d'analyse prédictive est présenté avec les résultats corrects dans le cadre de son processus d'apprentissage. Un tel apprentissage…

Comment utiliser régressions linéaires dans l'analyse prédictive

Régression linéaire est une méthode statistique qui analyse et trouve les relations entre les deux variables. Dans l'analyse prédictive, il peut être utilisé pour prédire une valeur numérique d'une grandeur future.Prenons un exemple de…

Comment visualiser les résultats d'analyse de votre modèle: regroupements cachés, les classifications de données, et les valeurs aberrantes

Visualisation des résultats de votre analyse prédictive aide vraiment les parties prenantes à comprendre les prochaines étapes. Voici quelques façons d'utiliser des techniques de visualisation de rapporter les résultats de vos modèles pour…

L'avenir des entrepôts de données à l'époque grand de données

Le marché de l'entrepôt de données a en effet commencé à changer et à évoluer avec l'avènement de grands volumes de données. Dans le passé, il était tout simplement pas rentable pour les entreprises de stocker la quantité massive de…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Comment trouver la valeur dans vos données d'analyse prédictive