Comment visualiser les données brutes analyse prédictive "

Une image vaut mille mots - surtout quand vous essayez d'obtenir une bonne poignée sur vos données d'analyse prédictive. A l'étape de pré-traitement, alors que vous vous préparez vos données, il est de pratique courante de visualiser ce que vous avez en main avant de passer à l'étape suivante.

Sommaire

Vous commencez en utilisant un tableur comme Microsoft Excel pour créer une matrice de données - qui se compose de données de candidats Caractéristiques (également dénommé attributs). Plusieurs forfaits de logiciels de business intelligence (tels que Tableau) peuvent vous donner un aperçu préliminaire des données à laquelle vous êtes sur le point d'appliquer l'analyse.

Comment utiliser des visualisations tabulaires pour l'analyse prédictive

Les tableaux sont le plus simple représentation picturale, la plus fondamentale de données. Tableaux (également connu sous le feuilles de calcul) Sont constitués de lignes et de colonnes - qui correspondent, respectivement, aux objets et leurs attributs mentionnés plus haut en tant que constituant les données. Par exemple, tenir compte des données de réseau social en ligne. Un objet de données pourrait représenter un utilisateur. Attributs d'un utilisateur (objet de données) peuvent être têtes de colonnes: sexe, code postal, ou date de naissance.

Les cellules d'un tableau représentent des valeurs. Visualisation dans les tableaux peut vous aider à repérer facilement les valeurs d'attributs manquantes d'objets de données.

image0.jpg

Les tableaux peuvent également fournir la flexibilité d'ajouter de nouveaux attributs qui sont des combinaisons d'autres attributs. Par exemple, dans les données de réseau social, vous pouvez ajouter une autre colonne appelée Age, qui peut être facilement calculée - comme un attribut dérivé - à partir de la date de l'attribut existante de naissance. Les données tabulaires de réseau social montre une nouvelle colonne, âge, créé à partir d'une autre colonne existante (date de naissance).

image1.jpg

Les diagrammes à barres utilisent dans l'analyse prédictive

Les graphiques à barres peuvent être utilisés pour repérer des pointes ou des anomalies dans vos données. Vous pouvez l'utiliser pour chaque attribut à l'image rapidement valeurs minimales et maximales. Les graphiques à barres peuvent aussi être utilisés pour démarrer une discussion sur la façon de normaliser vos données.

Normalisation est l'ajustement de certains - ou la totalité - des valeurs d'attribut sur une échelle qui rend les données plus utilisable. Par exemple, vous pouvez facilement voir qu'il ya une erreur dans les données: La barre d'âge sur un enregistrement est négatif. Cette anomalie est plus facilement représenté par un graphique à barres que par un tableau de données.

image2.jpg

Notions de base de camemberts pour l'analyse prédictive

Les diagrammes circulaires sont principalement utilisés pour montrer les pourcentages. Ils peuvent facilement illustrer la distribution de plusieurs éléments, et mettre en évidence le plus dominant. Les données brutes de réseau social est représenté en fonction de l'attribut Age. Notez que le graphique montre non seulement une répartition claire des hommes contre les femmes, mais aussi une erreur probable: R comme valeur pour Sexe Type éventuellement créé lorsque les données ont été recueillies.

image3.jpg

Comment utiliser les cartes de graphes pour l'analyse prédictive




La théorie des graphes fournit un ensemble d'algorithmes puissants qui peuvent analyser les données structurées et représentées sous forme de graphique. En informatique, un graphique est une structure de données, un moyen pour organiser les données qui représentent des relations entre des paires d'objets de données. Un graphe est constitué de deux parties principales:

  • Les sommets, également connu sous le nœuds

  • Les arêtes qui relient des paires de noeuds

Les bords peuvent être dirigée (élaborée par des flèches) et peuvent avoir des masses. Vous pouvez décider de placer un bord (flèche) entre deux nœuds (cercles) - dans ce cas, les membres du réseau social qui sont connectés à d'autres membres comme des amis:

image4.jpg

La direction de la flèche indique l'OMS «amis» dont la première, ou qui initie les interactions plupart du temps.

Notions de base de nuages ​​de mots pour l'analyse prédictive

Considérons une liste de mots ou concepts arrangé comme un nuage de mots - une représentation graphique de tous les mots de la liste, indiquant la taille de chaque mot que proportionnelle à une mesure que vous spécifiez. Par exemple, si vous avez une feuille de calcul des mots et des occurrences et vous souhaitez identifier les mots les plus importants, essayez un nuage de mots.

Nuages ​​de mots fonctionnent parce que les données de la plupart des organisations est texte- Un exemple courant est l'utilisation de Twitter de tendance termes. Chaque terme de cette représentation a un poids qui affecte sa taille comme un indicateur de son importance relative.

Une façon de définir ce poids pourrait être par le nombre de fois qu'un mot apparaît dans votre collection de données. Le plus souvent un mot apparaît, le "plus lourd" son poids - et plus il apparaît dans le nuage.

image5.jpg

Comment utiliser le flocage représentation des oiseaux pour l'analyse prédictive

Le comportement de flocage naturel en général est un système d'auto-organisation dans lequel les objets (en particulier, les êtres vivants) ont tendance à se comporter selon (a) l'environnement auquel ils appartiennent et (b) leurs réponses à d'autres objets existants. Le comportement flocage des sociétés naturelles telles que celles des abeilles, les mouches, les oiseaux, les poissons, et les fourmis - ou, d'ailleurs, les gens - est également connu comme l'intelligence en essaim.

image6.jpg

Oiseaux suivent des règles naturelles quand ils se comportent comme un troupeau. Flock-équipiers sont des oiseaux situés à une certaine distance les uns Sinon ces oiseaux sont considérés comme similaires. Chaque mouvements d'oiseaux selon les trois principales règles qui organisent le comportement flocage.

  • Séparation: Flock-équipiers ne doivent pas entrer en collision avec l'autre.

  • Alignement: Flock-équipiers à se déplacer dans la même direction en moyenne que leurs voisins.

  • Cohésion: Flock-équipiers se déplacent en fonction de la position moyenne ou l'emplacement de leur troupeau camarades.

Modélisation de ces trois règles peut permettre à un système d'analyse pour simuler les comportements affluent. Utilisation du comportement naturel auto-organisé des oiseaux grégaires, vous pouvez convertir une feuille de calcul simple dans une visualisation. La clé est de définir la notion de similitude dans le cadre de vos données. Commencez par quelques questions:

  • Ce qui fait deux objets de données dans vos données similaire?

  • Quels attributs peuvent mieux conduire la similitude entre deux enregistrements de données?

    image7.jpg

Par exemple, dans les données de réseaux sociaux, les enregistrements de données représentent individuelle utilisateurs- les attributs qui les décrivent peuvent inclure l'âge, code postal, Statut de la relation, liste d'amis, nombre d'amis, des habitudes, Evénements


» » » » Comment visualiser les données brutes analyse prédictive "