Comment quantifier la force d'une relation avec Analytics

Vous pouvez numériquement quantifier la force d'une association en utilisant le Moment corrélation de Pearson produit. Il est souvent simplement appelé le coefficient de corrélation et est représenté par le symbole r.

Sommaire

Le calcul d'une corrélation
Interprétation de la force d'une corrélation
Coefficient de détermination r2
La corrélation est pas la causalité

La corrélation est utilisé pour quantifier l'association entre deux variables continues, (tels que des échelles de revenus, de temps ou d'étoiles).

Le coefficient de corrélation varie entre un r de -1, ce qui indique une corrélation négative parfaite à 1, ce qui signifie une corrélation positive parfaite. La figure montre trois exemples de diagrammes de dispersion qui montrent une corrélation négative parfaite (r = -1), Aucune relation (r = 0), et une relation positive parfaite (r = 1).

En utilisant deux variables parfaitement corrélés est pas utile. Ils redundant- si vous avez de la valeur pour une variable, vous pouvez prédire parfaitement l'autre.

Dans la pratique, les corrélations sont faible à fort. Quelques exemples de corrélations des différents points forts incluent:

Hauteur et largeur: r = 0,8
Scholastic Aptitude Test (SAT) et de première année du Collège qualités: r = 0,5
Ergonomie et fidélisation client: r = 0,7

La corrélation entre les variables signifie qu'une variable peut prédire la valeur de l'autre variable:

Si vous connaissez la hauteur d'un client, vous pouvez estimer son poids.
Si vous connaissez le poids d'un client, vous pouvez estimer sa taille.

Mais parce que ce ne sont pas des corrélations parfaites, la corrélation en outre une valeur de 1 ou -1, plus il faut erreur dans la prédiction d'une variable sur la base de l'autre.

Le calcul d'une corrélation

Vous pouvez calculer le coefficient de corrélation à la main, ou utiliser un logiciel comme Excel pour calculer pour vous.

Pour calculer une corrélation sur un ensemble de données à l'aide de la formule de corrélation de Pearson, suivez ces étapes. (La figure suivante montre les données utilisées dans cet exemple.)

Mettre en place les données en lignes et en colonnes dans Excel.
Avoir une colonne pour chaque variable et les identifiants des clients. Chaque ligne devrait représenter les données du même client sur deux variables. La figure suivante montre le temps de 17 clients à faire l'achat et le nombre de prises nécessaires à l'achat.
Dans une cellule, tapez
```
= PEARSON (
```
Sélectionner l'ensemble des valeurs de la première variable.
Les données pour le temps apparaît dans la colonne B et les données va de la cellule B2 à la cellule B182.
Tapez une virgule (,) et sélectionnez toutes les valeurs de la seconde variable.
Ces données apparaissent dans la colonne C et les données va de la cellule C2 à la cellule C182.
Veillez à sélectionner le même nombre de valeurs pour les deux variables.
Fermez la parenthèse puis appuyez sur Entrée pour obtenir la corrélation.
```
= PEARSON (B2: B182, C2: C182)
```
La corrélation de ces données, entre les prises et le temps, est 0,560666. Il ya une corrélation positive entre le temps et les robinets.

Interprétation de la force d'une corrélation

Une fois que vous calculez une corrélation, vous avez besoin d'interpréter la force de la relation. La corrélation entre les prises et le temps est r = 0,56. Est-ce une forte corrélation? Ça dépend.

La force d'une corrélation dépend du contexte. UN “ forte ” corrélation dans un contexte peut être une corrélation faible dans un autre. Cela dépend de la façon dont beaucoup d'erreurs que vous pouvez tolérer et les conséquences pour avoir tort dans vos prédictions.

Prédire le temps des robinets ne sera probablement pas entraîner une perte de la vie ou de l'argent, il est donc assez fort pour être utile. En fait, il est environ la même force d'une association entre la SAT et grades collégiaux de première année - où il ya beaucoup en jeu!

Alors que les corrélations sont dépendantes du contexte, il peut aider à avoir quelques indications sur ce que vous verrez probablement avec les données d'analyse de la clientèle. Un célèbre chercheur du nom de Jacob Cohen a examiné les corrélations dans les sciences du comportement, quelque chose de similaire à mesurer le comportement de la clientèle, et à condition que les règles suivantes sur la base de la façon commune les corrélations ont été rapportés dans la littérature revue par les pairs:

Petit r = .10
Medium: r = .30
Grand r = .50

Par conséquent, l'une interprétation simple de corrélation r = 0,56 entre les prises et le temps est qu'il est grand. Mais il ya une autre façon d'interpréter le coefficient de corrélation.

Coefficient de détermination r²

En multipliant le coefficient de corrélation par lui-même (elle quadrature) produit une métrique appelée coefficient de détermination. Il se présente comme r² (prononcé r-squared) et fournit une meilleure façon d'interpréter la force d'une relation.

Par exemple, une corrélation de r = 0,5 carré devient 0,25. Noter que r² est souvent exprimée en pourcentage, de 25%. Pour la corrélation entre les prises et le temps, r² est de 31%. Cela signifie que les robinets peuvent expliquer 31% de la variation dans le temps. Et inversement, temps explique 31% de la variation de robinets. Comme vous pouvez le voir, même une forte corrélation des ci-dessus r = 0,5 explique encore une minorité des différences entre les variables.

Hauteur, par exemple, explique environ 64% de la variation de poids. Cela signifie que, connaissant les hauteurs de gens vont expliquer la plupart - mais pas tous - pourquoi ils sont un certain poids. D'autres facteurs expliquent 36% de la variation. Cela inclut des choses comme l'exercice, les habitudes alimentaires, ou des facteurs génétiques qui rendent certaines personnes pèsent plus à une certaine hauteur que d'autres de la même hauteur.

Utilisez cette même approche lors de corrélation analyse de la clientèle. Trouver la corrélation, Carré, puis interpréter le r-valeur au carré. Lorsque les enjeux sont élevés, vous voulez avoir des corrélations élevées et d'expliquer la plupart des variations entre les variables. Avec l'analyse client, il ya généralement plusieurs variables qui prédisent une autre variable.

La corrélation est pas la causalité

L'un des concepts les plus importants sur la corrélation que vous allez entendre répéter, car il est bon de le répéter, est que la corrélation est pas la causalité. Cela signifie juste parce que une variable est corrélée avec un autre, ne signifie pas une variable est causée par une autre variable. Le temps ne provoque pas de robinets. SAT scores ne causent pas de grades supérieurs. Scores Net Promoter ne causent pas de revenus plus élevés.

Vous pouvez dire qu'il ya une association, mais cette association ne signifie pas causalité.

Il se pourrait que d'un nouveau design provoque taux de conversion du site Web supérieur ou il se pourrait que d'un coupon augmente les ventes à magasins comparables. Cependant, il pourrait y avoir d'autres variables qui affectent réellement la variable de résultat.

Par exemple, il se pourrait que les ventes des magasins avaient déjà augmenté en raison d'une augmentation de la clientèle. Ou il se pourrait que plus de clients se convertissent sur un site Web (de faire un achat) parce que le site concurrent vendu sur le même produit - pas à cause de votre site modification de conception. Considèrent toujours ce que les autres variables pourraient avoir une incidence sur la relation en faisant des déclarations concernant le lien de causalité.

A propos Auteur

Comment corrélation, régression, et deux tableaux à clarifier les données statistiques

L'un des objectifs les plus courants de la recherche statistique est de trouver des liens entre les variables. Utilisation de corrélation, régression, et les tableaux dans les deux sens, vous pouvez utiliser les données pour répondre à des…

Comment covariance et de corrélation sont liés

Deux des mesures les plus couramment utilisés sont d'association covariance et corrélation. Ces mesures sont étroitement liés les uns aux autre- en fait, vous pouvez penser que la corrélation d'une version modifiée de la covariance.La…

Comment corrélation statistique et de causalité sont différents

De tous les problèmes statistiques mal compris, celui qui est peut-être le plus problématique est la mauvaise utilisation des concepts de corrélation et causalité. Corrélation, comme un terme statistique, est la mesure dans laquelle les deux…

Comment calculer une corrélation

Peut-on mesure statistique à la fois la force et la direction d'une relation linéaire entre deux variables? Bien sûr! Les statisticiens utilisent la Coefficient de corrélation pour mesurer la force et la direction de la relation linéaire entre…

Comment interpréter un coefficient de corrélation r

Dans les statistiques, le coefficient de corrélation r mesure la force et la direction d'une relation linéaire entre deux variables sur un nuage. La valeur de r est toujours comprise entre 1 et -1. Pour interpréter sa valeur, voir lequel des…

Comment mesurer la covariance et de corrélation d'échantillons de données

Lorsque l'on compare des échantillons de données de différentes populations, deux des mesures les plus populaires de l'association sont covariance et corrélation. Covariance et corrélation montrer que les variables peuvent avoir une relation…

Mesures d'association

Mesures d'association quantifier la force et le sens de la relation entre les deux ensembles de données. Voici les deux plus couramment utilisés mesures d'association:CovarianceCorrélationCes deux mesures sont utilisées pour montrer comment…

Estimation de la taille de l'échantillon pour des tests de corrélation en biostatistique

Pour un test de corrélation en biostatistique (tels que Pearson ou le test de Spearman), choisir le nuage de points qui ressemble à une quantité importante de corrélation. Chaque graphique montre la valeur de r (le coefficient de corrélation)…

Etfs et le risque: mesure du risque par le biais de corrélation

Ces corrélations de plusieurs FNB iShares montrent à quel degré FNB déplacés dans la même direction sur une période récente de trois ans différente. La baisse de la corrélation, mieux - d'un point de vue du renforcement de portefeuille. De…

Regardez régression lors de l'analyse des données financières

Le but de régression est d'examiner les données passées pour déterminer si il ya des variables qui influent sur les mouvements financiers. Ce processus utilise maintenant généralement des programmes très avancés informatiques, tels que les…

Comment établir des corrélations à partir des diagrammes de dispersion dans l'analyse de six sigma

Un nuage de points vous indique graphiquement comment deux caractéristiques sont liées, ou corrélée dans une initiative Six Sigma. Vous pouvez ensuite utiliser ces informations de corrélation d'explorer les facteurs qui affectent et sorties de…

Les associations entre les variables binaires

Très souvent, dans l'analyse client, vous rencontrez les données binaire qui prend la forme de oui / non, l'achat / ne pas acheter, d'accord / pas d'accord, et ainsi de suite. Vous devez comprendre l'association entre les variables binaires comme…

Comment créer une équation de régression dans Excel

Vous pouvez créer une équation de régression dans Excel qui vous aidera à prévoir les valeurs des clients. Pour créer une équation de régression en utilisant Excel, procédez comme suit:Insérez un graphique de nuage de points dans un espace…

Prédire les valeurs des clients avec la ligne de régression

Bien qu'une corrélation parle à la force d'une relation entre les deux variables, et la r2 contribue à expliquer que la force de la relation, ce que vous devez faire pour prédire une variable d'un autre est d'utiliser une extension de l'analyse…

godiches.com » Les petites entreprises et les carrières » Courir votre entreprise » La planification stratégique » Comment quantifier la force d'une relation avec Analytics

Le calcul d'une corrélation

Interprétation de la force d'une corrélation

Coefficient de détermination r2

La corrélation est pas la causalité

Coefficient de détermination r²