Comment quantifier la force d'une relation avec Analytics

Vous pouvez numériquement quantifier la force d'une association en utilisant le Moment corrélation de Pearson produit. Il est souvent simplement appelé le coefficient de corrélation et est représenté par le symbole r.

Sommaire

La corrélation est utilisé pour quantifier l'association entre deux variables continues, (tels que des échelles de revenus, de temps ou d'étoiles).

Le coefficient de corrélation varie entre un r de -1, ce qui indique une corrélation négative parfaite à 1, ce qui signifie une corrélation positive parfaite. La figure montre trois exemples de diagrammes de dispersion qui montrent une corrélation négative parfaite (r = -1), Aucune relation (r = 0), et une relation positive parfaite (r = 1).

image0.jpg

En utilisant deux variables parfaitement corrélés est pas utile. Ils redundant- si vous avez de la valeur pour une variable, vous pouvez prédire parfaitement l'autre.

Dans la pratique, les corrélations sont faible à fort. Quelques exemples de corrélations des différents points forts incluent:

  • Hauteur et largeur: r = 0,8

  • Scholastic Aptitude Test (SAT) et de première année du Collège qualités: r = 0,5

  • Ergonomie et fidélisation client: r = 0,7

La corrélation entre les variables signifie qu'une variable peut prédire la valeur de l'autre variable:

  • Si vous connaissez la hauteur d'un client, vous pouvez estimer son poids.

  • Si vous connaissez le poids d'un client, vous pouvez estimer sa taille.

Mais parce que ce ne sont pas des corrélations parfaites, la corrélation en outre une valeur de 1 ou -1, plus il faut erreur dans la prédiction d'une variable sur la base de l'autre.

Le calcul d'une corrélation

Vous pouvez calculer le coefficient de corrélation à la main, ou utiliser un logiciel comme Excel pour calculer pour vous.

Pour calculer une corrélation sur un ensemble de données à l'aide de la formule de corrélation de Pearson, suivez ces étapes. (La figure suivante montre les données utilisées dans cet exemple.)

image1.jpg



  1. Mettre en place les données en lignes et en colonnes dans Excel.

    Avoir une colonne pour chaque variable et les identifiants des clients. Chaque ligne devrait représenter les données du même client sur deux variables. La figure suivante montre le temps de 17 clients à faire l'achat et le nombre de prises nécessaires à l'achat.

    image2.jpg
  2. Dans une cellule, tapez

    = PEARSON (
  3. Sélectionner l'ensemble des valeurs de la première variable.

    Les données pour le temps apparaît dans la colonne B et les données va de la cellule B2 à la cellule B182.

  4. Tapez une virgule (,) et sélectionnez toutes les valeurs de la seconde variable.

    Ces données apparaissent dans la colonne C et les données va de la cellule C2 à la cellule C182.

    Veillez à sélectionner le même nombre de valeurs pour les deux variables.

  5. Fermez la parenthèse puis appuyez sur Entrée pour obtenir la corrélation.

    = PEARSON (B2: B182, C2: C182)

    La corrélation de ces données, entre les prises et le temps, est 0,560666. Il ya une corrélation positive entre le temps et les robinets.

Interprétation de la force d'une corrélation

Une fois que vous calculez une corrélation, vous avez besoin d'interpréter la force de la relation. La corrélation entre les prises et le temps est r = 0,56. Est-ce une forte corrélation? Ça dépend.

La force d'une corrélation dépend du contexte. UN “ forte ” corrélation dans un contexte peut être une corrélation faible dans un autre. Cela dépend de la façon dont beaucoup d'erreurs que vous pouvez tolérer et les conséquences pour avoir tort dans vos prédictions.

Prédire le temps des robinets ne sera probablement pas entraîner une perte de la vie ou de l'argent, il est donc assez fort pour être utile. En fait, il est environ la même force d'une association entre la SAT et grades collégiaux de première année - où il ya beaucoup en jeu!

Alors que les corrélations sont dépendantes du contexte, il peut aider à avoir quelques indications sur ce que vous verrez probablement avec les données d'analyse de la clientèle. Un célèbre chercheur du nom de Jacob Cohen a examiné les corrélations dans les sciences du comportement, quelque chose de similaire à mesurer le comportement de la clientèle, et à condition que les règles suivantes sur la base de la façon commune les corrélations ont été rapportés dans la littérature revue par les pairs:

  • Petit r = .10

  • Medium: r = .30

  • Grand r = .50

Par conséquent, l'une interprétation simple de corrélation r = 0,56 entre les prises et le temps est qu'il est grand. Mais il ya une autre façon d'interpréter le coefficient de corrélation.

Coefficient de détermination r2

En multipliant le coefficient de corrélation par lui-même (elle quadrature) produit une métrique appelée coefficient de détermination. Il se présente comme r2 (prononcé r-squared) et fournit une meilleure façon d'interpréter la force d'une relation.

Par exemple, une corrélation de r = 0,5 carré devient 0,25. Noter que r2 est souvent exprimée en pourcentage, de 25%. Pour la corrélation entre les prises et le temps, r2 est de 31%. Cela signifie que les robinets peuvent expliquer 31% de la variation dans le temps. Et inversement, temps explique 31% de la variation de robinets. Comme vous pouvez le voir, même une forte corrélation des ci-dessus r = 0,5 explique encore une minorité des différences entre les variables.

Hauteur, par exemple, explique environ 64% de la variation de poids. Cela signifie que, connaissant les hauteurs de gens vont expliquer la plupart - mais pas tous - pourquoi ils sont un certain poids. D'autres facteurs expliquent 36% de la variation. Cela inclut des choses comme l'exercice, les habitudes alimentaires, ou des facteurs génétiques qui rendent certaines personnes pèsent plus à une certaine hauteur que d'autres de la même hauteur.

Utilisez cette même approche lors de corrélation analyse de la clientèle. Trouver la corrélation, Carré, puis interpréter le r-valeur au carré. Lorsque les enjeux sont élevés, vous voulez avoir des corrélations élevées et d'expliquer la plupart des variations entre les variables. Avec l'analyse client, il ya généralement plusieurs variables qui prédisent une autre variable.

La corrélation est pas la causalité

L'un des concepts les plus importants sur la corrélation que vous allez entendre répéter, car il est bon de le répéter, est que la corrélation est pas la causalité. Cela signifie juste parce que une variable est corrélée avec un autre, ne signifie pas une variable est causée par une autre variable. Le temps ne provoque pas de robinets. SAT scores ne causent pas de grades supérieurs. Scores Net Promoter ne causent pas de revenus plus élevés.

Vous pouvez dire qu'il ya une association, mais cette association ne signifie pas causalité.

Il se pourrait que d'un nouveau design provoque taux de conversion du site Web supérieur ou il se pourrait que d'un coupon augmente les ventes à magasins comparables. Cependant, il pourrait y avoir d'autres variables qui affectent réellement la variable de résultat.

Par exemple, il se pourrait que les ventes des magasins avaient déjà augmenté en raison d'une augmentation de la clientèle. Ou il se pourrait que plus de clients se convertissent sur un site Web (de faire un achat) parce que le site concurrent vendu sur le même produit - pas à cause de votre site modification de conception. Considèrent toujours ce que les autres variables pourraient avoir une incidence sur la relation en faisant des déclarations concernant le lien de causalité.


» » » » Comment quantifier la force d'une relation avec Analytics