Les associations entre les variables binaires

Très souvent, dans l'analyse client, vous rencontrez les données binaire qui prend la forme de oui / non, l'achat / ne pas acheter, d'accord / pas d'accord, et ainsi de suite. Vous devez comprendre l'association entre les variables binaires comme vous avez besoin de comprendre l'association entre les variables continues. Bien que le principe de corrélation est la même avec des données binaires, cependant, les calculs sont différents.

Un des exemples les plus célèbres et les plus visibles de l'analyse prédictive des données binaires est le moteur de recommandation d'Amazon.

image0.jpg

Alors que l'algorithme exact utilise Amazon est propriétaire, il est connu que beaucoup de celui-ci est basé sur une association qui indique qu'une personne qui achète un livre aussi achète un autre livre. Les recommandations sont basées sur des variables binaires. Pour générer une recommandation, Amazon calcule la proportion de clients qui achètent un livre et la proportion de ces mêmes clients qui achètent un certain nombre d'autres livres.

Livres avec la plus grande association sont recommandés en premier lieu, les plus élevé suivant les associations suivant, et ainsi de suite. La figure suivante montre les transactions provenant de 15 clients à travers quatre livres. Celles-ci pourraient être tout aussi susceptibles logiciels, des épiceries, des chansons dans une playlist, émissions de télévision, ou des produits ou services clients peuvent choisir à partir.

image1.jpg

Si le client a acheté le livre, il ya un 1 dans le row- si elle le faisait pas, il ya un 0. Par exemple, le client a acheté 1 livre A et B du livre, mais pas C ou D. client a acheté 2 ne livre B.

Pour calculer l'association entre deux achats de livres, suivez ces étapes:

  1. Comptez le nombre de clients qui ont acheté chacune de ces combinaisons de livres:

    • Ni livre




    • Les deux livres

    • Seulement Livre A

    • Seulement livre B

    • Mettez les totaux dans un tableau, comme ceci:

      Réservez B
      Réserver unYN
      Y62
      N34

      Par exemple, six clients ont acheté deux livres A et B.

    • Étiqueter les cellules du tableau A à D, comme ceci:

      Réservez B
      Réserver unYN
      Yunb
      Nc
    • Utilisez la formule de la corrélation entre les variables binaires:

      image2.jpg
    • Remplissez les valeurs pour les livres pour trouver la corrélation entre les variables binaires, comme ceci:

      image3.jpg

      Dans ce cas, la corrélation entre les clients qui achètent livre A et B est 0,327 livre.

      Une corrélation entre les variables binaires est appelé phi, et est représenté par le symbole grec

      image4.jpg

    Vous pouvez interpréter l'association entre nombres binaires de la même manière que la corrélation de Pearson r. En fait, phi est une méthode de raccourci pour le calcul r. Vous obtenez les mêmes résultats en utilisant la formule Excel Pearson et le calcul de la corrélation pour tous les ensembles de données.

    La figure suivante montre la configuration de données dans Excel. La corrélation entre toutes les paires de livres a été calculé en utilisant la = PEARSON () Fonction Excel.

    image5.jpg

    Ensuite, une matrice de corrélations a été créé pour chaque paire de livres, comme indiqué ici:

    image6.jpg

    Confirmation du résultat plus tôt, la corrélation entre la livre A et B est 0,33. La deuxième plus forte corrélation entre livre A et D à 0,25 livre.

    La corrélation entre la livre B et C est -.48 livre. Cette corrélation négative signifie que les clients qui achètent livre B sont moins susceptibles d'acheter livre C.

    Donc, si un client consulte et envisage l'achat d'un livre, il serait logique de recommander (et éventuellement offrir ce client une incitation) à acheter aussi livre B et D, mais pas livre C.

    Vous pouvez entendre les termes Analyse de panier ou Analyse d'affinité. Ces deux éléments sont simplement d'autres noms pour trouver des associations et des corrélations entre les variables. Il est comme l'examen le panier des clients dans une épicerie pour voir ce que les articles sont achetés ensemble.