BASE DE CONNAISSANCES

Création d'une matrice de valeurs de corrélation


Date de publication : 15 Aug 2017
Date de dernière modification : 20 Jul 2023

Question

Comment créer une matrice de valeurs de corrélation dans Tableau Desktop.

Par exemple, cette vue peut répondre à la question : y a-t-il une corrélation entre les sous-catégories de produits qu'un client achète, en s'appuyant sur un suivi des ventes ? Ou, en d'autres termes, si un client achète des produits de la sous-catégorie X, est-il plus ou moins susceptible d'acheter également des produits de la sous-catégorie Y ?

Environnement

  • Tableau Desktop 10.2+
  • La fonction CORR() n'est pas disponible pour toutes les sources de données. Pour plus d'informations, consultez l'entrée CORR des Fonctions Tableau (alphabétique)

Réponse

Depuis Tableau Desktop 10.2, la fonction CORR() peut être utilisée pour calculer le coefficient de corrélation Pearson. L'exemple de classeur joint utilise l'ensemble de données de l'exemple Superstore Correlation Value Matrix.twbx pour démontrer les instructions suivantes :

Étape 1 - Configurer l'auto-jointure

  1. Accédez à l'onglet Source de données
  2. Faites glisser une seconde copie de la table Orders (Commandes) sur l'espace de travail
  3. Créez une jointure INTERNE sur Customer Name = Customer Name (Orders)
Remarque : cet exemple pose la question de savoir si un client est plus susceptible d'acheter des produits de la sous-catégorie X s'il a déjà acheté dans la sous-catégorie Y. Voici une variation possible de cette question : la même commande est-elle plus susceptible de contenir des produits de la sous-catégorie X si elle contient déjà des produits de la sous-catégorie Y. Dans cette variation, la jointure devrait être sur Order ID = Order ID (Orders).

En d'autres termes, la clause de jointure devrait être sur le(s) champ(s) définissant la portée de la comparaison.

Étape 2 - Calculer le coefficient de corrélation Pearson

  1. Sélectionnez Analyse > Créer un champ calculé
  2. Nommez le champ calculé « Coefficient de corrélation de Pearson », entrez la formule suivante et cliquez sur OK :
    CORR( { INCLUDE [Customer Name] : SUM( [Sales (Orders)])}, { INCLUDE [Customer Name] : SUM( [Sales])})
Remarque : [Nom du client] doit être remplacé par le(s) même(s) champ(s) que ceux utilisés dans la clause de jointure à l'étape 1-3. Il n'est pas nécessaire d'utiliser l'expression INCLUDE si les données sous-jacentes ne contiennent qu'un seul enregistrement par client.

Étape 3 - Créer un champ calculé pour filtrer la valeur

  1. Sélectionnez Analyse > Créer un champ calculé
  2. Nommez le champ calculé « Pas le même filtre de sous-catégorie », entrez la formule suivante et cliquez sur OK :
    [Sub-Category] != [Sub-Category (Orders)]

Étape 4 - Créer la vue

  1. Faites glisser [Sub-Category] vers l’étagère Colonnes
  2. Faites glisser [Sub-Category (Orders)] vers l’étagère Lignes
  3. Faites glisser [Coefficient de corrélation Pearson] vers Couleur sur la fiche Repères
  4. Faites glisser [Coefficient de corrélation Pearson] vers Texte sur la fiche Repères
  5. Dans la liste déroulante sur la fiche Repères, modifiez le type de repère sur Carré
  6. Faites glisser [Pas le même filtre de sous-catégorie] vers l'étagère Filtres
  7. Dans la boîte de dialogue, cochez True puis cliquez sur OK.

Informations supplémentaires

Le coefficient de corrélation Pearson est un outil statistique sophistiqué, et il est recommandé d'approfondir sa maîtrise du fonctionnement de l'outil avant de l'utiliser. Pour en savoir plus sur ce sujet, consultez les articles suivants :  Remarque : le classeur Correlation Value Matrix.twbx joint à cet article contient également un exemple de nuage de points de corrélation.

Cet article vous a-t-il permis de résoudre le problème ?