Dans le cours : Découvrir la data science : Comprendre les bases
Identifier une corrélation
Nous avons parlé un peu des statistiques descriptives dans les analyses. Abordons à présent la corrélation. Elle permet de deviner le type de produit qu'un client va acheter. Elle permet aussi de vous relier à vos amis et connaissances. Quand on utilise un service comme Netflix, on est toujours étonné de sa capacité à deviner les films susceptibles de nous plaire. Amazon exploite la corrélation depuis longtemps pour faire des suggestions. La corrélation est une série de relations statistiques qui mesurent le degré relationnel entre deux choses. Le résultat est compris entre un et zéro. Un résultat de un indique que les deux choses sont fortement corrélées. Un résultat de zéro indique que les deux choses sont sans rapport. Le un peut être exprimé sous forme positive ou négative. Le un négatif indique un inverse ou « anticorrélation ». Exemple de corrélation positive : celle de la taille et du poids. Plus une personne est grande, plus elle devrait peser lourd. Le poids augmente avec la taille. Il existe d'autres exemples plus évidents. Plus le mercure grimpe dehors, plus les clients sont susceptibles d'acheter des glaces. Les ventes de glaces augmentent avec la température. Exemple de corrélation négative : celle du véhicule et du carburant. Plus un véhicule est lourd, moins il parcourt de kilomètres par litre. Le nombre de kilomètres diminue quand le poids augmente. Leur relation est donc inverse. Si vous courez, vous remarquerez sans doute que vous ralentissez dans les côtes. C'est aussi une corrélation négative. Plus la côte est raide, moins vous courez vite. Votre vitesse décroît quand l'inclinaison s'accroît. La corrélation, positive ou négative, est un bon moyen de se représenter le rapport entre deux choses. Un inverse n'a rien de mauvais. C'est juste une autre représentation d'un rapport. Votre équipe recherchera les corrélations entre ses données. Elle essaiera d'affiner leurs rapports. Heureusement, il existe des outils logiciels qui se chargent des nombreux calculs nécessaires. Ils utilisent d’ailleurs souvent la formule du coefficient de corrélation. Il est rare d'avoir comme résultat un chiffre exact. Vous aurez plutôt une corrélation de 0,5 ou de -0,75. Vous pouvez en déduire la force de la corrélation. Plus le résultat est proche de 1 ou de -1, plus le rapport est fort. Un défi intéressant est le cas de la fonction LinkedIn « Les connaissez-vous ? » La société voulait essayer de savoir quels professionnels se connaissaient. Certaines équipes de data science ont étudié ce sujet en recherchant des corrélations entre les connexions. Puis en identifiant les motivations des connexions. Par exemple, la fréquentation d'une même école ou l'exercice d'une même fonction. Ou bien un groupe ou un centre d'intérêt commun. L'équipe a cherché à établir des corrélations tant positives que négatives. Des données indiquent qu'un poste vous intéresse. Une autre personne, qui travaillait dans la même équipe, est aussi intéressée. L'équipe de data science connaît vos aspirations et vos ex-employeurs. C'est suffisant pour établir une corrélation entre vous deux. Il peut exister une forte corrélation positive entre deux personnes qui partageaient les mêmes locaux et s'intéressent aux mêmes postes. Dans ce cas, le site peut vous suggérer d’établir une connexion. L'équipe de data science peut aussi établir des corrélations entre vos connexions et celles des autres. Si vous êtes connecté à un membre qui est connecté à une personne ayant un profil similaire, vous pourriez vous connecter à elle. Quand on y réfléchit, c'est tout à fait logique. On est plus susceptible de connaître ceux qui travaillent dans notre bâtiment. Et on est plus susceptible de se connecter à ceux qui partagent nos centres d'intérêt. Plus deux personnes ont de centres d'intérêt communs, plus il est probable qu'elles se connaissent. De plus, la corrélation peut aider à remettre en question vos suppositions. Vous pouvez supposer que ceux qui dépensent le plus sur votre site sont aussi vos clients les plus satisfaits. Ce n'est pas forcément vrai. Il peut même exister une corrélation négative entre les deux. Ceux qui dépensent le plus peuvent être ceux qui ont les attentes les plus irréalistes. Ils sont facilement déçus et plus enclins à laisser du feedback négatif. Votre équipe doit se servir de la corrélation pour éprouver ces suppositions. Vous pouvez essayer de faire dépenser plus aux clients les plus satisfaits. Vous pouvez essayer de gérer les attentes des clients qui dépensent le plus. La corrélation vous permet de repérer des informations qui vous échapperaient autrement.