Cette expérience est tirée de Thinking, Fast and Slow de Daniel Kahneman.

Voici une expérience un peu complexe, à lire calmement et attentivement, qui met en avant la façon dont nous réfléchissons, et dont nous nous trompons.

Contexte

Une étude statistique est menée aux Etats-Unis : on compte pour chaque comté (il y en a 3 141), le pourcentage de population atteinte d’un cancer du rein. On effectue ensuite des comparaisons entre les comtés pour voir là où le taux de cancer du rein est le plus élevé, et là où il est le plus bas.

Première observation

On observe les comtés où le pourcentage de population atteinte d’un cancer du rein est le plus bas. Il s’agit de comtés principalement ruraux, peu peuplés, et situés dans les Etats traditionnellement républicains du Midwest, du Sud et de l’Est.

Voici ce qu’il s’est passé dans votre cerveau tandis que vous lisiez ces lignes : vous avez activé votre mémoire et formulé des hypothèses. Vous avez probablement rejeté l’idée que le parti républicain offrait une protection contre le cancer du rein. Vous avez probablement reporté votre attention sur le fait que ces comtés sont principalement ruraux.

Il est en effet simple et tentant de voir un lien de cause à effet : les populations rurales subissent moins de pollution de l’air ou de l’eau, et elles ont plus facilement accès à une nourriture saine.

Seconde observation

On observe les comtés où le pourcentage de population atteinte d’un cancer du rein est le plus élevé. Il s’agit de comtés principalement ruraux, peu peuplés, et situés dans les Etats traditionnellement républicains du Midwest, du Sud et de l’Est.

Il est simple et tentant de voir un lien de cause à effet : les populations rurales sont plus pauvres, ont moins accès aux soins, elles fument plus et boivent plus d’alcool.

Cependant, un même fait ne peux expliquer deux tendances opposées…

Explications

L’explication de ces résultats contradictoires ne vient pas du fait que les comtés sont ruraux ou républicains. Il n’y a aucun lien de cause à effet significatif entre ces caractéristiques et le taux de cancer du rein.

La raison est purement statistique : ces comtés ont une population plus faible. Et par conséquent, ils ont une plus grande probabilité de présenter des résultats extrêmes.

Petit cours de statistiques

Imaginons que vous avez un sac contenant autant de boules rouges que de boules blanches. Si vous piochez 4 boules au hasard dans le sac, que vous notez le résultat, que vous remettez les boules dans le sac et que vous piochez à nouveau, et que vous faites cela un grand nombre de fois, vous verrez que vous piocherez 2 boules rouges et 2 boules blanches six fois plus souvent que vous piocherez 4 boules rouges ou 4 boules blanches. C’est-à-dire que 12,5% de vos tirages seront composés de 4 boules identiques.
Si vous faites la même expérience en piochant cette fois-ci 7 boules au lieu de 4, le nombre fois où vous tirerez 7 boules identiques sera de 1,56%.
Plus le nombre de boules que vous tirez est grand, plus le nombre de tirages extrêmes diminue.

Reprenons notre problème. Imaginons les habitants des États-Unis comme des boules dans un grand sac. Les rouges ont un cancer du rein, les blanches non. Pour chaque comté, nous piochons des habitants et nous comptons le nombre de ceux qui ont un cancer. Dans les comtés avec une plus faible population, nous piocherons moins d’habitants, donc nous aurons plus de chance d’avoir des tirages extrêmes que dans les comtés plus peuplés.

Même sans être experts en statistiques, nous avons tous cette notion en tête : plus la taille d’un échantillon est grande, plus son résultat est précis. Nous savons par exemple qu’un sondage réalisé auprès de 10 000 personnes est plus précis qu’un sondage réalisé auprès de 50 personnes. Pourtant, ce « savoir » n’est pas instinctif. Lorsque vous avez lu l’énoncé, vous n’avez pas prêté attention au fait que ces comtés étaient moins peuplés. Et il est difficile d’appréhender l’inverse : plus un échantillon est petit, et plus on a de chance de voir des cas extrêmes.

Ce que cela nous apprend

1- Nous sommes instinctivement très mauvais en statistiques.

2- Nous cherchons à voir des liens de cause à effet là où il n’y en a pas, comme dans l’effet cigogne.

Pour aller plus loin

Cette expérience est tirée de Thinking, Fast and Slow de Daniel Kahneman.

Ce livre est une véritable bible pour comprendre la façon dont nous réfléchissons, et dont nous faisons des erreurs. Je ne peux que conseiller sa lecture.

Cet extrait est disponible sur le site The week (en anglais). Au sujet de cette expérience, l’auteur cite les statisticiens Howard Wainer et Harris Zwerling.