J’ai souvent entendu dire qu’on pouvait faire dire n’importe quoi aux chiffres. Voici un exemple où les mêmes chiffres peuvent dire une chose, et son exact inverse. Garanti sans trucage !
Vidéo
Résumé de la vidéo
Le paradoxe de Simpson
Le paradoxe de Simpson est un paradoxe statistique dans lequel un phénomène observé de plusieurs groupes semble s’inverser lorsque les groupes sont combinés.
En gros : on a des données. On trace une courbe : elle va dans un sens. Mais si on sépare les données en plusieurs sous-groupes, chaque courbe de chaque groupe va dans le sens inverse.
Exemples
Dans la vidéo, on nous donne un exemple précis, chiffres à l’appui.
On compare ici le taux de guérison du cancer en fonction de la thérapie choisie (médicaments ou chirurgie). On voit qu’au total, les médicaments ont un taux de guérison plus haut (76% contre 66% pour la chirurgie.
Pourtant, si on sépare par taille de tumeur, ont voit que dans les deux cas, la chirurgie est plus efficace.
Le facteur de confusion
Un des raisons possibles qu’un paradoxe de Simpson s’applique à des données est la présence d’un facteur de confusion : il s’agit d’une variable qui va avoir une influence à la fois sur la cause observée et l’effet observé.
Dans l’exemple ci-dessus : la taille de la tumeur influence à la fois les chances de guérison et le choix du traitement.
Les solutions
Dans la vidéo, on propose deux solutions pour éviter le paradoxe de Simpson :
- Connaître le facteur de confusion, et donc analyser les données en conséquence
- Faire une expérience en double aveugle pour éviter les facteurs de confusion (étude prospective)
Nous devons aussi nous méfier de l’effet cigogne : corrélation est-elle forcément conséquence ?
Ce que cela nous apprend
Même lorsque nous traitons des chiffres justes, nous devons toujours nous méfier des conclusions dans l’interprétation de ces chiffres.
Face à des données statistiques, demandons-nous :
- S’agit-il d’une étude prospective ou rétrospective ?
- Y a-t-il un risque de facteur de confusion ?
- La personne qui interprète les données connaît-elle le sujet ? Est-ce qu’elle sait de quoi elle parle ?
- Attention à l’effet cigogne