Significativité statistique

Bonjour et bienvenue dans Le Dico ! Aujourd’hui, on vous propose un épisode sur la significativité statistique !

« Cette étude est significative car la p-value est inférieure à 0,05 » : vous avez sûrement déjà entendu cette phrase. C’est la ligne magique qui sépare l’anecdotique du « scientifiquement prouvé ». Mais derrière ce chiffre se cache un MALENTENDU FONDAMENTAL qui a déformé toute la science. Oubliez tout ce que vous savez sur la « significativité statistique »… maintenant !

La significativité statistique, c’est un seuil arbitraire qui permet de décider si on admet que nos données sont dues au hasard ou pas. Elle se mesure avec ce qu’on appelle la “p-value”.

La première chose, et la plus cruciale, à graver dans votre esprit est celle-ci : la p-value ne vous donne jamais la probabilité que votre hypothèse de recherche soit vraie. Jamais. Si votre p-value est de 0,03, cela ne signifie pas qu’il y a 97% de chances que l’effet observé soit réel. C’est le sophisme le plus répandu en statistiques. C’est FAUX. et c’est MAL.

Pour comprendre la p-value, il faut faire l’effort intellectuel de penser à l’envers, de se placer dans la position du sceptique absolu. En science, on ne commence pas en essayant de prouver que quelque chose existe ; on commence en partant du principe qu’il ne se passe rien. C’est l’Hypothèse Nulle (H0). Ce monde, c’est le royaume du pur hasard, où les différences observées entre des groupes ne sont que le fruit de la chance, du bruit aléatoire.

La p-value est une question posée à ce monde ennuyeux, à cette Hypothèse Nulle : « Si H0 était vraie (si tout n’était que du hasard), quelle était la probabilité d’obtenir des données au moins aussi extrêmes, ou plus extrêmes, que celles que j’ai sous les yeux ? »

C’est une jauge de surprise, un indicateur de rareté. Une petite p-value (proche de zéro) signifie que nos données sont très rares, très surprenantes, dans un monde régi par le seul hasard. C’est une mesure de l’incompatibilité entre nos données et l’Hypothèse Nulle.

Pour pouvoir trancher, pour passer de la simple « surprise » à la « décision » qu’il se passe quelque chose, nous avons besoin d’une règle : le seuil alpha. Par convention, et souvent par paresse historique, cette ligne est tracée à 5%.

Si notre p-value tombe sous ce seuil, nous rejetons l’hypothèse du hasard. La conclusion formelle est : « Les données sont statistiquement incompatibles avec l’Hypothèse Nulle au seuil alpha ». C’est là que naît la « significativité statistique ». On se dit : « Tiens, il y a peut-être quelque chose, qui n’est pas le simple hasard, qui est en jeu ! »

C’est ici que réside le piège majeur, l’endroit où la méthode statistique se déconnecte du sens pratique. Dire « Il y a quelque chose » (significativité statistique) ne veut absolument pas dire « C’est important » (significativité pratique ou clinique).

Si vous disposez d’un échantillon gigantesque vous pouvez rendre « significative » une minuscule poussière, une différence qui est négligeable dans la vie réelle. Mathématiquement, la p-value vous criera : « C’est pas du hasard ! La poussière est bien là ! » C’est mathématiquement vrai, vous avez prouvé la probable existence de la poussière. Mais dans la vraie vie, l’impact de cette poussière est nul. La taille de la poussière qu’on détecte, on appelle ça la taille d’effet.

Et c’est pour ça qu’un chercheur rigoureux ne se contente pas d’afficher une p-value. Il rapporte également la taille de l’effet. La taille de l’effet ça répond à la question : « Quelle est l’ampleur de ce que j’ai trouvé ? » (on gagne 1 jour d’espérance de vie ou 10 ans ?). Et on comprend bien qu’un médicament dont on a montré qu’il améliore de façon statistiquement significative l’espérance de vie n’a pas le même intérêt selon la taille d’effet considérée

Donc, face à une étude estampillée « statistiquement significative », ne soyez jamais naïfs. Le véritable esprit critique vous impose de poser deux questions fondamentales :

Quelle est la taille de l’effet ? (on gagne 1 jour d’espérance de vie ou 10 ans ?)
L’étude a-t-elle été bien menée ? (Une petite p-value n’a aucune valeur si l’étude est biaisée ou mal conçue). Parce que oui, un test statistique n’est valable que si toutes les conditions théoriques pour le mener sont réunies…

La significativité statistique est un outil puissant pour filtrer le bruit, détecter qu’il se passe quelque chose, mais c’est un très mauvais indicateur de la vérité et de la pertinence. Il ne fait qu’indiquer la rareté des données sous un modèle hypothétique de hasard. Ne laissez jamais un simple 0,05 se substituer à votre jugement critique sur l’importance du résultat.