Dès que nous lisons un article de recherche, nous nous trouvons confrontés à la célèbre “valeur p”. Il s’agit, certes, une valeur statistique importante, mais on lui accorde parfois une place démesurée, et on l’interprète parfois à tort. Nous allons ici essayer de mieux comprendre cette valeur et d’identifier certains pièges liés à son interprétation. Afin d’éviter autant que possible de rentrer dans les calculs, nous utiliserons beaucoup d’exemples que j’espère parlants. Nous ne parlerons pas ici des différents biais des études et de leurs design, mais uniquement des erreurs liées aux valeurs p. Afin de rester à peu près digeste, j’ai découpé en trois cet article, et nous allons aujourd’hui commencer par quelques explications assez générales.

Qu’est-ce qu’une valeur p ?

Prenons un exemple. Si nous choisissons 5 élèves d’une classe de masseur-kinésithérapeutes, même s’ils ont été tirés au sort (randomisation), nous pouvons avoir choisi par hasard les moins bons élèves et obtenir une moyenne particulièrement faible, et assez éloignée de la moyenne réelle de la classe. Dès qu’on observe un échantillon pour tirer une conclusion sur toute la population, il y a donc une part d’aléatoire, qu’il est important de quantifier lors d’une étude. La valeur p est la probabilité d’observer un résultat tel que celui obtenu dans l’échantillon “par hasard”, en l’absence de différence entre les groupes.

Pour mieux comprendre comment interpréter ces valeurs p, je pense qu’il est nécessaire d’avoir une idée du fonctionnement d’un test statistique.

Procédure d’un test statistique :

De façon globale, les différents tests statistiques (qu’il s’agisse d’un test de Student, d’un chi-carré, d’une régression linéaire…) fonctionnent de la même façon, que je vais tenter d’expliquer ici. Tout ceci n’est pas parfaitement rigoureux, mais devrait rester assez simple.

On définit d’abord une hypothèse nulle, que l’on va essayer de rejeter. La finalité de l’étude sera d’arriver à prouver (ou pas) que cette hypothèse est très invraisemblable. Prenons un exemple simple : je viens de trouver une pièce dans la rue, et je souhaite prouver qu’elle est pipée. Je vais définir comme hypothèse nulle le fait qu’elle tombe 50% des fois sur “face” (dans beaucoup d’études cette hypothèse nulle est donc que le traitement expérimental ait le même résultat que le placebo) et je vais essayer de réfuter cette hypothèse.

Je vais pouvoir obtenir un ordre d’idées des valeurs qui vont dans le sens de cette hypothèse : imaginons que j’effectue 25 lancers de ma pièce, selon mon hypothèse nulle je dois obtenir environ 12 ou 13 faces.

On va maintenant confronter le nombre obtenu expérimentalement à ce que l’hypothèse nulle devrait donner, et voir à quel point les résultats vont à l’encontre de mon hypothèse.

Par exemple :

-trouver 11 faces semble tout à fait raisonnable et ne permettra pas de réfuter notre hypothèse initiale
-trouver seulement 7 faces semble improbable et nous permettra de rejeter l’hypothèse que notre pièce soit banale.

Le but du test statistique est de calculer la probabilité d’obtenir une différence aussi grande entre la valeur expérimentale et la valeur attendue selon l’hypothèse nulle. C’est la réponse à la question : “quelle est la probabilité qu’un résultat aussi extrême ou davantage encore soit lié au hasard ?”.

Dans notre exemple ou seulement 7 faces seraient apparues, nous cherchons donc la probabilité d’obtenir au bout de 25 lancers :

– 7 faces ou moins : 2,16% Calcul ici
– 18 faces ou plus : 2,16% (idem)

Soit en tout 4.32%, ou, selon l’écriture consacrée p=0.04.

Il n’y a que 4,32% de chances qu’un résultat aussi surprenant arrive avec une pièce normale.

Pour mon exemple où 11 faces seraient apparues : p=0.69 Calcul ici

Rejeter l’hypothèse nulle… ou pas :

La dernière étape de l’analyse statistique est maintenant de trancher : est-ce que le hasard est responsable du résultat observé ou pas ? Est-ce que mon groupe expérimental s’est comporté comme le groupe placebo ? Est-ce que ma pièce est pipée ou pas ? Est-ce que toute la classe d’étudiants masseur-kinésithérapeutes est nulle ou pas ?

Nous avons obtenu une probabilité, pas une réponse ferme. Nous avons donc besoin de définir un seuil au-delà duquel le résultat nous semble vraiment trop improbable. Ce seuil est généralement admis à 5%, d’où nos fameux “p<0.05”. Mais on voit aussi des “p<0.01” qui sont plus rigoureux, ou des valeurs encore plus faibles (et rares, surtout dans notre domaine).

Dans notre exemple de pièce, si 7 faces sont obtenues en 25 lancers, on va rejeter l’hypothèse nulle avec p<0.05, et donc opter pour l’hypothèse alternative : ma pièce est bel et bien pipée.

C’est à cette étape que nous abordons nos premiers pièges :

-Il ne se passe rien de magique avec p<0.05, une probabilité à peine supérieure à celle que nous avons obtenue (p=0.0432) ne nous aurait pas permis de rejeter l’hypothèse nulle. Et pourtant on ne retiendra généralement que la conclusion, et pas la valeur p de l’étude. Pour la petite histoire, il semblerait que Fisher ait eu l’idée du nombre 5 comme seuil de significativité en arrivant à distinguer 5 de ses orteils dans la vapeur de son bain… C’est anecdotique, mais ça montre bien que ce seuil est arbitraire.

-”L’absence de preuve n’est pas la preuve de l’absence” : si une étude ne permet pas de rejeter l’hypothèse nulle, elle ne la confirme pas non plus. Si une étude recherche un effet, mais n’arrive pas à le trouver statistiquement significatif (p>0.05), elle ne peut pas non plus conclure qu’il n’y a pas d’effet (ou que les deux groupes ont eu le même résultat, s’il y a un groupe contrôle). Pour continuer l’exemple de la pièce : avec 8 faces obtenues sur 25 lancers (p=0.11), nous n’avons pas assez de preuves pour rejeter l’hypothèse nulle (c’est à dire l’hypothèse que ma pièce soit une honnête pièce qui n’a rien à se reprocher), et nous ne pouvons rien conclure. Il faut faire d’autres types d’études pour montrer une absence d’effet.

Nous n’obtenons donc jamais de certitude totale, même avec une étude parfaitement construite. Si nous considérons un résultat comme statistiquement significatif à p=0.05, il y a quand même une chance sur 20 de conclure à un résultat alors qu’il n’y en a pas. Ce risque de rejeter l’hypothèse nulle par erreur est appelé risque α (ou erreur de type I). Il y a donc forcément énormément d’articles qui concluent à tort qu’il y a un effet sur les 23 millions de publications de Pubmed (surtout que les valeurs p ont une dangereuse tendance à frôler le seuil de 0.05), la probabilité qu’un article avec p<0.05 soit un faux positif a même été estimée à près de… 50% .

Je ne souhaite pas développer ici sur le risque β (ou erreur de type II), mais voici juste quelques explications de vocabulaire : le risque β est la probabilité de ne pas rejeter l’hypothèse nulle, alors qu’il y a bel et bien un résultat (c’est à dire passer à côté d’un résultat intéressant, en le considérant non significatif). Le terme de “puissance” désigne la valeur 1 – β : c’est donc la probabilité pour une expérience de bel et bien conclure à un résultat s’il est présent.