La valeur p n’est pas la “précision” d’un résultat :
Encore une fois c’est l’intervalle de confiance qu’il faut regarder pour savoir à quel point on est précis dans l’estimation de la taille de l’effet. Il est possible d’avoir une faible valeur p, et un intervalle de confiance très large, ce qui traduit un effet statistiquement significatif, mais dont la valeur précise est mal connue.
On ne compare pas des valeurs p entre elles :
Comme nous venons de le dire, les valeurs p ne renseignent pas sur la taille de l’effet, et elles ne doivent donc pas servir à comparer des résultats : si une étude portant sur l’effet des ultra-sons (US) dans la lombalgie n’arrive pas à atteindre p<0.05, et qu’une autre étude sur le laser est significative avec p<0.05, on ne peut pas conclure qu’une technique est supérieure à l’autre.
Même dans le cas ou les populations étudiées semblent similaires, avec le même nombre de sujets, avec les mêmes critères d’inclusion/exclusion, même si les critères d’évaluation sont les mêmes etc… Une comparaison de deux traitements ne peut passer que par une étude faite dans cet objectif.
L’exemple que je viens de prendre comparait des valeurs p obtenues dans deux études différentes, ce qui rend l’erreur particulièrement grossière et évidente. Le piège est plus subtil dans certaines études : si je souhaite comparer US et Laser, je peux monter une étude avec deux groupes recevant chacun un des traitements. Si les patients dans le groupe US ont une amélioration significative avec p<0.05 après traitement, et que le groupe Laser n’a pas d’amélioration significative (p>0.05), on est tenté de croire que les US ont montré leur supériorité sur le Laser et que ce résultat est significatif statistiquement.
Ceci est encore une fois faux. Les deux observations ne sont que des effets intra-groupe (avant/après traitement), et on n’a donc pas comparé les deux traitements, exactement comme dans le paragraphe précédent.
C’est la valeur p inter-groupes qui va vraiment nous renseigner sur la valeur relative des traitements. Il est même possible que le Laser soit en moyenne plus efficace, mais qu’il y ait eu plus de variabilité et/ou moins de cobayes dans ce groupe (CF article 2).
Les comparaisons multiples :
Nous avons vu qu’une valeur p est la probabilité d’observer un résultat au moins aussi extrême, dans l’hypothèse où il n’y aurait pas de différence réelle entre les groupes. Il y a donc, à chaque analyse statistique, un risque que le résultat soit un faux positif, et plus on va multiplier ces analyses, plus on a de risques qu’une (au moins) soit fausse(s).
C’est un problème qu’on observe parfois si on multiplie les groupes ou les mesures que l’on compare. Par exemple, si on réalise une grande étude cherchant à prouver qu’une méthode de rééducation de la lombalgie marche mieux que le traitement classique, et qu’on ne trouve pas de résultat probant, on peut être tenté de chercher des sous-groupes pour lesquels les résultats seraient significatifs, et on peut diviser selon plusieurs critères (comme le sexe, l’âge, l’activité, des critères prédictifs quelconques), jusqu’à trouver une catégorie pour laquelle le résultat sera celui qu’on espérait atteindre en faisant l’étude (les hommes de 20 à 30 ans qui sont droitiers, qui ne font pas de sport mais qui habitent au 2ème étage ou plus haut, sans ascenseur).
L’article du JOSPT ici n’a pas beaucoup de groupes, mais a énormément de mesures par groupe, ce qui pose le même problème : les auteurs ont fait ici pas moins de 14 mesures.
Ils étaient certainement conscients du problème et n’ont pas choisi p<0,05 mais 0,01 comme seuil de significativité. Malgré cela, si on fait le calcul, on a quand même 13% de chances qu’une des mesures donne un résultat significatif. D’ailleurs l’étude en question trouve une seule mesure significative, et elle ne l’est plus dès le lendemain… Avouez que ça semble louche.
Corrélation n’est pas causalité :
C’est un grand classique, et ça ne relève pas trop des valeurs p, mais je me sens obligé d’en parler quand même : quand une étude mesure la corrélation entre deux variables (la douleur et la vitesse de boutonnage, pour utiliser le même exemple que dans l’article précédent), et que la corrélation est significative (p<0.05 ou autre seuil choisi), rien ne prouve que c’est la douleur (liée à la polyarthrite rhumatoïde) qui réduit la vitesse de boutonnage. On voit souvent cette erreur quand la presse générale s’intéresse à la recherche.
Pour prendre un exemple classique, si je prouve qu’il y a corrélation significative entre la présence d’une personne sur un lieu et des incendies, la personne peut être pyromane (c’est sa présence qui déclenche les feux)… ou pompier (la causalité est inversée)…
Il faut toujours penser à cette causalité inversée quand on a une étude transversale (et pas longitudinale : on ne suit pas les patients dans le temps).
Il peut aussi ne pas y avoir de lien de causalité direct entre les deux : il y a corrélation entre consommation de viande rouge et décès par accident de la route … Ce n’est pourtant probablement pas la viande rouge qui provoque les accidents (quoique)… Il y a certainement un lien plus complexe entre ces deux-là.
Conclusion :
Pour citer Chad Cook, “tout le monde croit comprendre les valeurs p, et tout le monde les réclame” (la source en version originale), dont je vous conseille la lecture, j’espère que ceci contribuera à mieux les faire comprendre, et à relativiser leur importance…
Les pièges que j’ai relatés ici ne sont certainement pas les seuls, mais sont ceux que j’ai pu relever lors de discussions… Et ce n’est pas la seule limite de cet article : nous n’avons ici parlé que de valeurs p “honnêtes”, il est aussi possible d’obtenir des valeurs p faussées (volontairement ou non) en n’appliquant pas tout à fait le bon test (en particulier le problème des valeurs corrélées et des hypothèses non respectées).
Et il y a aussi tous les biais (sélection et mesure), plus les facteurs de confusion qui remettent en cause l’étude… La lecture critique d’article est un vaste sujet, que nous n’avons qu’effleuré avec ce chapitre sur le petit p (qui reçoit justement le feu des projecteurs en ce moment).
PS : Rendons à César ce qui appartient à César, ces articles sont largement inspirés du cours en ligne de Stanford University : HRP258 Statistics in Medicine.
Un grand merci aussi à Damien, Michel, Thierry et Jean-Louis (chronologiquement).