Tout d’abord, je tenais à vous remercier d’être revenu lire cette seconde note (la concurrence était rude face aux sites olé-olé), il est vrai, difficile à appréhender. A ce propos, il n’y a aucune honte à être parti s’alcooliser avec modération entre ces deux volets. Bien, maintenant que nous sommes tous plus détendus, reprenons.

Pour obtenir les jolies images d’IRMf dont nous nous délectons dans nos revues neuroscientifiques préférées, il faut de puissants logiciels capables de réaliser des traitements statistiques très lourds.

Pourquoi ? Simplement parce que les signaux à détecter sont faibles et qu’il faut distinguer ceux qui sont pertinents de ceux qui représentent du « bruit » lié au fonctionnement cérébral au repos. Et oui, ces systèmes informatiques doivent comparer l’activité en situation de tâche spécifique à la situation de repos (le repos cérébral existe-t-il ?). Ils posent donc des hypothèses statistiques sur l’activité de chaque unité spatiale du cerveau (les fameux voxels qui sont des pixels en 3 dimensions représentant un petit cube de tissu cérébral contenant environ un million de cellules) en comparant le profil statistique des valeurs expérimentales à celui des valeurs simulées correspondantes au cerveau inactif. Ces voxels sont ensuite regroupés en clusters et subissent la même comparaison (le clustering est la recherche des groupes de voxels ayant la même activité). Logiquement, ces logiciels doivent présenter les résultats avec une tolérance maximale de 5 % de faux positifs. C’est ici que le problème réside : plusieurs chercheurs affirment (et montrent d’ailleurs !) que ces méthodes de traitement de données sous-estimeraient largement le risque de faux-positifs.

L’étude d’Eklund

Anders Eklund et ses collègues ont testé les trois logiciels d’IRMf les plus employés dans les laboratoires de neuroscience. Ils sont partis d’une banque de données d’IRMf en open source dont ils ont choisis 499 individus sains (examen au repos). Ensuite, ils les ont séparés en groupes de 20 individus et ont réalisé des comparaisons inter-groupes. Trois millions de comparaisons ont ainsi pu être effectuées.

Alors qu’ils n’auraient pas dû trouver une marge d’erreur supérieure à 5 %, ce sont jusqu’à plus de 70 % de différences significatives qui ont été relevées entre des groupes de sujets pourtant comparables.

La cause ? L’utilisation de méthodes paramétriques qui posent un modèle de répartitions statistiques des données obtenues pour chaque cluster qui ne semblent pas correspondre aux mesures réalisées sur le terrain.

Combien d’études sont-elles concernées ? Ce sont les études basées sur des inférences paramétriques sur les clusters. L’article parle d’environ 40000 études concernées… quand même…

Ça ne vous rappelle rien ? J’en vois déjà quelques-uns parmi vous qui la ramène en disant qu’ils savaient bien que l’interprétation des résultats de cette couteuse machine n’était pas sans poser de problèmes. Ils devaient avoir pris connaissance de l’article précédent du groupe (2) ou du papier passionnant de Bennett où une IRMf avait détecté une activité cérébrale chez… un saumon mort (3) .

Et maintenant (chabada chabada) que vais-je faire ?

Pas de panique : si vous êtes encore à la plage, restez-y. Sinon direction le frigo…

Mauvaise nouvelle : il est impossible de revérifier la fiabilité des résultats de ces 40000 études car les données brutes n’ont souvent pas été conservées.

Bonne nouvelle : il existe beaucoup d’études dont les résultats ont pu être reproduits et les méta-analyses aident à faire le tri. Les chercheurs partagent aussi de plus en plus leurs données ce qui permet de faire des statistiques à plus grande échelle et d’affiner la précision des résultats. Ensuite, côté traitement statistique, il semble exister une parade : en utilisant des méthodes non paramétriques, Eklund est parvenu à corriger le problème pour passer sous les 5% de faux positifs. L’inconvénient réside dans la lourdeur des calculs (heureusement l’ordinateur a remplacer le boulier).

Flûte, mon frigo est vide… P-A-N-I-Q-U-E !!!

Références

(1) Eklund A, Nichols TE, Knutsson H. Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates. Proc Natl Acad Sci U S A. 2016 Jun 28.
En accès libre ici

(2) Eklund A, Andersson M, Josephson C, Johannesson M, Knutsson H. (2012) Does parametric fMRI analysis with SPM yield valid results? An empirical study of 1484 rest datasets. Neuroimage 61(3):565–578.

(3) Bennett, C., Baird A., Miller, M., Wolford G. (2010). "Neural correlates of inter-species perspective taking in the post-mortem Atlantic Salmon : an argument for proper Multiples Comparisons Corrections". Journal of Serendipitous and Unexpected Results 1 – 1 : p1-5.

On en parle très bien ici

Et puis aussi là pour faire le lien avec la clinique

Et pour en savoir plus