Publié le 01 sep 2009Lecture 12 min
Trucs et astuces pour comprendre et interpréter les essais cliniques
M.-D. DRICI, Service de Pharmacologie-Toxicologie Médicales, CHU de Nice
Le Printemps de la cardiologie
Généralités
La lecture d’articles médicaux indépendants est incontournable pour améliorer nos pratiques professionnelles. Les différents types d’articles rencontrés nous permettent :
– D’étancher notre curiosité comme les « cas cliniques » ou les « lettres » ;
– De nous instruire afin de faire le point dans un domaine précis comme les « revues générales » ;
– D’appliquer les principes de médecine basée sur les preuves (evidence-based medicine) avec les « articles originaux ».
Dans tous les cas, ces articles apportent souvent des informations pertinentes concernant notre pratique quotidienne et leur lecture régulière est impérative.
Il existe plusieurs approches de lecture des articles médicaux, essentiellement par « grilles », qui correspondent en fait aux « grilles d’écriture » requises par les revues à comité de lecture qui les acceptent. Il n’en existe toutefois pas d’universelle, et c’est à chacun de nous de développer une démarche personnelle de lecture correspondant à nos besoins. Quelques bases sont néanmoins incontournables.
L’immense majorité des articles d’evidence-based medicine est composée selon le schéma classique I.M.R.A.D. correspondant à une Introduction claire, au Matériel, Méthodes et Patients, aux Résultats, et à la Discussion. L’ensemble de ces éléments (sauf la discussion) figure déjà dans le protocole à l’origine de la recherche ayant abouti à la publication.
Points essentiels d’un article, figurant au protocole de recherche
Introduction et objectif de l’étude
Tout article débute par un rationnel qui intéresse le médecin, et doit être correctement exposé pour donner lieu à une hypothèse de recherche.
L’existence d’une telle hypothèse doit être évidente à la lecture.
Il faut donc, sauf dans quelques rares cas, éviter les articles qui reposent sur une observation pure d’un groupe de patients pris « au fil de l’eau », sans hypothèse de travail claire, car ces articles témoignent d’interprétations abusives, souvent portées a posteriori.
L’hypothèse de travail découle directement du rationnel observé dans l’introduction de l’article, et aboutit dans les dernières lignes de l’introduction, à établir un objectif clair et pertinent.
Il est impératif que cet objectif clinique soit atteint par une méthodologie adaptée.
Méthodologie adaptée
Pour un objectif donné, une seule réponse est attendue, et un seul essai est réalisé.
Le critère principal de jugement et sa mesure
Cet objectif est basé sur la mesure d’un critère principal de jugement.
Si la fréquence d’apparition du critère de jugement est faible (mortalité globale dans l’hypertension de grade 1 par exemple), le critère peu être composite (agrégation de plusieurs critères comme la mortalité cardiaque, les AVC, les hospitalisations, etc.) ce qui permet d’en augmenter la fréquence d’apparition et de diminuer le nombre de sujets nécessaires pour réaliser l’objectif.
Dans tous les cas un seul critère de jugement principal doit être choisi. Le nombre de critères secondaires doit être limité à son minimum car leur interprétation n’aboutit qu’à de nouvelles hypothèses de travail et non à des conclusions fermes et définitives.
Ainsi, seule la conclusion portant sur la mesure du critère principal du jugement est valide et interprétable.
Ce critère doit être cliniquement pertinent, il doit correspondre au problème posé, et doit être mesuré de manière fiable, reproductible, et standardisée, ne serait-ce que pour permettre à différents investigateurs dans des centres géographiquement éloignés, ou au même investigateur à plusieurs temps différents, d’aboutir à une mesure fiable dans tous les cas (hypertension artérielle par exemple).
Etude prospective, contrôlée, randomisée, en insu
Interpréter une étude rétrospective correspond à peu près à cette affirmation triviale dont on perçoit les limites : « tous les gagnants de la loterie ont acheté un billet ! ». S’il est facile dans ce cas de comprendre que l’inverse n’est absolument pas vrai, ce peut être beaucoup plus délicat dans un article scientifique ou qui se veut tel.
L’étude doit donc être prospective. Elle doit être aussi contrôlée, c’est-à-dire qu’une partie des patients bénéficiera du nouveau traitement alors qu’une autre partie bénéficiera d’un traitement classique. S’il n’en existe pas, la comparaison fera appel à un traitement placebo. Une exemple est celui du traitement de l’hypertension du sujet très âgé dans l’étude HYVET© : le bénéfice du traitement de l’hypertension artérielle du sujet très âgé n’ayant pas été prouvé jusqu’alors, l’étude prospective d’une association antihypertensive contrôlée par du placebo a conclut de manière définitive à l’intérêt d’entreprendre ou de continuer à traiter les sujets hypertendus très âgés. On peut toutefois se poser la question : qui aurait arrêté le traitement antihypertenseur d’un sujet âgé ? Mais il s’agit là de la pertinence de l’hypothèse de travail et non de la rigueur de la méthodologie. Plutôt qu’établir des comparaisons « avant-après », il est essentiel d’avoir une étude contrôlée car beaucoup de pathologies évoluent au cours du temps, et différents aléas (effet Hawthorne, régression à la moyenne, effet placebo, effet nocebo, biais divers, etc.) peuvent être à l’origine de ce qui est attribué a priori comme à l’efficacité d’un traitement.
Il est nécessaire que les traitements dont vont bénéficier les patients des groupes soient tirés au sort ou randomisés (de l’anglais random : hasard) et non choisis en ouvert délibérément par le praticien. Seul le hasard peut distribuer de manière équitable les biais potentiels dans les deux groupes.
Afin de limiter les biais d’interprétation qui peuvent provenir des patients (convaincus de recevoir un traitement efficace s’il le reconnaissent), mais aussi des médecins (une toux sera plus volontiers attribuable à un IEC qu’à un antagoniste calcique si le médecin connaît le traitement attribué), les techniques de l’insu, voire du double-insu, sont indispensables. Ni le patient, ni le médecin ne savent quel traitement est reçu et le critère de jugement mesuré est donc indemne d’appréciation subjective par l’une ou l’autre des parties.
Auparavant, il aura été nécessaire de définir très spécifiquement la maladie étudiée (existence d’une forme clinique particulière par exemple), les critères d’inclusion et de non-inclusion des patients (ceux que l’on ne peut inclure dans un essai n’en sont pas exclus : ils n’y participent tout simplement pas !) ainsi que les critères d’exclusion (retrait du consentement informé par exemple).
Il est indispensable de décrire les traitements médicaux que les patients recevront, avec justification des doses, en particulier des traitements servant de contrôle. Par exemple, un des médicaments référence utilisé dans l’angor comme dans l’hypertension est la dose de 50 mg d’aténolol. Cette dose, même si elle est fréquemment employée, n’est pas optimale pour le traitement de l’angor, et discutable dans celui de l’hypertension artérielle. Toute comparaison d’efficacité d’un nouveau traitement contre cette dose contrôle sera à relativiser, en particulier si les conclusions de l’article concluent au miracle ! La lecture soigneuse de la justification du choix de dose est très importante, de même que la comparaison avec ce que nous faisons en cabinet ou à l’hôpital. Il est très rare que nous utilisions en pratique les doses de statines qui ont démontré leur efficacité dans la prévention secondaire cardio-vasculaire et personne ne connaît le bénéfice des doses plus faibles qui nous sont habituelles et qui pourtant ont un coût pour notre système de santé.
Les traitements associés, les traitements interdits, ainsi que les effets indésirables éventuels et leur méthode de recueil doivent apparaître à la lecture de l’article. Par exemple à la question : « Est-ce que vous tolérez bien le traitement ? », les patients répondent très souvent oui. Si la question est maintenant dirigée : « Avez-vous quelquefois des maux de tête ? » Il est très probable que des effets indésirables vont apparaître. C’est aux différences des méthodes de recueil que l’on doit les fréquences d’apparition de toux lors de l’utilisation d’IEC qui sont parfois de 3 % à près de 40 % selon l’article !
D’où l’intérêt du caractère prospectif de l’étude et du double insu.
Globalement la méthodologie utilisée doit découler des objectifs, et non l’inverse.
Analyse statistique
À la fin de la section Matériel et Méthodes/Patients apparaît l’analyse Statistique. Elle est dans tous les cas prédéfinie avant le début de l’étude avec des pré-requis solides et une planification parfaite.
Le point primordial dans cette analyse est celui du calcul du nombre de sujets nécessaires pour mener à bien cet essai et en tester l’objectif principal.
Le calcul du nombre de sujets nécessaires est absolument indispensable si on veut extrapoler les résultats de cette étude à une population beaucoup plus large de patients présentant les mêmes caractéristiques, donc à votre patientèle !
Ce nombre se calcule en fonction de quatre éléments :
– Le risque statistique accepte de dire qu’un traitement est supérieur à un autre alors que ce n’est pas le cas : établi internationalement à un maximum de 5 %, il correspond au fameux « p < 0,05 ». C’est le risque alpha. Le risque de ne pas conclure à une différence qui existe est lui aussi important à considérer. C’est le risque béta que l’on choisit entre 5 et 20 % habituellement. Il est généralement exprimé sous forme de « puissance statistique » : 1-béta. Ainsi un essai dont la puissance est de 90 % permet de dire qu’on n’accepte que 10 % de chances de « passer à côté » d’une différence si vraiment elle existe.
– La différence que l’on attend entre les deux traitements : plus elle est importante, moins il faut de sujets pour le prouver. Par exemple, la méningite tuberculeuse était spontanément mortelle avant l’apparition des antibiotiques. Il a suffi du premier cas de survie avec la streptomycine pour en prouver l’efficacité.
– enfin le dernier élément, qui justifie le caractère unique du critère principal de jugement, c’est sa variabilité. Plus la mesure du critère de jugement est fiable et sa variabilité faible, moins il faudra de sujets pour tester l’hypothèse de départ.
– Une fois le calcul effectué, les patients sont distribués dans autant de groupes qu’il y a de traitements à évaluer.
Dans un article, l’absence du calcul du nombre de sujets nécessaires ne permet que d’en interpréter les résultats, alors que sa présence permet d’en extrapoler les conclusions.
Dans tous les cas, l’analyse statistique est réalisée en « intention de traiter », c’est-à-dire que les groupes sont analysés dans leur totalité selon la randomisation de l’essai. J’ai ainsi dans le passé, après erreur d’inclusion d’un investigateur, analysé un cas féminin dans le traitement du cancer de la prostate !
On peut réaliser par la suite une analyse « per protocole » c’est-à-dire uniquement avec les patients qui ont pris correctement le traitement/la stratégie de l’essai.
En général l’analyse en intention de traiter favorise les comparaisons de non-infériorité alors que les analyses per protocole favorisent la démonstration de la supériorité d’un traitement sur l’autre.
Les résultats
Les tableaux récapitulatifs des résultats permettent d’un seul coup d’œil de vérifier si la randomisation a été faite de manière correcte, dans la mesure où si cela est le cas, les groupes doivent être comparables en âge, sexe, poids et autres constantes.
Les résultats doivent être pertinents, intéressants, apparaître clairement dans l’article, mais surtout correspondre à l’objectif initial, quitte à le relire soigneusement !
Il faut se méfier des présentations de résultats sous forme de risque relatif qui met souvent l’emphase sur des améliorations extrêmement modestes en valeur absolue. De même, une incidence annuelle d’effet indésirables qui apparaît infime entre deux traitements (1 %/an), devient une différence de 10 % si le traitement est administré au long court pendant 10 ans (fibrillation auriculaire, anticoagulants, etc !).
Il faut enfin savoir que la tolérance des traitements ne nécessite souvent pas de significativité statistique pour être prise en compte…
Les patients « perdus de vue »
Ce sont des patients qui, malgré les relances des investigateurs, ne se présentent pas au rendez-vous de consultation (ils sont peut-être morts ? Qui sait ?).
C’est un des marqueurs principaux de la qualité d’un essai : ils doivent rester inférieurs à 5 à 10 % du total de l’essai.
La discussion
Point n’est besoin d’y passer beaucoup de temps car seuls l’objectif qui vous intéressait et les résultats qui vous importent sont à prendre en compte. Une discussion reprenant le résultat principal de l’étude, correspondant à l’objectif posé, et la comparant ces résultats avec les essais antérieurs est généralement adaptée.
Le point principal reste toutefois que seuls les résultats du critère principal de jugement peuvent être extrapolables.
Quelques points particuliers
Les essais de non infériorité ou de supériorité
Si un essai conclut à la supériorité d’un traitement sur un autre, cela inclut sa non-infériorité. Le contraire n’est pas vrai. Ainsi, deux traitements non statistiquement différents de manière significative, ne sont pas identiques.
Il est devenu habituel pour le développement de nombreux médicaments, que les industriels présentent aux agences d’enregistrements des essais de « non infériorité » qu’ils publient ensuite comme evidence-based medicine. Ces essais ont une hypothèse un peu particulière. Comme l’équivalence de deux traitements est très difficile à prouver, on va essayer de prouver la non-infériorité de l’un par rapport à l’autre. Pour cela, il faut impérativement :
– que le traitement de référence ait été préalablement évalué contre un placebo. La différence entre la référence et le placebo, donne une certaine « réserve d’efficacité » ;
– que le nouveau traitement comparé soit compris dans cette « réserve » et surtout que la borne inférieure de son intervalle de confiance soit toujours située dans cette réserve d’efficacité ;
– un critère de jugement extrêmement conservateur.
Tout le problème consiste à décider jusqu’où la perte d’efficacité du nouveau médicament peut être acceptable pour admettre la pertinence d’une non infériorité. Il s’agit d’un problème clinique extrêmement délicat (par exemple doit–on préserver 50 à 75 %, ou encore plus de 75 % de l’effet du traitement de référence par rapport au placebo ?). Si se sont là des problèmes de spécialistes, il est essentiel pour le médecin qui va en lire les résultats d’en comprendre les rouages car il y est de plus en plus confronté au cours de la visite médicale.
Analyses en sous groupe
Le critère principal de jugement abouti au résultat principal de l’essai. Il est permis d’analyser les critères secondaires si et seulement si ce résultat du critère principal est statistiquement significatif (p < 0,05), mais il faut que :
– ces analyses aient été prévues préalablement ;
– le risque alpha de 5 % ait été modulé pour prendre en compte la multiplicité de ces analyses (puisque la possibilité d’erreurs d’interprétation statistique augmente avec le nombre d’analyses réalisées) ;
– mais surtout il ne faut pas que les conclusions relatives à ces critères secondaires, ou à des analyses de sous groupe, soient extrapolées. Leur interprétation sert uniquement à établir de nouvelles hypothèses de travail qui devront être confirmées par des études prospectives randomisées et donc aboutiront à de nouvelles lectures…
Si l’analyse du critère principal du jugement est non significative, en aucun cas l’analyse des sous groupes des critères secondaires de jugement ne peut être menée à bien. C’est une règle à laquelle beaucoup d’auteurs dérogent parfois et à tort.
En pratique
Plus que l’evidence-based medicine, le bon sens du médecin doit prévaloir.
Si on prend l’exemple de l’hypertension : à chaque nouvelle classe d’antihypertenseurs correspond un nouvel envol de publications originales et de nouveaux critères de jugement, et les articles deviennent naturellement des références de médecine basée sur les preuves.
Ainsi, dans l’hypertension, les diurétiques furent efficaces un temps, puis les bêtabloqueurs, suivis par les alpha bloqueurs, avec sans cesse de nouveaux avantages. Puis les antagonistes calciques, salvateurs de l’AVC du sujet âgé au détriment de ses comparateurs. Enfin, arriva la panacée : les IEC, bien avant les antagonistes des récepteurs à l’angiotensine II. Avec encore de nouveaux avantages, ce fut d’abord la prévention des coronaropathies, puis de l’insuffisance rénale terminale, puis de la microalbuminurie, puis des AVC, de l’insuffisance cardiaque et finalement du diabète.
Tout a été écrit, lu et dit dans ce domaine, ainsi que son contraire, souvent avec une méthodologie parfaite et des critères de jugement principaux indiscutables car ciselés en fonction de la conclusion recherchée.
Or une méta analyse récente(1), indique à partir de 147 études prospectives randomisées et en aveugle totalisant 958 000 patients, que le bénéfice apporté en terme de réduction de morbi-mortalité cardiovasculaire est identique quelque soit la classe médicamenteuse (à quelques détails infimes près) et dépend surtout de la baisse tensionnelle obtenue ! Même les bêtabloquants, très critiqués récemment, et l’aténolol, qui subit depuis quelques années des outrages récurrents présenteraient en plus un avantage en cas de coronaropathie !
Donc beaucoup de bons sens, et du recul avant toute extrapolation de résultats d’article. Bonne lecture.
Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.
pour voir la suite, inscrivez-vous gratuitement.
Si vous êtes déjà inscrit,
connectez vous :
Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :