publicité
Facebook Facebook Facebook Partager

Grand angle

Publié le 29 déc 2022Lecture 9 min

Health Data Hub - La plate-forme nationale des données de santé du futur est-elle pour demain ?

Matthieu WARGNY, Clinique des Données, CHU de Nantes

En France, l’accélération de la recherche sur données de vie réelle passe par la création d’un hub national, une plateforme numérique où convergeront toutes les données d’intérêt pour la recherche en santé. Sur le papier, cette centralisation permet de résoudre bien des problèmes : hébergement unique, mise en commun des capacités de calcul, mais aussi réduction du délai d’accès aux données, amélioration de l’interopérabilité des sources, et bien sûr facilitation des démarches réglementaires dont l’information et le consentement des patients. Lancé en 2019, la concrétisation de ce beau projet se fait un peu attendre. État des lieux et alternatives en 2022.

Qu’est-ce que la plateforme nationale des données de santé ? De son nom commun Health Data Hub, ou HDH, il s’agit de construire une infrastructure numérique nationale dont la vocation est d’héberger des données de santé pouvant concerner tous les Français, afin de les mettre facilement à disposition des chercheurs. Pensée dans une perspective inflationniste, elle vise à intégrer progressivement de nouvelles sources de données de toutes origines, issues du soin (entrepôts hospitaliers), de la recherche (cohortes, essais cliniques) et des ressources médico-administratives telles que les données de la Sécurité sociale, les plus célèbres étant celles de l’actuel Système national des données de santé (SNDS, ex-SNIIRAM-PMSI). Chaque nouvelle source alimentant le HDH serait conservée et enrichirait un « catalogue » de données accessibles aux chercheurs. Nous proposons ici un bref aperçu pragmatique de ce qu’est le HDH aujourd’hui, ainsi que les alternatives qui s’offrent au chercheur intéressé par des données auxquelles il n’a pas d’accès direct. Nous rappellerons d’abord brièvement la genèse du HDH et l’idéal poursuivi. Nous discuterons ensuite l’existant, le guichet unique proposé et les projets en cours. Puis, nous exposerons les solutions alternatives actuelles que sont la plateforme de l’Assurance maladie, le Centre d’accès sécurisé aux données (CASD), ou encore les entrepôts de données de santé hospitaliers.   Genèse du HDH   En 2018, la mission parlementaire confiée au député LREM Cédric Villani a présenté un rapport pour une stratégie française et européenne de l’intelligence artificielle(1). Dans son volet santé, parmi les actions phares mises en avant, figurait la création du HDH, avec pour objectif de « promouvoir l’accès aisé et unifié, transparent et sécurisé aux données de santé, dans le respect des droits des citoyens, pour l’amélioration de la qualité des soins et l’accompagnement du patient »(2). En juillet 2019, le HDH était créé sous la forme d’un groupement d’intérêt public regroupant 56 acteurs parmi lesquels la Haute Autorité de Santé, l’Assurance maladie, le CNRS, la Fédération hospitalière de France ou encore la Fédération française de l’assurance(3).   Les promesses du HDH   Du point de vue économique – entendu dans son acception financière comme dans l’économie de matériel et de temps humain –, l’intérêt d’une plateforme unique est rendu évident par les économies d’échelle : validation réglementaire unique de l’outil, de sa gouvernance et du circuit des données, mise en commun du matériel (hébergement sécurisé, puissance de calcul) et des logiciels, et partage facilité des ressources humaines indispensables : data managers, biostatisticiens et autres data analysts. Du point de vue scientifique, la mise à disposition de données massives, avec l’accès potentiel à des cohortes exhaustives, permet de se jouer des biais de sélection : si on a accès à toute la population, il n’y a plus de sélection ! La significativité statistique (le diktat du « petit p ») peut être mise de côté au profit de la significativité clinique exprimée en termes d’indicateurs pertinents, estimés avec des intervalles de confiance étroits qui, de façon littérale, se traduisent par une réelle confiance dans les résultats. Même quand il ne s’agit pas de données massives, par exemple pour les registres de maladies rares, la centralisation facilite l’enrichissement intersources. Le caractère unique de la plateforme permet une vraie simplification de la vie du chercheur, déjà amorcée avec l’ex-CEREES (Comité d’expertise pour les recherches, les études et les évaluations dans le domaine de la santé) et confirmée par le guichet unique du HDH. Un guide pédagogique pour l’accès aux données(4) et un starter-kit(5), régulièrement mis à jour et disponibles en ligne, synthétisent les démarches nécessaires et permettent une constitution rapide des demandes, certes un peu complexes de prime abord mais confortables pour le chef de projet devant répéter l’opération pour différentes études.   Des promesses multiples Au-delà de ces éléments, les promesses du HDH sont multiples(6).   • Pour le chercheur : après être passé sous les fourches caudines d’une évaluation scientifique et éthique (Comité éthique et scientifique pour les recherches, les études et les évaluations dans le domaine de la santé, CESREES) puis réglementaire (Commission nationale de l›informatique et des libertés, CNIL), il se verra donner accès depuis son espace de travail habituel à un espace numérique dédié. Sécurité oblige, il ne pourra pas réimporter localement les données individuelles mais pourra extraire des statistiques agrégées, tableaux, figures… nécessaires à ses travaux.   • Pour le patient : il est question d’une centralisation du consentement, ce qui permettrait théoriquement de s’opposer à l’exploitation de ses données, soit pour une source (registre, entrepôt hospitalier, etc.), soit pour un projet donné. Cette centralisation se ferait par l’enrichissement progressif d’un catalogue de données (toute donnée hébergée par le HDH dans le cadre d’un projet étant a priori candidate à un partage plus large), afin de favoriser les échanges mais aussi de limiter le risque d’appropriation individuelle voire d’accès discrétionnaire. Une standardisation des formats, avec une approche vertueuse dite top-down encouragerait l’interopérabilité à toutes les échelles, et en particulier en proposant des standards communs aux plateformes locales, régionales ou inter-régionales. Le HDH a déjà fait l’objet de publications détaillées, et de nombreuses ressources sont disponibles sur leur site Internet(6-8). Il a également été la cible de critiques, argumentées ailleurs(9-11), portant notamment sur l’excès de l’ambition centralisée, la sous-estimation des difficultés liées à l’harmonisation des données, l’absence d’appui sur l’existant (comme le Centre d’accès sécurisé aux données, CASD(12)) ou sur des solutions d’apprentissage fédéré (les algorithmes se déplacent, non plus les données), ou encore les difficultés attendues pour garantir le consentement « éclairé » du patient. De plus, corollaire de l’exhaustivité populationnelle de la base, l’anonymisation « vraie » est rendue plus difficile, et le risque de réidentification d’autant moins maîtrisé que la solution d’hébergement retenue est le cloud de Microsoft, lui-même soumis au Cloud Act états-unien, en contradiction potentiel avec le RGPD européen.   Un air de Godot   Surtout, les promesses du HDH peinent à se concrétiser. Plusieurs projets ambitieux sont annoncés, qui consistent généralement en l’appariement de bases existantes issues de la recherche ou du soin avec les données du SNDS. On citera DeepSarc, s’intéressant au traitement du sarcome, HYDRO, une plateforme de télésurveillance des patients insuffisants cardiaques ou porteurs de prothèse valvulaire, ou encore HUGO SHARE, qui regroupe les données d’hospitalisation de différents centres du Grand Ouest afin d’identifier de nouvelles interactions médicamenteuses(13).   Quelles alternatives pour le chercheur ? Le chercheur frustré par l’avancée du HDH peut toujours se tourner vers l’existant : sa demande d’accès suivra la procédure proposée par le guichet unique, mais il pourra anticiper d’emblée une autre solution d’accès aux données.   • La plateforme de l’Assurance maladie : l’exemple le plus classique est celui du SNDS, qui regroupe de très nombreuses données de l’Assurance maladie couvrant de façon presque exhaustive la population française (> 99 %), appariées aux données de l’Agence technique de l’information sur l’hospitalisation (ATIH, PMSI des centres hospitaliers, publics comme privés) et du CépiDc (base de données issue des certificats de décès)(14,15). Les accès sont permanents (échantillon ou totalité) ou par projet (extraction simple ou appariement). L’échantillon au 1/97e a été remplacé en 2022 par un échantillon plus large aux 2/100e avec un accès ouvert permanent à de nombreuses institutions publiques comme privées. Enfin, pour les happy few, la CNAM a élargi début 2022 l’accès SNDS permanent à des équipes CHU et Inserm, minimisant le temps réglementaire et contractuel, dès lors qu’il s’agit bien d’un projet d’intérêt public et sans appariement avec une source tierce(16). Enfin, le chercheur peut demander un accès par projet, basé sur un échantillon des données du SNDS éventuellement apparié avec d’autres bases, en suivant successivement les étapes CESREES, CNIL, et la contractualisation CNAM. Si cette démarche peut apparaître laborieuse – compter 9 à 12 mois entre le dépôt initial et l’accès aux données pour une extraction simple, et volontiers 18 à 24 mois pour une extraction avec appariement dite « probabiliste » – elle donne ensuite accès à une plateforme stable et des logiciels statistiques performants (SAS Enterprise Guide®) suffisants pour la majorité des analyses épidémiologiques. C’est ce qui nous a permis de concrétiser le projet DETECT portant sur la comparaison des dispositifs (ballons et stents) à élution de paclitaxel dans le traitement des lésions artérielles des membres inférieurs, présenté lors du congrès 2022 de la Société de chirurgie vasculaire et endovasculaire de langue française (SCVE)(17).   • Le CASD ou Centre d’accès sécurisé aux données(12) : il ne s’agit pas d’une base de données mais d’une solution d’hébergement sécurisé et de traitement des données, plus proche de l’esprit d’un hub. Le CASD offre un accès type bureau distant, via un abonnement payant. L’utilisateur se connecte depuis son lieu de travail via un terminal autonome, la SD-Box, sans possibilité de stockage local puisque tout est traité sur les serveurs du CASD. Comme pour le portail CNAM, un système d’export contrôlé automatiquement ou par un humain permet l’importation de données agrégées. C’est ce système performant et confortable pour l’utilisateur qui a été retenu pour l’accès à la plus grande cohorte de recherche française, CONSTANCES, dont un échantillon peut être mis à disposition des chercheurs après validation du projet par le comité scientifique(18).   • Les entrepôts de données de santé hospitaliers ou EDS, visant à structurer les données du système d’information hospitalier afin de faciliter leur interrogation. De nombreuses solutions existent (Dr Warehouse, Cloud Santé, etc.) dont la solution eHOP(19,20) déployée dans plusieurs CHU français, incluant les cinq CHU d’Angers, Brest, Nantes, Rennes et Tours, ainsi que l’Institut de cancérologie de l’Ouest. Une gouvernance locale permet d’accéder de façon simplifiée aux données structurées (constantes, biologie, PMSI, etc.) et non structurées, comme le texte entier des comptes rendus médicaux. L’organisation inter-régionale permet des échanges sur les pratiques et une harmonisation en vue de partages sur une plateforme inter-régionale, l’ODH (Ouest Data Hub). D’après notre expérience, cette structuration a considérablement amélioré les possibilités de screening, en particulier en cas de pathologies non ou mal codées dans le PMSI mais identifiables par mot clé ou médicaments traceurs. Les projets inter-régionaux exploitant l’ODH doivent cependant encore faire leur preuve de concept. Enfin, même si ce n’était pas l’objet de cet article, rappelons que l’épidémiologie internationale à grande échelle est à présent rendue possible par le caractère très accessible de certaines grandes bases, au premier rang desquelles la UK Biobank (plus de 500 000 habitants du Royaume- Uni caractérisés cliniquement, biologiquement et génétiquement, dont les données sont partagées et accessibles au monde entier)(21). Dans l’analyse de données à grande échelle, la réplication est la clé, et la solidité des résultats peut être testée par la collaboration avec d’autres grandes bases généralistes comme les registres danois(22) ou suédois(23), et également des bases spécialisées nationales, comme certains registres sud-coréens en chirurgie vasculaire(24).   Conclusion   La création du HDH a permis une clarification des démarches nationales d’autorisation des projets d’accès aux données de santé, mais la concrétisation par l’hébergement de projets d’envergure se fait encore espérer. En attendant, d’autres solutions d’hébergement et de mise à disposition de larges bases de données de santé existent en France. Pour confirmer les résultats et mieux valoriser les travaux associés, la réplication sur d’autres bases internationales doit être systématiquement envisagée.

Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.

pour voir la suite, inscrivez-vous gratuitement.

Si vous êtes déjà inscrit,
connectez vous :

Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :

Version PDF

Articles sur le même thème

  • 3 sur 4