Health Data Hub : Décloisonner les données pour mieux soigner

mars 23, 2021
Data Univers

Si vous n’avez pas pu assister à notre dernier webinar sur l’Open Data, voici ce qu’il faut retenir du Health Data Hub, jeune organisation essentielle à la gestion de la crise sanitaire, avec Stéphanie Combes, directrice de l’organisation. Quel est le rôle de cette organisation ? Comment peut-elle révolutionner le système de santé ?

Tout d’abord, d’où provient l’idée de la création du Health Data Hub ?

Le Health Data Hub trouve ses racines dans les travaux de Cédric Villani sur l’intelligence artificielle, publiés en mars 2018, qui prônent le partage des données de santé. A la remise de ce rapport, le Président de la République avait annoncé la création d’un hub de données de santé. Je travaillais alors encore au Ministère de la Santé, et Agnès Buzyn, Ministre de la Santé, avait demandé à conduire une mission d’expertise pour décrire les contours de ce hub de données de santé. Nous avons auditionné plus d’une centaine d’acteurs. Malgré leur impressionnant nombre, les cas d’usages utiles pour le système de santé étaient encore très théoriques , le constat effectué à l’époque est le suivant : une grande partie des données de santé étaient cloisonnées et éparpillées sur le territoire. Parallèlement, l’offre technologique de l’époque n’était pas suffisante.

A la remise de ce travail, la Ministre nous a demandé de mettre en place la feuille de route proposée et d’obtenir des premiers éléments concrets avant la fin de l’année 2019. Nous avons dans un premier temps travaillé sur l’aspect juridique lié à la création d’une telle organisation. Ainsi, l’article 41 de la loi “Organisation et Transformation du système de Santé” décrit les objectifs et missions du Hub de données de santé. Nous avons ensuite organisé un appel à projets visant à concevoir une offre de service pertinente au contact d’équipes métier souhaitant délivrer des cas d’usage concrets. Et à la fin de l’année 2019, une structure est créée avec des équipes dont la mission est d’accompagner les utilisateurs des données de santé. C’est la naissance du Health Data Hub.

Concrètement, quel est le rôle du Health Data Hub ?

Dès début janvier 2020, le groupement d’intérêt public (statut juridique de la structure Health Data Hub), regroupant 56 parties prenantes de l’écosystème de données de santé a approuvé sa feuille de route stratégique pour les trois prochaines années. Elle repose sur quatre piliers :

Ainsi, la mission principale du Health Data Hub est de permettre à des porteurs de projets de santé habilités d’accéder à des données de santé non nominatives via une plateforme technologique sécurisée tout en respectant les droits des citoyens. Ces projets doivent obligatoirement servir un intérêt public, c’est-à-dire, viser à améliorer la qualité des soins et accompagner les patients. Cette plateforme a l’avantage de réunir un certain nombre de bases d’intérêt, le catalogue, ce qui permettra aux équipes du Health Data Hub d’effectuer des croisements de données réutilisables par de nombreux projets et donc de multiplier les initiatives tout en réduisant les temps d’accès aux données, parfois très longs aujourd’hui en France. En effet, sans cette centralisation des données les plus pertinentes, certains projets peuvent mettre plusieurs années à voir le jour ou ne sont tout simplement pas faisables. Par ailleurs, la liste des bases de données constituant le catalogue sera portée par un arrêté publié après avis de la CNIL. Cela permet de le faire évoluer régulièrement en fonction des priorités ministérielles ou des demandes de la communauté scientifique et de l’innovation. En fait, le Health Data Hub n’est pas une plateforme géante regroupant toutes les données sur un seul espace contrairement à ce que l’on peut parfois croire, mais un système de bases de données évolutif pour répondre au mieux à la demande de l’ensemble des parties prenantes : porteurs de projet mais également acteurs à l’origine des bases qui souhaitent les enrichir ou les rendre davantage visibles.

Aujourd’hui, nous essayons d’inscrire toute cette démarche en cohérence avec la stratégie européenne visant à mettre en place des espaces communs de données dans neuf secteurs dont la santé. Des discussions sont en cours pour concevoir l’équivalent du Health Data Hub au niveau européen et nous sommes l’autorité compétente en France pour réfléchir sur ces questions avec les autres acteurs français impliqués et européens.

Une autre de nos missions est également d’animer l’écosystème pour contribuer à la vulgarisation des enjeux liés à la réutilisation des données de santé. Nous avons, par exemple, organisé en décembre dernier un colloque organisé avec la Délégation du Numérique en Santé (DNS) et le Grand Défi “IA et Santé” pour la deuxième année consécutive. Nous avons également lancé un Data Challenge avec Santé Publique France et une Winter School au début de l’année 2021, afin d’évangéliser sur le sujet des données de santé et l’importance du partage.

Aujourd’hui qui fournit les données ?

Aujourd’hui, nous travaillons avec une vingtaine de partenaires pressentis pour mettre à disposition leurs données non nominatives dans le catalogue dès que l’on pourra le mettre en oeuvre. A l’heure actuelle, nous sommes autorisés à partager des données relatives à l’épidémie dans le cadre de l’urgence sanitaire, cela préfigure le catalogue qui pourra exister après la publication des derniers textes d’application de la loi (attendue sous quelques semaines). Ainsi, nous partageons les données de passages aux urgence de Santé Publique France (OSCOUR) ainsi que de l’Assurance Maladie, de l’ATIH et des établissements de santé relatives aux patients hospitalisés pour la Covid (SNDS Fast Track), mais également sous peu celles du SIVIC (Système d’informations des hospitalisations), et du SIDEP (système d’informations des dépistages PCR) et bien d’autres encore. Il est important de souligner que les porteurs de projets ne peuvent accéder à ces données que sur autorisation de la CNIL. Les données sont pseudonymisées, c’est à dire que les données directement identifiantes sont retirées, mais elles restent sensibles d’où l’importance d’une plateforme sécurisée pour y accéder. Le partage des données se fait en partenariat avec les acteurs, c’est pourquoi nous sommes encore en phase d’échanges avec eux sur les modalités de partage de données (valorisation scientifique, économique, gouvernance, etc.). En effet, il est crucial pour les acteurs mettant à disposition leurs données d’avoir un droit de regard sur qui accèdent à ces données et comment ils les utilisent. Ils ne peuvent toutefois pas s’opposer à un projet légitime.

D’ici le milieu de l’année 2021, nous devrions finaliser une première liste de bases constituant le catalogue. Le dernier décret devrait être publié fin février – début mars et l’arrêté trois ou quatre mois plus tard. Nous nous tenons donc prêt à mettre à disposition ces données une fois le décret publié.

Quels cas d’usage sont en cours de mise en production grâce au Health Data Hub ?

Premièrement, j’aimerais évoquer le Projet Hydro conduit par la startup Implicity, industriel du dispositif médical connecté. Il s’agit d’un projet permettant de croiser les données de pacemakers connectés avec les données d’hospitalisations. En corrélant ces données, il serait alors possible de prédire des crises d’insuffisance cardiaque à partir des données de pacemaker qu’Implicity monitore pour améliorer la prise en charge et anticiper ces crises. Ces données pourront être croisées sur la plateforme technologique du Health Data Hub.

Deuxièmement, le Projet Deepsarc, qui est en cours de lancement, vise à chaîner une cohorte sur des patients atteints de sarcome (cancer rare) avec les données de l’assurance maladie. Ils sont si peu nombreux que les essais cliniques se font difficilement. Dans ce cas précis, le croisement va permettre de suivre plus précisément la consommation de soins des patients selon différentes prises en charge et mieux personnaliser en fonction de la situation du patient avec un meilleur espoir d’efficacité.

Enfin, le Projet Deepiste vise à développer un outil d’intelligence artificielle afin d’analyser automatiquement les mammographies, analyser les facteurs de risques. La volonté de ce projet est aussi de mettre les algorithmes en open source.

Tous ces projets visent à accompagner les professionnels de santé dans les diagnostics mais également à mieux répondre aux besoins des patients, le tout en un temps record. Il est donc important pour nous de s’associer avec des acteurs qui ont les mêmes valeurs que nous, et qui vont mettre à disposition la connaissance à travers un partage de documentation ou d’outils.

Le Health Data Hub a eu le vent en poupe pendant la crise sanitaire. Pouvez-vous nous en dire plus ?

C’est en effet pendant le premier confinement que nous avons pu mettre en production la plateforme technologique pour accompagner la gestion de la crise. Nous avons eu, au dernier trimestre 2020, sept autorisations de projets de la CNIL sur les 40 projets qu’on accompagne dont trois relatives à des projets en lien avec l’épidémie. C’est une étape importante franchie car l’aspect réglementaire fait partie intégrante de nos avancées.

Il s’agit notamment du projet COVISAS : les patients atteints d’un syndrome d’apnées obstructives du sommeil (SAOS), en raison de la privation répétée d’oxygène, développent souvent des maladies associées susceptibles de les rendre vulnérables à la COVID-19 (obésité, diabète, hypertension artérielle, maladies cardio-vasculaires). Le projet CoviSAS, porté par la chaire d’intelligence artificielle MIAI de l’Université Grenoble-Alpes et la société Semeia, un fournisseur de solutions logicielles utilisant l’intelligence artificielle, vise à connaître la prévalence des formes sévères de la COVID-19 chez ces patients, et d’identifier les combinaisons de maladies associées au SAOS (comorbidités) menant à un taux supérieur de séjour en réanimation ou de décès.

L’étude Frog Covid, quant à elle, s’intéresse également aux associations récurrentes d’autres maladies chez les patients présentant des formes sévères (hospitalisation) ou très sévères (admission en réanimation) de la COVID-19. A travers cette étude, le bureau d’étude spécialisé dans des solutions de collecte de données et d’algorithmes Clinityx et l’unité de recherche de l’INSERM Cardiovascular MArkers in Stressed COndiTions (MASCOT) cherchent à identifier les facteurs prédictifs du risque de développer une COVID-19 de forme sévère à très sévère, pour définir des profils de patients particulièrement à risque.

Quels sont pour vous les facteurs clés de succès des projets d’utilisation des données de santé au-delà de l’accès même à celles-ci ?

L’accès aux données est parfois compliqué en France, mais au-delà de cela, même une fois l’accès autorisé et effectif, il est complexe de s’approprier les données et de garantir des analyses fiables. L’accès à la connaissance est donc également majeur, c’est pourquoi nous avons créé une documentation collaborative autour des données d’Assurance Maladie en visant à une généralisation autour du catalogue. Nous avons créé un gitlab, contenant de la documentation provenant de Santé Publique France, de l’INSERM, du Ministère de la Santé, mais également des programmes facilitant la manipulation des données ainsi que des données synthétiques pour que les utilisateurs potentiels puissent comprendre leur format en avance de phase. Ces données ne doivent présenter aucun risque de réidentification.

L’autre facteur clé de réussite d’un projet de réutilisation des données de santé, c’est de réunir les compétences nécessaires et variées dans les équipes projet. Ces compétences sont parfois rares et chères, mais elles sont essentielles et on remarque que de plus en plus, les hôpitaux, par exemple, sont en train de s’organiser pour accueillir des équipes multidisciplinaires adaptées (informaticiens, data engineer, juristes). Par exemple, l’APHP a mis en place un entrepôt de données de santé depuis quelques années, cela a permis d’exporter des statistiques quotidiennes sur les patients Covid.

D’après vous, quelles étapes reste-t-il à franchir pour devenir un véritable hub des données de santé ?

Premièrement, nous avons franchi l’étape de la mise en place, et de nombreux projets démarrent donc nous sommes confortés dans l’idée que le Health Data Hub a une utilité. Pour 2021, l’ambition serait déjà d’avoir des premiers résultats concrets. Nous avons conscience que les projets de recherche mettent toujours un peu de temps à délivrer mais il se peut que des informations soient partageables rapidement car des bases inédites sont d’ors et déjà constituées dans le cadre des projets les plus avancés.

Ensuite, dès que le décret sera publié, et que nous aurons finalisé notre offre de service auprès des partenaires du catalogue, nous pourrons étendre le catalogue à d’autres bases que celles réunissant des données relatives à l’épidémie. Une fois ces étapes franchies, le Health Data Hub permettra aux porteurs de projets d’accéder à des bases de données sans précédent, dans des délais plus acceptables au regard de la compétitivité internationale et des enjeux pour les patients. Tout type de porteurs de projet visant un intérêt public, pourra accéder à nos services, sous réserve d’une autorisation de la CNIL.

Dans le cadre de ce catalogue, nous aimerions créer des partenariats stratégiques avec des acteurs clé de l’écosystème comme l’Inserm autour de quelques cohortes, et des établissements hospitaliers dans le but de créer une ou plusieurs bases multicentriques cliniques enrichies avec les données médico-administratives de l’Assurance Maladie

La mise en œuvre de ce catalogue est la priorité du Health Data Hub et revêt un caractère éminemment stratégique pour la recherche française.

A propos de l'invité

Je travaille la donnée depuis 9 ans, données structurées, données géolocalisées, données textuelles. Python, R, Rshiny sont mes amis. Data-scientist à l’Insee ces dernières années, je suis arrivée à la DREES avec l’envie d’exploiter le potentiel de ces données de santé avec un nouveau regard.