L'occasion m'est donnée de me pencher sur l'organisation des données de santé dans le système français. Alors, faisons un point, un peu technique, je vous l'accorde...
Le progrès médical du XXIe siècle s'oriente lui aussi vers la manipulation de bases de données couplée à l'application d'algorithmes dits intelligents.
Historiquement, deux bases de données ont rassemblé deux typologies de données médicales :
- La base PMSI (Programme de Médicalisation des Systèmes d'Information), créée dans les années 90. Cette base est dédiée au codage de la description des hospitalisations (classification CIM-10 des actes médicaux))
- La base SNIIRAM (Système National d'Information Inter-Régimes d'Assurance Maladie), datant de la même époque et intégrant dès sa création une relation avec la base PMSI. Cette base répertorie l'ensemble des prestations remboursées par l'Assurance Maladie (feuilles de soin, factures de cliniques ...).
Ces deux bases opérées par la CNAM (caisse Nationale d'Assurance Maladie) ont ensuite fusionné. L'ensemble des données d'une personne est pseudonymisé de façon identique et irréversible en se basant sur le NIR (Numéro d'Identification au Répertoire), avant intégration dans la base. Notons que l'on doit donc disposer du NIR de la personne pour retrouver ses données.
Le dispositif SNDS (Système National des Données de Santé) est aujourd'hui constitué de ces deux bases enrichies de nouvelles données comme les causes de décès (intégrées en 2014 avec une repasse en 2018). Le SNDS permet aussi la manipulation de données telles que l'information sur la santé et l'offre de soins, la prise en charge médico-sociale, l'information des professionnels des structures et des établissements de santé ou médico-sociaux sur leur activité, l'évaluation et l'innovation dans les domaines de la santé.
Ces bases de données concernent plus de 60 millions de personnes, dans un patrimoine immatériel considérable et vraisemblablement sans équivalent au monde par leur exhaustivité, leur richesse et la taille de la population couverte. Ce sont 1,2 milliard de feuilles de soin qui alimentent chaque année le système, avec près de 20 milliards de lignes de prestations disponibles. Il existe 17 bases de données, dont trois d'une volumétrie supérieure à 25 Téraoctets. La base SNIIRAM à elle seule comporte 12 tables, 7 dictionnaires, 785000 objets et environ 300 variables !
Dans la partie PMSI, le nombre de tables et de variables change chaque année. Ainsi, pour construire une variable "utile", il faut effectuer la jointure de plusieurs tables et un nettoyage des données "polluantes" (telles que les lignes servant à un remboursement, une majoration, une participation forfaitaire, une franchise, etc.)
L'obtention de données manipulables nécessite donc une première étape de "présentation".
Ces données doivent ensuite subir un second traitement. En effet, avant de formuler une requête, il faut connaitre de nombreux autres aspects. La nomenclature et son évolution dans le temps fait que l'on retrouve la même donnée sous différentes appellations, selon l'année que l'on regarde. Il faut connaitre la nature précise des traitements, des actes, des examens correspondant à une pathologie d'intérêt. À titre d'exemple, rien que pour l'identification du nombre de femmes ayant réalisé un frottis du col utérin, comme il existe une évolution sur trois codifications de cette opération en trois ans, il faut interroger 5 tables, plus 2 pour les identifiants, avec trois clés de jointures et ceci dans deux environnements (PMSI et DCIR, la base de Données de consommation de Soin Inter-régimes) !
Pardon pour ces informations plus techniques que d'habitude. Il fallait montrer la complexité de ce système qui nécessite un travail méthodologique et technique, déjà amorcé. Les perspectives ouvertes par l'Intelligence Artificielle dans ce domaine sont immenses et nécessiteront d'importants investissements (moyens informatiques, sécurité des données, constitution d'équipes pluridisciplinaires) qu'il est important de réaliser au plus vite.
Aujourd'hui, le gouvernement français propose le déploiement d’une plate-forme nommée Health Data Hub (HDH) pour développer l’intelligence artificielle appliquée à la santé. Le HDH vise à devenir un guichet unique d’accès à l’ensemble des données de santé. Problème : ce Hub devrait être hébergé sur un Cloud Microsoft (Azure). Or, la signature du Cloud Act par Donald Trump en 2018 (qui autorise la justice américaine à avoir accès aux données stockées dans des pays tiers) permettrait de facto aux États-Unis de faire main basse sur l'ensemble de ces données plutôt cruciales.
Sommes-nous encore des bisounours numériques ?
Il ne fallait donc pas passer ceci sous silence...
@stephanledoare
Opmerkingen