La richesse et les limites du système national des données de santé

Le SNDS contient une multitude de types de données de santé incluant les délivrances de médicaments, les diagnostics posés à l’hôpital, les actes médicaux, etc. Ainsi, les parcours de soins constitués à partir de l’enchainement de ces événements peuvent être mobilisés afin d’identifier des profils de patients plus à risque de développer certaines pathologies. Les limites du SNDS pour suivre l’état de santé des personnes sont toutefois connues : il s’agit d’un recueil de données conditionné au recours au système de santé, restreint à des données nécessaires à la facturation, et tributaire de la qualité du codage. Les données sont massives et informatives sur la santé, mais ne couvrent pas l’ensemble des déterminants de santé et ne renseignent qu’indirectement l’exposition à des facteurs de risque majeurs. Elles n’incluent pas non plus certaines données cliniques directes, telles que les diagnostics établis en médecine de ville, ou des mesures comme la tension artérielle ou les résultats d’analyses biologiques.

 

Une nouvelle approche inspirée du traitement du langage

Le développement de méthodes d’intelligence artificielle ouvre la voie à l’approche prédictive qui consiste à exploiter l’enchaînement des événements de santé comme une « trajectoire », analysée à l’aide de modèles inspirés du traitement automatique du langage. L’essentiel du prétraitement des données consiste à reconstituer l’enchaînement des événements de santé pour chaque patient. Les parcours de soins sont transformés en séquences d’événements (près de 80 000 événements différents), comparables à des mots dans une phrase. Grâce à sa taille (28 milliards d’événements utilisés), son exhaustivité et son caractère longitudinal, le SNDS constitue un cadre particulièrement favorable à ce type d’approches, encore peu explorées à très grande échelle.

 

Des performances prédictives nettement améliorées

L’étude compare ces nouveaux modèles à des approches plus classiques qui reposent sur des variables pertinentes sélectionnées pour résumer la situation des patients (indices de comorbidité, cartographie des pathologies, fréquences de recours aux soins), ensuite exploitées par des modélisations statistiques plus traditionnelles (linéaires, arbres de décision, etc.). Les résultats montrent que les modèles de langage fondés sur les trajectoires de soins améliorent sensiblement la prédiction du risque d’hospitalisation pour plus de 180 pathologies. Le modèle le plus avancé, de type transformer (BEHRT-SNDS), offre les meilleures performances, confirmant l’intérêt des architectures issues du traitement du langage appliquées aux données de santé.

 

Des gains variables selon les pathologies

La capacité de prédiction reste toutefois très hétérogène selon les pathologies. Pour les maladies chroniques fréquentes et bien connues (insuffisance cardiaque, maladies respiratoires chroniques, insuffisance rénale), les modèles classiques offrent déjà de bonnes performances, et les gains supplémentaires des modèles avancés restent modérés. En revanche, pour des événements plus complexes, rares ou difficiles à anticiper, l’analyse des trajectoires complètes apporte un bénéfice important. C’est le cas des pathologies comme l’épilepsie où les hospitalisations pourraient être anticipées à partir de la séquence de traitements antiépileptiques et de soins précédant la décompensation, ou encore de la maladie de Parkinson pour laquelle les trajectoires pourraient permettre la prédiction de la perte d’autonomie. D’autres situations spécifiques y verraient aussi un gain non négligeable comme les maladies hypertensives de la grossesse ou l’endométriose. En revanche, pour des pathologies aiguës difficiles à prédire comme l’appendicite, même les modèles s’appuyant sur les trajectoires de patients ne donnent pas des performances suffisantes.

 

Des prédictions plus fines pour certaines catégories de la population

Afin de préciser si les performances prédictives peuvent varier d’un individu à l’autre, l’étude a mobilisé l’échantillon démographique permanent de l’Insee apparié au SNDS (EDP-Santé). Le cas de la prédiction de la mortalité toutes causes a été étudié dans un premier temps comme un cas universel et recouvrant des parcours très divers. Il en ressort que les prédictions des différents modèles sont meilleures pour les femmes, pour les personnes âgées de 40 à 70 ans et pour les niveaux de vie élevés. L’analyse des disparités sociodémographiques gagnerait ainsi à être poursuivie et déclinée cas d’usage par cas d’usage. En effet, il apparaît crucial d’étudier les biais socio-économiques et territoriaux de ces modèles prédictifs entraînés à grande échelle, avant que les usages ne se développent, afin de s’assurer que l’utilisation de ces modèles pour orienter une action (par exemple un dépistage organisé) n’induise pas d’inéquités de santé.

Quand les données de santé se prennent pour des oracles : la farce du SNDS

Le SNDS, ce grand bazar de données de santé, promet monts et merveilles, mais ne fait que rappeler que la réalité est souvent plus complexe que les chiffres.

Ah, le Système National des Données de Santé (SNDS) ! Ce joyau de la bureaucratie française, qui, tel un magicien, prétend pouvoir prédire l’avenir de notre santé grâce à un enchevêtrement de données. Mais comme tout bon tour de magie, il y a un truc : ces données ne sont pas aussi complètes qu’on le prétend. En effet, le SNDS se limite à ce que les patients osent bien vouloir faire dans le système de santé, et, spoiler alert, ce n’est pas toujours suffisant pour brosser un tableau fidèle de notre état de santé.

Ce qui se passe réellement

Le SNDS contient une multitude de types de données de santé, allant des délivrances de médicaments aux diagnostics hospitaliers. Ces informations sont censées permettre d’identifier des profils de patients à risque. Mais attention, ce recueil de données est conditionné par le recours au système de santé, limité aux informations nécessaires à la facturation, et dépend de la qualité du codage. En gros, si vous ne consultez pas, vous n’êtes pas compté. Et si vos données sont mal codées, tant pis pour vous !

Une nouvelle approche inspirée du traitement du langage

Avec l’avènement de l’intelligence artificielle, on nous promet monts et merveilles : des modèles capables d’analyser les parcours de soins comme on analyserait un texte. Les 28 milliards d’événements du SNDS sont transformés en séquences d’événements, comparables à des mots dans une phrase. Mais qui aurait cru que la santé pouvait se résumer à un bon vieux traitement de texte ?

Des performances prédictives nettement améliorées

Les résultats sont là : les modèles de langage améliorent la prédiction du risque d’hospitalisation pour plus de 180 pathologies. Mais attention, ces modèles ne sont pas des oracles. Pour certaines maladies chroniques, les modèles classiques sont déjà performants, et les gains des modèles avancés restent modestes. En revanche, pour des pathologies plus complexes, comme l’épilepsie, on commence à voir des résultats intéressants. Mais qui a dit que la santé était simple ?

Des gains variables selon les pathologies

La capacité de prédiction varie selon les pathologies. Pour les maladies bien connues, les modèles classiques font le job. Pour les événements plus rares, comme l’endométriose, les trajectoires complètes apportent un bénéfice. Mais pour des pathologies aiguës comme l’appendicite, même les meilleurs modèles ne suffisent pas. Comme quoi, la santé n’est pas une science exacte.

Des prédictions plus fines pour certaines catégories de la population

Les modèles de prédiction semblent plus efficaces pour certaines catégories de la population : les femmes, les personnes âgées de 40 à 70 ans, et ceux avec des niveaux de vie élevés. Une belle illustration des inégalités qui persistent dans notre système de santé, où les plus vulnérables sont souvent laissés pour compte.

Pourquoi cela dérange

Les incohérences sont légion. On nous promet une santé prédictive, mais on oublie les biais socio-économiques qui peuvent fausser les résultats. Les modèles sont entraînés à grande échelle, mais qui s’assure qu’ils ne créent pas d’inégalités de santé ?

Ce que cela implique concrètement

Les conséquences sont directes : si ces modèles sont utilisés pour orienter des actions de santé publique, il est crucial de s’assurer qu’ils ne renforcent pas les inégalités existantes. Sinon, on risque de se retrouver avec un système de santé qui privilégie les plus favorisés au détriment des plus vulnérables.

Lecture satirique

Ah, la promesse d’une santé prédictive ! Comme si les algorithmes pouvaient remplacer le bon sens. Les discours politiques vantant les mérites de ces modèles sont souvent déconnectés de la réalité. On nous parle de progrès, mais en réalité, on reste bloqué dans un système qui ne fait que reproduire les inégalités.

Effet miroir international

En observant les politiques de santé à l’international, on ne peut s’empêcher de faire le parallèle avec des systèmes autoritaires qui utilisent des données pour contrôler et surveiller. La santé, outil de pouvoir ? Cela semble de plus en plus vrai.

À quoi s’attendre

À l’avenir, il est probable que ces modèles continuent à évoluer, mais sans une vigilance constante, ils risquent de renforcer les inégalités plutôt que de les réduire. La promesse d’une santé pour tous pourrait bien rester un vœu pieux.

Sources

Source : drees.solidarites-sante.gouv.fr

Prédire la suite d’un parcours de soins dans le système national des données de santé
Visuel — Source : drees.solidarites-sante.gouv.fr
Partager ici :
Leave a Comment

Comments

No comments yet. Why don’t you start the discussion?

Laisser un commentaire