Table des matières
La richesse et les limites du système national des données de santé
Le Système National des Données de Santé (SNDS) est un outil crucial qui rassemble divers types de données de santé, incluant les délivrances de médicaments, les diagnostics hospitaliers et les actes médicaux. Ce système permet d’analyser les parcours de soins des patients afin d’identifier ceux qui présentent un risque accru de développer certaines pathologies. Cependant, le SNDS présente des limites notables : il repose sur des données collectées uniquement lorsque les patients recourent au système de santé, se concentre sur des informations nécessaires à la facturation, et dépend de la qualité du codage. Bien que les données soient massives et riches d’informations, elles ne couvrent pas tous les déterminants de santé et n’incluent pas de données cliniques directes, telles que les diagnostics établis en médecine de ville, ni des mesures comme la tension artérielle ou les résultats d’analyses biologiques.
Une nouvelle approche inspirée du traitement du langage
Le développement de l’intelligence artificielle ouvre la voie à une approche prédictive qui exploite l’enchaînement des événements de santé en tant que « trajectoire », analysée à l’aide de modèles inspirés du traitement automatique du langage. Cette méthode nécessite de reconstituer l’enchaînement des événements de santé pour chaque patient, transformant ainsi les parcours de soins en séquences d’événements, avec près de 80 000 événements différents. Grâce à sa taille, avec 28 milliards d’événements utilisés, et son caractère longitudinal, le SNDS se révèle être un cadre particulièrement adapté pour ces approches, encore peu explorées à grande échelle.
Des performances prédictives nettement améliorées
Une étude récente a comparé ces nouveaux modèles à des approches plus traditionnelles qui reposent sur des variables sélectionnées pour résumer la situation des patients, telles que les indices de comorbidité et les fréquences de recours aux soins. Les résultats indiquent que les modèles de langage basés sur les trajectoires de soins améliorent significativement la prédiction du risque d’hospitalisation pour plus de 180 pathologies. Le modèle le plus avancé, de type transformer (BEHRT-SNDS), a montré les meilleures performances, soulignant l’intérêt des architectures issues du traitement du langage appliquées aux données de santé.
Des gains variables selon les pathologies
La capacité de prédiction varie selon les pathologies. Pour les maladies chroniques fréquentes comme l’insuffisance cardiaque ou les maladies respiratoires chroniques, les modèles classiques fournissent déjà de bonnes performances, et les gains des modèles avancés sont modestes. En revanche, pour les pathologies plus complexes ou rares, l’analyse des trajectoires complètes peut offrir un bénéfice significatif, comme pour l’épilepsie ou la maladie de Parkinson. Cependant, pour des pathologies aiguës difficiles à prédire, comme l’appendicite, même les modèles basés sur les trajectoires ne donnent pas de résultats satisfaisants.
Des prédictions plus fines pour certaines catégories de la population
Pour déterminer si les performances prédictives varient d’un individu à l’autre, l’étude a utilisé l’échantillon démographique permanent de l’INSEE apparié au SNDS (EDP-Santé). L’analyse de la mortalité toutes causes a révélé que les prédictions sont meilleures pour les femmes, les personnes âgées de 40 à 70 ans et celles ayant des niveaux de vie élevés. Il est essentiel de poursuivre l’analyse des disparités sociodémographiques afin de comprendre les biais socio-économiques et territoriaux des modèles prédictifs avant leur mise en œuvre, pour éviter d’éventuelles iniquités de santé.
Source : SNDS.




