Contact Chercheur
Emmanuel LagardeDirecteur de recherche Inserm
Unité 1219 Inserm/Université de Bordeaux, Bordeaux Population Health Research Center
© AdobeStock
Les biais cognitifs humains peuvent particulièrement impacter la prise de décision lorsque celle-ci doit être rapide, en particulier lorsqu’elle présente un enjeu vital, comme lors de la prise en charge médicale aux urgences par exemple. Une équipe de recherche de l’Inserm et de l’université de Bordeaux a mis à l’épreuve une méthode avancée d’intelligence artificielle générative[1], entraînée avec les données des dossiers patients correspondants à 480 000 entrées aux urgences du CHU de Bordeaux. Ses résultats, présentés lors de la conférence Machine Learning for Health à Vancouver et publiés en parallèle dans la revue Proceedings of Machine Learning Research, montrent que l’IA testée est susceptible de reproduire et de mesurer les biais des soignants relatifs au genre des patients lors du triage. Ils constituent un cas d’usage de la façon dont les nouveaux algorithmes d’IA générative peuvent être mis à profit pour identifier et comprendre les biais cognitifs humains.
Dans les situations d’urgence de soin nécessitant une prise de décision rapide, les biais cognitifs humains, en particulier ceux dits « de jugement », peuvent avoir un impact critique sur la décision médicale et sur le pronostic du patient. Ces « raccourcis cognitifs » interviennent en effet lorsque les personnes doivent former une opinion ou prendre une décision à partir d’une information incomplète ou peu nuancée. La prise de décision peut ainsi être affectée de manière inconsciente par ces biais (liés par exemple au sexe/genre, à l’âge, à l’ethnie…), et conduire à sous-estimer ou à surestimer la sévérité de l’état d’une personne.
Alors, comment mieux identifier ces biais et diminuer leur impact ? Une réponse pourrait se trouver dans l’intelligence artificielle et en particulier dans les IA génératives dites « grands modèles de langage » (LLMs), c’est-à-dire capables d’imiter les prises de décision humaine grâce à leur maîtrise du langage humain (à l’image de ChatGPT par exemple). Ces modèles sont en effet capables d’appréhender efficacement le « texte libre »[2] qui constitue une grande partie des données cliniques relevées par les soignants, en particulier aux urgences hospitalières.
Une équipe dirigée par Emmanuel Lagarde[3], directeur de recherche Inserm, au sein du centre de recherche Bordeaux Population Health (Inserm/Université de Bordeaux), s’est ainsi intéressée au potentiel de ces LLMs pour détecter et quantifier les biais de genre en situation de prise de décision rapide. Le choix du contexte d’évaluation de cette méthode s’est porté sur le cas spécifique du triage[4] des patients aux urgences médicales. La justesse de ce dernier est en effet critique : la sous-estimation d’une urgence qui reporterait la prise en charge peut entraîner la dégradation du pronostic d’un patient. A contrario, surestimer la gravité de l’état de la personne peut entraîner une surutilisation de ressources qui peut être particulièrement préjudiciable en cas d’affluence forte.
Les scientifiques ont utilisé une approche innovante, consistant à entraîner l’IA à trier les patients à partir des textes contenus dans leur dossier, reproduisant ainsi les éventuels biais cognitifs du personnel infirmier en charge de ce triage. Cet apprentissage du modèle a porté sur les dossiers de plus de 480 000 entrées au service des urgences du CHU de Bordeaux entre janvier 2013 et décembre 2021.
Une fois entraîné, le modèle était capable d’attribuer un score de triage (évaluant la sévérité de l’état du patient ou de la patiente) à partir de la lecture d’un dossier, comme le ferait le soignant. Le dossier était ensuite maquillé, de façon à modifier le genre de la personne dans les textes cliniques, et un nouveau score était attribué par le modèle. C’est la différence entre ces deux notations, produites à partir du dossier original d’une part et du dossier maquillé d’autre part, qui a ensuite permis l’estimation du biais cognitif.
Les résultats ont montré un biais significatif de l’IA au détriment des femmes : à dossiers cliniques identiques, la sévérité de leur état avait tendance à être sous-évaluée par rapport à celle des hommes (environ 5 % étaient classées « moins critiques » tandis que 1,81 % étaient classées comme « plus critiques »). A contrario, la sévérité de l’état des hommes avait tendance à être légèrement surévaluée (« plus critiques » pour 3,7 % contre 2,9 % « moins critiques »). Ce biais était d’autant plus marqué que le personnel infirmier était inexpérimenté.
« Ces travaux montrent comment les grands modèles de langage peuvent aider à détecter et à anticiper les biais cognitifs humains, ici dans l’exemple d’un objectif de prise en charge plus équitable et plus efficace aux urgences médicales », précise Emmanuel Lagarde. « La méthode utilisée montre que, dans ce contexte, les modèles LLMs sont capables d’identifier et de reproduire les biais qui guident la prise de décision humaine dans les données cliniques relevées par le personnel soignant », ajoute Ariel Guerra-Adames, doctorant et premier auteur de ces travaux[5].
Les prochains travaux de l’équipe vont se concentrer maintenant sur l’évaluation des biais liés à d’autres caractéristiques des patients (âge, groupe ethnique). À terme, le système devrait également être affiné avec l’introduction de variables non verbales (expressions faciales, ton de la voix) qui n’apparaissent pas nécessairement dans les données écrites et peuvent être pourtant critiques dans la prise de décision.
[1] L’intelligence artificielle générative est un système d’IA capable de créer du contenu, qu’il s’agisse de textes, d’images, de sons, de vidéos ou d’autres formes de données.
[2] En contexte médical, le texte libre désigne des informations consignées sous forme de texte non structuré, c’est-à-dire sans organisation rigide ou format prédéfini. Cela inclut les écrits rédigés directement par les professionnels de santé pour décrire des observations, diagnostics, traitements ou antécédents, souvent dans un langage naturel.
[3] En collaboration avec Cédric Gil-Jardiné du service des urgences du CHU de Bordeaux et Marta Avalos du centre Inria de l’université de Bordeaux
[4] Le triage aux urgences médicales consiste à classer les patients en fonction de la sévérité de leur état, afin d’optimiser l’ordre de prise en charge et ainsi de sauver un maximum de personnes. Il est réalisé par des personnels infirmiers dédiés qui, pour ce faire, collectent auprès de chaque malade différentes informations (raison de la visite, signes vitaux, historique médical…) et attribuent un score « d’urgence » selon une échelle validée.
[5] Ariel Guerra-Adames a reçu le prix de la meilleure communication dans le cadre de la présentation de ce travail pour la conférence Machine Learning for Health à Vancouver.
Emmanuel LagardeDirecteur de recherche Inserm
Unité 1219 Inserm/Université de Bordeaux, Bordeaux Population Health Research Center
Uncovering Judgment Biases in Emergency Triage: A Public Health Approach Based on Large Language Models
Ariel Guerra-Adames1,2,3, Marta Avalos-Fernandez1,3, Océane Doremus1,2, Cédric Gil-Jardiné1,2,4, Emmanuel Lagarde1,2
1 University of Bordeaux, BPH Research Center, UMR U1219, Inserm, F-33000, Bordeaux, France
2 AHeaD Team, BPH Inserm, F-33000, Bordeaux, France
3 SISTM team, Inria centre at the University of Bordeaux, F-33405, Talence, France
4 University Hospital of Bordeaux, Pole of Emergency Medicine, F-33000, Bordeaux, France
Proceedings of Machine Learning Research : https://proceedings.mlr.press/v259/guerra-adames25a.html