• Recherche

Biais cognitifs dans le soin : comment l’IA générative pourrait aider à améliorer la prise en charge

Mise à jour le :

Une équipe de l’Inserm et de l’université de Bordeaux a testé une intelligence artificielle générative sur 480 000 entrées aux urgences du CHU de Bordeaux pour analyser les biais cognitifs en prise de décision médicale. Présentés à la conférence Machine Learning for Health et publiés dans les Proceedings of Machine Learning Research, leurs résultats montrent que l’IA peut être mis à profit pour reproduire et mesurer les biais des soignants, notamment liés au genre des patients.

Photo : L’IA testée est susceptible de reproduire et de mesurer les biais des soignants relatifs au genre des patients lors du triage. © Achirawee Adobe Stock
L’IA testée est susceptible de reproduire et de mesurer les biais des soignants relatifs au genre des patients lors du triage. © Achirawee Adobe Stock

Dans les situations d’urgence de soin nécessitant une prise de décision rapide, les biais cognitifs humains, en particulier ceux dits « de jugement », peuvent avoir un impact critique sur la décision médicale et sur le pronostic du patient. Ces « raccourcis cognitifs » interviennent en effet lorsque les personnes doivent former une opinion ou prendre une décision à partir d’une information incomplète ou peu nuancée. La prise de décision peut ainsi être affectée de manière inconsciente par ces biais (liés par exemple au sexe/genre, à l’âge, à l’ethnie…), et conduire à sous-estimer ou à surestimer la sévérité de l’état d’une personne.

Alors, comment mieux identifier ces biais et diminuer leur impact ? Une réponse pourrait se trouver dans l’intelligence artificielle et en particulier dans les IA génératives dites « grands modèles de langage » (LLMs), c’est-à-dire capables d’imiter les prises de décision humaine grâce à leur maîtrise du langage humain (à l’image de ChatGPT par exemple). Ces modèles sont en effet capables d’appréhender efficacement le « texte libre »1 qui constitue une grande partie des données cliniques relevées par les soignants, en particulier aux urgences hospitalières.

Une équipe dirigée par Emmanuel Lagarde2, directeur de recherche Inserm, au sein du centre de recherche Bordeaux Population Health (BPH- unité Inserm et université de Bordeaux), s’est ainsi intéressée au potentiel de ces LLMs pour détecter et quantifier les biais de genre en situation de prise de décision rapide. Le choix du contexte d’évaluation de cette méthode s’est porté sur le cas spécifique du triage3 des patients aux urgences médicales. La justesse de ce dernier est en effet critique : la sous-estimation d’une urgence qui reporterait la prise en charge peut entraîner la dégradation du pronostic d’un patient. A contrario, surestimer la gravité de l’état de la personne peut entraîner une surutilisation de ressources qui peut être particulièrement préjudiciable en cas d’affluence forte.

Les scientifiques ont utilisé une approche innovante, consistant à entraîner l’IA à trier les patients à partir des textes contenus dans leur dossier, reproduisant ainsi les éventuels biais cognitifs du personnel infirmier en charge de ce triage. Cet apprentissage du modèle a porté sur les dossiers de plus de 480 000 entrées au service des urgences du CHU de Bordeaux entre janvier 2013 et décembre 2021.

Une fois entraîné, le modèle était capable d’attribuer un score de triage (évaluant la sévérité de l’état du patient ou de la patiente) à partir de la lecture d’un dossier, comme le ferait le soignant. Le dossier était ensuite maquillé, de façon à modifier le genre de la personne dans les textes cliniques, et un nouveau score était attribué par le modèle. C’est la différence entre ces deux notations, produites à partir du dossier original d’une part et du dossier maquillé d’autre part, qui a ensuite permis l’estimation du biais cognitif.

Les résultats ont montré un biais significatif de l’IA au détriment des femmes : à dossiers cliniques identiques, la sévérité de leur état avait tendance à être sous-évaluée par rapport à celle des hommes (environ 5 % étaient classées « moins critiques » tandis que 1,81 % étaient classées comme « plus critiques »). A contrario, la sévérité de l’état des hommes avait tendance à être légèrement surévaluée (« plus critiques » pour 3,7 % contre 2,9 % « moins critiques »). Ce biais était d’autant plus marqué que le personnel infirmier était inexpérimenté.

« Ces travaux montrent comment les grands modèles de langage peuvent aider à détecter et à anticiper les biais cognitifs humains, ici dans l’exemple d’un objectif de prise en charge plus équitable et plus efficace aux urgences médicales », précise Emmanuel Lagarde. « La méthode utilisée montre que, dans ce contexte, les modèles LLMs sont capables d’identifier et de reproduire les biais qui guident la prise de décision humaine dans les données cliniques relevées par le personnel soignant », ajoute Ariel Guerra-Adames, doctorant de l'université à BPH et dans l'équipe SISTM du centre Inria de l'université de Bordeaux et premier auteur de ces travaux4.

Les prochains travaux de l’équipe vont se concentrer maintenant sur l’évaluation des biais liés à d’autres caractéristiques des patients (âge, groupe ethnique). À terme, le système devrait également être affiné avec l’introduction de variables non verbales (expressions faciales, ton de la voix) qui n’apparaissent pas nécessairement dans les données écrites et peuvent être pourtant critiques dans la prise de décision.

 Sources : communiqué de presse de l'Inserm

1En contexte médical, le texte libre désigne des informations consignées sous forme de texte non structuré, c'est-à-dire sans organisation rigide ou format prédéfini. Cela inclut les écrits rédigés directement par les professionnels de santé pour décrire des observations, diagnostics, traitements ou antécédents, souvent dans un langage naturel.

2En collaboration avec Cédric Gil-Jardiné du service des urgences du CHU de Bordeaux et Marta Avalos du centre Inria de l'université de Bordeaux​​​​​​​

3Le triage aux urgences médicales consiste à classer les patients en fonction de la sévérité de leur état, afin d’optimiser l’ordre de prise en charge et ainsi de sauver un maximum de personnes. Il est réalisé par des personnels infirmiers dédiés qui, pour ce faire, collectent auprès de chaque malade différentes informations (raison de la visite, signes vitaux, historique médical…) et attribuent un score « d’urgence » selon une échelle validée.

4Ariel Guerra-Adames a reçu le prix de la meilleure communication dans le cadre de la présentation de ce travail pour la conférence Machine Learning for Health à Vancouver.

Références bibliographiques

Uncovering Judgment Biases in Emergency Triage: A Public Health Approach Based on Large Language Models

Ariel Guerra-Adames, Marta Avalos-Fernandez, Océane Doremus, Cédric Gil-Jardiné, Emmanuel Lagarde

Proceedings of Machine Learning Research (vol 259 - 2025)

Lien vers la publication

Contact

  • Emmanuel Lagarde

    Directeur de recherche Inserm
    Centre de recherche Bordeaux Population Health (BPH)

    emmanuel.lagarde%40u-bordeaux.fr

Communiqué de presse de l'Inserm