Contact Chercheur
Stefano Palminteri
Directeur de recherche Inserm
Unité Inserm 960 Laboratoire de Neurosciences Cognitives et Computationnelles
Equipe « Human reinforcement learning »
©woodleywonderworks via Flickr
Lorsque nous mettons en œuvre des processus cognitifs complexes, par exemple lors de la prise de décisions, nous sommes soumis à des biais cognitifs. Mais qu’en est-il de processus plus simples comme ceux impliqués dans les apprentissages les plus élémentaires ? Dans une nouvelle étude analysant les données issues de l’ensemble des travaux existants sur le sujet, des chercheurs de l’Inserm et de l’ENS-PSL montrent que non seulement les biais d’optimisme et de confirmation sont présents même dans les processus cognitifs les plus simples, chez l’humain et chez l’animal, mais aussi que leur intégration dans des algorithmes d’apprentissage renforceraient leurs performances. Ces travaux, parus dans Trends in Cognitive Sciences suggèrent que ces biais pourraient être initialement un avantage évolutif très ancien.
Les biais cognitifs, tels que les biais d’optimisme et de confirmation, sont connus pour influencer nos croyances et nos décisions. Jusqu’à récemment, on supposait qu’ils étaient spécifiques aux processus cognitifs dits de « haut niveau », c’est-à-dire qui sont mis en œuvre lorsque que l’on raisonne sur des propositions complexes et incertaines. Par exemple il est bien connu que les gens surestiment les probabilités des évènements désirables (la France gagne la coupe du monde) et sous-estiment celles des évènements indésirables (un mariage se termine en divorce).
Dans une étude publiée dans la revue scientifique Trends in Cognitive Sciences, Stefano Palminteri, chercheur Inserm au Laboratoire de neurosciences cognitives et computationnelles de l’ENS-PSL et de l’Inserm et Maël Lebreton, chercheur à l’Ecole d’Economie de Paris, remettent en cause cette conception de l’implication des biais d’optimisme et de confirmation.
Les chercheurs se sont appuyés sur l’ensemble des données existantes dans la littérature scientifique sur l’apprentissage dit « par renforcement ». Il s’agit d’un processus cognitif élémentaire d’apprentissage par récompenses et punitions, que l’humain partage avec de nombreux animaux. Il ressort de cette revue de littérature que des tests très simples d’apprentissage par renforcement, permettent de mettre en évidence des signatures comportementales propres aux biais d’optimisme et de confirmation chez les personnes qui y sont soumises. Ces biais apparaissent comme beaucoup plus répandus qu’estimé jusqu’à aujourd’hui, et sont présents même dans les processus cognitifs les plus simples comme celui d’apprendre à prendre une bonne décision par essai et erreur (récompense et punition).
De plus, ces biais ne semblent pas exclusifs à l’être humain : les signatures comportementales apparaissent également dans des tests similaires chez l’animal. Cela suggère que ces biais auraient émergé dans l’évolution chez un ancêtre commun, bien avant l’apparition de Homo sapiens, ce qui soulève la question de savoir pourquoi l’évolution a sélectionné et maintenu ce qui peut être perçu, à première vue, comme des processus pouvant générer des comportements apparemment irrationnels.
Stefano Palminteri et Maël Lebreton pensent avoir identifié une partie de la réponse à cette question à travers les résultats d’études basées sur des simulations informatiques. Ces études ont comparé les performances d’algorithmes d’apprentissage par renforcement – certains algorithmes intégrant des biais d’optimisme et de confirmation et d’autres n’en intégrant pas. Ces simulations montrent que la présence d’un biais de confirmation dans l’algorithme lui permet en fait un apprentissage plus efficace dans une large gamme de situations. Ces biais pourraient donc, en réalité, favoriser la survie, ce qui expliquerait pourquoi ils n’ont pas été corrigés au cours de l’évolution.
L’article ouvre la voie à de nouvelles pistes de recherche qui permettraient d’affiner notre compréhension des biais et processus cognitifs liés à l’apprentissage par renforcement. Les chercheurs proposent notamment d’explorer le rôle de ces biais dans l’apparition et le maintien d’états pathologiques, tels que l’addiction ou la dépression. Sur un autre registre, ces résultats suggèrent que l’ajout de ces biais dans des algorithmes d’intelligence artificielle pourrait, paradoxalement, améliorer leurs performances.
Stefano Palminteri
Directeur de recherche Inserm
Unité Inserm 960 Laboratoire de Neurosciences Cognitives et Computationnelles
Equipe « Human reinforcement learning »
The computational roots of positivity and confirmation biases in reinforcement-learning
Stefano Palminteri(1,2,3) and Maël Lebreton(4,5,6)
(1) Laboratoire de Neurosciences Cognitives et Computationnelles, Institut National de la Santé et Recherche Médicale, Paris, France
(2) Département d’études cognitives, Ecole Normale Supérieure, Paris, France
(3) Université de Recherche Paris Sciences et Lettres
(4) Paris School of Economics, Paris, France
(5) LabNIC, Department of Fundamental Neurosciences, University of Geneva, Geneva, Swiss
(6) Swiss Center for Affective Science, Geneva, Swiss
Trend in Cognitive Sciences : https://doi.org/10.1016/j.tics.2022.04.005