Tous les individus n’attribuent pas de la même manière une valeur motivationnelle aux objets de leur environnement. Certains sont attirés vers un stimulus, d’autres vers la récompense associée à ce stimulus. Ces comportements correspondent à des signaux différents dans les neurones dopaminergiques du tronc cérébral. A partir des prédictions d’un modèle computationnel, une équipe franco-américaine vient de caractériser expérimentalement les mécanismes de ces différences inter-individuelles. Cette étude a été publiée dans la revue PLOS Biology.
Apprendre la valeur des objets et événements de notre environnement est une fonction essentielle à la survie.Un stimulus associé à une récompense acquiert une valeur motivationnelle chez certains individus, dits « sign-trackers ». Chez l’humain, les individus sign-trackers pourraient être plus sensibles aux stimuli et contextes associés à une prise de drogue et vulnérables à la rechute après sevrage. Comprendre l’origine de ces différences inter-individuelles peut donc avoir des impacts importants en matière de santé publique.
Par opposition aux sign-trackers, des animaux goal-trackers se désintéressent du stimulus conditionné lui-même et apprennent selon des principes différents. Chez les sign-trackers, les réponses des neurones dopaminergiques ont les caractéristiques attendues de signaux d’erreur de prédiction (reward prediction error, RPE): en début d'apprentissage elles correspondent à des récompenses inattendues (erreur de prédiction positive), puis diminuent lorsque la récompense devient prévisible (erreur de prédiction nulle). Mais chez les goal-trackers ces réponses persistent alors même que la récompense est parfaitement prévisible, et leur apprentissage semble indépendant de la dopamine.
Afin d’expliquer ces différences comportementales et neurobiologiques, les chercheurs ont récemment proposé un modèle computationnel "STGT" (pour sign-trackers / goal-trackers) qui repose sur l’équilibre entre deux formes d’apprentissage, l’une appelée model-free dépendante de la RPE et l’autre appelée model-based, plus flexible, qui permet une anticipation explicite des événements et des actions. Seul le premier de ces deux systèmes est supposé dépendre de la dopamine. La valeur calculée par les deux systèmes serait combinée sous la forme d’une somme pondérée. Différents individus pourraient donc utiliser davantage l'un des deux apprentissages plutôt que l'autre, et attribuer ainsi des valeurs indépendantes au levier et à la mangeoire (Figure 1).