Informations

Apprentissage « sans modèle » chez l'homme

Apprentissage « sans modèle » chez l'homme

Dans l'apprentissage par renforcement, il existe une distinction nette entre les algorithmes d'apprentissage basés sur un modèle et sans modèle, où les méthodes sans modèle n'utilisent aucune information explicite sur la dynamique de l'environnement.

Il semble que cette distinction aurait un certain analogue dans l'apprentissage humain, mais j'ai beaucoup de mal à en trouver une mention. Peut-être serait-ce un conditionnement par rapport à des formes d'apprentissage plus cognitives ? Je serais ravi si quelqu'un pouvait trouver un article utilisant le terme «sans modèle» pour faire référence à un aspect de l'apprentissage humain, ou simplement me rassurer sur l'analogue humain correct du terme.

Existe-t-il des recherches sur l'apprentissage humain comportant une distinction sans modèle/basée sur un modèle ?


Selon les commentaires à la question, la recherche humaine observant cette distinction existe. CHCH fait peut-être allusion à un article de Gläscher, Daw, Dayan et O'Doherty (2010) qui définit de manière concise la différence entre l'apprentissage sans modèle et l'apprentissage basé sur un modèle :

L'apprentissage par renforcement (RL) utilise une expérience séquentielle avec des situations (« états ») et des résultats pour évaluer les actions. Alors que le RL sans modèle utilise cette expérience directement, sous la forme d'une erreur de prédiction de récompense (RPE), le RL basé sur un modèle l'utilise indirectement, en construisant un modèle de la transition d'état et de la structure de résultat de l'environnement, et en évaluant les actions en recherchant ce maquette.

Glascher et al. (2010) rapportent des preuves en IRMf d'une activité neuronale cohérente avec un apprentissage basé sur un modèle dans le sillon intrapariétal humain et le cortex préfrontal latéral, et pour un apprentissage sans modèle dans le striatum ventral. Ils concluent :

Cette découverte soutient l'existence de deux formes uniques de signal d'apprentissage chez l'homme, qui peuvent constituer la base de stratégies de calcul distinctes pour guider le comportement.

Les références

  • Gläscher, J., Daw, N., Dayan, P. et O'Doherty, J. P. (2010). États versus récompenses : signaux d'erreur de prédiction neuronale dissociables sous-jacents à l'apprentissage par renforcement basé sur un modèle et sans modèle. Neuron, 66(4), 585-595.

Contribué à parts égales. Momchil S. Tomov et Eric Schulz

Affiliations

Programme en neurosciences, Harvard Medical School, Boston, MA, États-Unis

Center for Brain Science, Harvard University, Cambridge, MA, États-Unis

Momchil S. Tomov et Samuel J. Gershman

Institut Max Planck de cybernétique biologique, Tübingen, Allemagne

Département de psychologie, Harvard University, Cambridge, MA, États-Unis

Eric Schulz et Samuel J. Gershman

Center for Brains, Minds and Machines, Cambridge, MA, États-Unis

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Contributions

M.S.T. et E.S. contribué à parts égales. M.S.T., E.S. et S.J.G. conçu les expériences, M.S.T. et E.S. ont mené les expériences et analysé les résultats. Tous les auteurs ont rédigé le manuscrit.

Auteurs correspondants


Matériaux et méthodes

Cette étude a été approuvée par le Seoul National University Institutional Review Board (SNUIRB), et tous les participants ont fourni un consentement éclairé écrit.

Participants

Cinquante-six étudiants de premier cycle en bonne santé ont participé à cette étude (29 femmes, 27 hommes d'âge, 20,36 ± 1,91 indice de masse corporelle 21,00 ± 2,52). Les personnes qui répondaient à l'un des critères suivants ont été exclues de la participation : antécédents de traumatisme crânien, traitement avec des médicaments psychotropes, des stéroïdes ou tout autre médicament affectant le système nerveux central ou le système endocrinien, maladie médicale actuelle, auto-déclaration de trouble mental ou toxicomanie, existence d'un épisode stressant actuel ou d'un événement majeur de la vie. De plus, les fumeurs et les femmes prenant des contraceptifs oraux ont été exclus de l'étude en raison des effets possibles de la nicotine et des contraceptifs oraux sur la réponse au stress neuroendocrinien [18, 19]. Bien que le sexe puisse affecter différemment la réactivité du cortex hypothalamo-hypophyso-surrénalien au stress psychosocial, il a été démontré qu'il n'y avait pas de différences dans la réponse du cortisol salivaire entre les hommes et les femmes en phase lutéale [18]. Par conséquent, les femmes en fin de phase lutéale (après le jour 21 et avant le début du cycle suivant) du cycle menstruel ont été incluses dans cette étude. Les participants ont été invités à s'abstenir de caféine et d'exercice physique pendant les 6 heures précédant la participation, puis ont été assignés au hasard aux conditions de stress et de contrôle. Âge (t50 = 1.23, p = 0,226), indice de masse corporelle (t50 = -.20, p = 0,846) et le stress perçu au cours du dernier mois (t50 = .71, p = 0,483), évalués avec l'échelle de stress perçu [20], n'étaient pas significativement différents entre les participants dans les deux conditions. Quatre participants (deux pour chaque condition), qui ont continué à choisir la même action dans plus de 95 % des essais au cours de la tâche, ont été exclus de l'analyse, car cela reflétait un manque d'apprentissage.

Protocole de stress

Le test de pression à froid évalué socialement (SECPT) [5, 21] a été administré aux participants en condition de stress (15 femmes et 13 hommes). Ils ont plongé une main (gaucher, droitier, gauche) jusqu'au poignet inclus pendant 3 minutes (2 participants l'ont fait pendant 2 minutes, ce qui était leurs limites) dans de l'eau glacée (0

2 ° C). Lors de l'immersion des mains, ils ont été enregistrés sur vidéo par une personne inconnue. Les participants de la condition contrôle (14 femmes et 14 hommes) ont immergé une main jusqu'au poignet inclus pendant 1 minute dans de l'eau chaude (36

38 ° C), et ils n'ont pas été enregistrés sur vidéo. Pour évaluer si les traitements ont réussi, les participants devaient signaler le stress subjectif sur l'échelle visuelle analogique (EVA), les limites inférieure et supérieure de l'échelle étant marquées des chiffres 0 et 100, représentant une plage allant de " non stress " ? à “le plus stressant.” Toutes les expériences ont eu lieu entre 13h00 et 17h40 pour contrôler le rythme diurne de l'hormone du stress (cortisol). Dix minutes après l'arrêt du SECPT ou de la procédure de contrôle, les participants ont effectué une tâche d'apprentissage par inversion en deux étapes décrite ci-dessous.

Tâche comportementale

Nous avons utilisé une tâche d'apprentissage par inversion en deux étapes qui combinait un paradigme d'apprentissage par inversion avec la tâche de décision de Markov en deux étapes développée par Daw et ses collègues [22] (voir la figure 1 pour plus de détails). La tâche de décision de Markov en deux étapes a été utilisée pour distinguer la contribution du RL sans modèle et basé sur un modèle à la sélection d'actions. Nous avons également adopté le paradigme d'apprentissage par inversion, afin que les participants soient confrontés à un environnement changeant et que leurs choix en réponse à des changements environnementaux discrets puissent être étudiés. La tâche consistait en six blocs de 40 essais, totalisant 240 essais sans interruption. Il n'y avait pas d'indice explicite pour la transition de bloc.

(A) Structure des tâches. Le choix au premier stade conduit probabiliste à des états différents au deuxième stade. Chaque stimulus de la deuxième étape a donné lieu à 0 ou 100 points avec des probabilités différentes. (B) Chronologie des événements dans un seul essai. (C) Probabilités de récompense de quatre options à l'étape 2.

Chaque essai nécessitait deux choix successifs. Dans la première étape (“state 1”), les participants ont choisi entre deux options, représentées par des chiffres similaires aux caractères tibétains dans des cases de couleur verte. Le choix de la première étape conduit probabiliste à l'un des deux états de la deuxième étape (“state 2” et “state 3”), représenté par des couleurs différentes (rose et bleu). Chacune des options de la première étape était fortement associée (avec une probabilité de 70 %) à l'un des deux états de la deuxième étape, et cette éventualité a été fixée tout au long de l'expérience (figure 1A). Dans la deuxième étape, les sujets ont fait un autre choix binaire, et ce deuxième choix a été lié à 100 ou 0 points en fonction de la probabilité de récompense prédéterminée (Fig 1C). L'attribution de deux couleurs (rose ou bleu) aux états 2 et 3 a été contrebalancée entre les sujets, et les emplacements de deux options dans chaque état ont été randomisés d'un essai à l'autre.

Les probabilités de récompense pour les deux options de la deuxième étape ont changé d'un bloc à l'autre, en utilisant le paradigme d'apprentissage par inversion, comme le montre la figure 1C. Dans le premier bloc, les deux états 2 et 3 avaient une option menant à 60% de chances de récompense tandis que l'autre menant à 20% de chances. Par conséquent, dans le bloc 1, les deux options de la première étape étaient également favorables. Dans le bloc 2, cependant, les deux options de l'état 2 ont été récompensées avec 80% et 20%, respectivement, tandis que les deux options dans l'état 3 ont été récompensées avec 20%. Par conséquent, il était plus avantageux de choisir l'option plus fortement associée à l'état 2 dans la première étape. Dans les blocs suivants, le choix avantageux de la première étape (“state 1”) alternait car les probabilités de récompense des options étaient commutées entre deux états de l'étape 2 après chaque transition de bloc.

Avant l'expérience, les participants ont été informés que les probabilités de récompense pour différents choix dans la deuxième étape changeraient et que les probabilités des transitions du premier état à différents états dans la deuxième étape étaient fixées tout au long de l'expérience. Une séance d'entraînement a été donnée pour familiariser les participants avec la structure de la tâche. La séance d'entraînement comprenait trente essais, avec cinq essais dans chaque bloc.

Analyses comportementales

Une série de tests t bilatéraux a été utilisée pour examiner s'il y avait des différences dans l'exécution des tâches entre les deux conditions. En tant que différentes mesures de performance, nous avons analysé le temps de réponse moyen pour faire un choix dans la première étape, le nombre total de points (récompense cumulée) et la probabilité globale de sélectionner l'option avantageuse (l'option la plus fortement associée à “state 2” dans blocs 2, 4 et 6, et l'option plus fortement associée à “state 3” dans les blocs 3 et 5) dans la première étape. Ensuite, une ANOVA à conception mixte avec le type de résultat (récompensé ou non) et le type de transition (commun ou rare) comme facteurs intra-sujets, et le traitement (condition de stress ou de contrôle) comme facteurs inter-sujets a été utilisé pour examiner si les probabilités de rester (la probabilité de choisir la même option que dans l'essai précédent) au premier stade variait considérablement avec le stress, la récompense lors de l'essai précédent et le type de transition dans l'essai précédent. Les données ont été analysées à l'aide du logiciel IBM SPSS statistics 21.

Modélisation informatique

Nous avons utilisé un modèle RL pour caractériser la dynamique de choix essai par essai. Divers algorithmes RL différents ont été proposés pour prédire la récompense de chaque option. Dans cette étude, nous avons adopté la version modifiée du modèle Q-learning car il fonctionne mieux que le modèle RL standard pour tenir compte des comportements de choix [23]. Dans le modèle Q-learning, les valeurs d'action sont mises à jour via une simple règle de Rescorla-Wagner (RW) [24], et donc, pour un choix binaire simple, la fonction de valeur, Vt(x), pour l'option x peut être mis à jour après chaque essai t selon ce qui suit :

où Rt désigne l'issue de l'action au procès t. Ceci est équivalent à ce qui suit.

Dans la présente étude, ce modèle RL a été modifié pour quantifier les comportements de choix sans modèle et basés sur un modèle dans la première étape de la tâche [23, 25]. Dans le modèle, les valeurs d'action sont mises à jour en fonction des éléments suivants :

où α était le taux d'apprentissage pour l'option sélectionnée. Le paramètre κ+ représentait la force du renforcement par le résultat de la récompense, et κ_ représentait la force de la punition par le résultat sans récompense. Dans la présente étude, ce modèle a été étendu pour mettre à jour la fonction de valeur pour le choix dans la première étape différemment selon le type de transition d'état dans le même essai. À savoir, le terme de perturbation κ a été dupliqué pour refléter les composants attendus du modèle RL sans modèle (κ mf ) et basé sur le mode (κ mb ). Par exemple, si la récompense s'est produite après une transition commune, la fonction de valeur de l'option que les participants ont choisie dans la première étape (“state 1”) a été mise à jour par κ+ mf + κ+ mb , puisque dans ce cas, les algorithmes sans modèle et basés sur un modèle attribueraient le résultat positif à l'action choisie. En revanche, si la récompense se produisait après une transition rare, la fonction de valeur pour l'option sélectionnée dans la première étape (“state 1”) était mise à jour par κ+ mf , tandis que la fonction de valeur pour l'option non sélectionnée a été mise à jour par κ+ mb , puisque dans ce cas, les algorithmes sans modèle attribueraient ce résultat positif à l'option choisie et l'apprentissage basé sur un modèle attribuerait le résultat positif à l'option non choisie. De même, si la récompense ne s'est pas produite après la transition commune, la fonction de valeur de l'option choisie a été mise à jour par κ_ mf + κ_ mb. S'il n'y avait pas de récompense après une transition rare, la fonction de valeur pour l'option choisie était mise à jour par κ_ mf , tandis que la fonction de valeur pour l'autre option a été mise à jour par κ_ mb.

Nous avons constaté que pour certains sujets, la valeur des paramètres α et κ estimée à l'aide des équations ci-dessus n'était pas stable, car la valeur de κ pouvait augmenter afin de compenser une valeur extrêmement faible du taux d'apprentissage. Par conséquent, les paramètres du modèle ont été estimés à l'aide de l'équation suivante, qui est mathématiquement équivalente à (3).

où, γ = 1 –α et représente un facteur de décroissance (ou de remise), un paramètre de pondération donné à l'estimation de valeur précédente, et Δ = ακ, représente le changement dans la fonction de valeur déterminé par le choix du participant et son résultat [25]. En d'autres termes, Δ+ mf , Δ+ mb , Δ_ mf et Δ_ mb remplacé ακ+ mf , ακ+ mb , ακ_ mf , et ακ_ mb , respectivement. Dans ce modèle RL, la tendance à s'éloigner de l'action non récompensée correspond à Δ_ < 0 tandis que la tendance à rester avec la même action indépendamment de la non-récompense correspond à Δ_ > 0. Plus précisément, si Δ_ mf et Δ_ mb sont négatifs, leurs amplitudes quantifient à quel point le RL sans modèle et basé sur un modèle prédit la tendance à passer à une option différente après l'absence de récompense.

La probabilité de choisir chaque option a été donnée par la probabilité de la fonction softmax liée à la différence entre les fonctions de valeur. En d'autres termes, désignant les actions de la première étape par un1 et un2,

Il convient de noter que ce modèle ne nécessite aucune température inverse pour déterminer le caractère aléatoire des choix des participants, car cela peut être modifié par l'amplitude d'autres paramètres du modèle (Δ’s). Ce modèle est similaire au modèle utilisé dans Daw et ses collègues (2011), sauf que les fonctions de valeur pour les actions non choisies décroissent progressivement.

Les paramètres des modèles ont été estimés séparément pour chaque participant. Pour maximiser la log-vraisemblance des données pour chaque sujet, nous avons utilisé l'algorithme du simplexe de Nelder-Mead [26]. Nous avons contraint le facteur d'actualisation à se situer entre zéro et un, et avons laissé flotter arbitrairement quatre paramètres de changement. L'ajustement du modèle a été itéré 500 fois avec des valeurs initiales choisies au hasard afin de minimiser le risque de trouver une solution optimale locale mais pas globale.

Une série de tests t bilatéraux a été utilisée pour examiner s'il y avait des différences dans les estimations des paramètres des modèles RL entre les deux conditions. De plus, pour tester si le stress influence indépendamment le taux d'apprentissage et le poids du RL basé sur un modèle sans modèle, nous avons effectué une régression sur l'estimation des paramètres sans modèle ou basée sur un modèle avec un paramètre de décroissance et un traitement (stress vs. . contrôle) pour chaque individu. Les données ont été analysées à l'aide du logiciel IBM SPSS statistics 21.


Étude 1

Concevoir.

L'expérience de l'étude 1 consistait en une phase d'apprentissage et une ou deux phases de test (selon la condition). Dans la phase d'apprentissage, les participants ont interagi avec deux nouveaux groupes (Laapians vs. Niffians) et ont reçu des récompenses (points positifs) ou des punitions (points négatifs) en raison de leur comportement de choix. Dans les phases de test, les participants ont fourni des jugements à choix forcés (je) mémoire de transition et (ii) la valeur des cibles laapienne et niffienne (évaluation explicite), suivie de (iii) un IAT (2) sondant l'évaluation implicite des mêmes cibles.

Surtout, pour la phase d'apprentissage de l'expérience, les participants m = 1740) ont été affectés à l'une des cinq conditions inter-sujets (Fig. 1). Dans les conditions d'apprentissage de contrôle et de base, la phase d'apprentissage consistait en une seule partie, tandis que dans les conditions de réévaluation de récompense, de réévaluation de transition et de réapprentissage, la phase d'apprentissage était composée de deux parties.

Dans les cinq conditions d'apprentissage, la première partie de la phase d'apprentissage a demandé aux participants de réaliser 20 essais d'apprentissage sur lesquels ils ont fait un choix entre une cible laapienne et une cible niffienne (stimuli de la première étape Matériaux et méthodes). Selon leur choix, les participants ont été exposés à une barre horizontale ou verticale (stimulus de deuxième étape), suivie d'un résultat positif (+5 points) ou d'un résultat négatif (−5 points). Les participants ont été invités à maximiser les points reçus. La relation entre les stimuli du premier stade et du deuxième stade était déterministe dans les cinq conditions (par exemple, les laapiens étaient toujours suivis de barres horizontales et les niffiens de barres verticales). Dans la condition de contrôle, les stimuli de la deuxième étape ont été suivis au hasard par des victoires ou des défaites, fournissant ainsi une mesure de la préférence relative au départ. Dans les quatre conditions restantes, la transition entre les stimuli de deuxième étape et les récompenses était déterministe (par exemple, les barres horizontales étaient toujours suivies de victoires et les barres verticales de pertes).

Dans les conditions de réévaluation de récompense, de réévaluation de transition et de réapprentissage, la première partie de la phase d'apprentissage a été suivie d'une deuxième partie, également constituée de 20 essais. Dans la condition de réévaluation de la récompense, la transition entre les stimuli de la deuxième étape et les récompenses était inversée par rapport à la première partie de la phase d'apprentissage (sans que les participants fassent de choix ou ne subissent de stimuli de première étape). Dans la condition de réévaluation de la transition, la transition entre les stimuli de la première étape et de la deuxième étape était inversée par rapport à la phase d'apprentissage (sans que les participants fassent de choix ou ne ressentent aucune récompense). La condition de réapprentissage était similaire à la condition de réévaluation de la récompense en ce sens que la transition entre les stimuli de la deuxième étape et les récompenses était inversée. et, plutôt que d'observer passivement les stimuli, ils ont fait des choix entre des cibles laapiennes et niffiennes.

Dans les conditions d'apprentissage de contrôle et de base, la phase d'apprentissage a été suivie par (je) un ensemble d'éléments explicites de la mémoire de transition sondant la mémoire pour la transition entre les stimuli de la première étape et de la deuxième étape, (ii) un ensemble d'éléments d'évaluation explicites sondant la valeur subjective autodéclarée attribuée à chaque cible (Laapiens vs Niffiens), et (iii) un IAT sondant l'évaluation implicite relative des Laapiens contre les Niffiens. Dans les conditions de réévaluation de récompense, de réévaluation de transition et de réapprentissage, les items de mémoire de transition explicite et d'évaluation explicite ont été administrés deux fois, une fois après la première partie de la phase d'apprentissage et une fois après la deuxième partie de la phase d'apprentissage. Cependant, pour éviter la fatigue des participants, l'IAT n'a été administré qu'une seule fois, après la deuxième partie de la phase d'apprentissage.

La logique des analyses statistiques rapportées ici plus loin est la suivante. Premièrement, une comparaison impliquant le contrôle et les conditions d'apprentissage de base peut être utilisée pour établir si les récompenses et les punitions utilisées dans la présente tâche ont été efficaces pour modifier les évaluations explicites et implicites des participants des stimuli de la première étape. Il a été démontré à plusieurs reprises que les évaluations explicites changent à la suite de manipulations similaires (29 ⇓ ⇓ ⇓ –33). mesurée par l'IAT.

Deuxièmement, une comparaison cruciale impliquant l'apprentissage de base et les conditions de réévaluation de la récompense peut être utilisée pour déterminer si les évaluations explicites et implicites sont sensibles à l'apprentissage basé sur un modèle. Comme indiqué précédemment, une mise à jour réussie de la valeur subjective dans la condition de réévaluation de la récompense est généralement interprétée comme ne reposant que sur des processus basés sur des modèles étant donné que la deuxième partie de la phase d'apprentissage n'impliquait aucune expérience avec les stimuli de la première étape. Semblable à la première comparaison, l'efficacité de la réévaluation des récompenses dans le déplacement des évaluations explicites a déjà été démontrée (29 ⇓ ⇓ ⇓ –33) en revanche, à notre connaissance, si la réévaluation des récompenses peut déplacer les évaluations implicites n'a pas été étudiée auparavant.

Troisièmement, une comparaison impliquant les conditions d'apprentissage de base et de réévaluation de la transition peut être utilisée pour déterminer si les évaluations explicites et implicites sont sensibles à un type différent de changement dans l'environnement. Les prédictions pour cette comparaison sont moins simples que pour la condition de réévaluation de la récompense étant donné que la mise à jour dans cette condition peut se produire via des processus sans modèle ou basés sur un modèle ou une combinaison des deux : une mise à jour basée sur un modèle peut être effectuée si les participants utilisent leur modèle explicite de la tâche pour lier cognitivement les stimuli de la deuxième étape aux récompenses (telles qu'expérimentées dans la première partie de la phase d'apprentissage). Cependant, étant donné que les stimuli de deuxième étape étaient associés à des victoires et des défaites dans la première partie de la phase d'apprentissage, ils pourraient eux-mêmes agir comme des stimuli valencenés, permettant ainsi un apprentissage sans modèle (semblable à un conditionnement de second ordre).

Quatrièmement, une comparaison impliquant les conditions d'apprentissage et de réapprentissage de base peut être utilisée pour aider à lever l'ambiguïté des résultats de la condition de réévaluation de la récompense en révélant si les évaluations implicites sont différemment sensibles à (je) apprentissage sans modèle vs apprentissage basé sur un modèle ou (ii) l'apprentissage initial par rapport à la mise à jour ultérieure (c'est-à-dire un effet de primauté) (37). Plus précisément, si les évaluations implicites devaient être insensibles à l'apprentissage basé sur un modèle, une telle insensibilité se traduirait par une réponse statistiquement équivalente dans les conditions d'apprentissage de base et de réévaluation des récompenses (comme détaillé précédemment). Cependant, ce modèle de réponse peut également être le résultat d'évaluations implicites étant généralement plus sensibles à l'apprentissage initial qu'à une mise à jour basée sur de nouvelles informations. Si tel est le cas, et que les évaluations implicites sont généralement imperméables à la mise à jour, aucune différence ne serait attendue entre les conditions d'apprentissage de base et de réapprentissage étant donné que la condition de réapprentissage, tout comme la condition de réévaluation de récompense, implique un apprentissage initial suivi d'une mise à jour. En revanche, si la différence déterminante se situe entre les processus sans modèle et les processus basés sur un modèle, la condition de réapprentissage, contrairement à la condition de réévaluation de la récompense, devrait montrer un changement étant donné que, dans le premier, contrairement au second, l'apprentissage peut être accompli via un modèle. processus libres.

Résultats.

Le schéma des résultats obtenus avec une évaluation explicite comme mesure dépendante (Fig. 2) était conforme aux attentes formulées sur la base d'études similaires menées dans le passé (29 ⇓ ⇓ ⇓ –33) et, en tant que tel, souligne la solidité de la conception et les manipulations.

Étude 1 (m = 1740) : moyenne des évaluations explicites et implicites par condition d'apprentissage. Pour les évaluations explicites (La gauche), les oui l'axe montre le pourcentage de réponses en ligne avec l'apprentissage initial pour les évaluations implicites (Droit), les oui l'axe montre l'IAT les scores (44) calculés de telle sorte que des valeurs plus élevées indiquent des réponses conformes à l'apprentissage initial. Pour les évaluations explicites et implicites, les effets de revalorisation ou de réapprentissage sont révélés par des valeurs proches de 0% ou négatives scores, respectivement. Dans la condition de contrôle, les réponses indiquant une préférence en faveur des Laapiens par rapport aux Niffiens ont été arbitrairement codées comme positives. À des fins de visualisation, les scores IAT ont été centrés sur la moyenne en utilisant la moyenne de la condition de contrôle. Les barres d'erreur affichent des IC à 95 %.

Plus précisément, l'apprentissage de base s'est avéré efficace pour déplacer les évaluations explicites par rapport à la condition de contrôle [t(548.86) = 9.88, P < 0,0001, facteur de Bayes en faveur de l'hypothèse alternative (BF10) = 3,40 × 10 18 , Cohen = 0,82], établissant ainsi l'efficacité générale de la tâche d'apprentissage utilisée dans la présente étude (pour plus de preuves, voir Annexe SI, Études complémentaires S1 et S2). Également conforme aux attentes, la réévaluation de la récompense a permis de déplacer efficacement les évaluations explicites par rapport à la condition d'apprentissage de base [t(474.09) = 14.49, P < 0,0001, BF10 = 5,89 × 10 38 , Cohen = 1,22], reproduisant ainsi le constat largement observé que les évaluations explicites répondent à l'apprentissage basé sur un modèle (pour plus de preuves, voir Annexe SI, Étude complémentaire S1).* Un résultat similaire a été observé pour la comparaison impliquant l'apprentissage de base et la réévaluation de la transition [t(502.54) = 10.44, P < 0,0001, BF10 = 5,06 × 10 20 , Cohen = 0,86], ce qui ne devrait pas être surprenant étant donné qu'une telle mise à jour aurait pu se produire via des processus sans modèle ou basés sur un modèle. Enfin, bien que n'ayant pas une pertinence théorique majeure pour les présents objectifs, la condition de réapprentissage s'est également avérée déplacer efficacement les évaluations explicites par rapport à la condition d'apprentissage de base [t(793.91) = 24.55, P < 0,0001, BF10 = 1,62 × 10 85 , Cohen = 1,59 pour plus de preuves voir Annexe SI, Étude complémentaire S3].

Étant donné que l'apprentissage dans les conditions d'apprentissage et de réapprentissage de base aurait pu être accompli de manière sans modèle ou basée sur un modèle, nous avons étudié (je) si les évaluations explicites différaient de la neutralité au niveau du hasard répondant à l'item de mémoire de transition (une signature de processus sans modèle) et (ii) si la précision de la mémoire de transition prédit des évaluations explicites (une signature de processus basés sur un modèle) dans chaque condition. Comme révélé par une interception significative, les évaluations explicites différaient de la neutralité au niveau du hasard en répondant à l'item de mémoire de transition dans la condition d'apprentissage de base [b = 0.90, t(307) = 11.76, P < 0,0001] et dans la condition de réapprentissage [b = 0.47, t(573) = 6.07, P < 0,0001], fournissant ainsi des preuves du fonctionnement de processus sans modèle. Dans le même temps, une mémoire de transition précise prédit positivement des évaluations explicites dans les deux conditions [b = 0.43, t(307) = 8.77, P < 0,0001 et b = 0.38, t(573) = 8.83, P < 0,0001], révélant la contribution des processus basés sur des modèles à l'acquisition d'évaluations explicites.

Une comparaison impliquant les conditions d'apprentissage de base et de contrôle a révélé que les évaluations implicites, comme les évaluations explicites, étaient sensibles à l'apprentissage par renforcement :t(565.06) = 4.35, P < 0,0001, BF10 = 9,11 × 10 2 , Cohen = 0,36 pour plus de preuves voir Annexe SI, Études complémentaires S1 et S2). La comparaison cruciale dans cette expérience impliquait l'apprentissage de base par rapport aux conditions de réévaluation de la récompense étant donné que cette comparaison établit si les évaluations implicites ont répondu à l'apprentissage par renforcement basé sur un modèle. Cette comparaison a fourni des preuves en faveur de l'hypothèse nulle [t(569.05) = 1.06, P = 0,287, facteur de Bayes en faveur de l'hypothèse nulle (BF01) = 6,22, Cohen = 0,09], suggérant que les évaluations implicites sont imperméables à la mise à jour basée sur un modèle (pour plus de preuves, voir Annexe SI, Étude complémentaire S1). Conformément à l'attente que la mise à jour dans la condition de réévaluation de transition puisse émerger de processus sans modèle ou basés sur un modèle, nous avons trouvé des preuves faibles que la condition de réévaluation de transition peut avoir différé de la condition d'apprentissage de base [t(591.29) = 2.47, P = 0,013, BF10 = 1,85, Cohen = 0.20].

Enfin, étant donné que nous n'avons trouvé aucune mise à jour par rapport à la ligne de base dans la condition de réévaluation de la récompense, une comparaison impliquant les conditions d'apprentissage et de réapprentissage de base peut être utilisée pour établir si ce manque de mise à jour est le résultat d'un effet de primauté général ou d'un effet plus spécifique. des évaluations implicites étant imperméables à la mise à jour basée sur un modèle, mais pas sans modèle. Les conditions d'apprentissage et de réapprentissage de base se sont avérées être significativement différentes les unes des autres [t(649.58) = 6.04, P < 0,0001, BF10 = 2,40 × 10 6 , Cohen = 0,42], suggérant que les évaluations implicites déjà établies peuvent être mises à jour efficacement à condition que la mise à jour puisse être effectuée via des mécanismes sans modèle. En tant que tel, ce résultat élimine un effet de primauté général comme explication des présents résultats (pour plus de preuves, voir Annexe SI, Étude complémentaire S3).


Apprentissage « sans modèle » chez l'homme - Psychologie

Le système dopaminergique mésostriatal est fortement impliqué dans l'apprentissage par renforcement sans modèle, avec des signaux IRMf BOLD dans le striatum ventral covariant notamment avec des erreurs de prédiction sans modèle. Cependant, les études d'apprentissage latent et de dévaluation montrent que le comportement montre également les caractéristiques de la planification basée sur un modèle, et l'interaction entre les valeurs basées sur un modèle et sans modèle, les erreurs de prédiction et les préférences est sous-explorée. Nous avons conçu une tâche de décision en plusieurs étapes dans laquelle les influences basées sur un modèle et sans modèle sur le comportement de choix humain pourraient être distinguées. En montrant que les choix reflétaient les deux influences, nous avons ensuite pu tester la pureté du signal BOLD striatal ventral en tant que rapport sans modèle. Contrairement aux attentes, le signal reflétait à la fois des prédictions sans modèle et basées sur un modèle dans des proportions correspondant à celles qui expliquaient le mieux le comportement de choix. Ces résultats remettent en question la notion d'apprenant séparé sans modèle et suggèrent une architecture informatique plus intégrée pour la prise de décision humaine de haut niveau.

Points forts

► Les humains apprennent à la fois un modèle mondial et des préférences de choix axées sur le renforcement ► Les réponses BOLD dans le striatum et le cortex préfrontal reflètent les deux types d'apprentissage influence


Discussion

Dans cette étude, nous avons constaté que le stress altère le comportement de recherche de récompense et démontré que la performance inférieure sous stress pourrait être due à au moins deux mécanismes différents. Premièrement, le stress a augmenté l'influence de l'apprentissage par renforcement sans modèle, en particulier la probabilité de passer à un choix alternatif lorsque le choix précédent a conduit à un résultat indésirable. Deuxièmement, le stress a diminué le taux d'apprentissage, à savoir le degré d'incorporation de nouvelles informations dans la prise de décision essai par essai. Ces résultats suggèrent que le comportement de choix inadapté sous stress pourrait être attribuable à la fois à un taux d'apprentissage plus lent et au renforcement du RL sans modèle après un résultat négatif.

Il n'a pas été clairement étudié si le stress conduit à des comportements plus habituels en affaiblissant sélectivement le processus de comportements orientés vers un but, en renforçant simplement le processus d'habitude, ou les deux. Afin d'étudier l'effet du stress aigu sur les contributions distinctes de l'habitude et du traitement dirigé vers un objectif, des recherches récentes ont essayé d'utiliser la modélisation informatique pour l'apprentissage par renforcement (RL) pour séparer l'habitude et le traitement dirigé vers un objectif en deux algorithmes RL, modèle -free and model-based, respectively. In previous computational studies, however, the effects of acute stress on the two RL were inconsistent [28, 29]. Otto and his colleagues showed that stress-related physiological (cortisol) response was negatively correlated with model-based but not model-free contributions. However, their study did not demonstrate the effect of stress on decision making itself. Also, Radenbach and his colleagues reported the effect of stress on the ratio of model-based RL to model-free RL, but without clearly separating out the effects of stress on model-based RL from those of model-free RL[29]. Thus, how acute stress facilitates habit or model-free choice behavior remained incompletely understood.

In this study, we investigated the effects of stress on model-free and model-based RL using a 2-step decision task incorporating the reversal learning paradigm and showed that stress increased the model-free RL without altering the strength of model-based RL. These results suggested that stress-enhancement of habit behavior may not be merely compensatory byproduct of impaired model-based RL behavior. Also, habitual processing might be strengthened by stress because stress disrupts inhibition of the model-free processing which could be a default model of RL[30]. Furthermore, we differentiated the model-free tendency to make a shift following no-reward (lose-switch) and to stay following a reward (win-stay), and showed that stress increased the model-free RL after no-reward selectively without affecting the model-free RL after reward. These results suggest that stress may disproportionately boost the neural processing of decision-making involved in model-free learning from negative outcomes. Our findings are consistent with previous studies showing there are separate neural processing for reinforcement and punishment [16, 17, 31].

Although the 2-step decision task has been designed to distinguish model-free and model-based RL, a recent study revealed that the original task does not lead to significant difference in performance (points or income) predicted by model-based vs. model-free RL approach, through a computational simulation [27]. Therefore, we incorporated a reversal learning paradigm into the original task, which produced more consistent difference in the performance for the two RL strategies. However, in a reversal learning task, decision-makers can learn that there are two distinct latent states of the task and rely on such inference about the current latent state to make their choices [32, 33]. The decision-maker who infers and uses latent state of the task could outperform a standard model-free RL and looks like a model-based decision-maker, even without using the knowledge of the transition structure linking the first actions to the states of the second stage [34]. In this study, stress enhanced only model-free RL without impairing model-based RL. We conducted the ANCOVA with the probability of selecting the advantageous action as a covariate, which would reflect the tendency to make choices based on the inference about a latent state. The results from this analysis showed that the effect of stress on the strength of model-free RL after receiving negative outcome was significant even after controlling for the probability of the advantageous action. Therefore, stress might increase the contribution of model-free RL regardless of its effect on the ability to make choices based on the inferred state of the environment.

Also, we found that stress decreased the learning rate during a reward-based choice task. In the RL model, the learning rate reflects how quickly the valuation of selected action is updated by the difference between the prediction and the actual outcome, referred to as the prediction error [2]. Therefore, it represents how rapidly new information from the environment is incorporated in subsequent actions [35–37]. For adaptive decision making, it is critical to utilize new information efficiently and to avoid maladaptive perseverative behaviors when faced with environmental change. Decision-makers with low learning rate would fail to switch their behaviors flexibly in response to unexpected changes in the real world. It is possible that a decrease in learning rate under stress may be an important factor contributing to stress-induced alteration in RL. However, we could not examine the effect of stress on the distinct learning rate of model-free and model-based RL, because we estimated a single learning rate from observed choices and rewards for each subject. Further investigations are necessary to clarify whether stress changes learning rate during both model-free and model-based RL.


How the human brain solves complex decision-making problems

A new study on meta reinforcement learning algorithms helps us understand how the human brain learns to adapt to complexity and uncertainty when learning and making decisions. A research team, led by Professor Sang Wan Lee at KAIST jointly with John O'Doherty at Caltech, succeeded in discovering both a computational and neural mechanism for human meta reinforcement learning, opening up the possibility of porting key elements of human intelligence into artificial intelligence algorithms. This study provides a glimpse into how it might ultimately use computational models to reverse engineer human reinforcement learning.

This work was published on Dec 16, 2019 in the journal Communication Nature. The title of the paper is "Task complexity interacts with state-space uncertainty in the arbitration between model-based and model-free learning."

Human reinforcement learning is an inherently complex and dynamic process, involving goal setting, strategy choice, action selection, strategy modification, cognitive resource allocation etc. This a very challenging problem for humans to solve owing to the rapidly changing and multifaced environment in which humans have to operate. To make matters worse, humans often need to often rapidly make important decisions even before getting the opportunity to collect a lot of information, unlike the case when using deep learning methods to model learning and decision-making in artificial intelligence applications.

In order to solve this problem, the research team used a technique called 'reinforcement learning theory-based experiment design' to optimize the three variables of the two-stage Markov decision task -- goal, task complexity, and task uncertainty. This experimental design technique allowed the team not only to control confounding factors, but also to create a situation similar to that which occurs in actual human problem solving.

Secondly, the team used a technique called 'model-based neuroimaging analysis.' Based on the acquired behavior and fMRI data, more than 100 different types of meta reinforcement learning algorithms were pitted against each other to find a computational model that can explain both behavioral and neural data. Thirdly, for the sake of a more rigorous verification, the team applied an analytical method called 'parameter recovery analysis,' which involves high-precision behavioral profiling of both human subjects and computational models.

In this way, the team was able to accurately identify a computational model of meta reinforcement learning, ensuring not only that the model's apparent behavior is similar to that of humans, but also that the model solves the problem in the same way as humans do.

The team found that people tended to increase planning-based reinforcement learning (called model-based control), in response to increasing task complexity. However, they resorted to a simpler, more resource efficient strategy called model-free control, when both uncertainty and task complexity were high. This suggests that both the task uncertainty and the task complexity interact during the meta control of reinforcement learning. Computational fMRI analyses revealed that task complexity interacts with neural representations of the reliability of the learning strategies in the inferior prefrontal cortex.

These findings significantly advance understanding of the nature of the computations being implemented in the inferior prefrontal cortex during meta reinforcement learning as well as providing insight into the more general question of how the brain resolves uncertainty and complexity in a dynamically changing environment. Identifying the key computational variables that drive prefrontal meta reinforcement learning, can also inform understanding of how this process might be vulnerable to break down in certain psychiatric disorders such as depression and OCD. Furthermore, gaining a computational understanding of how this process can sometimes lead to increased model-free control, can provide insights into how under some situations task performance might break down under conditions of high cognitive load.

Professor Lee said, "This study will be of enormous interest to researchers in both the artificial intelligence and human/computer interaction fields since this holds significant potential for applying core insights gleaned into how human intelligence works with AI algorithms."

This work was funded by the National Institute on Drug Abuse, the National Research Foundation of Korea, the Ministry of Science and ICT, Samsung Research Funding Center of Samsung Electronics.


Frontières en psychologie

Les affiliations de l'éditeur et des réviseurs sont les dernières fournies sur leurs profils de recherche Loop et peuvent ne pas refléter leur situation au moment de la révision.



PARTAGER SUR

The ubiquity of model-based reinforcement learning

The reward prediction error (RPE) theory of dopamine (DA) function has enjoyed great success in the neuroscience of learning and decision-making. This theory is derived from model-free reinforcement learning (RL), in which choices are made simply on the basis of previously realized rewards. Recently, attention has turned to correlates of more flexible, albeit computationally complex, model-based methods in the brain. These methods are distinguished from model-free learning by their evaluation of candidate actions using expected future outcomes according to a world model. Puzzlingly, signatures from these computations seem to be pervasive in the very same regions previously thought to support model-free learning. Here, we review recent behavioral and neural evidence about these two systems, in attempt to reconcile their enigmatic cohabitation in the brain.

Points forts

► Model-free RL is a successful theory of cortico-striatal DA function. ► Flexible model-based RL methods offer to enrich understanding of brain and behavior. ► Data suggest extensive overlap between putative neural correlates of these RL systems.


Article de recherche original

The alignment of habits with model-free reinforcement learning (MF RL) is a success story for computational models of decision making, and MF RL has been applied to explain phasic dopamine responses (Schultz et al., 1997), working memory gating (O'Reilly and Frank, 2006), drug addiction (Redish, 2004), moral intuitions (Crockett, 2013 Cushman, 2013), and more. Yet, the role of MF RL has recently been challenged by an alternate model—model-based selection of chained action sequences—that produces similar behavioral and neural patterns. Here, we present two experiments that dissociate MF RL from this prominent alternative, and present unconfounded empirical support for the role of MF RL in human decision making. Our results also demonstrate that people are simultaneously using model-based selection of action sequences, thus demonstrating two distinct mechanisms of habitual control in a common experimental paradigm. These findings clarify the nature of habits and help solidify MF RL's central position in models of human behavior.