Informations

Bonnes ressources pour apprendre la modélisation des données d'IRMf

Bonnes ressources pour apprendre la modélisation des données d'IRMf

En tant qu'étudiant en neurosciences travaillant avec l'IRMf, je suis compétent dans les analyses univariées standard et les techniques d'analyse de l'état de repos dans AFNI et MATLAB/SPM. Cependant, je veux apprendre à utiliser des modèles dans les analyses de données IRMf d'un point de vue de bout en bout.

Plus précisément, je veux apprendre à modéliser l'erreur de prédiction comme ils l'ont fait dans cet article par exemple. Le problème, c'est que je n'ai personne pour m'enseigner/m'aider.

Quelles sont les ressources recommandées (en ligne ou manuels) pour apprendre en détail la modélisation des données d'IRMf ?


Foire aux questions (FAQ) au Dr Ahn

Je cherche à créer un laboratoire « heureux » où les membres du laboratoire (y compris l'IP) se respectent, sentent qu'ils grandissent intellectuellement, bénéficient d'un excellent soutien pour la recherche et génèrent des résultats de recherche qui les rendront compétitifs pour les prochaines étapes de leur carrière.

Construire un tel environnement et une telle culture est une tâche très difficile, surtout parce que chaque personne vient d'horizons différents et a des attentes et des normes différentes. Mais j'essaie d'y parvenir en (1) favorisant la communication au sein du laboratoire, (2) en recrutant des personnes efficaces en équipe et partageant des visions similaires, (3) en adaptant individuellement la formation en fonction des forces et des intérêts de chaque membre, et ( 4) obtenir des fonds de recherche suffisants.


INTRODUCTION

L'étude de la cognition a prospéré au cours des dernières décennies en raison de l'abondance de données de neuro-imagerie qui donnent accès à l'activité cérébrale chez les sujets humains. Au fil des ans, des outils de divers domaines tels que l'apprentissage automatique et la théorie des réseaux ont été intégrés aux applications de neuroimagerie afin d'analyser les données. Les outils correspondants ont leurs propres atouts, comme la prévisibilité pour l'apprentissage automatique. Cet article rassemble des études récentes basées sur le même modèle dynamique du cerveau entier dans un pipeline unifié, qui est cohérent de l'estimation du modèle à son analyse, en particulier, les implications des hypothèses du modèle peuvent être évaluées à chaque étape. Cela nous permet de combiner naturellement des concepts de plusieurs domaines, notamment pour la prévisibilité et l'interprétabilité des données. Nous soulignons que notre cadre peut être transposé à d'autres modèles dynamiques, tout en préservant les concepts sous-jacents à sa conception. Dans ce qui suit, nous passons d'abord en revue les travaux antérieurs sur les mesures de connectivité pour mettre notre formalisme en contexte. Après avoir présenté le modèle dynamique (le processus multivarié d'Ornstein-Uhlenbeck, ou MOU), nous discutons de sa procédure d'optimisation pour reproduire les statistiques des signaux IRMf/BOLD (covariances spatio-temporelles), produisant une estimation de connectivité effective du cerveau entier (MOU-EC). Ensuite, deux applications basées sur le MOU-EC sont examinées : l'apprentissage automatique pour extraire des biomarqueurs et l'analyse de réseau pour interpréter les poids de connectivité estimés de manière collective. Pendant ce temps, en présentant des détails sur notre cadre, nous fournissons une comparaison critique avec des études précédentes pour mettre en évidence les similitudes et les différences. Nous illustrons les capacités du MOU-EC dans l'étude de la cognition en utilisant un ensemble de données où les sujets ont été enregistrés dans deux conditions, en regardant un film et un écran noir (appelé repos). Nous notons également que les mêmes outils peuvent être utilisés pour examiner les altérations cognitives dues aux neuropathologies.


FMRI dans le vieillissement en bonne santé

Du point de vue comportemental, on sait que certains adultes sont capables de maintenir leurs capacités cognitives à des niveaux élevés, contrairement à d'autres personnes qui présentent des déclins cognitifs clairs avec l'âge. Il a été émis l'hypothèse que cette variabilité dépend des ressources neurofonctionnelles. Cependant, les mécanismes exacts qui conduisent à des différences aussi importantes ne sont toujours pas clairs (Park et Reuter-Lorenz, 2009).

L'utilisation de la tâche-IRMf dans le vieillissement a révélé un schéma complexe de changements d'activité cérébrale, qui se caractérise à la fois par des diminutions et des augmentations chez les sujets âgés par rapport aux sujets jeunes (Grady, 2012). Dans certains cas, la diversité des résultats dépend de nombreuses variables, telles que les tests cognitifs utilisés et leur niveau de difficulté (Grady et al., 2006). Néanmoins, il existe un consensus relatif selon lequel il existe une augmentation de l'activité cérébrale liée à l'âge dans le cerveau (PFC Turner et Spreng, 2012), tandis que les résultats concernant une activation réduite sont localisés de manière plus hétérogène dans le cerveau.

Dans cette partie, nous passerons en revue certaines de ces principales théories apparues pour tenter d'expliquer les trajectoires des changements cérébraux et leur relation avec la cognition. Il est important de noter que, alors que les vues antérieures ou "plus classiques" visaient à fournir des interprétations significatives d'une variété de phénomènes isolés, tels que l'augmentation ou la diminution de l'activité cérébrale régionale chez les sujets âgés par rapport aux sujets jeunes, des théories plus récentes visent à fournir une interprétation globale et intégrative des changements cérébraux.

Théories classiques dérivées des études Task-fMRI

En général, l'hyperactivation régionale a été interprétée comme une compensation (ou une tentative de compensation), alors qu'un défaut d'activation ou une activation réduite a été typiquement lié à des déficits cognitifs associés au vieillissement. Deux hypothèses principales ont été proposées pour expliquer la nature de ces changements d'activité liés à l'âge : dédifférenciation hypothèse et la compensation hypothèse.

D'une part, le terme dédifférenciation est décrit comme la perte de spécificité fonctionnelle dans les régions cérébrales qui sont engagées lors de l'exécution d'une tâche (Park et al., 2004 Rajah et D𠆞sposito, 2005). En termes neurobiologiques, il a été suggéré que ce schéma de changements est causé par une chaîne de processus qui commence par un déclin de la neuromodulation dopaminergique qui produit des augmentations du bruit neuronal, conduisant à des représentations corticales moins distinctives (Li et al., 2001) .

D'autre part, l'hypothèse de compensation du vieillissement affirme que les personnes âgées sont capables de recruter des niveaux d'activité plus élevés que les sujets jeunes dans certaines zones du cerveau pour compenser des déficits fonctionnels situés ailleurs dans le cerveau. Cette activité accrue est souvent observée dans les régions frontales (Park et Reuter-Lorenz, 2009 Turner et Spreng, 2012). Les premières études suggérant des mécanismes compensatoires sont apparues tôt dans la littérature et utilisaient la TEP lors de la réalisation de tâches visuospatiales (Grady et al., 1994) ou de mémoire épisodique (Cabeza et al., 1997 Madden et al., 1999). Plus tard, ces résultats ont été reproduits avec l'IRMf (Cabeza et al., 2002).

Par ailleurs, les différents schémas de localisation spatiale des mécanismes liés à la compensation ont conduit à la formulation de trois modèles cognitifs principaux :

(1) Le Réduction de l'asymétrie hémisphérique chez les personnes âgées (HAROLD) (Cabeza, 2002) indique que les personnes âgées utilisent un schéma d'activité moins latéralisé par rapport aux sujets jeunes lors de l'exécution d'une tâche, ce qui est compensatoire. Cette latéralisation réduite a été principalement observée dans les zones frontales, lors de l'exécution de tâches de mémoire épisodique et de mémoire de travail (Cabeza et al., 2002 Cabeza, 2004).

(2) Le Hypothèse d'utilisation des circuits neuronaux liée à la compensation (CRUNCH Reuter-Lorenz et Cappell, 2008 Schneider-Garces et al., 2010) défend que, chez les personnes âgées, un recrutement neuronal plus élevé se produit à des niveaux cognitifs qui impliquent généralement une activité cérébrale plus faible chez les sujets plus jeunes. Cet effet a été observé dans le PFC et aussi dans le cortex pariétal, concrètement dans le précuneus et le cingulaire postérieur et à la fois dans les tâches de mémoire épisodique (Spaniol et Grady, 2012) et dans les tâches de mémoire de travail (Mattay et al., 2006 Reuter-Lorenz et Cappell, 2008).

(3) Le Décalage postérieur-antérieur avec le vieillissement (PASA) a été prouvé expérimentalement par Davis et al. , 2008).

Théories globales et intégratives de la fonction cognitive et du vieillissement cérébral

Avec les informations uniques fournies par l'activité IRMf et avec la classification décrite ci-dessus, qui présente les modèles comme exclusifs entre eux, il semble difficile de discerner lequel des modèles proposés explique le mieux les changements cognitifs liés à l'âge.

Plus récemment, une contribution importante à l'interprétation de ces modèles a été apportée par des études multimodales qui intègrent des mesures cérébrales structurelles et fonctionnelles. Par exemple, dans certains cas, il a été rapporté qu'une activité réduite dans les régions liées aux tâches était en corrélation positive avec l'atrophie cérébrale dans les mêmes régions du cerveau (Brassen et al., 2009 Rajah et al., 2011), alors que d'autres études ont rapporté des corrélations entre l'activité fonctionnelle accrue dans le PFC et l'intégrité structurelle préservée du cortex entorhinal et d'autres structures du lobe temporal médian (MTL) (Rosen et al., 2005 Braskie et al., 2009). Compte tenu de cela, certains auteurs ont émis l'hypothèse que si l'augmentation de l'activité dans le PFC peut être déclenchée par l'atrophie de la GM frontale, qui est une caractéristique couramment signalée dans le vieillissement, le rôle compensatoire de cette activité accrue peut dépendre de l'intégrité structurelle préservée des régions distales. principalement dans le MTL (Maillet et Rajah, 2013).

Par conséquent, et principalement grâce aux nouvelles avancées des techniques de neuroimagerie, il a été suggéré que la fonction cognitive du vieillissement est le résultat d'une somme de processus, y compris des mesures cérébrales structurelles et fonctionnelles ainsi que des facteurs externes. À cet égard, la théorie de l'échafaudage du vieillissement et de la cognition (STAC) affirme qu'il existe un processus dans le cerveau vieillissant, appelé échafaudage compensatoire, qui implique l'engagement de ressources neuronales supplémentaires (en termes de réorganisation du réseau) fournissant un support pour préserver la fonction cognitive. face au déclin structurel et fonctionnel (Park et Reuter-Lorenz, 2009). Cette théorie a été récemment révisée afin d'inclure les résultats les plus récents sur le terrain, obtenus principalement à partir d'études longitudinales et interventionnelles. En conséquence, le STAC-r est un modèle conceptuel qui étend le STAC en incorporant des influences au cours de la vie qui améliorent, préservent ou compromettent l'état du cerveau, le potentiel compensatoire et la fonction cognitive au fil du temps (Reuter-Lorenz et Park, 2014).

Dans le même sens, Walhovd et al. (2014) ont proposé une vision de la vulnérabilité du système de la cognition dans le vieillissement. Selon eux, le déclin cognitif associé à l'âge serait le résultat d'une accumulation d'impacts tout au long de la vie qui altère la fonction et la structure du cerveau de manière multidimensionnelle, affectant un large éventail de marqueurs de la neuro-image tels que l'intégrité structurelle, l'activité fonctionnelle et la connectivité, métabolisme du glucose ou dépôt d'amyloïde. Selon ce point de vue, certains systèmes cérébraux particuliers tels que l'hippocampe et les régions postéro-médiales seraient particulièrement vulnérables aux effets du vieillissement, liés à son rôle central en tant que mécanismes sous-tendant la plasticité cérébrale à vie (Fjell et al., 2014).

Enfin, une hypothèse complémentaire, également émergée des résultats d'études longitudinales, est le « maintien du cerveau Cbrain », qui affirme que l'absence de changements dans les marqueurs structurels et fonctionnels du cerveau permettrait à certaines personnes de présenter peu ou pas de troubles cognitifs liés à l'âge. déclin. L'idée conceptuelle de maintenance du cerveau a été motivée par le fait qu'une activité fonctionnelle accrue dans l'AH n'implique pas nécessairement une régulation à la hausse des réseaux fonctionnels au fil du temps. Par conséquent, selon la maintenance, les meilleurs prédicteurs de performances réussies dans le vieillissement seraient la minimisation des changements chimiques, structurels et fonctionnels au fil du temps (Nyberg et al., 2012).


TÂCHES ET MODÈLES DE CALCUL IMPLÉMENTÉS DANS hBayesDM

Le tableau 1 montre la liste des tâches et des modèles de calcul actuellement implémentés dans le package hBayesDM (à partir de la version 0.3.0). Notez que certaines tâches ont plusieurs modèles de calcul et que les utilisateurs peuvent comparer les performances des modèles dans le cadre hBayesDM (voir Tutoriels pas à pas pour le package hBayesDM). Pour adapter les modèles à une tâche, l'utilisateur doit d'abord préparer les données essai par essai sous forme de fichier texte (*.txt) dans lequel chaque ligne (observation) contient les colonnes requises pour la tâche donnée (voir Tableau 1). Les utilisateurs peuvent également utiliser l'exemple de jeu de données de chaque tâche comme modèle.

Ci-dessous, nous décrivons chaque tâche et son ou ses modèles de calcul, examinons brièvement ses applications aux populations saines et cliniques et décrivons les paramètres du modèle. Par souci de concision, nous renvoyons les lecteurs aux articles originaux pour tous les détails de la conception expérimentale et des modèles de calcul, et aux fichiers d'aide du package pour des exemples de codes qui détaillent comment estimer et extraire les paramètres de chaque modèle. Les fichiers d'aide du package peuvent être trouvés en exécutant la commande suivante dans la console R :

La commande ci-dessus ouvrira la page d'aide principale, à partir de laquelle on pourra ensuite naviguer vers la tâche/le modèle correspondant. Les utilisateurs peuvent également rechercher directement un fichier d'aide pour chaque tâche/modèle en appelant son fichier d'aide, qui suit la forme ?function_name (par exemple, ?dd_cs voir Tableau 1 pour une liste de ces fonctions). Chaque fichier d'aide fournit des codes de travail pour exécuter un exemple concret de données réelles du début à la fin.

La tâche de retarder l'actualisation

La tâche d'actualisation différée (DDT Rachlin, Raineri, & Cross, 1991) est conçue pour estimer dans quelle mesure une remise individuelle retarde temporellement les résultats les plus importants par rapport aux plus petits et plus tôt. À chaque essai du DDT, deux options sont présentées : une récompense plus tôt et plus petite (par exemple, 5 $ maintenant) et une récompense plus tardive et plus importante (par exemple, 20 $ la semaine prochaine). Les sujets sont invités à choisir l'option qu'ils préfèrent pour chaque essai.

Le DDT a été largement étudié dans des populations saines (par exemple, Green & Myerson, 2004 Kable & Glimcher, 2007) et l'actualisation des retards a été associée à des capacités cognitives telles que l'intelligence (Shamosh et al., 2008) et la mémoire de travail (Hinson, Jameson , & Whitney, 2003). Une actualisation plus forte des retards est un marqueur comportemental fort pour les comportements addictifs (Ahn, Ramesh, Moeller, & Vassileva, 2016 Ahn & Vassileva, 2016 Bickel, 2015 Green & Myerson, 2004 MacKillop, 2013) et a également été associée à d'autres troubles psychiatriques, y compris la schizophrénie (Ahn, Rass, et al., 2011 Heerey, Matveeva, & Gold, 2011 Heerey, Robinson, McMahon, & Gold, 2007) et le trouble bipolaire (Ahn, Rass, et al., 2011). Le package hBayesDM contient actuellement trois modèles différents pour le DDT :

dd_cs (modèle à sensibilité constante Ebert & Prelec, 2007)

Taux d'actualisation exponentiel (0 <r <1)

Température inverse (0 < ??< 5)

dd_exp (modèle exponentiel Samuelson, 1937)

Taux d'actualisation exponentiel (0 < r <1)

Température inverse (0 < ?? < 5)

dd_hyperbolic (modèle hyperbolique Mazur, 1987)

Température inverse (0 < ?? < 5)

DDT : description des paramètres

Dans les modèles exponentiel et hyperbolique, l'actualisation temporelle des récompenses futures (c'est-à-dire retardées) est décrite par un seul paramètre, le taux d'actualisation (0 < r < 1), qui indique de combien les récompenses futures sont remises. Les taux d'actualisation élevés et faibles reflètent respectivement une actualisation plus ou moins importante des récompenses futures. Dans les modèles exponentiel et hyperbolique, la valeur d'une récompense différée est actualisée sous une forme exponentielle et hyperbolique, respectivement. Le modèle à sensibilité constante (CS) a un paramètre supplémentaire, appelé sensibilité au temps (0 < s < 10). Lorsque s est égal à 1, le modèle CS se réduit au modèle exponentiel. Valeurs de s proche de 0 conduit à une simple « dichotomie présent-futur » dans laquelle toutes les récompenses futures sont fortement réduites à une certaine valeur subjective, indépendamment des retards. Valeurs de s supérieur à 1 donne une heuristique « présent étendu », dans laquelle les récompenses pendant le présent étendu sont évaluées presque également, et les récompenses futures en dehors du présent étendu ont une valeur nulle.

Tous les modèles utilisent la règle de choix softmax avec un paramètre de température inverse (Kaelbling, Littman, & Moore, 1996 Luce, 1959), qui reflète la façon dont les choix des individus sont faits de manière déterministe par rapport à la force (valeur subjective) des choix alternatifs. Les températures inverses hautes et basses représentent respectivement des choix plus déterministes et plus aléatoires.

La tâche de jeu de l'Iowa

L'Iowa Gambling Task (IGT Bechara, Damasio, Damasio, & Anderson, 1994) a été initialement développé pour évaluer les déficits de prise de décision des patients présentant des lésions du cortex préfrontal ventromédian. À chaque essai, les sujets se voient présenter quatre jeux de cartes. Deux decks sont avantageux (bons) et les deux autres decks désavantageux (mauvais), en termes de gains à long terme. Les sujets sont invités à choisir des decks qui maximisent les gains à long terme, qu'ils sont censés apprendre par essais et erreurs. D'un point de vue statistique, l'IGT est un problème de bandit à quatre bras.

L'IGT a été largement utilisé pour étudier la prise de décision dans plusieurs populations psychiatriques (Ahn et al., 2014 Bechara & Martin, 2004 Bechara et al., 2001 Bolla et al., 2003 Grant, Contoreggi, & London, 2000 Vassileva, Gonzalez , Bechara, & Martin, 2007). Le package hBayesDM contient actuellement trois modèles différents pour l'IGT :

igt_pvl_decay (Ahn et al., 2014 Ahn, Krawitz, Kim, Busemeyer, & Brown, 2011)

igt_pvl_delta (Ahn, Busemeyer, Wagenmakers, & Stout, 2008)

igt_vpp (Digne, Pang, & Byrne, 2013)

Impact sur le gain de persévérance ( ⁠ − ∞ < ϵ p < ∞ ⁠ )

Impact de la perte de persévérance ( ⁠ − ∞ < ϵ n < ∞ ⁠ )

Taux de décroissance de la persévérance (0 < k <1)

Poids d'apprentissage par renforcement (0 < ?? <1)

IGT : description des paramètres

Le modèle Prospect Valence Learning (PVL) avec règle delta (PVL-delta) utilise une équation de mise à jour Rescorla-Wagner (Rescorla & Wagner, 1972) pour mettre à jour la valeur attendue du jeu sélectionné à chaque essai. La valeur attendue est mise à jour avec un paramètre de taux d'apprentissage (0 < UNE < 1) et un terme d'erreur de prédiction, où UNE près de 1 accorde plus de poids aux résultats récents, et UNE près de 0 accorde plus de poids aux résultats passés, l'erreur de prédiction est la différence entre les résultats prévus et vécus. La forme (0 < ?? < 2) et aversion aux pertes (0 < ?? < 1) les paramètres contrôlent la forme de la fonction d'utilité (puissance) et l'effet des pertes par rapport aux gains, respectivement. Valeurs de ?? supérieur à 1 indique que l'utilité d'un résultat est convexe, et les valeurs inférieures à 1 indiquent que l'utilité est concave. Valeurs de ?? supérieur ou inférieur à 1 indiquent une sensibilité respectivement supérieure ou réduite aux pertes par rapport aux gains. Le paramètre de cohérence (0 < c < 1) est un paramètre de température inverse (reportez-vous à la tâche d'actualisation des retards pour plus de détails).

Le modèle PVL avec règle de décroissance (PVL-decay) utilise les mêmes paramètres de forme, d'aversion aux pertes et de cohérence que le PVL-delta, mais un paramètre de récence (0 < UNE < 1) est utilisé pour la mise à jour des valeurs. Le paramètre de récence indique de combien les valeurs attendues de tous les decks sont actualisées à chaque essai.

Le modèle PVL-delta est imbriqué dans le modèle Valeur-Plus-Persévérance (VPP), qui est un modèle hybride de PVL-delta et une stratégie heuristique de persévérance. Le taux de décroissance de la persévérance (0 < k < 1) diminue les forces de persévérance de tous les choix à chaque essai, de la même manière que le paramètre de récence de PVL-decay affecte la valeur attendue. Les paramètres pour les impacts du gain ( ⁠ − ∞ < ϵ p < ∞ ⁠ ) et de la perte ( ⁠ − ∞ < ϵ n < ∞ ⁠ ) sur la persévérance reflètent comment la valeur de la persévérance change après les victoires et les pertes, respectivement les valeurs positives reflètent une tendance faire le même choix, et les valeurs négatives une tendance à changer de choix. Le poids d'apprentissage par renforcement (0 < ?? < 1) est un paramètre de mélange qui contrôle le poids de décision accordé au terme d'apprentissage par renforcement par rapport au terme de persévérance. Les valeurs élevées par rapport aux valeurs faibles reflètent une dépendance plus ou moins grande envers le terme d'apprentissage par renforcement, respectivement.

La tâche Go/No-Go orthogonalisée

Les animaux utilisent des contrôleurs pavloviens et instrumentaux lorsqu'ils agissent. Le contrôleur pavlovien sélectionne des actions d'approche/engagement avec des prédicteurs de résultats appétitifs ou des actions d'évitement/inhibition avec des prédicteurs de résultats aversifs. Le contrôleur instrumental, quant à lui, sélectionne les actions sur la base des contingences action-résultat de l'environnement. Les deux contrôleurs coopèrent généralement, mais parfois ils se font concurrence (par exemple, Dayan, Niv, Seymour, & Daw, 2006). La tâche go/no-go orthogonalisée (GNG) (Guitart-Masip et al., 2012) est conçue pour examiner l'interaction entre les deux contrôleurs en orthogonalisant l'exigence d'action (go vs no go) par rapport à la valence du résultat ( gagner ou éviter de perdre de l'argent).

Chaque essai de la tâche GNG orthogonale comporte trois événements dans l'ordre suivant : présentation du repère, détection de la cible et présentation des résultats. Tout d'abord, l'un des quatre indices est présenté (« Aller pour gagner », « Aller pour éviter (perdre) », « NoGo pour gagner » ou « NoGo pour éviter »). Après un certain délai, une cible ("cercle") est présentée à l'écran, et les sujets doivent répondre soit avec un aller (appuyez sur un bouton) ou Ne pas aller (retenez la pression sur le bouton). Ensuite, les sujets reçoivent un résultat probabiliste (par exemple, 80%). Voir Guitart-Masip et al. (2012) pour plus de détails sur la conception expérimentale.

gng_m1 (M1 dans Guitart-Masip et al., 2012)

Taille effective d'une armature ( ⁠ 0 < ρ < ∞ ⁠ )

gng_m2 (M2 dans Guitart-Masip et al., 2012)

Taille effective d'un ferraillage ( ⁠ 0 < ρ < ∞ ⁠ )

gng_m3 (M3 dans Guitart-Masip et al., 2012)

Taille effective d'un ferraillage ( ⁠ 0 < ρ < ∞ ⁠ )

gng_m4 (M5 dans Cavanagh et al., 2013)

Taille effective du renforcement de la récompense ( ⁠ 0 < ρ r e w < ∞ ⁠ )

Taille effective du renforcement de la punition ( ⁠ 0 < ρ p u n < ∞ ⁠ )

GNG : description des paramètres

Tous les modèles pour la tâche GNG incluent un paramètre de taux de défaillance (0 < ?? < 1), un paramètre de taux d'apprentissage (0 < ?? < 1 se réfère à IGT : descriptions des paramètres pour plus de détails), et un paramètre pour la taille effective du ferraillage ( ⁠ 0 < ρ < ∞ ⁠ ). Le paramètre de taux de déchéance capture la proportion de choix aléatoires effectués, quelle que soit la force de leurs probabilités d'action. Les ?? paramètre détermine la taille effective d'un ferraillage. Le modèle gng_m4 a des paramètres de taille effective séparés pour la récompense ( ⁠ 0 < ρ r e w < ∞ ⁠ ) et la punition ( ⁠ 0 < ρ p u n < ∞ ⁠ ), permettant d'évaluer différemment les récompenses et les punitions.

Trois modèles GNG ( gng_m2 , gng_m3 et gng_m4 ) incluent un paramètre de biais go ( ⁠ − ∞ < b < ∞ ⁠ ). Le biais Go reflète une tendance à répondre (aller), quelles que soient les associations action-résultat des valeurs élevées ou faibles pour b reflètent une tendance élevée ou faible à faire une réponse (motrice), respectivement.

Deux modèles GNG ( gng_m3 et gng_m4 ) incluent un paramètre de biais pavlovien ( ⁠ − ∞ < π < ∞ ⁠ ). Le biais pavlovien reflète une tendance à faire des réponses qui sont congruentes pavloviennes : c'est-à-dire à promouvoir ou à inhiber allersi la valeur attendue du stimulus est respectivement positive (appétitive) ou négative (aversive).

Tâche d'apprentissage par inversion probabiliste

Les environnements ont souvent des structures d'ordre supérieur, telles que des interdépendances entre les stimuli, les actions et les résultats. Dans de tels environnements, les sujets doivent déduire et utiliser les structures afin de prendre des décisions optimales. Dans la tâche d'apprentissage par inversion probabiliste (PRL), il existe une structure d'ordre supérieur telle que les distributions de récompense de deux stimuli sont anticorrélées (par exemple, si une option a un taux de récompense de 80%, l'autre option a un taux de récompense de [100 – 80]%, soit 20%). Les sujets doivent apprendre la structure d'ordre supérieur et la prendre en compte pour optimiser leur prise de décision et maximiser leurs gains.

Dans une tâche PRL typique, deux stimuli sont présentés à un sujet. Le choix d'un stimulus « correct » ou bon entraînera généralement un gain monétaire (par exemple, 70%), tandis que le choix d'un stimulus « incorrect » ou mauvais entraînera généralement une perte monétaire. Les contingences de récompense s'inverseront à des points fixes (par exemple, Murphy, Michael, Robbins, & Sahakian, 2003) ou seront déclenchées par des choix corrects consécutifs (Cools, Clark, Owen, & Robbins, 2002 Hampton et al., 2006).

La tâche PRL a été largement utilisée pour étudier l'apprentissage par inversion chez des individus sains (Cools et al., 2002 den Ouden et al., 2013 Gläscher et al., 2009). Le PRL a également été utilisé pour étudier les déficits de prise de décision associés aux lésions du cortex préfrontal (par exemple, Fellows & Farah, 2003 Rolls, Hornak, Wade, & McGrath, 1994), ainsi que la maladie de Parkinson (par exemple, Cools, Lewis, Clark , Barker, & Robbins, 2007 Swainson et al., 2000), la schizophrénie (par exemple, Waltz & Gold, 2007) et la dépendance à la cocaïne (Ersche, Roiser, Robbins, & Sahakian, 2008). Le package hBayesDM contient actuellement trois modèles de tâches PRL :

Température inverse (0 < ?? <1)

prl_fictitious (Gläscher et al., 2009)

Température inverse (0 < ?? <1)

Température inverse (0 < ?? <1)

PRL : description des paramètres

Tous les modèles PRL ci-dessus contiennent des paramètres de taux d'apprentissage (reportez-vous à IGT : descriptions des paramètres pour plus de détails). Le modèle prl_rp a des taux d'apprentissage séparés pour les récompenses (0 < UNErew < 1) et les punitions (0 < UNEcalembour < 1). Dans le modèle prl_ewa (Camerer & Ho, 1999), les valeurs faibles et élevées de ?? refléter plus de poids sur les résultats récents et passés, respectivement. Tous les modèles PRL contiennent également un paramètre de température inverse (voir DDT : Descriptions des paramètres pour plus de détails).

Le modèle prl_ewa proposé dans den Ouden et al. (2013) contient un paramètre de taux de décroissance (0 < ?? <). Le poids expérimenté de l'option choisie se dégrade proportionnellement à ??, et 1 est ajouté au poids de chaque essai. Ainsi, une valeur plus élevée de ?? indique une décroissance ou une mise à jour plus lente du poids expérimenté.

Le modèle prl_fictitious contient un paramètre de point d'indécision (0 < ?? < 1). Ce point reflète le degré de préjugé ou de préférence d'un sujet envers une option. Valeurs hautes ou basses pour ?? indiquer une préférence plus ou moins grande pour une option par rapport à l'autre.

Tâche d'aversion au risque

La tâche d'aversion au risque (RA Sokol-Hessner, Camerer, & Phelps, 2013 Sokol-Hessner et al., 2009) est une tâche basée sur la description (Hertwig, Barron, Weber, & Erev, 2004) dans laquelle les résultats possibles de tous les options et leurs probabilités sont fournies aux sujets de chaque essai. Dans la tâche RA, les sujets choisissent soit une option sûre avec un montant garanti, soit une option risquée (c'est-à-dire un pari) avec des gains et/ou des pertes possibles. Les sujets sont invités à choisir l'option qu'ils préfèrent (ou s'ils veulent accepter le pari) à chaque essai. Dans la tâche RA, les sujets effectuent deux régulations cognitives (assister et réglementer) conditions dans une conception intra-sujets : dans la condition de présence, les sujets sont invités à se concentrer sur chaque choix de manière isolée, tandis que dans la condition de régulation, les sujets sont invités à mettre l'accent sur les choix dans leur contexte plus large (voir Sokol-Hessner et al., 2009, pour les détails). Les données publiées dans Sokol-Hessner et al. (2009) peuvent être trouvés en utilisant les chemins suivants (ces chemins sont également disponibles dans les fichiers d'aide du modèle RA) :

path_to_attend_data = fichier.système("extdata/ra_data_attend.txt", package="hBayesDM")

path_to_regulate_data = fichier.système("extdata/ra_data_reappraisal.txt", package="hBayesDM").

ra_prospect (Sokol-Hessner et al., 2009)

Température inverse ( ⁠ 0 < τ < ∞ ⁠ )

ra_noLA (paramètre pas d'aversion aux pertes [LA] pour les tâches qui n'impliquent que des gains)

Température inverse ( ⁠ 0 < τ < ∞ ⁠ )

ra_noRA (pas de paramètre d'aversion au risque [RA] voir, par exemple, Tom et al., 2007)

Température inverse ( ⁠ 0 < τ < ∞ ⁠ )

RA : description des paramètres

Le modèle ra_prospect inclut un paramètre d'aversion aux pertes (0 < ?? < 5), un paramètre d'aversion au risque (0 < ?? < 2), et un paramètre de température inverse ( ⁠ 0 < τ < ∞ ⁠ ). Voir DDT : Description des paramètres pour la température inverse. Les paramètres d'aversion au risque et d'aversion aux pertes dans les modèles RA sont similaires à ceux des modèles IGT. Cependant, dans les modèles RA, ils contrôlent les évaluations des choix possibles à l'étude, par opposition à l'évaluation des résultats une fois qu'ils sont expérimentés (Rangel et al., 2008).

Les modèles ra_noLA et ra_noRA sont imbriqués dans le modèle ra_prospect, avec l'aversion aux pertes ( ra_noLA ) ou l'aversion au risque ( ra_noRA ) définie sur 1.

Tâche de bandit à deux bras

Les tâches ou problèmes de bandits à plusieurs bras se réfèrent généralement à des situations dans lesquelles les joueurs décident quel pari ou quelle machine à sous jouer afin de maximiser le gain à long terme. De nombreuses tâches d'apprentissage par renforcement et des tâches basées sur l'expérience (Hertwig et al., 2004) peuvent être classées comme des problèmes de bandits. Dans une tâche typique de bandit à deux bras, les sujets se voient proposer deux options (stimuli) à chaque essai. La rétroaction est donnée après le choix d'un stimulus. Les sujets sont invités à maximiser les commentaires positifs lorsqu'ils font des choix, et ils sont censés apprendre les contingences des stimuli-résultats de l'expérience essai par essai. Le package hBayesDM contient actuellement un modèle simple pour une tâche de bandit à deux bras :

bandit2arm_delta (Hertwig et al., 2004)

Température inverse (0 < ?? <1)

Bandit à deux bras : description des paramètres

Le modèle bandit2arm_delta utilise la règle Rescorla-Wagner (voir IGT : Descriptions des paramètres) pour mettre à jour la valeur attendue de l'option choisie, ainsi que la règle de choix softmax avec une température inverse (voir DDT : Descriptions des paramètres).

Le jeu Ultimatum (Norm-Training)

Les capacités à comprendre les normes sociales d'un environnement et à faire face de manière adaptative à ces normes sont essentielles au fonctionnement social normal (Gu et al., 2015 Montague & Lohrenz, 2007). Le jeu de l'ultimatum (UG) est une tâche de prise de décision sociale largement utilisée qui examine comment les individus réagissent aux écarts par rapport aux normes sociales et s'adaptent aux normes dans un environnement en évolution.

L'UG implique deux acteurs : un proposant et un répondeur. À chaque essai, le proposant reçoit une somme d'argent à répartir entre les deux joueurs. Après avoir décidé comment diviser l'argent, une offre est faite au répondant. Le répondant peut soit accepter l'offre (et l'argent est partagé comme proposé) soit la rejeter (les deux joueurs ne reçoivent rien). Des études antérieures ont montré que l'offre la plus courante représente environ 50 % du montant total, et que les offres « injustes » (<∼20% du montant total) sont souvent rejetées, même s'il est optimal d'accepter n'importe quelle offre (Güth, Schmittberger, & Schwarze, 1982 Sanfey, 2003 Thaler, 1988). Une étude récente a examiné les substrats informatiques de l'ajustement des normes en utilisant un UG d'entraînement aux normes dans lequel les sujets jouaient le rôle de répondeur dans un environnement changeant les normes (Xiang et al., 2013).

L'UG a été utilisé pour étudier la prise de décision sociale d'individus présentant des lésions ventromédiales préfrontales (Gu et al., 2015 Koenigs et al., 2007) et du cortex insulaire (Gu et al., 2015), ainsi que des patients atteints de lésions schizophrénie (Agay, Kron, Carmel, Mendlovic, & Levkovitz, 2008 Csukly, Polgár, Tombor, Réthelyi, & Kéri, 2011). Le package hBayesDM contient actuellement deux modèles pour l'UG (ou UG norm-training) dans lesquels les sujets jouent le rôle de répondeur :

Température inverse (0 < ?? < 10)

Température inverse (0 < ?? < 10)

Taux d'adaptation aux normes (0 < ?? <1)

UG : Description des paramètres

Le modèle ug_bayes suppose que le sujet (répondeur) se comporte comme un observateur idéal bayésien (Knill & Pouget, 2004), de sorte que l'offre attendue faite par le proposant est mise à jour de façon bayésienne. Ceci contraste avec le modèle ug_delta, qui suppose que le sujet (encore le répondant) met à jour l'offre attendue en utilisant une règle de mise à jour Rescorla-Wagner (delta). Les modèles ug_bayes et ug_delta contiennent tous deux de l'envie (0 < ?? < 20) et à température inverse (0 < ?? < 10 se référer à DDT : descriptions des paramètres pour plus de détails). Le paramètre d'envie reflète la sensibilité à l'erreur de prédiction de la norme (voir ci-dessous pour le modèle ug_bayes), où des valeurs supérieures ou inférieures indiquent une sensibilité plus ou moins grande, respectivement. Dans l'UG, l'erreur de prédiction reflète la différence entre les offres attendues et reçues.

Dans le modèle ug_bayes, l'utilité d'une offre est ajustée par deux erreurs de prédiction de norme : (1) les erreurs de prédiction négatives, multipliées par un paramètre d'envie (0 < ?? < 20), et (2) erreurs de prédiction positives, multipliées par un paramètre de culpabilité (0 < ?? < 10). Valeurs supérieures et inférieures pour l'envie (??) et la culpabilité (??) reflètent une sensibilité plus ou moins grande aux erreurs de prédiction de norme négative et positive, respectivement. Le modèle ug_delta ne comprend que le paramètre d'envie (Gu et al., 2015).


Résultats

Applicabilité du feedback aux auto-évaluations

Les cotes d'applicabilité étaient affectées par une valence par interaction de groupe [χ 2 (4) = 106,19, p < 0,001], voir les tableaux supplémentaires en ligne S4 et S5 pour les comparaisons de modèles et les paramètres. Conformément à notre hypothèse, les patients BPD ont évalué l'intermédiaire (b = -0,40, c.-à-d. = 0,16, t = −2,50) et surtout la rétroaction négative (b = −0,53, s.e. = 0,16, t = −3,36) comme plus applicable par rapport à HC, voir Fig. 1une. Les commentaires positifs ont été jugés moins applicables par BPD par rapport à HC (b = 1,07, s.e. = 0,16, t = 6,74). Par rapport à LSE, BPD a également évalué la rétroaction négative comme plus applicable (b = -0,43, s.e. = 0,17, t = −2.43) et une rétroaction positive comme moins applicable (b = 0,63, c.-à-d. = 0,18, t = 3,61) mais ne différaient pas dans l'applicabilité de la rétroaction intermédiaire (b = -0,15, c.-à-d. = 0,18, t = -0,83). De plus, en utilisant les cotes de valence (c'est-à-dire le degré de négativité ou de positivité), nous avons constaté que les trois groupes ont évalué la valence des mots d'une manière similaire [χ 2 (2) = 2,4, p = 0,307], les mots négatifs et positifs étant plus émotionnels que les mots intermédiaires, voir les tableaux supplémentaires en ligne S2 et S3. Cependant, il y avait une tendance à un effet d'interaction entre la valence et le groupe [χ 2 (4) = 8,42, p = 0,077], ce qui pourrait indiquer que la rétroaction négative a été évaluée légèrement moins négative par BPD que HC (b = -0,43, s.e. = 0,16, t = −2,69), voir également le tableau supplémentaire S3 en ligne pour les paramètres du modèle.

Fig. 1. (une) Moyennes des cotes d'applicabilité par groupe après rétroaction négative, intermédiaire et positive (les barres d'erreur indiquent des intervalles de confiance à 95 %). (b) Illustration des notes d'humeur par groupe après feedback négatif, intermédiaire et positif au niveau moyen d'applicabilité du feedback. (c) Illustration des notes d'humeur moyennes par groupe après feedback négatif, intermédiaire et positif pour feedback pas à très applicable. L'applicabilité a un plus grand impact sur l'humeur pendant les commentaires négatifs et intermédiaires que les commentaires positifs. L'applicabilité a un plus grand impact sur l'humeur de HC par rapport à BPD. L'évaluation de l'humeur est rééchelonnée sur les scores 1 à 4 à des fins d'affichage.

Réponses affectives

L'humeur était affectée par le groupe [χ 2 (2) = 11,4, p = 0,003] avec BPD rapportant une humeur plus mauvaise que HC dans l'ensemble (b = 0,81, s.e. = 0,19, t = 4,28), voir le tableau 2 et le tableau supplémentaire S6 en ligne. Valence a modéré l'effet de groupe [χ 2 (4) = 39,89, p < 0,001]. BPD a signalé une humeur plus mauvaise après négative (b = -0,14, c.-à-d. = 0,15, t = -0,95) et rétroaction intermédiaire (b = -0,81, s.e. = 0,19, t = 4,28) et humeur similaire après rétroaction positive (b = -0,49, c.-à-d. = 0,13, t = −3,70) par rapport à HC, voir Fig. 1b. Comparé au LSE, le BPD a rapporté une humeur égale après intermédiaire (b = 0,19, c.-à-d. = 0,21, t = 0,91) et rétroaction positive (b = 0,11, s.e. = 0,15, t = 0,75) mais une meilleure humeur après une rétroaction négative (b = −0,50, c.-à-d. = 0,16, t = −3.10).

Tableau 2. Paramètres d'effet du modèle prédisant les évaluations de l'humeur par catégorie de valence (intermédiaire = référence), groupe (BPD = référence) et applicabilité de la rétroaction et des interactions bidirectionnelles

Niveau de signification (***<0.001, **<0.01, *<0.05, ^<0.10) basé sur le test χ 2 des comparaisons de modèles, voir le tableau supplémentaire en ligne S6.

L'applicabilité a également modéré l'effet de groupe [χ 2 (4) = 14,8, p = 0,005]. Les cotes d'humeur BPD étaient moins affectées par l'applicabilité par rapport à HC (b = 0,07, s.e. = 0,03 t = 2,27), mais ne diffère pas à cet égard de LSE (b = 0,01, s.e. = 0,03 t = 0,23), voir Fig. 1c. Il n'y avait pas d'interaction à trois voies de la valence par applicabilité par groupe [χ 2 (4) = 8,0, p = 0.090].

Réponses neuronales

Les groupes différaient dans les corrélats neuronaux de la valence de rétroaction, voir le tableau 3 pour les clusters et les voxels de pic Note de bas de page † Note de bas de page 1 . En réponse à une rétroaction négative par rapport à une rétroaction positive, HC a montré une activation précuneus gauche plus forte, tandis que BPD a montré une activation précuneus relativement faible et égale pour la rétroaction négative et positive, voir Fig. 2. Dans ce cluster précuneus, LSE a montré une activation relativement élevée et égale pour rétroaction négative et positive, bien que non significativement différente de la BPD, voir Fig. 2. En réponse à une rétroaction positive par rapport à une rétroaction négative, HC a montré une activation TPJ antérieure droite plus forte, tandis que BPD a montré le schéma inverse, avec une activation TPJ plus forte pour une rétroaction négative par rapport à commentaire positif. Comparé au LSE, le BPD a montré une activation du précuneus gauche plus forte pendant la rétroaction négative par rapport à la rétroaction positive, voir le tableau 3 et la figure 2. Cependant, ce cluster dans le précuneus gauche ne chevauchait pas le cluster trouvé par rapport à HC. Les groupes ne différaient pas dans les corrélats neuronaux d'applicabilité. L'interaction à trois voies de l'applicabilité par la valence négative du DBP par rapport à l'HC dans le cortex moteur, le lobule pariétal supérieur et le lobule pariétal inférieur est probablement attribuable aux mouvements de pression sur les boutons (Mars et al., Référence Mars, Jbabdi, Sallet, O'Reilly, Croxson, Olivier, Noonan, Bergmann, Mitchell, Baxter, Behrens, Johansen-Berg, Tomassini, Miller et Rushworth 2011).

Fig. 2. Gauche : Amas d'activation neurale indiquant HC > BPD (bleu) et BPD > LSE (orange). À droite : valeurs de contraste moyennes pour les clusters HC > BPD (clusters bleus) par groupe et contraste.

Tableau 3. Corrélats neuronaux sélectionnés pour les comparaisons de groupe sur les contrastes de valence et l'applicabilité de la rétroaction a , cluster corrigé Z = 2,3, grappe p < 0.05

a Les contrastes sans clusters supérieurs au seuil ne sont pas signalés dans ce tableau.

Résultats exploratoires

À des fins exploratoires, nous avons vérifié si LSE différait dans les auto-évaluations de HC en réexécutant le modèle avec des évaluations d'applicabilité comme résultat mais avec HC défini comme groupe de référence au lieu de BPD. Nous avons constaté que malgré une faible estime de soi, les LSE n'ont pas signalé que les commentaires négatifs leur étaient plus applicables (b = 0,11, s.e. = 0,17, t = 0,65), la rétroaction intermédiaire non plus (b = 0,26, c.-à-d. = 0,17, t = 1,52). Cependant, ils ont signalé que les commentaires positifs leur sont moins applicables (b = -0,44, c.-à-d. = 0,17, t = −2.64).

Confond

Pour contrôler les effets potentiels du fait que le participant croyait ou non au paradigme de la SF (oui/non), au statut médicamenteux (marche/arrêt) et à la comorbidité actuelle de la dépression, nous avons pris cela en compte dans des analyses affectives et neurales supplémentaires. Ces facteurs de confusion n'ont eu aucun effet sur les résultats affectifs.

La latéralité a également été prise en compte dans les analyses neuronales. L'activation du précuneus plus forte dans HC par rapport à BPD trouvée après une rétroaction négative par rapport à une rétroaction positive n'a pas survécu au seuil de signification après la prise en compte de la dépression actuelle ou de la prédominance.


Introduction

L'avènement de l'IRMf a révolutionné la psychologie en permettant, pour la première fois, la cartographie non invasive de la cognition humaine. Malgré ces progrès, les analyses IRMf traditionnelles sont limitées dans la mesure où elles ne peuvent, pour la plupart, que constater l'implication d'un territoire dans une tâche mais pas sa précision rôle dans cette tâche. Récemment, des méthodes d'IRMf basées sur des modèles ont été développées pour surmonter cette limitation en utilisant des modèles informatiques de comportement pour faire la lumière sur les variables latentes des modèles (telles que les erreurs de prédiction) et leur mappage aux structures neuronales. Cette approche a conduit à des informations importantes sur les algorithmes utilisés par le cerveau et a été particulièrement efficace pour comprendre la base neuronale de l'apprentissage par renforcement (par exemple [1�]).

Dans une analyse IRMf basée sur un modèle typique, on spécifie d'abord un modèle qui décrit les processus cognitifs hypothétiques sous-jacents au comportement en question. Typiquement, ces modèles ont un ou plusieurs paramètres libres (par exemple le taux d'apprentissage dans un modèle d'apprentissage par essais et erreurs). Ces paramètres doivent être définis pour spécifier complètement le modèle, ce qui est généralement fait en les adaptant au comportement observé [14]. Par exemple, étant donné le modèle, on peut trouver des taux d'apprentissage spécifiques à une matière qui expliquent le mieux les choix comportementaux de la matière. Le modèle entièrement spécifié est ensuite utilisé pour générer des mesures essai par essai des variables latentes dans le modèle (par exemple, les valeurs d'action et les erreurs de prédiction) qui peuvent être régressées par rapport aux données neuronales afin de trouver des zones dont l'activité est en corrélation avec ces variables dans le cerveau .

Une faiblesse potentielle de cette approche est l'exigence d'ajustement du modèle. Dans de nombreux cas, les données sont insuffisantes pour identifier avec précision les valeurs des paramètres. Cela peut être dû au nombre limité d'essais, aux interactions entre les paramètres qui les rendent difficiles à démêler [14] ou au manque de comportement pouvant être utilisé pour le processus d'ajustement (par exemple, dans certaines expériences de conditionnement pavlovien). Ainsi, une question clé est la suivante : quelle est l'importance de l'étape d'ajustement du modèle ? En d'autres termes, dans quelle mesure l'IRMf basée sur un modèle est-elle sensible aux erreurs d'estimation des paramètres ? La réponse à cette question déterminera à quel point nous devons travailler dur pour obtenir les meilleurs ajustements de paramètres possibles, et affectera non seulement la façon dont nous analysons les données, mais aussi la façon dont nous concevons les expériences en premier lieu.

Nous montrons ici comment cette question peut être abordée, en analysant la sensibilité de l'IRMf basée sur un modèle au paramètre de taux d'apprentissage dans des tâches d'apprentissage par renforcement simples. Nous fournissons des limites analytiques sur la sensibilité de l'analyse basée sur un modèle aux erreurs d'estimation du taux d'apprentissage, et montrons par simulation comment les signaux d'erreur de valeur et de prédiction générés avec un taux d'apprentissage seraient interprétés par une analyse basée sur un modèle utilisant le mauvais apprentissage. taux. Étonnamment, nous constatons que les résultats de l'IRMf basée sur un modèle sont remarquablement robustes aux réglages du taux d'apprentissage dans la mesure où, dans certaines situations, définir les paramètres du modèle aussi loin que possible de leur valeur réelle affecte à peine les résultats. Cette prédiction théorique de la robustesse est confirmée par l'analyse des données d'IRMf de deux expériences récentes.

Nos résultats sont à la fois une bonne et une mauvaise nouvelle pour l'IRMf basée sur un modèle. La bonne nouvelle est qu'il est robuste, donc les erreurs dans le taux d'apprentissage ne changeront pas considérablement les résultats des études cherchant à localiser un signal particulier. La mauvaise nouvelle, cependant, est que l'IRMf basée sur un modèle est insensible aux différences de paramètres, ce qui signifie qu'il faut faire preuve d'une extrême prudence lorsqu'on essaie de déterminer le rôle informatique d'une aire neurale (par exemple, lorsqu'on demande si une aire cérébrale correspond à un signal de résultat ou un signal d'erreur de prédiction). Dans la discussion, nous considérons dans quelle mesure ce résultat se généralise à d'autres paramètres et à d'autres modèles et proposons des suggestions pour diagnostiquer la sensibilité des paramètres dans d'autres modèles.


Bonnes ressources pour apprendre la modélisation des données d'IRMf - Psychologie

À la fin de cette section, vous serez en mesure de :

  • Définir l'apprentissage par observation
  • Discuter des étapes du processus de modélisation
  • Expliquer les effets prosociaux et antisociaux de l'apprentissage par observation

Les sections précédentes de ce chapitre se sont concentrées sur le conditionnement classique et opérant, qui sont des formes d'apprentissage associatif. Dans l'apprentissage par observation, nous apprenons en observant les autres, puis en imitant, ou en modélisant, ce qu'ils font ou disent. Les individus exécutant le comportement imité sont appelés modèles. La recherche suggère que cet apprentissage par imitation implique un type spécifique de neurone, appelé neurone miroir (Hickock, 2010 Rizzolatti, Fadiga, Fogassi, & Gallese, 2002 Rizzolatti, Fogassi, & Gallese, 2006).

Les humains et les autres animaux sont capables d'apprentissage par observation. Comme vous le verrez, l'expression « singe voit, singe fait » est vraiment exacte ([link]). On pourrait en dire autant des autres animaux. Par exemple, dans une étude sur l'apprentissage social chez les chimpanzés, des chercheurs ont donné des boîtes de jus avec des pailles à deux groupes de chimpanzés captifs. Le premier groupe a plongé la paille dans la boîte à jus, puis a sucé la petite quantité de jus au bout de la paille. Le deuxième groupe aspirait directement la paille, obtenant ainsi beaucoup plus de jus. Lorsque le premier groupe, les « plongeurs », a observé le deuxième groupe, « les ventouses », que pensez-vous qu'il s'est passé ? Tous les « plongeurs » du premier groupe sont passés à aspirer directement les pailles. En observant simplement les autres chimpanzés et en modélisant leur comportement, ils ont appris qu'il s'agissait d'une méthode plus efficace pour obtenir du jus (Yamamoto, Humle et Tanaka, 2013).

Ce singe araignée a appris à boire de l'eau dans une bouteille en plastique en voyant le comportement modélisé par un humain. (crédit: U.S. Air Force, Senior Airman Kasey Close)

L'imitation est beaucoup plus évidente chez l'homme, mais l'imitation est-elle vraiment la forme la plus sincère de flatterie ? Considérez l'expérience de Claire en matière d'apprentissage par observation. Le fils de Claire, Jay, âgé de neuf ans, avait des ennuis à l'école et était provocant à la maison. Claire craignait que Jay ne finisse comme ses frères, dont deux étaient en prison. Un jour, après une énième mauvaise journée à l'école et une autre note négative de la prof, Claire, à bout de nerfs, bat son fils avec une ceinture pour l'amener à bien se tenir. Plus tard dans la nuit, alors qu'elle mettait ses enfants au lit, Claire a vu sa fille de quatre ans, Anna, prendre une ceinture à son ours en peluche et la fouetter. Claire était horrifiée, réalisant qu'Anna imitait sa mère. C'est alors que Claire a su qu'elle voulait discipliner ses enfants d'une manière différente.

Comme Tolman, dont les expériences avec des rats suggéraient une composante cognitive à l'apprentissage, les idées du psychologue Albert Bandura sur l'apprentissage étaient différentes de celles des comportementalistes stricts. Bandura et d'autres chercheurs ont proposé une forme de béhaviorisme appelée théorie de l'apprentissage social, qui prend en compte les processus cognitifs. Selon Bandura, le béhaviorisme pur ne pourrait pas expliquer pourquoi l'apprentissage peut avoir lieu en l'absence de renforcement externe. Il a estimé que les états mentaux internes doivent également avoir un rôle dans l'apprentissage et que l'apprentissage par observation implique bien plus que l'imitation. Par imitation, une personne copie simplement ce que fait le modèle. L'apprentissage par observation est beaucoup plus complexe. Selon Lefrançois (2012), l'apprentissage par observation peut se produire de plusieurs manières :
Vous apprenez une nouvelle réponse. Après avoir vu votre collègue se faire gronder par votre patron pour être arrivé en retard, vous commencez à quitter la maison 10 minutes plus tôt pour ne pas être en retard.
Vous choisissez d'imiter ou non le modèle en fonction de ce que vous avez vu arriver au modèle. Vous vous souvenez de Julian et de son père ? Lorsqu'il apprend à surfer, Julian peut observer comment son père apparaît avec succès sur sa planche de surf, puis tenter de faire la même chose. D'un autre côté, Julian pourrait apprendre à ne pas toucher un poêle chaud après avoir vu son père se brûler sur un poêle.

Vous apprenez une règle générale que vous pouvez appliquer à d'autres situations.

Bandura a identifié trois types de modèles : vivants, verbaux et symboliques. Un modèle vivant montre un comportement en personne, comme lorsque Ben s'est levé sur sa planche de surf pour que Julian puisse voir comment il s'y prend. Un modèle d'instruction verbale n'exécute pas le comportement, mais explique ou décrit le comportement, comme lorsqu'un entraîneur de football dit à ses jeunes joueurs de frapper le ballon avec le côté du pied, et non avec l'orteil. Un modèle symbolique peut être des personnages fictifs ou de vraies personnes qui manifestent des comportements dans des livres, des films, des émissions de télévision, des jeux vidéo ou des sources Internet ([link]).

(a) Les étudiants en yoga apprennent par observation pendant que leur instructeur de yoga démontre la position et le mouvement corrects pour ses étudiants (modèle vivant). (b) Les modèles n'ont pas besoin d'être présents pour que l'apprentissage se produise : grâce à la modélisation symbolique, cet enfant peut apprendre un comportement en regardant quelqu'un le démontrer à la télévision. (crédit a : modification de l'œuvre par Tony Cecala crédit b : modification de l'œuvre par Andrew Hyde)

Lien vers l'apprentissage

L'apprentissage latent et la modélisation sont utilisés tout le temps dans le monde du marketing et de la publicité. Cette publicité a été diffusée pendant des mois dans les régions de New York, du New Jersey et du Connecticut. Derek Jeter, un joueur de baseball primé des Yankees de New York, fait la publicité d'une Ford. La publicité a été diffusée dans une partie du pays où Jeter est un athlète incroyablement connu. Il est riche et considéré comme très loyal et beau. Quel message les annonceurs envoient-ils en le faisant figurer dans l'annonce ? Quelle est son efficacité selon vous ?


Limites

Psychopy_ext a fait ses débuts publiquement en novembre 2013 et n'a donc pas encore été adopté et largement testé par la communauté. Il est donc difficile de prédire la courbe d'apprentissage du sous-jacent psychopy_ext philosophie et dans quelle mesure elle résonne avec les besoins de la communauté. Par exemple, de nombreux chercheurs sont habitués aux scripts d'expérimentation et d'analyse linéaires, tandis que psychopy_ext repose sur des concepts de programmation basés sur des objets tels que les classes et les fonctions modulaires afin de fournir héritage et flexibilité. Cependant, l'approche orientée objet signifie également que chaque fois que les fonctions nécessaires ne sont pas disponibles directement à partir de psychopy_ext ou ne répondent pas aux besoins de l'utilisateur, ils peuvent être remplacés ou utilisés directement à partir des packages qui sont étendus, souvent (mais pas toujours) sans affecter le reste du workflow.

Par ailleurs, psychopy_ext a été conçu pour améliorer un flux de travail d'un type Psychopy utilisateur. Les chercheurs qui utilisent d'autres packages de génération de stimulus ou même différents langages de programmation (tels que R pour les analyses de données) ne pourront pas bénéficier de psychopy_ext aussi facilement. Une telle limitation est en partie un choix de conception pour fournir des flux de travail qui dépendent du moins d'outils possible. Python a un grand nombre de packages puissants et psychopy_ext s'engage à les promouvoir en faveur de solutions équivalentes dans d'autres langues. Néanmoins, lorsqu'il n'existe pas d'alternative, les utilisateurs peuvent facilement interagir avec leur R (via rpy2 25 ), C/C++ (via le propre de Python ctypes), MATLAB (via pymatlab 26 ou mlab 27 ) et un certain nombre d'autres types de scripts.


Introduction

La psychologie expérimentale s'efforce d'expliquer le comportement humain. Cela implique d'être capable d'expliquer les mécanismes causaux sous-jacents du comportement ainsi que de prédire le comportement futur (Kaplan, 1973 Shmueli, 2010 Yarkoni & Westfall, 2016). En pratique, cependant, les méthodes traditionnelles de la psychologie expérimentale se sont principalement concentrées sur le test des explications causales. Ce n'est que ces dernières années que la recherche en psychologie a mis l'accent sur la prédiction (Forster, 2002 Shmueli & Koppius, 2011). Dans ce virage prédictif, les méthodes prédictives basées sur l'apprentissage automatique sont rapidement apparues comme des moyens viables pour prédire les observations futures aussi précisément que possible, c'est-à-dire pour minimiser les erreurs de prédiction (Breiman, 2001b Song, Mitnitski, Cox, & Rockwood, 2004).

La nature multivariée et l'accent mis sur l'erreur de prédiction (plutôt que sur la « qualité de l'ajustement ») confèrent à ces méthodes une plus grande sensibilité et une plus grande puissance prédictive future par rapport aux méthodes traditionnelles. En psychologie expérimentale, ils sont utilisés avec succès pour prédire une variable d'intérêt (par exemple, la condition expérimentale A par rapport à la condition expérimentale B) à partir des modèles de comportement d'un individu engagé dans une tâche ou une activité en minimisant l'erreur de prédiction. Les applications actuelles vont de la prédiction de la reconnaissance de l'action faciale des micro-expressions faciales à la classification de l'intention à partir des différences dans la cinématique du mouvement (par exemple, Ansuini et al., 2015 Cavallo, Koul, Ansuini, Capozzi, & Becchio, 2016 Haynes et al., 2007 Srinivasan, Golomb et Martinez, 2016). Par exemple, ils ont été utilisés pour décoder l'intention de saisir un objet (verser ou boire) à partir de subtiles différences dans les schémas de mouvements de la main (Cavallo et al., 2016). De plus, les modèles prédictifs basés sur l'apprentissage automatique peuvent être utilisés non seulement pour la prédiction de groupe (patients contre témoins), mais également pour la prédiction individuelle. Par conséquent, ces modèles se prêtent à un potentiel outil de diagnostic dans les milieux cliniques (Anzulewicz, Sobota, & Delafield-Butt, 2016 Hahn, Nierenberg, & Whitfield-Gabrieli, 2017 Huys, Maia, & Frank, 2016).

Cependant, alors que les atouts des approches prédictives sont de plus en plus connus, les méthodes prédictives basées sur l'apprentissage automatique manquent toujours d'un cadre logiciel établi et facile à utiliser. De nombreuses implémentations existantes ne fournissent aucune directive ou des directives limitées, constituées de petits extraits de code ou d'ensembles de packages. De plus, l'utilisation de packages existants nécessite souvent une expertise de programmation avancée. Pour surmonter ces lacunes, l'objectif principal du présent document était de créer une boîte à outils conviviale, « PredPsych", doté de multiples fonctionnalités pour des analyses multivariées de données comportementales quantitatives basées sur des modèles d'apprentissage automatique.

Dans ce qui suit, nous présentons le cadre de PredPsych via l'analyse d'un ensemble de données de capture de mouvement multi-sujets récemment publié (Ansuini et al., 2015). Tout d'abord, nous fournissons une brève description de l'ensemble de données et décrivons comment installer et exécuter PredPsych. Ensuite, nous discutons de cinq questions de recherche qui peuvent être abordées avec le cadre d'apprentissage automatique mis en œuvre dans PredPsych. Nous fournissons des illustrations guidées sur la façon de répondre à ces questions de recherche en utilisant PredPsych ainsi que des lignes directrices pour les meilleures techniques à utiliser (pour un aperçu, voir Fig. 1) et des raisons de prudence. Parce que les atouts des approches prédictives ont été récemment discutés ailleurs (Breiman, 2001b Shmueli, 2010), nous ne les traitons que brièvement ici.

Vue générale de PredPsych les fonctions. Un aperçu des questions de recherche qui peuvent être abordées en utilisant PredPsych et les techniques correspondantes


INTRODUCTION

L'étude de la cognition a prospéré au cours des dernières décennies en raison de l'abondance de données de neuro-imagerie qui donnent accès à l'activité cérébrale chez les sujets humains. Au fil des ans, des outils de divers domaines tels que l'apprentissage automatique et la théorie des réseaux ont été intégrés aux applications de neuroimagerie afin d'analyser les données. Les outils correspondants ont leurs propres atouts, comme la prévisibilité pour l'apprentissage automatique. Cet article rassemble des études récentes basées sur le même modèle dynamique du cerveau entier dans un pipeline unifié, qui est cohérent de l'estimation du modèle à son analyse, en particulier, les implications des hypothèses du modèle peuvent être évaluées à chaque étape. Cela nous permet de combiner naturellement des concepts de plusieurs domaines, notamment pour la prévisibilité et l'interprétabilité des données. Nous soulignons que notre cadre peut être transposé à d'autres modèles dynamiques, tout en préservant les concepts sous-jacents à sa conception. Dans ce qui suit, nous passons d'abord en revue les travaux antérieurs sur les mesures de connectivité pour mettre notre formalisme en contexte. Après avoir présenté le modèle dynamique (le processus multivarié d'Ornstein-Uhlenbeck, ou MOU), nous discutons de sa procédure d'optimisation pour reproduire les statistiques des signaux IRMf/BOLD (covariances spatio-temporelles), produisant une estimation de connectivité effective du cerveau entier (MOU-EC). Ensuite, deux applications basées sur le MOU-EC sont examinées : l'apprentissage automatique pour extraire des biomarqueurs et l'analyse de réseau pour interpréter les poids de connectivité estimés de manière collective. Pendant ce temps, en présentant des détails sur notre cadre, nous fournissons une comparaison critique avec des études précédentes pour mettre en évidence les similitudes et les différences. Nous illustrons les capacités du MOU-EC dans l'étude de la cognition en utilisant un ensemble de données où les sujets ont été enregistrés dans deux conditions, en regardant un film et un écran noir (appelé repos). Nous notons également que les mêmes outils peuvent être utilisés pour examiner les altérations cognitives dues aux neuropathologies.


TÂCHES ET MODÈLES DE CALCUL IMPLÉMENTÉS DANS hBayesDM

Le tableau 1 montre la liste des tâches et des modèles de calcul actuellement implémentés dans le package hBayesDM (à partir de la version 0.3.0). Notez que certaines tâches ont plusieurs modèles de calcul et que les utilisateurs peuvent comparer les performances des modèles dans le cadre hBayesDM (voir Tutoriels pas à pas pour le package hBayesDM). Pour adapter les modèles à une tâche, l'utilisateur doit d'abord préparer les données essai par essai sous forme de fichier texte (*.txt) dans lequel chaque ligne (observation) contient les colonnes requises pour la tâche donnée (voir Tableau 1). Les utilisateurs peuvent également utiliser l'exemple de jeu de données de chaque tâche comme modèle.

Ci-dessous, nous décrivons chaque tâche et son ou ses modèles de calcul, examinons brièvement ses applications aux populations saines et cliniques et décrivons les paramètres du modèle. Par souci de concision, nous renvoyons les lecteurs aux articles originaux pour tous les détails de la conception expérimentale et des modèles de calcul, et aux fichiers d'aide du package pour des exemples de codes qui détaillent comment estimer et extraire les paramètres de chaque modèle. Les fichiers d'aide du package peuvent être trouvés en exécutant la commande suivante dans la console R :

La commande ci-dessus ouvrira la page d'aide principale, à partir de laquelle on pourra ensuite naviguer vers la tâche/le modèle correspondant. Les utilisateurs peuvent également rechercher directement un fichier d'aide pour chaque tâche/modèle en appelant son fichier d'aide, qui suit la forme ?function_name (par exemple, ?dd_cs voir Tableau 1 pour une liste de ces fonctions). Chaque fichier d'aide fournit des codes de travail pour exécuter un exemple concret de données réelles du début à la fin.

La tâche de retarder l'actualisation

La tâche d'actualisation différée (DDT Rachlin, Raineri, & Cross, 1991) est conçue pour estimer dans quelle mesure une remise individuelle retarde temporellement les résultats les plus importants par rapport aux plus petits et plus tôt. À chaque essai du DDT, deux options sont présentées : une récompense plus tôt et plus petite (par exemple, 5 $ maintenant) et une récompense plus tardive et plus importante (par exemple, 20 $ la semaine prochaine). Les sujets sont invités à choisir l'option qu'ils préfèrent pour chaque essai.

Le DDT a été largement étudié dans des populations saines (par exemple, Green & Myerson, 2004 Kable & Glimcher, 2007) et l'actualisation des retards a été associée à des capacités cognitives telles que l'intelligence (Shamosh et al., 2008) et la mémoire de travail (Hinson, Jameson , & Whitney, 2003). Une actualisation plus forte des retards est un marqueur comportemental fort pour les comportements addictifs (Ahn, Ramesh, Moeller, & Vassileva, 2016 Ahn & Vassileva, 2016 Bickel, 2015 Green & Myerson, 2004 MacKillop, 2013) et a également été associée à d'autres troubles psychiatriques, y compris la schizophrénie (Ahn, Rass, et al., 2011 Heerey, Matveeva, & Gold, 2011 Heerey, Robinson, McMahon, & Gold, 2007) et le trouble bipolaire (Ahn, Rass, et al., 2011). Le package hBayesDM contient actuellement trois modèles différents pour le DDT :

dd_cs (modèle à sensibilité constante Ebert & Prelec, 2007)

Taux d'actualisation exponentiel (0 <r <1)

Température inverse (0 < ??< 5)

dd_exp (modèle exponentiel Samuelson, 1937)

Taux d'actualisation exponentiel (0 < r <1)

Température inverse (0 < ?? < 5)

dd_hyperbolic (modèle hyperbolique Mazur, 1987)

Température inverse (0 < ?? < 5)

DDT : description des paramètres

Dans les modèles exponentiel et hyperbolique, l'actualisation temporelle des récompenses futures (c'est-à-dire retardées) est décrite par un seul paramètre, le taux d'actualisation (0 < r < 1), qui indique de combien les récompenses futures sont remises. Les taux d'actualisation élevés et faibles reflètent respectivement une actualisation plus ou moins importante des récompenses futures. Dans les modèles exponentiel et hyperbolique, la valeur d'une récompense différée est actualisée sous une forme exponentielle et hyperbolique, respectivement. Le modèle à sensibilité constante (CS) a un paramètre supplémentaire, appelé sensibilité au temps (0 < s < 10). Lorsque s est égal à 1, le modèle CS se réduit au modèle exponentiel. Valeurs de s proche de 0 conduit à une simple « dichotomie présent-futur » dans laquelle toutes les récompenses futures sont fortement réduites à une certaine valeur subjective, indépendamment des retards. Valeurs de s supérieur à 1 donne une heuristique « présent étendu », dans laquelle les récompenses pendant le présent étendu sont évaluées presque également, et les récompenses futures en dehors du présent étendu ont une valeur nulle.

Tous les modèles utilisent la règle de choix softmax avec un paramètre de température inverse (Kaelbling, Littman, & Moore, 1996 Luce, 1959), qui reflète la façon dont les choix des individus sont faits de manière déterministe par rapport à la force (valeur subjective) des choix alternatifs. Les températures inverses hautes et basses représentent respectivement des choix plus déterministes et plus aléatoires.

La tâche de jeu de l'Iowa

L'Iowa Gambling Task (IGT Bechara, Damasio, Damasio, & Anderson, 1994) a été initialement développé pour évaluer les déficits de prise de décision des patients présentant des lésions du cortex préfrontal ventromédian. À chaque essai, les sujets se voient présenter quatre jeux de cartes. Deux decks sont avantageux (bons) et les deux autres decks désavantageux (mauvais), en termes de gains à long terme. Les sujets sont invités à choisir des decks qui maximisent les gains à long terme, qu'ils sont censés apprendre par essais et erreurs. D'un point de vue statistique, l'IGT est un problème de bandit à quatre bras.

L'IGT a été largement utilisé pour étudier la prise de décision dans plusieurs populations psychiatriques (Ahn et al., 2014 Bechara & Martin, 2004 Bechara et al., 2001 Bolla et al., 2003 Grant, Contoreggi, & London, 2000 Vassileva, Gonzalez , Bechara, & Martin, 2007). Le package hBayesDM contient actuellement trois modèles différents pour l'IGT :

igt_pvl_decay (Ahn et al., 2014 Ahn, Krawitz, Kim, Busemeyer, & Brown, 2011)

igt_pvl_delta (Ahn, Busemeyer, Wagenmakers, & Stout, 2008)

igt_vpp (Digne, Pang, & Byrne, 2013)

Impact sur le gain de persévérance ( ⁠ − ∞ < ϵ p < ∞ ⁠ )

Impact de la perte de persévérance ( ⁠ − ∞ < ϵ n < ∞ ⁠ )

Taux de décroissance de la persévérance (0 < k <1)

Poids d'apprentissage par renforcement (0 < ?? <1)

IGT : description des paramètres

Le modèle Prospect Valence Learning (PVL) avec règle delta (PVL-delta) utilise une équation de mise à jour Rescorla-Wagner (Rescorla & Wagner, 1972) pour mettre à jour la valeur attendue du jeu sélectionné à chaque essai. La valeur attendue est mise à jour avec un paramètre de taux d'apprentissage (0 < UNE < 1) et un terme d'erreur de prédiction, où UNE près de 1 accorde plus de poids aux résultats récents, et UNE près de 0 accorde plus de poids aux résultats passés, l'erreur de prédiction est la différence entre les résultats prévus et vécus. La forme (0 < ?? < 2) et aversion aux pertes (0 < ?? < 1) les paramètres contrôlent la forme de la fonction d'utilité (puissance) et l'effet des pertes par rapport aux gains, respectivement. Valeurs de ?? supérieur à 1 indique que l'utilité d'un résultat est convexe, et les valeurs inférieures à 1 indiquent que l'utilité est concave. Valeurs de ?? supérieur ou inférieur à 1 indiquent une sensibilité respectivement supérieure ou réduite aux pertes par rapport aux gains. Le paramètre de cohérence (0 < c < 1) est un paramètre de température inverse (reportez-vous à la tâche d'actualisation des retards pour plus de détails).

Le modèle PVL avec règle de décroissance (PVL-decay) utilise les mêmes paramètres de forme, d'aversion aux pertes et de cohérence que le PVL-delta, mais un paramètre de récence (0 < UNE < 1) est utilisé pour la mise à jour des valeurs. Le paramètre de récence indique de combien les valeurs attendues de tous les decks sont actualisées à chaque essai.

Le modèle PVL-delta est imbriqué dans le modèle Valeur-Plus-Persévérance (VPP), qui est un modèle hybride de PVL-delta et une stratégie heuristique de persévérance. Le taux de décroissance de la persévérance (0 < k < 1) diminue les forces de persévérance de tous les choix à chaque essai, de la même manière que le paramètre de récence de PVL-decay affecte la valeur attendue. Les paramètres pour les impacts du gain ( ⁠ − ∞ < ϵ p < ∞ ⁠ ) et de la perte ( ⁠ − ∞ < ϵ n < ∞ ⁠ ) sur la persévérance reflètent comment la valeur de la persévérance change après les victoires et les pertes, respectivement les valeurs positives reflètent une tendance faire le même choix, et les valeurs négatives une tendance à changer de choix. Le poids d'apprentissage par renforcement (0 < ?? < 1) est un paramètre de mélange qui contrôle le poids de décision accordé au terme d'apprentissage par renforcement par rapport au terme de persévérance. Les valeurs élevées par rapport aux valeurs faibles reflètent une dépendance plus ou moins grande envers le terme d'apprentissage par renforcement, respectivement.

La tâche Go/No-Go orthogonalisée

Les animaux utilisent des contrôleurs pavloviens et instrumentaux lorsqu'ils agissent. Le contrôleur pavlovien sélectionne des actions d'approche/engagement avec des prédicteurs de résultats appétitifs ou des actions d'évitement/inhibition avec des prédicteurs de résultats aversifs. Le contrôleur instrumental, quant à lui, sélectionne les actions sur la base des contingences action-résultat de l'environnement. Les deux contrôleurs coopèrent généralement, mais parfois ils se font concurrence (par exemple, Dayan, Niv, Seymour, & Daw, 2006). La tâche go/no-go orthogonalisée (GNG) (Guitart-Masip et al., 2012) est conçue pour examiner l'interaction entre les deux contrôleurs en orthogonalisant l'exigence d'action (go vs no go) par rapport à la valence du résultat ( gagner ou éviter de perdre de l'argent).

Chaque essai de la tâche GNG orthogonale comporte trois événements dans l'ordre suivant : présentation du repère, détection de la cible et présentation des résultats. Tout d'abord, l'un des quatre indices est présenté (« Aller pour gagner », « Aller pour éviter (perdre) », « NoGo pour gagner » ou « NoGo pour éviter »). Après un certain délai, une cible ("cercle") est présentée à l'écran, et les sujets doivent répondre soit avec un aller (appuyez sur un bouton) ou Ne pas aller (retenez la pression sur le bouton). Ensuite, les sujets reçoivent un résultat probabiliste (par exemple, 80%). Voir Guitart-Masip et al. (2012) pour plus de détails sur la conception expérimentale.

gng_m1 (M1 dans Guitart-Masip et al., 2012)

Taille effective d'un ferraillage ( ⁠ 0 < ρ < ∞ ⁠ )

gng_m2 (M2 dans Guitart-Masip et al., 2012)

Taille effective d'un ferraillage ( ⁠ 0 < ρ < ∞ ⁠ )

gng_m3 (M3 dans Guitart-Masip et al., 2012)

Taille effective d'un ferraillage ( ⁠ 0 < ρ < ∞ ⁠ )

gng_m4 (M5 dans Cavanagh et al., 2013)

Taille effective du renforcement de la récompense ( ⁠ 0 < ρ r e w < ∞ ⁠ )

Taille effective du renforcement de la punition ( ⁠ 0 < ρ p u n < ∞ ⁠ )

GNG : description des paramètres

Tous les modèles pour la tâche GNG incluent un paramètre de taux de défaillance (0 < ?? < 1), un paramètre de taux d'apprentissage (0 < ?? < 1 se réfère à IGT : descriptions des paramètres pour plus de détails), et un paramètre pour la taille effective du ferraillage ( ⁠ 0 < ρ < ∞ ⁠ ). Le paramètre de taux de déchéance capture la proportion de choix aléatoires effectués, quelle que soit la force de leurs probabilités d'action. Les ?? paramètre détermine la taille effective d'un ferraillage. Le modèle gng_m4 a des paramètres de taille effective séparés pour la récompense ( ⁠ 0 < ρ r e w < ∞ ⁠ ) et la punition ( ⁠ 0 < ρ p u n < ∞ ⁠ ), permettant d'évaluer différemment les récompenses et les punitions.

Trois modèles GNG ( gng_m2 , gng_m3 et gng_m4 ) incluent un paramètre de biais go ( ⁠ − ∞ < b < ∞ ⁠ ). Le biais Go reflète une tendance à répondre (aller), quelles que soient les associations action-résultat des valeurs élevées ou faibles pour b reflètent une tendance élevée ou faible à faire une réponse (motrice), respectivement.

Deux modèles GNG ( gng_m3 et gng_m4 ) incluent un paramètre de biais pavlovien ( ⁠ − ∞ < π < ∞ ⁠ ). Le biais pavlovien reflète une tendance à faire des réponses qui sont congruentes pavloviennes : c'est-à-dire à promouvoir ou à inhiber allersi la valeur attendue du stimulus est respectivement positive (appétitive) ou négative (aversive).

Tâche d'apprentissage par inversion probabiliste

Les environnements ont souvent des structures d'ordre supérieur, telles que des interdépendances entre les stimuli, les actions et les résultats. Dans de tels environnements, les sujets doivent déduire et utiliser les structures afin de prendre des décisions optimales. Dans la tâche d'apprentissage par inversion probabiliste (PRL), il existe une structure d'ordre supérieur telle que les distributions de récompense de deux stimuli sont anticorrélées (par exemple, si une option a un taux de récompense de 80%, l'autre option a un taux de récompense de [100 – 80]%, soit 20%). Les sujets doivent apprendre la structure d'ordre supérieur et la prendre en compte pour optimiser leur prise de décision et maximiser leurs gains.

Dans une tâche PRL typique, deux stimuli sont présentés à un sujet. Le choix d'un stimulus « correct » ou bon entraînera généralement un gain monétaire (par exemple, 70%), tandis que le choix d'un stimulus « incorrect » ou mauvais entraînera généralement une perte monétaire. Les contingences de récompense s'inverseront à des points fixes (par exemple, Murphy, Michael, Robbins, & Sahakian, 2003) ou seront déclenchées par des choix corrects consécutifs (Cools, Clark, Owen, & Robbins, 2002 Hampton et al., 2006).

La tâche PRL a été largement utilisée pour étudier l'apprentissage par inversion chez des individus sains (Cools et al., 2002 den Ouden et al., 2013 Gläscher et al., 2009). Le PRL a également été utilisé pour étudier les déficits de prise de décision associés aux lésions du cortex préfrontal (par exemple, Fellows & Farah, 2003 Rolls, Hornak, Wade, & McGrath, 1994), ainsi que la maladie de Parkinson (par exemple, Cools, Lewis, Clark , Barker, & Robbins, 2007 Swainson et al., 2000), la schizophrénie (par exemple, Waltz & Gold, 2007) et la dépendance à la cocaïne (Ersche, Roiser, Robbins, & Sahakian, 2008). Le package hBayesDM contient actuellement trois modèles de tâches PRL :

Température inverse (0 < ?? <1)

prl_fictitious (Gläscher et al., 2009)

Température inverse (0 < ?? <1)

Température inverse (0 < ?? <1)

PRL : description des paramètres

Tous les modèles PRL ci-dessus contiennent des paramètres de taux d'apprentissage (reportez-vous à IGT : descriptions des paramètres pour plus de détails). Le modèle prl_rp a des taux d'apprentissage séparés pour les récompenses (0 < UNErew < 1) et les punitions (0 < UNEcalembour < 1). Dans le modèle prl_ewa (Camerer & Ho, 1999), les valeurs faibles et élevées de ?? refléter plus de poids sur les résultats récents et passés, respectivement. Tous les modèles PRL contiennent également un paramètre de température inverse (voir DDT : Descriptions des paramètres pour plus de détails).

Le modèle prl_ewa proposé dans den Ouden et al. (2013) contient un paramètre de taux de décroissance (0 < ?? <). Le poids expérimenté de l'option choisie se dégrade proportionnellement à ??, et 1 est ajouté au poids de chaque essai. Ainsi, une valeur plus élevée de ?? indique une décroissance ou une mise à jour plus lente du poids expérimenté.

Le modèle prl_fictitious contient un paramètre de point d'indécision (0 < ?? < 1). Ce point reflète le degré de préjugé ou de préférence d'un sujet envers une option. Valeurs hautes ou basses pour ?? indiquer une préférence plus ou moins grande pour une option par rapport à l'autre.

Tâche d'aversion au risque

La tâche d'aversion au risque (RA Sokol-Hessner, Camerer, & Phelps, 2013 Sokol-Hessner et al., 2009) est une tâche basée sur la description (Hertwig, Barron, Weber, & Erev, 2004) dans laquelle les résultats possibles de tous les options et leurs probabilités sont fournies aux sujets de chaque essai. Dans la tâche RA, les sujets choisissent soit une option sûre avec un montant garanti, soit une option risquée (c'est-à-dire un pari) avec des gains et/ou des pertes possibles. Les sujets sont invités à choisir l'option qu'ils préfèrent (ou s'ils veulent accepter le pari) à chaque essai. Dans la tâche RA, les sujets effectuent deux régulations cognitives (assister et réglementer) conditions dans une conception intra-sujets : dans la condition de présence, les sujets sont invités à se concentrer sur chaque choix de manière isolée, tandis que dans la condition de régulation, les sujets sont invités à mettre l'accent sur les choix dans leur contexte plus large (voir Sokol-Hessner et al., 2009, pour les détails). Les données publiées dans Sokol-Hessner et al. (2009) peuvent être trouvés en utilisant les chemins suivants (ces chemins sont également disponibles dans les fichiers d'aide du modèle RA) :

path_to_attend_data = fichier.système("extdata/ra_data_attend.txt", package="hBayesDM")

path_to_regulate_data = fichier.système("extdata/ra_data_reappraisal.txt", package="hBayesDM").

ra_prospect (Sokol-Hessner et al., 2009)

Température inverse ( ⁠ 0 < τ < ∞ ⁠ )

ra_noLA (paramètre pas d'aversion aux pertes [LA] pour les tâches qui n'impliquent que des gains)

Température inverse ( ⁠ 0 < τ < ∞ ⁠ )

ra_noRA (pas de paramètre d'aversion au risque [RA] voir, par exemple, Tom et al., 2007)

Température inverse ( ⁠ 0 < τ < ∞ ⁠ )

RA : description des paramètres

Le modèle ra_prospect inclut un paramètre d'aversion aux pertes (0 < ?? < 5), un paramètre d'aversion au risque (0 < ?? < 2), et un paramètre de température inverse ( ⁠ 0 < τ < ∞ ⁠ ).Voir DDT : Description des paramètres pour la température inverse. Les paramètres d'aversion au risque et d'aversion aux pertes dans les modèles RA sont similaires à ceux des modèles IGT. Cependant, dans les modèles RA, ils contrôlent les évaluations des choix possibles à l'étude, par opposition à l'évaluation des résultats une fois qu'ils sont expérimentés (Rangel et al., 2008).

Les modèles ra_noLA et ra_noRA sont imbriqués dans le modèle ra_prospect, avec l'aversion aux pertes ( ra_noLA ) ou l'aversion au risque ( ra_noRA ) définie sur 1.

Tâche de bandit à deux bras

Les tâches ou problèmes de bandits à plusieurs bras se réfèrent généralement à des situations dans lesquelles les joueurs décident quel pari ou quelle machine à sous jouer afin de maximiser le gain à long terme. De nombreuses tâches d'apprentissage par renforcement et des tâches basées sur l'expérience (Hertwig et al., 2004) peuvent être classées comme des problèmes de bandits. Dans une tâche typique de bandit à deux bras, les sujets se voient proposer deux options (stimuli) à chaque essai. La rétroaction est donnée après le choix d'un stimulus. Les sujets sont invités à maximiser les commentaires positifs lorsqu'ils font des choix, et ils sont censés apprendre les contingences des stimuli-résultats de l'expérience essai par essai. Le package hBayesDM contient actuellement un modèle simple pour une tâche de bandit à deux bras :

bandit2arm_delta (Hertwig et al., 2004)

Température inverse (0 < ?? <1)

Bandit à deux bras : description des paramètres

Le modèle bandit2arm_delta utilise la règle Rescorla-Wagner (voir IGT : Descriptions des paramètres) pour mettre à jour la valeur attendue de l'option choisie, ainsi que la règle de choix softmax avec une température inverse (voir DDT : Descriptions des paramètres).

Le jeu Ultimatum (Norm-Training)

Les capacités à comprendre les normes sociales d'un environnement et à faire face de manière adaptative à ces normes sont essentielles au fonctionnement social normal (Gu et al., 2015 Montague & Lohrenz, 2007). Le jeu de l'ultimatum (UG) est une tâche de prise de décision sociale largement utilisée qui examine comment les individus réagissent aux écarts par rapport aux normes sociales et s'adaptent aux normes dans un environnement en évolution.

L'UG implique deux acteurs : un proposant et un répondeur. À chaque essai, le proposant reçoit une somme d'argent à répartir entre les deux joueurs. Après avoir décidé comment diviser l'argent, une offre est faite au répondant. Le répondant peut soit accepter l'offre (et l'argent est partagé comme proposé) soit la rejeter (les deux joueurs ne reçoivent rien). Des études antérieures ont montré que l'offre la plus courante représente environ 50 % du montant total, et que les offres « injustes » (<∼20% du montant total) sont souvent rejetées, même s'il est optimal d'accepter n'importe quelle offre (Güth, Schmittberger, & Schwarze, 1982 Sanfey, 2003 Thaler, 1988). Une étude récente a examiné les substrats informatiques de l'ajustement des normes en utilisant un UG d'entraînement aux normes dans lequel les sujets jouaient le rôle de répondeur dans un environnement changeant les normes (Xiang et al., 2013).

L'UG a été utilisé pour étudier la prise de décision sociale d'individus présentant des lésions ventromédiales préfrontales (Gu et al., 2015 Koenigs et al., 2007) et du cortex insulaire (Gu et al., 2015), ainsi que des patients atteints de lésions schizophrénie (Agay, Kron, Carmel, Mendlovic, & Levkovitz, 2008 Csukly, Polgár, Tombor, Réthelyi, & Kéri, 2011). Le package hBayesDM contient actuellement deux modèles pour l'UG (ou UG norm-training) dans lesquels les sujets jouent le rôle de répondeur :

Température inverse (0 < ?? < 10)

Température inverse (0 < ?? < 10)

Taux d'adaptation aux normes (0 < ?? <1)

UG : Description des paramètres

Le modèle ug_bayes suppose que le sujet (répondeur) se comporte comme un observateur idéal bayésien (Knill & Pouget, 2004), de sorte que l'offre attendue faite par le proposant est mise à jour de façon bayésienne. Ceci contraste avec le modèle ug_delta, qui suppose que le sujet (encore le répondant) met à jour l'offre attendue en utilisant une règle de mise à jour Rescorla-Wagner (delta). Les modèles ug_bayes et ug_delta contiennent tous deux de l'envie (0 < ?? < 20) et à température inverse (0 < ?? < 10 se référer à DDT : descriptions des paramètres pour plus de détails). Le paramètre d'envie reflète la sensibilité à l'erreur de prédiction de la norme (voir ci-dessous pour le modèle ug_bayes), où des valeurs supérieures ou inférieures indiquent une sensibilité plus ou moins grande, respectivement. Dans l'UG, l'erreur de prédiction reflète la différence entre les offres attendues et reçues.

Dans le modèle ug_bayes, l'utilité d'une offre est ajustée par deux erreurs de prédiction de norme : (1) les erreurs de prédiction négatives, multipliées par un paramètre d'envie (0 < ?? < 20), et (2) erreurs de prédiction positives, multipliées par un paramètre de culpabilité (0 < ?? < 10). Valeurs supérieures et inférieures pour l'envie (??) et la culpabilité (??) reflètent une sensibilité plus ou moins grande aux erreurs de prédiction de norme négative et positive, respectivement. Le modèle ug_delta ne comprend que le paramètre d'envie (Gu et al., 2015).


Limites

Psychopy_ext a fait ses débuts publiquement en novembre 2013 et n'a donc pas encore été adopté et largement testé par la communauté. Il est donc difficile de prédire la courbe d'apprentissage du sous-jacent psychopy_ext philosophie et dans quelle mesure elle résonne avec les besoins de la communauté. Par exemple, de nombreux chercheurs sont habitués aux scripts d'expérimentation et d'analyse linéaires, tandis que psychopy_ext repose sur des concepts de programmation basés sur des objets tels que les classes et les fonctions modulaires afin de fournir héritage et flexibilité. Cependant, l'approche orientée objet signifie également que chaque fois que les fonctions nécessaires ne sont pas disponibles directement à partir de psychopy_ext ou ne répondent pas aux besoins de l'utilisateur, ils peuvent être remplacés ou utilisés directement à partir des packages qui sont étendus, souvent (mais pas toujours) sans affecter le reste du workflow.

Par ailleurs, psychopy_ext a été conçu pour améliorer un flux de travail d'un type Psychopy utilisateur. Les chercheurs qui utilisent d'autres packages de génération de stimulus ou même différents langages de programmation (tels que R pour les analyses de données) ne pourront pas bénéficier de psychopy_ext aussi facilement. Une telle limitation est en partie un choix de conception pour fournir des flux de travail qui dépendent du moins d'outils possible. Python a un grand nombre de packages puissants et psychopy_ext s'engage à les promouvoir en faveur de solutions équivalentes dans d'autres langues. Néanmoins, lorsqu'il n'existe pas d'alternative, les utilisateurs peuvent facilement interagir avec leur R (via rpy2 25 ), C/C++ (via le propre de Python ctypes), MATLAB (via pymatlab 26 ou mlab 27 ) et un certain nombre d'autres types de scripts.


FMRI dans le vieillissement en bonne santé

Du point de vue comportemental, on sait que certains adultes sont capables de maintenir leurs capacités cognitives à des niveaux élevés, contrairement à d'autres personnes qui présentent des déclins cognitifs clairs avec l'âge. Il a été émis l'hypothèse que cette variabilité dépend des ressources neurofonctionnelles. Cependant, les mécanismes exacts qui conduisent à des différences aussi importantes ne sont toujours pas clairs (Park et Reuter-Lorenz, 2009).

L'utilisation de la tâche-IRMf dans le vieillissement a révélé un schéma complexe de changements d'activité cérébrale, qui se caractérise à la fois par des diminutions et des augmentations chez les sujets âgés par rapport aux sujets jeunes (Grady, 2012). Dans certains cas, la diversité des résultats dépend de nombreuses variables, telles que les tests cognitifs utilisés et leur niveau de difficulté (Grady et al., 2006). Néanmoins, il existe un consensus relatif selon lequel il existe une augmentation de l'activité cérébrale liée à l'âge dans le cerveau (PFC Turner et Spreng, 2012), tandis que les résultats concernant une activation réduite sont localisés de manière plus hétérogène dans le cerveau.

Dans cette partie, nous passerons en revue certaines de ces principales théories apparues pour tenter d'expliquer les trajectoires des changements cérébraux et leur relation avec la cognition. Il est important de noter que, alors que les vues antérieures ou "plus classiques" visaient à fournir des interprétations significatives d'une variété de phénomènes isolés, tels que l'augmentation ou la diminution de l'activité cérébrale régionale chez les sujets âgés par rapport aux sujets jeunes, des théories plus récentes visent à fournir une interprétation globale et intégrative des changements cérébraux.

Théories classiques dérivées des études Task-fMRI

En général, l'hyperactivation régionale a été interprétée comme une compensation (ou une tentative de compensation), alors qu'un défaut d'activation ou une activation réduite a été typiquement lié à des déficits cognitifs associés au vieillissement. Deux hypothèses principales ont été proposées pour expliquer la nature de ces changements d'activité liés à l'âge : dédifférenciation hypothèse et la compensation hypothèse.

D'une part, le terme dédifférenciation est décrit comme la perte de spécificité fonctionnelle dans les régions cérébrales qui sont engagées lors de l'exécution d'une tâche (Park et al., 2004 Rajah et D𠆞sposito, 2005). En termes neurobiologiques, il a été suggéré que ce schéma de changements est causé par une chaîne de processus qui commence par un déclin de la neuromodulation dopaminergique qui produit des augmentations du bruit neuronal, conduisant à des représentations corticales moins distinctives (Li et al., 2001) .

D'autre part, l'hypothèse de compensation du vieillissement affirme que les personnes âgées sont capables de recruter des niveaux d'activité plus élevés que les sujets jeunes dans certaines zones du cerveau pour compenser des déficits fonctionnels situés ailleurs dans le cerveau. Cette activité accrue est souvent observée dans les régions frontales (Park et Reuter-Lorenz, 2009 Turner et Spreng, 2012). Les premières études suggérant des mécanismes compensatoires sont apparues tôt dans la littérature et utilisaient la TEP lors de la réalisation de tâches visuospatiales (Grady et al., 1994) ou de mémoire épisodique (Cabeza et al., 1997 Madden et al., 1999). Plus tard, ces résultats ont été reproduits avec l'IRMf (Cabeza et al., 2002).

Par ailleurs, les différents schémas de localisation spatiale des mécanismes liés à la compensation ont conduit à la formulation de trois modèles cognitifs principaux :

(1) Le Réduction de l'asymétrie hémisphérique chez les personnes âgées (HAROLD) (Cabeza, 2002) indique que les personnes âgées utilisent un schéma d'activité moins latéralisé par rapport aux sujets jeunes lors de l'exécution d'une tâche, ce qui est compensatoire. Cette latéralisation réduite a été principalement observée dans les zones frontales, lors de l'exécution de tâches de mémoire épisodique et de mémoire de travail (Cabeza et al., 2002 Cabeza, 2004).

(2) Le Hypothèse d'utilisation des circuits neuronaux liée à la compensation (CRUNCH Reuter-Lorenz et Cappell, 2008 Schneider-Garces et al., 2010) défend que, chez les personnes âgées, un recrutement neuronal plus élevé se produit à des niveaux cognitifs qui impliquent généralement une activité cérébrale plus faible chez les sujets plus jeunes. Cet effet a été observé dans le PFC et aussi dans le cortex pariétal, concrètement dans le précuneus et le cingulaire postérieur et à la fois dans les tâches de mémoire épisodique (Spaniol et Grady, 2012) et dans les tâches de mémoire de travail (Mattay et al., 2006 Reuter-Lorenz et Cappell, 2008).

(3) Le Décalage postérieur-antérieur avec le vieillissement (PASA) a été prouvé expérimentalement par Davis et al. , 2008).

Théories globales et intégratives de la fonction cognitive et du vieillissement cérébral

Avec les informations uniques fournies par l'activité IRMf et avec la classification décrite ci-dessus, qui présente les modèles comme exclusifs entre eux, il semble difficile de discerner lequel des modèles proposés explique le mieux les changements cognitifs liés à l'âge.

Plus récemment, une contribution importante à l'interprétation de ces modèles a été apportée par des études multimodales qui intègrent des mesures cérébrales structurelles et fonctionnelles. Par exemple, dans certains cas, il a été rapporté qu'une activité réduite dans les régions liées aux tâches était en corrélation positive avec l'atrophie cérébrale dans les mêmes régions du cerveau (Brassen et al., 2009 Rajah et al., 2011), alors que d'autres études ont rapporté des corrélations entre l'activité fonctionnelle accrue dans le PFC et l'intégrité structurelle préservée du cortex entorhinal et d'autres structures du lobe temporal médian (MTL) (Rosen et al., 2005 Braskie et al., 2009). Compte tenu de cela, certains auteurs ont émis l'hypothèse que si l'augmentation de l'activité dans le PFC peut être déclenchée par l'atrophie de la GM frontale, qui est une caractéristique couramment signalée dans le vieillissement, le rôle compensatoire de cette activité accrue peut dépendre de l'intégrité structurelle préservée des régions distales. principalement dans le MTL (Maillet et Rajah, 2013).

Par conséquent, et principalement grâce aux nouvelles avancées des techniques de neuroimagerie, il a été suggéré que la fonction cognitive du vieillissement est le résultat d'une somme de processus, y compris des mesures cérébrales structurelles et fonctionnelles ainsi que des facteurs externes. À cet égard, la théorie de l'échafaudage du vieillissement et de la cognition (STAC) affirme qu'il existe un processus dans le cerveau vieillissant, appelé échafaudage compensatoire, qui implique l'engagement de ressources neuronales supplémentaires (en termes de réorganisation du réseau) fournissant un support pour préserver la fonction cognitive. face au déclin structurel et fonctionnel (Park et Reuter-Lorenz, 2009). Cette théorie a été récemment révisée afin d'inclure les résultats les plus récents sur le terrain, obtenus principalement à partir d'études longitudinales et interventionnelles. En conséquence, le STAC-r est un modèle conceptuel qui étend le STAC en incorporant des influences au cours de la vie qui améliorent, préservent ou compromettent l'état du cerveau, le potentiel compensatoire et la fonction cognitive au fil du temps (Reuter-Lorenz et Park, 2014).

Dans le même sens, Walhovd et al. (2014) ont proposé une vision de la vulnérabilité du système de la cognition dans le vieillissement. Selon eux, le déclin cognitif associé à l'âge serait le résultat d'une accumulation d'impacts tout au long de la vie qui altère la fonction et la structure du cerveau de manière multidimensionnelle, affectant un large éventail de marqueurs de la neuro-image tels que l'intégrité structurelle, l'activité fonctionnelle et la connectivité, métabolisme du glucose ou dépôt d'amyloïde. Selon ce point de vue, certains systèmes cérébraux particuliers tels que l'hippocampe et les régions postéro-médiales seraient particulièrement vulnérables aux effets du vieillissement, liés à son rôle central en tant que mécanismes sous-tendant la plasticité cérébrale à vie (Fjell et al., 2014).

Enfin, une hypothèse complémentaire, également émergée des résultats d'études longitudinales, est le « maintien du cerveau Cbrain », qui affirme que l'absence de changements dans les marqueurs structurels et fonctionnels du cerveau permettrait à certaines personnes de présenter peu ou pas de troubles cognitifs liés à l'âge. déclin. L'idée conceptuelle de maintenance du cerveau a été motivée par le fait qu'une activité fonctionnelle accrue dans l'AH n'implique pas nécessairement une régulation à la hausse des réseaux fonctionnels au fil du temps. Par conséquent, selon la maintenance, les meilleurs prédicteurs de performances réussies dans le vieillissement seraient la minimisation des changements chimiques, structurels et fonctionnels au fil du temps (Nyberg et al., 2012).


Bonnes ressources pour apprendre la modélisation des données d'IRMf - Psychologie

À la fin de cette section, vous serez en mesure de :

  • Définir l'apprentissage par observation
  • Discuter des étapes du processus de modélisation
  • Expliquer les effets prosociaux et antisociaux de l'apprentissage par observation

Les sections précédentes de ce chapitre se sont concentrées sur le conditionnement classique et opérant, qui sont des formes d'apprentissage associatif. Dans l'apprentissage par observation, nous apprenons en observant les autres, puis en imitant, ou en modélisant, ce qu'ils font ou disent. Les individus exécutant le comportement imité sont appelés modèles. La recherche suggère que cet apprentissage par imitation implique un type spécifique de neurone, appelé neurone miroir (Hickock, 2010 Rizzolatti, Fadiga, Fogassi, & Gallese, 2002 Rizzolatti, Fogassi, & Gallese, 2006).

Les humains et les autres animaux sont capables d'apprentissage par observation. Comme vous le verrez, l'expression « singe voit, singe fait » est vraiment exacte ([link]). On pourrait en dire autant des autres animaux. Par exemple, dans une étude sur l'apprentissage social chez les chimpanzés, des chercheurs ont donné des boîtes de jus avec des pailles à deux groupes de chimpanzés captifs. Le premier groupe a plongé la paille dans la boîte à jus, puis a sucé la petite quantité de jus au bout de la paille. Le deuxième groupe aspirait directement la paille, obtenant ainsi beaucoup plus de jus. Lorsque le premier groupe, les « plongeurs », a observé le deuxième groupe, « les ventouses », que pensez-vous qu'il s'est passé ? Tous les « plongeurs » du premier groupe sont passés à aspirer directement les pailles. En observant simplement les autres chimpanzés et en modélisant leur comportement, ils ont appris qu'il s'agissait d'une méthode plus efficace pour obtenir du jus (Yamamoto, Humle et Tanaka, 2013).

Ce singe araignée a appris à boire de l'eau dans une bouteille en plastique en voyant le comportement modélisé par un humain. (crédit: U.S. Air Force, Senior Airman Kasey Close)

L'imitation est beaucoup plus évidente chez l'homme, mais l'imitation est-elle vraiment la forme la plus sincère de flatterie ? Considérez l'expérience de Claire en matière d'apprentissage par observation. Le fils de Claire, Jay, âgé de neuf ans, avait des ennuis à l'école et était provocant à la maison. Claire craignait que Jay ne finisse comme ses frères, dont deux étaient en prison. Un jour, après une énième mauvaise journée à l'école et une autre note négative de la prof, Claire, à bout de nerfs, bat son fils avec une ceinture pour l'amener à bien se tenir. Plus tard dans la nuit, alors qu'elle mettait ses enfants au lit, Claire a vu sa fille de quatre ans, Anna, prendre une ceinture à son ours en peluche et la fouetter. Claire était horrifiée, réalisant qu'Anna imitait sa mère. C'est alors que Claire a su qu'elle voulait discipliner ses enfants d'une manière différente.

Comme Tolman, dont les expériences avec des rats suggéraient une composante cognitive à l'apprentissage, les idées du psychologue Albert Bandura sur l'apprentissage étaient différentes de celles des comportementalistes stricts. Bandura et d'autres chercheurs ont proposé une forme de béhaviorisme appelée théorie de l'apprentissage social, qui prend en compte les processus cognitifs. Selon Bandura, le béhaviorisme pur ne pourrait pas expliquer pourquoi l'apprentissage peut avoir lieu en l'absence de renforcement externe. Il a estimé que les états mentaux internes doivent également avoir un rôle dans l'apprentissage et que l'apprentissage par observation implique bien plus que l'imitation. Par imitation, une personne copie simplement ce que fait le modèle. L'apprentissage par observation est beaucoup plus complexe. Selon Lefrançois (2012), l'apprentissage par observation peut se produire de plusieurs manières :
Vous apprenez une nouvelle réponse. Après avoir vu votre collègue se faire gronder par votre patron pour être arrivé en retard, vous commencez à quitter la maison 10 minutes plus tôt pour ne pas être en retard.
Vous choisissez d'imiter ou non le modèle en fonction de ce que vous avez vu arriver au modèle.Vous vous souvenez de Julian et de son père ? Lorsqu'il apprend à surfer, Julian peut observer comment son père apparaît avec succès sur sa planche de surf, puis tenter de faire la même chose. D'un autre côté, Julian pourrait apprendre à ne pas toucher un poêle chaud après avoir vu son père se brûler sur un poêle.

Vous apprenez une règle générale que vous pouvez appliquer à d'autres situations.

Bandura a identifié trois types de modèles : vivants, verbaux et symboliques. Un modèle vivant montre un comportement en personne, comme lorsque Ben s'est levé sur sa planche de surf pour que Julian puisse voir comment il s'y prend. Un modèle d'instruction verbale n'exécute pas le comportement, mais explique ou décrit le comportement, comme lorsqu'un entraîneur de football dit à ses jeunes joueurs de frapper le ballon avec le côté du pied, et non avec l'orteil. Un modèle symbolique peut être des personnages fictifs ou de vraies personnes qui manifestent des comportements dans des livres, des films, des émissions de télévision, des jeux vidéo ou des sources Internet ([link]).

(a) Les étudiants en yoga apprennent par observation pendant que leur instructeur de yoga démontre la position et le mouvement corrects pour ses étudiants (modèle vivant). (b) Les modèles n'ont pas besoin d'être présents pour que l'apprentissage se produise : grâce à la modélisation symbolique, cet enfant peut apprendre un comportement en regardant quelqu'un le démontrer à la télévision. (crédit a : modification de l'œuvre par Tony Cecala crédit b : modification de l'œuvre par Andrew Hyde)

Lien vers l'apprentissage

L'apprentissage latent et la modélisation sont utilisés tout le temps dans le monde du marketing et de la publicité. Cette publicité a été diffusée pendant des mois dans les régions de New York, du New Jersey et du Connecticut. Derek Jeter, un joueur de baseball primé des Yankees de New York, fait la publicité d'une Ford. La publicité a été diffusée dans une partie du pays où Jeter est un athlète incroyablement connu. Il est riche et considéré comme très loyal et beau. Quel message les annonceurs envoient-ils en le faisant figurer dans l'annonce ? Quelle est son efficacité selon vous ?


Résultats

Applicabilité du feedback aux auto-évaluations

Les cotes d'applicabilité étaient affectées par une valence par interaction de groupe [χ 2 (4) = 106,19, p < 0,001], voir les tableaux supplémentaires en ligne S4 et S5 pour les comparaisons de modèles et les paramètres. Conformément à notre hypothèse, les patients BPD ont évalué l'intermédiaire (b = -0,40, c.-à-d. = 0,16, t = −2,50) et surtout la rétroaction négative (b = −0,53, s.e. = 0,16, t = −3,36) comme plus applicable par rapport à HC, voir Fig. 1une. Les commentaires positifs ont été jugés moins applicables par BPD par rapport à HC (b = 1,07, s.e. = 0,16, t = 6,74). Par rapport à LSE, BPD a également évalué la rétroaction négative comme plus applicable (b = -0,43, s.e. = 0,17, t = −2.43) et une rétroaction positive comme moins applicable (b = 0,63, c.-à-d. = 0,18, t = 3,61) mais ne différaient pas dans l'applicabilité de la rétroaction intermédiaire (b = -0,15, c.-à-d. = 0,18, t = -0,83). De plus, en utilisant les cotes de valence (c'est-à-dire le degré de négativité ou de positivité), nous avons constaté que les trois groupes ont évalué la valence des mots d'une manière similaire [χ 2 (2) = 2,4, p = 0,307], les mots négatifs et positifs étant plus émotionnels que les mots intermédiaires, voir les tableaux supplémentaires en ligne S2 et S3. Cependant, il y avait une tendance à un effet d'interaction entre la valence et le groupe [χ 2 (4) = 8,42, p = 0,077], ce qui pourrait indiquer que la rétroaction négative a été évaluée légèrement moins négative par BPD que HC (b = -0,43, s.e. = 0,16, t = −2,69), voir également le tableau supplémentaire S3 en ligne pour les paramètres du modèle.

Fig. 1. (une) Moyennes des cotes d'applicabilité par groupe après rétroaction négative, intermédiaire et positive (les barres d'erreur indiquent des intervalles de confiance à 95 %). (b) Illustration des notes d'humeur par groupe après feedback négatif, intermédiaire et positif au niveau moyen d'applicabilité du feedback. (c) Illustration des notes d'humeur moyennes par groupe après feedback négatif, intermédiaire et positif pour feedback pas à très applicable. L'applicabilité a un plus grand impact sur l'humeur pendant les commentaires négatifs et intermédiaires que les commentaires positifs. L'applicabilité a un plus grand impact sur l'humeur de HC par rapport à BPD. L'évaluation de l'humeur est rééchelonnée sur les scores 1 à 4 à des fins d'affichage.

Réponses affectives

L'humeur était affectée par le groupe [χ 2 (2) = 11,4, p = 0,003] avec BPD rapportant une humeur plus mauvaise que HC dans l'ensemble (b = 0,81, s.e. = 0,19, t = 4,28), voir le tableau 2 et le tableau supplémentaire S6 en ligne. Valence a modéré l'effet de groupe [χ 2 (4) = 39,89, p < 0,001]. BPD a signalé une humeur plus mauvaise après négative (b = -0,14, c.-à-d. = 0,15, t = -0,95) et rétroaction intermédiaire (b = -0,81, s.e. = 0,19, t = 4,28) et humeur similaire après rétroaction positive (b = -0,49, c.-à-d. = 0,13, t = −3,70) par rapport à HC, voir Fig. 1b. Comparé au LSE, le BPD a rapporté une humeur égale après intermédiaire (b = 0,19, c.-à-d. = 0,21, t = 0,91) et rétroaction positive (b = 0,11, s.e. = 0,15, t = 0,75) mais une meilleure humeur après une rétroaction négative (b = −0,50, c.-à-d. = 0,16, t = −3.10).

Tableau 2. Paramètres d'effet du modèle prédisant les évaluations de l'humeur par catégorie de valence (intermédiaire = référence), groupe (BPD = référence) et applicabilité de la rétroaction et des interactions bidirectionnelles

Niveau de signification (***<0.001, **<0.01, *<0.05, ^<0.10) basé sur le test χ 2 des comparaisons de modèles, voir le tableau supplémentaire en ligne S6.

L'applicabilité a également modéré l'effet de groupe [χ 2 (4) = 14,8, p = 0,005]. Les cotes d'humeur BPD étaient moins affectées par l'applicabilité par rapport à HC (b = 0,07, s.e. = 0,03 t = 2,27), mais ne diffère pas à cet égard de LSE (b = 0,01, s.e. = 0,03 t = 0,23), voir Fig. 1c. Il n'y avait pas d'interaction à trois voies de la valence par applicabilité par groupe [χ 2 (4) = 8,0, p = 0.090].

Réponses neuronales

Les groupes différaient dans les corrélats neuronaux de la valence de rétroaction, voir le tableau 3 pour les clusters et les voxels de pic Note de bas de page † Note de bas de page 1 . En réponse à une rétroaction négative par rapport à une rétroaction positive, HC a montré une activation précuneus gauche plus forte, tandis que BPD a montré une activation précuneus relativement faible et égale pour la rétroaction négative et positive, voir Fig. 2. Dans ce cluster précuneus, LSE a montré une activation relativement élevée et égale pour rétroaction négative et positive, bien que non significativement différente de la BPD, voir Fig. 2. En réponse à une rétroaction positive par rapport à une rétroaction négative, HC a montré une activation TPJ antérieure droite plus forte, tandis que BPD a montré le schéma inverse, avec une activation TPJ plus forte pour une rétroaction négative par rapport à commentaire positif. Comparé au LSE, le BPD a montré une activation du précuneus gauche plus forte pendant la rétroaction négative par rapport à la rétroaction positive, voir le tableau 3 et la figure 2. Cependant, ce cluster dans le précuneus gauche ne chevauchait pas le cluster trouvé par rapport à HC. Les groupes ne différaient pas dans les corrélats neuronaux d'applicabilité. L'interaction à trois voies de l'applicabilité par la valence négative du DBP par rapport à l'HC dans le cortex moteur, le lobule pariétal supérieur et le lobule pariétal inférieur est probablement attribuable aux mouvements de pression sur les boutons (Mars et al., Référence Mars, Jbabdi, Sallet, O'Reilly, Croxson, Olivier, Noonan, Bergmann, Mitchell, Baxter, Behrens, Johansen-Berg, Tomassini, Miller et Rushworth 2011).

Fig. 2. Gauche : Amas d'activation neurale indiquant HC > BPD (bleu) et BPD > LSE (orange). À droite : valeurs de contraste moyennes pour les clusters HC > BPD (clusters bleus) par groupe et contraste.

Tableau 3. Corrélats neuronaux sélectionnés pour les comparaisons de groupe sur les contrastes de valence et l'applicabilité de la rétroaction a , cluster corrigé Z = 2,3, grappe p < 0.05

a Les contrastes sans clusters supérieurs au seuil ne sont pas signalés dans ce tableau.

Résultats exploratoires

À des fins exploratoires, nous avons vérifié si LSE différait dans les auto-évaluations de HC en réexécutant le modèle avec des évaluations d'applicabilité comme résultat mais avec HC défini comme groupe de référence au lieu de BPD. Nous avons constaté que malgré une faible estime de soi, les LSE n'ont pas signalé que les commentaires négatifs leur étaient plus applicables (b = 0,11, s.e. = 0,17, t = 0,65), la rétroaction intermédiaire non plus (b = 0,26, c.-à-d. = 0,17, t = 1,52). Cependant, ils ont signalé que les commentaires positifs leur sont moins applicables (b = -0,44, c.-à-d. = 0,17, t = −2.64).

Confond

Pour contrôler les effets potentiels du fait que le participant croyait ou non au paradigme de la SF (oui/non), au statut médicamenteux (marche/arrêt) et à la comorbidité actuelle de la dépression, nous avons pris cela en compte dans des analyses affectives et neurales supplémentaires. Ces facteurs de confusion n'ont eu aucun effet sur les résultats affectifs.

La latéralité a également été prise en compte dans les analyses neuronales. L'activation du précuneus plus forte dans HC par rapport à BPD trouvée après une rétroaction négative par rapport à une rétroaction positive n'a pas survécu au seuil de signification après la prise en compte de la dépression actuelle ou de la prédominance.


Introduction

L'avènement de l'IRMf a révolutionné la psychologie en permettant, pour la première fois, la cartographie non invasive de la cognition humaine. Malgré ces progrès, les analyses IRMf traditionnelles sont limitées dans la mesure où elles ne peuvent, pour la plupart, que constater l'implication d'un territoire dans une tâche mais pas sa précision rôle dans cette tâche. Récemment, des méthodes d'IRMf basées sur des modèles ont été développées pour surmonter cette limitation en utilisant des modèles informatiques de comportement pour faire la lumière sur les variables latentes des modèles (telles que les erreurs de prédiction) et leur mappage aux structures neuronales. Cette approche a conduit à des informations importantes sur les algorithmes utilisés par le cerveau et a été particulièrement efficace pour comprendre la base neuronale de l'apprentissage par renforcement (par exemple [1�]).

Dans une analyse IRMf basée sur un modèle typique, on spécifie d'abord un modèle qui décrit les processus cognitifs hypothétiques sous-jacents au comportement en question. Typiquement, ces modèles ont un ou plusieurs paramètres libres (par exemple le taux d'apprentissage dans un modèle d'apprentissage par essais et erreurs). Ces paramètres doivent être définis pour spécifier complètement le modèle, ce qui est généralement fait en les adaptant au comportement observé [14]. Par exemple, étant donné le modèle, on peut trouver des taux d'apprentissage spécifiques à une matière qui expliquent le mieux les choix comportementaux de la matière. Le modèle entièrement spécifié est ensuite utilisé pour générer des mesures essai par essai des variables latentes dans le modèle (par exemple, les valeurs d'action et les erreurs de prédiction) qui peuvent être régressées par rapport aux données neuronales afin de trouver des zones dont l'activité est en corrélation avec ces variables dans le cerveau .

Une faiblesse potentielle de cette approche est l'exigence d'ajustement du modèle. Dans de nombreux cas, les données sont insuffisantes pour identifier avec précision les valeurs des paramètres. Cela peut être dû au nombre limité d'essais, aux interactions entre les paramètres qui les rendent difficiles à démêler [14] ou au manque de comportement pouvant être utilisé pour le processus d'ajustement (par exemple, dans certaines expériences de conditionnement pavlovien). Ainsi, une question clé est la suivante : quelle est l'importance de l'étape d'ajustement du modèle ? En d'autres termes, dans quelle mesure l'IRMf basée sur un modèle est-elle sensible aux erreurs d'estimation des paramètres ? La réponse à cette question déterminera à quel point nous devons travailler dur pour obtenir les meilleurs ajustements de paramètres possibles, et affectera non seulement la façon dont nous analysons les données, mais aussi la façon dont nous concevons les expériences en premier lieu.

Nous montrons ici comment cette question peut être abordée, en analysant la sensibilité de l'IRMf basée sur un modèle au paramètre de taux d'apprentissage dans des tâches d'apprentissage par renforcement simples. Nous fournissons des limites analytiques sur la sensibilité de l'analyse basée sur un modèle aux erreurs d'estimation du taux d'apprentissage, et montrons par simulation comment les signaux d'erreur de valeur et de prédiction générés avec un taux d'apprentissage seraient interprétés par une analyse basée sur un modèle utilisant le mauvais apprentissage. taux. Étonnamment, nous constatons que les résultats de l'IRMf basée sur un modèle sont remarquablement robustes aux réglages du taux d'apprentissage dans la mesure où, dans certaines situations, définir les paramètres du modèle aussi loin que possible de leur valeur réelle affecte à peine les résultats. Cette prédiction théorique de la robustesse est confirmée par l'analyse des données d'IRMf de deux expériences récentes.

Nos résultats sont à la fois une bonne et une mauvaise nouvelle pour l'IRMf basée sur un modèle. La bonne nouvelle est qu'il est robuste, donc les erreurs dans le taux d'apprentissage ne changeront pas considérablement les résultats des études cherchant à localiser un signal particulier. La mauvaise nouvelle, cependant, est que l'IRMf basée sur un modèle est insensible aux différences de paramètres, ce qui signifie qu'il faut faire preuve d'une extrême prudence lorsqu'on essaie de déterminer le rôle informatique d'une aire neurale (par exemple, lorsqu'on demande si une aire cérébrale correspond à un signal de résultat ou un signal d'erreur de prédiction). Dans la discussion, nous considérons dans quelle mesure ce résultat se généralise à d'autres paramètres et à d'autres modèles et proposons des suggestions pour diagnostiquer la sensibilité des paramètres dans d'autres modèles.


Introduction

La psychologie expérimentale s'efforce d'expliquer le comportement humain. Cela implique d'être capable d'expliquer les mécanismes causaux sous-jacents du comportement ainsi que de prédire le comportement futur (Kaplan, 1973 Shmueli, 2010 Yarkoni & Westfall, 2016). En pratique, cependant, les méthodes traditionnelles de la psychologie expérimentale se sont principalement concentrées sur le test des explications causales. Ce n'est que ces dernières années que la recherche en psychologie a mis l'accent sur la prédiction (Forster, 2002 Shmueli & Koppius, 2011). Dans ce virage prédictif, les méthodes prédictives basées sur l'apprentissage automatique sont rapidement apparues comme des moyens viables pour prédire les observations futures aussi précisément que possible, c'est-à-dire pour minimiser les erreurs de prédiction (Breiman, 2001b Song, Mitnitski, Cox, & Rockwood, 2004).

La nature multivariée et l'accent mis sur l'erreur de prédiction (plutôt que sur la « qualité de l'ajustement ») confèrent à ces méthodes une plus grande sensibilité et une plus grande puissance prédictive future par rapport aux méthodes traditionnelles. En psychologie expérimentale, ils sont utilisés avec succès pour prédire une variable d'intérêt (par exemple, la condition expérimentale A par rapport à la condition expérimentale B) à partir des modèles de comportement d'un individu engagé dans une tâche ou une activité en minimisant l'erreur de prédiction. Les applications actuelles vont de la prédiction de la reconnaissance de l'action faciale des micro-expressions faciales à la classification de l'intention à partir des différences dans la cinématique du mouvement (par exemple, Ansuini et al., 2015 Cavallo, Koul, Ansuini, Capozzi, & Becchio, 2016 Haynes et al., 2007 Srinivasan, Golomb et Martinez, 2016). Par exemple, ils ont été utilisés pour décoder l'intention de saisir un objet (verser ou boire) à partir de subtiles différences dans les schémas de mouvements de la main (Cavallo et al., 2016). De plus, les modèles prédictifs basés sur l'apprentissage automatique peuvent être utilisés non seulement pour la prédiction de groupe (patients contre témoins), mais également pour la prédiction individuelle. Par conséquent, ces modèles se prêtent à un potentiel outil de diagnostic dans les milieux cliniques (Anzulewicz, Sobota, & Delafield-Butt, 2016 Hahn, Nierenberg, & Whitfield-Gabrieli, 2017 Huys, Maia, & Frank, 2016).

Cependant, alors que les atouts des approches prédictives sont de plus en plus connus, les méthodes prédictives basées sur l'apprentissage automatique manquent toujours d'un cadre logiciel établi et facile à utiliser. De nombreuses implémentations existantes ne fournissent aucune directive ou des directives limitées, constituées de petits extraits de code ou d'ensembles de packages. De plus, l'utilisation de packages existants nécessite souvent une expertise de programmation avancée. Pour surmonter ces lacunes, l'objectif principal du présent document était de créer une boîte à outils conviviale, « PredPsych", doté de multiples fonctionnalités pour des analyses multivariées de données comportementales quantitatives basées sur des modèles d'apprentissage automatique.

Dans ce qui suit, nous présentons le cadre de PredPsych via l'analyse d'un ensemble de données de capture de mouvement multi-sujets récemment publié (Ansuini et al., 2015). Tout d'abord, nous fournissons une brève description de l'ensemble de données et décrivons comment installer et exécuter PredPsych. Ensuite, nous discutons de cinq questions de recherche qui peuvent être abordées avec le cadre d'apprentissage automatique mis en œuvre dans PredPsych. Nous fournissons des illustrations guidées sur la façon de répondre à ces questions de recherche en utilisant PredPsych ainsi que des lignes directrices pour les meilleures techniques à utiliser (pour un aperçu, voir Fig. 1) et des raisons de prudence. Parce que les atouts des approches prédictives ont été récemment discutés ailleurs (Breiman, 2001b Shmueli, 2010), nous ne les traitons que brièvement ici.

Vue générale de PredPsych les fonctions. Un aperçu des questions de recherche qui peuvent être abordées en utilisant PredPsych et les techniques correspondantes


Foire aux questions (FAQ) au Dr Ahn

Je cherche à créer un laboratoire « heureux » où les membres du laboratoire (y compris l'IP) se respectent, sentent qu'ils grandissent intellectuellement, bénéficient d'un excellent soutien pour la recherche et génèrent des résultats de recherche qui les rendront compétitifs pour les prochaines étapes de leur carrière.

Construire un tel environnement et une telle culture est une tâche très difficile, surtout parce que chaque personne vient d'horizons différents et a des attentes et des normes différentes. Mais j'essaie d'y parvenir en (1) favorisant la communication au sein du laboratoire, (2) en recrutant des personnes efficaces en équipe et partageant des visions similaires, (3) en adaptant individuellement la formation en fonction des forces et des intérêts de chaque membre, et ( 4) obtenir des fonds de recherche suffisants.


Voir la vidéo: Introduction à la modélisation des données (Janvier 2022).