ISIR - Institut des Systèmes Intelligents et de Robotique

A voir également

Short Bio
Publications
Short bio

Short bio

Title : Doctorant.e
No longer in the unit

Sujet de thèse: Modélisation de la variabilité de l'apprentissage par renforcement chez le rat

Encadrants: Benoît Girard et Mehdi Khamassi

Résumé: L'apprentissage par renforcement, à l'intersection entre psychologie comportementale, neurosciences et machine learning, est la capacité d'un système intelligent à apprendre la valeur d'un stimulus (conditionement pavlovien) ou d'une action (conditionnement instrumental) à partir de signaux simples et discrets de l'environnement sous forme de récompense ou de punition. Chez les Mammifères, ce système d'apprentissage reposerait essentiellement sur le système dopaminergique qui signalerait les erreurs de prédiction nécessaires à cet apprentissage. L'objectif de cette thèse est d'étudier la variabilité de ce système au niveau intra- et inter-individuel en se basant sur la modélisation computationnelle de données expérimentales. Au niveau intra-individuel, j'étudie la variabilité des paramètres d'apprentissage, en établissant dans un premier temps que la dopamine fixe le niveau d'exploration d'un individu et en montrant ensuite que l'amélioration sur le long terme de la performance dans une tâche d'apprentissage peut s'expliquer par une régulation de ces paramètres. Au niveau inter-individuel, je poursuis les travaux de Florian Lesaint sur la modélisation des comportements sign-trackers (ST) et goal-trackers (GT). Dans le cadre du conditionnement pavlovien, lors de la présentation du stimulus prédictif, les individus ST sont fortement motivés par ce stimulus et cherchent à interagir avec lui, en le mordillant par exemple, tandis que les individus GT se rendent directement vers le lieu où la récompense sera livrée. Un modèle rendant compte de nombreuses observations comportementales mais aussi pharmacologiques et neurologiques relatives à cette distinction a déjà été proposé par un ancien doctorant de l'équipe, Florian Lesaint. Ce modèle repose sur la collaboration plus ou moins équilibrée entre deux systèmes d'apprentissage par renforcement "model-based" et "model-free" dont les contributions relatives au comportement final déterminent son caractère ST ou GT et avait donné lieu à des prédictions dont la vérification constitue un objectif de cette thèse.

Formation:

2009-2011: Classes préparatoires BCPST au lycée Saint-Louis, Paris
2011-2014: AgroParisTech
2013-2014: M2 AIV
2014-2015: M2 Cogmaster

Institut des Systèmes Intelligents
et de Robotique

Navigation de la rubrique

Navigation secondaire

Partenariats

Rechercher

Fil d'arianne

François CINOTTI

A voir également

Short bio

Institut des Systèmes Intelligentset de Robotique

Navigation de la rubrique

Navigation secondaire

Partenariats

Rechercher

Fil d'arianne

François CINOTTI

A voir également

Short bio

Institut des Systèmes Intelligents
et de Robotique