About: Une architecture logicielle pour aider un agent apprenant par renforcement   Goto Sponge  NotDistinct  Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

AttributesValues
type
Thesis advisor
Author
alternative label
  • An architecture for helping a reinforcement learning agent
dc:subject
  • Apprentissage automatique
  • Thèses et écrits académiques
  • Logiciels -- Développement
  • Markov, Processus de
  • Intelligence artificielle -- Applications en éducation
  • Renforcement (psychologie)
  • Systèmes adaptatifs (technologie)
preferred label
  • Une architecture logicielle pour aider un agent apprenant par renforcement
Language
Subject
dc:title
  • Une architecture logicielle pour aider un agent apprenant par renforcement
Degree granting institution
note
  • Cette thèse s’inscrit dans le cadre de l’apprentissage par renforcement. L’un des principaux avantages est qu’il ne nécessite pas de connaître explicitement le comportement attendu. Durant son apprentissage, l’agent perçoit des états, reçoit un ensemble de retours et sélectionne des actions. Il adapte son comportement en optimisant la quantité de retour. Néanmoins, le temps de calcul nécessaire peut vite être prohibitif. La nécessité d’explorer son environnement en est la principale raison. Notre approche consiste à utiliser des connaissances externes pour « guider » l’agent dans son exploration. Ces connaissances constituent une aide pouvant s’exprimer sous forme de trajectoires formant une base de connaissances. Elles limitent l’exploration de l’environnement tout en permettant d’acquérir un comportement de bonne qualité. Aider un agent n’implique pas de connaître une politique, même partielle, ni d’avoir la même perception que l’agent. L’architecture critique-critique a été conçue pour répondre à cette problématique. Elle combine un algorithme d’apprentissage par renforcement standard avec une aide exprimée sous forme de potentiels, lesquels associent une valeur à chaque transition des trajectoires. L’estimation de la valeur par l’agent et le potentiel de l’aide sont combinés au cours de l’apprentissage. La variation de cette combinaison permet de remettre en cause l’aide tout en garantissant une politique optimale ou proche rapidement. Il est montré que l’algorithme proposé converge dans certaines conditions. De plus, des travaux empiriques montrent que l’agent est capable de tirer profit d’une aide même en dehors de ces conditions.
  • This thesis deals with reinforcement learning. One of the main advantage of this learning is to not require to know explicitely the expected behavior. During its learning, the agent percieves states, gets a set of rewards and selects actions to carry out. The agent fits its behavior by optimizing the amount of rewards. Nevertheless, the computing time required quickly becomes prohibitive. This is mainly due to the agent’s need of exploring its environment. The approach considered here consists in using external knowledge to “guide” the agent during its exploration. This knowledge constitutes an help which can, for example, be expressed by trajectories that set up a knowledge database. These trajectories are used to limit the exploration of the environment while allowing the agent to build a good quality behavior. Helping an agent does neither involve knowing the actions choose in all states, nor having the same perceptions as the agent. The critic-critic architecture was devised to fulfill to this problematic. It combines a standard reinforcement learning algorithm with an help given through potentials. The potentials assiociate a value to each transition of the trajectories. The value function estimation by the agent and the potential of the help are combined during the training. Fitting this combine dynamically makes it possible to throw assistance into question while guaranteing an optimal or almost optimal policy quickly. It is formally proved that the proposed algorithm converges under certain conditions. Moreover, empirical work show that the agent is able to benefit from an help without these conditions.
dc:type
  • Text
http://iflastandar...bd/elements/P1001
rdaw:P10219
  • 2008
has content type
is primary topic of
is rdam:P30135 of
Faceted Search & Find service v1.13.91 as of Aug 16 2018


Alternative Linked Data Documents: ODE     Content Formats:       RDF       ODATA       Microdata      About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data]
OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software