Aprenentatge per Reforç i No Supervisat

Esteu aquí

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
CS
Aquest curs cobreix dos àrees importants de l'aprenentatge automàtic: l'aprenentatge no supervisat i l'aprenentatge per reforç. L'aprenentatge no supervisat és un tipus d'aprenentatge automàtic en què l'algorisme aprèn patrons i estructures a partir de dades no etiquetades, mentre que l'aprenentatge per reforç és un tipus d'aprenentatge automàtic en què l'algorisme aprèn a través de recompenses o càstigs.

El curs començarà amb una introducció als conceptes i algorismes fonamentals de l'aprenentatge no supervisat profund, com ara els autocodificadors, les xarxes adversàries o de difusio. Després, el curs passarà a l'aprenentatge per reforç, cobrint conceptes com ara els processos de decisió de Markov, el Q-learning i els mètodes de gradient de política. El curs també explorarà les últimes investigacions en aquests camps, incloent-hi l'aprenentatge per reforç profund i l'aprenentatge profund no supervisat.

Al final del curs, els estudiants tindran una base sòlida en l'aprenentatge no supervisat i per reforç, i seran capaços d'aplicar aquestes tècniques a problemes del món real.

Professorat

Responsable

  • Javier Béjar Alonso ( )
  • Mario Martín Muñoz ( )

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6

Competències

Competències Transversals

Transversals

  • CT6 [Avaluable] - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.

Bàsiques

  • CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia

Competències Tècniques

Específiques

  • CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.

Competències Tècniques Generals

Genèriques

  • CG2 - Utilitzar els coneixements fonamentals i metodologies de treball sòlides adquirits durant els estudis per adaptar-se als nous escenaris tecnològics de el futur.
  • CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.

Objectius

  1. Conèixer quins tipus de problemes es poden modelitzar com un problema d'aprenentatge per reforç i identificar les tècniques que es poden aplicar per resoldre-les
    Competències relacionades: CG2, CT6, CE18,
  2. Entendre la necessitat, fonaments i particularitats de l'aprenentatge de comportaments i les seves diferències respecte a l'aprenentatge automàtic de classificació i no-supervisat.
    Competències relacionades: CG2, CE18,
  3. Conèixer els algorismes més importants i estat de l'art en l'àrea d'aprenentatge per reforçament
    Competències relacionades: CG4, CE18,
  4. Saber formalitzar computacionalment un problema del món real com a aprenentatge per reforçament i saber implementar en els entorns més actuals els algoritmes d'aprenentatge que els resolin
    Competències relacionades: CG2, CG4, CT6, CE18,
  5. Coneixer els problemes que es poden modelitzar amb algoritmes no supervisats produnds
    Competències relacionades: CG2, CT6, CE18,
  6. Entendre les particularitats dels algoritmes no supervisats profunds
    Competències relacionades: CG4, CT6, CE18,
  7. Coneixer els algoritmes mes importants i l'estat de l'art del aprenentatge no supervisat profund
    Competències relacionades: CG2, CT6, CB5, CE18,
  8. Saber implementar i aplicar a un problema algoritmes d'aprenentatge profund fent servir el entorn mes actuals
    Competències relacionades: CG2, CT6, CB5, CE18,

Continguts

  1. Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç
    Intuïció, motivació i definició del marc de l'aprenentatge per reforçament (RL). Elements clau en RL.
  2. Trobant polítiques òptimes mitjançant la programació dinàmica
    Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.
  3. Introducció als enfocaments sense models del món.
    Algorismes bàsics per a l'aprenentatge de reforç: Montecarlo, Q-learning, Sarsa, TD (lambda). La necessitat d'exploració. Diferències entre els mètodes On-policy i Off-policy.
  4. Aproximació de funcions en aprenentatge per reforçament
    La necessitat de l'aproximació de funcions i mètodes incrementals en RL. L'aproximació del descens del gradient. RL amb aproximació de funció lineal. La triada mortal per a l'aproximació de funcions en RL. Mètodes per lots i xarxes neuronals per a l'aproximació de funcions.
  5. Aprenentatge per reforç profund (DRL)
    Introducció de DL a RL. Com tractar la mortal tríada amb l'algorisme DQN. Aplicació de DQN al cas dels jocs Atari. Evolucions de l'algorisme DQN: Double DQN, Prioritized Experience Replay, aprenentatge en múltiples passos i funcions de valor distribuïdes. Rainbow: l'algoritme d'última generació per un espai d'acció discret.
  6. Mètodes del gradient en la política
    Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.
  7. Temes avançats: Com tractar el problema del reforç espars
    El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).
  8. Temes avançats: Aprenentatge de reforç en el marc multi-agent
    Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.
  9. Introducció: L'aprenentatge no supervisat profund
    Introducció a la necessitat del aprenentatge no supervisat profund i les seves applicacions
  10. Models autoregressius
    Introducció a l'aprenentatge de distribucions de probabilitat definides como distribucions autoregresives i principals models
  11. Fluxes normalitzants
    Introducció als fluxes normalizants per a l'aprenentage de distribucions de probabilitat
  12. Models de variables latents
    Introducció als models basats en variables latents i als autocodificadors variacionals
  13. Xarxes adversàries generatives
    Introduccio a les xarxes adversàries generatives, generació condicionada i sense condicionar, separació d'atributs
  14. Xarxes de difusió
    Introducció a models basats en difusió de soroll, xarxes per eliminació de soroll, condicionament, generació multimodal
  15. Aprenentatge per autosupervisió
    Introducció al aprenentatge per autosupervisión pel entrenament de xarxes generadores de característiques, mètodes contrastius i no contrastius, enmascarament

Activitats

Activitat Acte avaluatiu


Introducció: L'aprenentatge de comportaments en agents i descripció dels principals elements en l'aprenentatge de reforç



Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Trobant polítiques òptimes mitjançant la programació dinàmica

Com aprendre un comportament amb coneixement complet del model del món: solució algebraica, avaluació iterada de polítiques i avaluació iterada de valors.

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Introducció als enfocaments sense models. Monte-Carlo, Q-learning, Sarsa, TD (lambda)

Desenvolupament del tema corresponent de l'assignatura

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Aproximació de funciones en RL



Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Aprenentatge per reforç profund



Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Mètodes del gradient en la política

Què fer en espais d'acció continus. Com les polítiques probabilístiques permeten aplicar el mètode de gradient directament a la xarxa de polítiques. L'algoritme REINFORCE. Els algoritmes Actor-Critic. Algorismes d'última generació en espais d'acció continus: DDPG, TD3 i SAC.

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Temes avançats: Com tractar el problema del reforç espars

El problema de la recompensa esparsa. Introducció a tècniques avançades d'exploració: curiositat i empoderament en RL. Introducció a l'aprenentatge curricular per facilitar l'aprenentatge de l'objectiu. RL jeràrquic per aprendre tasques complexes. L'aprenentatge de les funcions de valor universals i Hindsight Experience Replay (HER).

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Temes avançats: Aprenentatge de reforç en el marc multi-agent

Aprenentatge de conductes en un entorn on actuen diversos agents. Aprenentatge de conductes cooperatives, Aprenentatge de conductes competitives i casos mixtos. Algorismes d'última generació. El cas especial dels jocs: el cas AlfaGo i l'extensió a Alfa-Zero.

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
9h

Control de la part d'aprenentatge per reforçament


Objectius: 3 4 2 1
Setmana: 8 (Fora d'horari lectiu)
Tipus: examen de teoria
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Introducció: L'aprenentatge no supervisat profund

Introducció a la necessitat del aprenentatge no supervisat profund i les seves applicacions

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Models autoregressius

Introducció a l'aprenentatge de distribucions de probabilitat definides como distribucions autoregresives i principals models

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Fluxes normalitzants

Introducció als fluxes normalizants per a l'aprenentage de distribucions de probabilitat

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Models de variables latents

Introducció als models basats en variables latents i als autocodificadors variacionals

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Xarxes adversàries generatives

Introduccio a les xarxes adversàries generatives, generació condicionada i sense condicionar, separació d'atributs

Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Xarxes de difusió i Aprenentatge per autosupervisió

Introducció a models basats en difusió de soroll, xarxes per eliminació de soroll, condicionament, generació multimodal

Teoria
2h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
9h

Control del temari d'aprenentatge no supervisat


Objectius: 5 6 7 8
Setmana: 15 (Fora d'horari lectiu)
Tipus: examen de teoria
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Metodologia docent

Les clases estan dividides en sessions de teoria, problemes i laboratori.

A les sessions de teoria es desenvoluparan els coneixements de l'assignatura, intercalant l'exposició de nou material teòric amb exemples i la interacció amb els alumnes per tal de discutir els conceptes.


A les clases de laboratori es desenvoluparan petites pràctiques utilitzant eines i fent servir llibreries especifiques que permetran practicar i reforçar els coneixements de les classes de teoria.

Mètode d'avaluació

L'assignatura comprendrà els següents actes avaluatoris:

- Informes de les activitats de laboratori, que caldrà haver lliurat dins un termini indicat per a cada sessió (orientativament, 2 setmanes). A partir d'una mitjana ponderada de les notes d'aquests informes es calcularà una nota de laboratori, L.

- Un primer examen parcial, fet cap a meitat del curs, de la matèria vista fins llavors. Sigui P1 la nota obtinguda en aquest examen.

- En el dia designat dins del període d'exàmens, un segon examen parcial de la matèria no coberta pel primer parcial. Sigui P2 la nota obtinguda en aquest examen.

Les tres notes L, P1, P2 són entre 0 i 10. La nota final de l'assignatura serà:

0.4*L + 0.3*P1+0.3*P2

Bibliografia

Bàsica:

Complementaria:

Capacitats prèvies

Coneixements bàsics de Deep Learning i de Machine Learning.