Tractament de la Veu i el Diàleg

Esteu aquí

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
CS
Els objectius de l'assignatura son presentar les tècniques més emprades per el
processament i generació de diàleg i la parla. Durant el curs veurem els principals
mètods, des de sistemes basats en regles, fins a models basats en deep learning
que aprenen de corpus de millions de exemples. Al final de l'assignatura, els
alumnes podrán comprendre el funcionament de sistemes de la diàleg, com els
assientes telefónics, els assistents virtuals com Alexa o Siri, chatbots com
ChatGPT.

Professorat

Responsable

  • Carlos Escolano Peinado ( )

Altres

  • Anna Arias Duart ( )

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6

Competències

Competències Transversals

Transversals

  • CT1 - Emprenedoria i innovació. Conèixer i comprendre l'organització d'una empresa i les ciències que regeixen la seva activitat; tenir capacitat per entendre les normes laborals i les relacions entre la planificació, les estratègies industrials i comercials, la qualitat i el benefici.
  • CT2 - Sostenibilitat i Compromís Social. Conèixer i comprendre la complexitat dels fenòmens econòmics i socials típics de la societat del benestar; tenir capacitat per relacionar el benestar amb la globalització i la sostenibilitat; obtenir habilitats per utilitzar de forma equilibrada i compatible la tècnica, la tecnologia, l'economia i la sostenibilitat.
  • CT6 [Avaluable] - Aprenentatge autònom. Detectar deficiències en el propi coneixement i superar-les mitjançant la reflexió crítica i l'elecció de la millor actuació per ampliar aquest coneixement.
  • CT8 - Perspectiva de gènere. Conèixer i comprendre, des de l'àmbit de la titulació mateixa, les desigualtats per raó de sexe i gènere en la societat, i integrar les diverses necessitats i preferències per raó de sexe i gènere en el disseny de solucions i la resolució de problemes.

Bàsiques

  • CB2 - Que els estudiants sàpiguen aplicar els seus coneixements al seu treball o vocació d'una manera professional i posseeixin les competències que solen demostrar-se mitjançant l'elaboració i defensa d'arguments i la resolució de problemes dins la seva àrea d'estudi.
  • CB3 - Que els estudiants tinguin la capacitat de reunir i interpretar dades rellevants (normalment dins la seva àrea d'estudi) per emetre judicis que incloguin una reflexió sobre temes rellevants d'índole social, científica o ètica.
  • CB4 - Que els estudiants puguin transmetre informació, idees, problemes i solucions a un públic tant especialitzat com no especialitzat.
  • CB5 - Que els estudiants hagin desenvolupat aquelles habilitats d'aprenentatge necessàries per emprendre estudis posteriors amb un alt grau d'autonomia

Competències Tècniques

Específiques

  • CE14 - Dominar els fonaments, paradigmes i tècniques pròpies dels sistemes intel·ligents i analitzar, dissenyar i construir sistemes, serveis i aplicacions informàtiques que utilitzin aquestes tècniques en qualsevol àmbit d'aplicació, inclòs la robòtica.
  • CE15 - Adquirir, formalitzar i representar el coneixement humà en una forma computable per a la resolució de problemes mitjançant un sistema informàtic en qualsevol àmbit d'aplicació, particularment els relacionats amb aspectes de computació, percepció i actuació en ambients o entorns intel·ligents.
  • CE16 - Dissenyar i avaluar interfícies persona-màquina que garanteixin l'accessibilitat i usabilitat dels sistemes, serveis i aplicacions informàtiques.
  • CE17 - Desenvolupar i avaluar sistemes interactius i de presentació d'informació complexa i la seva aplicació a la resolució de problemes de disseny d'interacció persona-ordinador i persona-robot.
  • CE18 - Adquirir i desenvolupar tècniques d'aprenentatge computacional i dissenyar i implementar aplicacions i sistemes que les utilitzin, incloent les dedicades a extracció automàtica d'informació i coneixement a partir de grans volums de dades.
  • CE27 - Dissenyar i aplicar tècniques de processament de la veu, de reconeixement del llenguatge parlat i comprensió del llenguatge humà, amb aplicació en la intel·ligència artificial social.

Competències Tècniques Generals

Genèriques

  • CG3 - Definir, avaluar i seleccionar plataformes maquinari i programari per al desenvolupament i l'execució de sistemes, serveis i aplicacions informàtiques en l'àmbit de la intel·ligència artificial.
  • CG4 - Raonar, analitzant la realitat i dissenyant algoritmes i formulacions que la modelin. Identificar problemes i construir solucions algorísmiques o matemàtiques vàlides, eventualment noves, integrant el coneixement multidisciplinari necessari, valorant diferents alternatives amb esperit crític, justificant les decisions preses, interpretant i sintetitzant els resultats en el context de l'domini d'aplicació i establint generalitzacions metodològiques a partir de aplicacions concretes.
  • CG5 - Treballar en equips i projectes multidisciplinaris relacionats amb la intel·ligència artificial i la robòtica, interactuant fluidament amb enginyers/es i professionals d'altres disciplines.
  • CG6 - Identificar oportunitats per a aplicacions innovadores de la intel·ligència artificial i la robòtica en entorns tecnològics en contínua evolució.
  • CG7 - Interpretar i aplicar la legislació vigent, així com especificacions, reglaments i normes en l'àmbit de la intel·ligència artificial.
  • CG8 - Observar un exercici ètic de la professió en totes les seves facetes, aplicant criteris ètics en el disseny de sistemes, algoritmes, experiments, utilització de dades, d'acord amb els sistemes ètics recomanats pels organismes nacionals i internacionals, amb especial èmfasi en seguretat, robustesa , privacitat, transparència, traçabilitat, prevenció de biaixos (de raça, gènere, religió, territori, etc.) i respecte als drets humans.
  • CG9 - Afrontar nous reptes amb una visió àmplia de les possibilitats de la carrera professional en l'àmbit de la Intel·ligència Artificial. Desenvolupar l'activitat aplicant criteris de qualitat i millora contínua, i actuar amb rigor en el desenvolupament professional. Adaptar-se als canvis organitzatius o tecnològics. Treballar en situacions de carència d'informació i/o amb restriccions temporals i/o de recursos.

Objectius

  1. Entendre les teories i les tècniques fonamentals associades al processament i
    generació de diàleg.
    Competències relacionades: CB3, CB4, CT6, CE14, CE17, CG3, CG5, CG6,
  2. Entendre les teories i les tècniques fonamentals associades al processament de
    la veu l i la parla.
    Competències relacionades: CB3, CB4, CT6, CE14, CE17, CE27, CG3, CG5, CB2,
  3. Conèixer els recursos i les aplicacions més rellevants del Processament i Generació de Diàleg.
    Competències relacionades: CB3, CB4, CB5, CT6, CT8, CE15, CE27, CG3, CG4, CG5, CG6,
  4. Desenvolupar programes per a resoldre tasques particulars de l'àrea del Processament del Diàleg i la Parla.
    Competències relacionades: CB3, CT1, CT2, CT6, CT8, CB2, CE14, CE16, CE18, CE27, CG5, CG7, CG8, CG9,

Continguts

  1. Introducció
    Introducció als continguts de l'assignatura i al processament de la veu i el diàleg.
  2. Sistemes de diàleg basats en regles.
    Sistemes de diàleg basats en regles creades manualment.
  3. Sistemes de diàleg basats en corpus: Frame-based i retrieval.
    Sistemes de diàleg estadístics basats en un corpus d'exemples.
  4. Sistemes de diàleg basats en Deep Learning
    Introducció als models seq2seq, Transformer i la seva aplicació al diàleg.
  5. Consideracions ètiques i política del diàleg.
    Possibles riscs dels sistemes de diáleg i técniques per mitigar-los.
  6. Processament de la veu.
    Tècniques per transformar la veu i com fer-la servir als nostres sistemes.
  7. Reconeixement automàtic de la parla
    Métodes de reconeixement de la parla basats en Deep Learning.
  8. Sistemes de text a parla.
    Sistemes de generació de veu a partir de text fent servir Deep Learning.

Activitats

Activitat Acte avaluatiu


Sessió Introductoria

Introducció als conceptes de diàleg i processament de la parla. També es revisarán conceptes bàsics de processament del llenguatge necessaris per dur a terme l'assignatura (tokenització i embeddings).
  • Teoria: Explicar els objectius i avaluació de l'assignatura i revisar conceptes bàsics de processat del llenguatge natural.
  • Laboratori: Presentar les pràctiques a dur a terme durant l'assignatura.
Objectius: 1 3
Continguts:
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Sistemes de diàleg basats en regles.

Context históric dels sistemes de diàleg i dels sistemes basats en regles.
  • Teoria: Context històric i sistemes basats en regles. S'explica la creació de regles manuals i els seus avantatges d'interpretabilitat.
Objectius: 1 2 4
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Sistemes de diàleg basats en corpus: Sistemes de retrieval i frame-based.

En aquesta activitat s'explicaràn els sistemes basats en un corpus d'exemples i les seves principals diferències amb els sistemes basats en regles. Dins d'aquests nous sistemes, ens centrarem en sistemes que recuperen exemples d'una base d'exemples (retrieval) i de sistemes generatius a partir de frames (frame-based).
  • Teoria: En aquesta activitat s'explicaràn els sistemes basats en un corpus d'exemples i les seves principals diferències amb els sistemes basats en regles. Dins d'aquests nous sistemes, ens centrarem en sistemes que recuperen exemples d'una base d'exemples (retrieval) i de sistemes generatius a partir de frames (frame-based).
Objectius: 3 4
Continguts:
Teoria
4h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Sistemes de diàleg basats en Deep Learning.

Introducción als sistemes Seq2Seq, Transformer i la seva aplicació al diàleg.
  • Teoria: Introducción als sistemes Seq2Seq, Transformer i la seva aplicació al diàleg.
Objectius: 1 3 4
Continguts:
Teoria
6h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Consideracions ètiques i política del diàleg.

Consideracions ètiques cuan entrenem sistemes de diàleg i mètodes per mitigar els riscs d'aquest tipus de sistemes.
  • Teoria: Consideracions ètiques cuan entrenem sistemes de diàleg i mètodes per mitigar els riscs d'aquest tipus de sistemes.
Objectius: 3 4
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Processament de la parla.

Introducció al processament de la parla, especialment les trasnformacions necessaries per entrenar sistemes basats en deep learning.
  • Teoria: Introducció al processament de la parla, especialment les trasnformacions necessaries per entrenar sistemes basats en deep learning.
Objectius: 2 3 4
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Reconeixement automàtic de la parla.

Tècniques basades en deep learning per reconeixement de la parla, CTC loss sistemes basats en Seq2Seq.
  • Teoria: Tècniques basades en deep learning per reconeixement de la parla, CTC loss sistemes basats en Seq2Seq.
Objectius: 2 3 4
Continguts:
Teoria
4h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Sistemes de text a veu.

Introducció als sistemes de text a veu fent servir deep learning.
  • Teoria: Introducció als sistemes de text a veu fent servir deep learning.
Objectius: 2 3 4
Continguts:
Teoria
4h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Examen parcial

Examen dels contiguts de diàleg de l'assignatura.
Objectius: 1 3 4
Setmana: 8 (Fora d'horari lectiu)
Tipus: examen de teoria
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
20h

Examen final

Examen sobre els continguts de parla de l'assignatura.
Objectius: 1 2 3 4
Setmana: 15 (Fora d'horari lectiu)
Tipus: examen de teoria
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
25h

Pràctiques

Entrega de pràctiques realitzades durant l'assignatura.
Objectius: 1 2 3 4
Setmana: 14 (Fora d'horari lectiu)
Tipus: entrega
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
45h

P1. Sistema de diàleg basat en regles.

Realització d'un sistema de diàleg basat en regles a partir d'un tasca.
  • Laboratori: Realització d'un sistema de diàleg basat en regles a partir d'un tasca.
Objectius: 1 3 4
Continguts:
Teoria
0h
Problemes
0h
Laboratori
8h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

P2. Sistema de diàleg basat en frames i Deep Learning.

Creació d'un sistema de diàleg basat en frames fent servir tècniques de deep learning.
  • Laboratori: Creació d'un sistema de diàleg basat en frames fent servir tècniques de deep learning.
Objectius: 3 4
Continguts:
Teoria
0h
Problemes
0h
Laboratori
8h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

P3. Reconeixement automàtic de la parla.

Creació d'un sistema de reconeixement automàtic de la parla fent servir tècniques de deep learning.
  • Laboratori: Creació d'un sistema de reconeixement automàtic de la parla fent servir tècniques de deep learning.
Objectius: 2 3 4
Continguts:
Teoria
0h
Problemes
0h
Laboratori
8h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Presentació d'un article sobre el diàleg o la parla.

Presentació oral d'un article científic sobre el diàleg o la parla.
  • Laboratori: Presentació oral d'un article científic sobre el diàleg o la parla.
Objectius: 1 2 3 4
Continguts:
Teoria
0h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Metodologia docent

El curs aprofundeix en els conceptes de Processament del Llenguatge Humà, ampliant-los a tasques de diàleg. A més, introdueix una nova modalitat de dades, la parla, i com es poden combinar totes dues tasques a l'hora de crear els nostres sistemes.

Les classes estan organitzades en sessions de teoria i laboratori. A les classes de teoria, el professor presentarà els conceptes als alumnes combinant-los amb exercicis i preguntes per fer les classes més interactives i assegurar que els alumnes assoleixen els conceptes de l'assignatura. A les classes del laboratori, els alumnes treballen en grups de forma autònoma per aplicar a dades reals els conceptes que han vist a classe. Aquestes tasques inclouen sessions de laboratori on els alumnes poden fer consultes i resoldre els seus dubtes, amb treball autònom per desenvolupar els seus sistemes. Es valorà la capacitat dels alumnes per fer recerca i trobar noves solucions als problemes proposats. A més, al final de l'assignatura els alumnes hauran de provar la seva capacitat per assolir nou coneixement autònomament, fent una presentació d'un article d'investigació sobre un dels temes tractats a l'assignatura.

Mètode d'avaluació

20% Examen Parcial + 25% Examen Final + 45% Laboratori + 10% Presentació Article


La part teòrica de l'assignatura, s'avaluarà a partir de dos exàmens. El primer examen parcial es centrarà en el bloc de diàleg (Continguts 1-5). El segon examen (Final) avaluarà el segon bloc de processament de la parla (Continguts 6-8). En aquest examen s'inclouran exercicis que combinin la parla amb el diàleg per avaluar com els alumnes han assolit els coneixements de tots dos blocs.

Sobre la part de laboratori, totes tres activitats tindran el mateix pes, un 15% del total de l'assignatura. Els alumnes tindran al voltant de quatre setmanes per realitzar-les. L'objectiu és avaluar com els alumnes apliquen a la pràctica els continguts vists a classe així com la seva capacitat de solucionar problemes i treballar en equip.

Finalment, al final del curs els alumnes hauran d'escollir un article sobre el processament del diàleg o la veu i fer una presentació a classe. L'objectiu d'aquesta tasca és avaluar la seva capacitat d'analitzar nova informació i ser capaços d'assolir nou coneixement de la matèria, autònomament.

Avaluació de les competencies.

L'avaluació de la competència sobre ús autònom de la informació es durà a terme amb la presentació oral de l'article científic (10%). Els alumnes hauran de ser capaços d'extreure les seves conclusions sobre un nou treball relacionat amb els temes vists a classe.

Bibliografia

Bàsica:

Capacitats prèvies

Per poder realitzar aquesta assignatura, és recomanable haver cursat anteriorment les següents assignatures:
XNDL-IA: En aquesta assignatura, s'expliquen els fonaments de deep learning, incloent-hi xarxes recorrents. Coneixer aquests temes és necessari per compendre com funcionen els models basats en arquitectures Seq2Seq , estat de l'art tant a processament de la veu com del diàleg.
PLH-IA: Aquesta assignatura explica els fonaments del processament del llenguatge humà. Conceptes com el preprocessament del text per reduir ambigüitats o la representació continua del text són necessaris per poder desenvolupar els sistemes que estudiarem a l'assignatura.