Tratamiento de la Voz y el Diálogo

Usted está aquí

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
CS
El objetivo principal de la asignatura es presentar las técnicas más comunes en el procesado del diálogo y la voz. Durante el curso veremos los principales métodos, desde sistemas basados en reglas, hasta sistemas basados en deep learning que aprender de corpus de millones de ejemplos. Al final de la asignatura, los alumnos podrán comprender el funcionamiento de sistemas de diálogo como los asistentes telefónicos, asistentes virtuales (como Alexa o Siri) o chatbots como ChatGPT.

Profesorado

Responsable

  • Carlos Escolano Peinado ( )

Otros

  • Anna Arias Duart ( )

Horas semanales

Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6

Competencias

Competencias Transversales

Transversales

  • CT1 - Emprendimiento e innovación. Conocer y entender la organización de una empresa y las ciencias que rigen su actividad; tener capacidad para entender las normas laborales y las relaciones entre la planificación, las estrategias industriales y comerciales, la calidad y el beneficio.
  • CT2 - Sostenibilidad y Compromiso Social. Conocer y comprender la complejidad de los fenómenos económicos y sociales típicos de la sociedad del bienestar; tener capacidad para relacionar el bienestar con la globalización y la sostenibilidad; lograr habilidades para utilizar de forma equilibrada y compatible la técnica, la tecnología, la economía y la sostenibilidad.
  • CT6 [Avaluable] - Aprendizaje autónomo. Detectar deficiencias en el propio conocimiento y superarlas mediante la reflexión crítica y la elección de la mejor actuación para ampliar dicho conocimiento.
  • CT8 - Perspectiva de género. Conocer y comprender, desde el propio ámbito de la titulación, las desigualdades por razón de sexo y género en la sociedad; integrar las diferentes necesidades y preferencias por razón de sexo y de género en el diseño de soluciones y resolución de problemas.

Básicas

  • CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
  • CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.
  • CB4 - Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.
  • CB5 - Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía

Competencias Técnicas

Específicas

  • CE14 - Dominar los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación, incluido la robótica.
  • CE15 - Adquirir, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación,percepción y actuación en ambientes o entornos inteligentes.
  • CE16 - Diseñar y evaluar interfaces persona-máquina que garanticen la accesibilidad y usabilidad de los sistemas, servicios y aplicaciones informáticas.
  • CE17 - Desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona-computadora y persona-robot.
  • CE18 - Adquirir y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
  • CE27 - Diseñar y aplicar técnicas de procesado de la voz, de reconocimiento del lenguaje hablado y comprensión del lenguaje humano, con aplicación en la inteligencia artificial social.

Competencias Técnicas Genéricas

Genéricas

  • CG3 - Definir, evaluar y seleccionar plataformas hardware y software para el desarrollo y la ejecución de sistemas, servicios y aplicaciones informáticas en el ámbito de la inteligencia artificial.
  • CG4 - Razonar, analizando la realidad y diseñando algoritmos y formulaciones que la modelen. Identificar problemas y construir soluciones algorítmicas o matemáticas válidas, eventualmente nuevas, integrando el conocimiento multidisciplinar necesario, valorando distintas alternativas con espíritu crítico, justificando las decisiones tomadas, interpretando y sintetizando los resultados en el contexto del dominio de aplicación y estableciendo generalizaciones metodológicas a partir de aplicaciones concretas.
  • CG5 - Trabajar en equipos y proyectos multidisciplinares relacionados con la inteligencia artificial y la robótica, interactuando fluidamente con ingenieros/as y profesionales de otras disciplinas.
  • CG6 - Identificar oportunidades para aplicaciones innovadoras de la inteligencia artificial y la robótica en entornos tecnológicos en continua evolución.
  • CG7 - Interpretar y aplicar la legislación vigente, así como especificaciones, reglamentos y normas en el ámbito de la inteligencia artificial.
  • CG8 - Observar un ejercicio ético de la profesión en todas sus facetas, aplicando criterios éticos en el diseño de sistemas,algoritmos, experimentos, utilización de datos, de acuerdo con los sistemas éticos recomendados por los organismos nacionales e internacionales, con especial énfasis en seguridad, robustez, privacidad, transparencia, trazabilidad, prevención de sesgos (de raza, género, religión, territorio, etc.) y respeto a los derechos humanos.
  • CG9 - Afrontar nuevos retos con una visión amplia de las posibilidades de la carrera profesional en el ámbito de la Inteligencia Artificial. Desarrollar la actividad aplicando criterios de calidad y mejora continua, y actuar con rigor en el desarrollo profesional. Adaptarse a los cambios organizativos o tecnológicos. Trabajar en situaciones de carencia de información y/o con restricciones temporales y/o de recursos.

Objetivos

  1. Entender las teorias y técnicas fundamentales asociadas al procesamineto i la generación de diálogo
    Competencias relacionadas: CG3, CG5, CG6, CT6, CB3, CB4, CE14, CE17,
  2. Entender las teorías i las técnicas fundamentales asociadas al procesamiento de la voz y el habla.
    Competencias relacionadas: CE27, CG3, CG5, CT6, CB2, CB3, CB4, CE14, CE17,
  3. Conocer los recursos y aplicaciones más relevantes del Procesado y Generación de Diálogo.
    Competencias relacionadas: CE27, CG3, CG4, CG5, CG6, CT6, CT8, CB3, CB4, CB5, CE15,
  4. Desarrollar programas para resolver tareas particuales del area del Procesado del Diálogo y el Habla.
    Competencias relacionadas: CE27, CG5, CG7, CG8, CG9, CT1, CT2, CT6, CT8, CB2, CB3, CE14, CE16, CE18,

Contenidos

  1. Introducción
    Introducción a los contenidos de la asignatura y al procesamiento de la voz y el diálogo.
  2. Sistemas basados en reglas.
    Sistemas de diálogo basados en reglas creadas manualmente.
  3. Sistemas basados en corpus: Frame-based y retrieval.
    Sistemas de dialogo estadísticos basados en un corpus de ejemplos.
  4. Sistemas de diálogo basados en Deep Learning
    Introducción a los modelos seq2seq, Transformer y su aplicación al diálogo.
  5. Consideraciones éticas y política de diálogo.
    Posibles riesgos de los sistemas de diálogo i técnicas para mitigarlos.
  6. Procesamiento de voz.
    Técnicas para transformar la voz y poder usarla en nuestros sistemas.
  7. Reconocimiento automático del habla.
    Métodos de reconocimiento de voz basados en Deep Learning.
  8. Sistemas de texto a voz.
    Sistemas de generación de voz a partir de texto usando Deep Learning.

Actividades

Actividad Acto evaluativo


Sesión Introductoria

Introducción a los conceptos de diálogo y el procesado del lenguaje. También se revisarán conceptos básicos del procesado del lenguaje necesarios para realizar la asignatura (tokenización y embeddings).
  • Teoría: Explicar los objetivos y evaluación de la assignatura i revisal conceptos básicos de procesado del lenguaje natural.
  • Laboratorio: Presentar las práctica que se realizarán durante la asignatura.
Objetivos: 1 3
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
2h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Sistemas de dialogo basados en reglas.

Contexto histórico de los sistemas de diálogo y basados en reglas.
  • Teoría: Contexto histórico i sistemas basados en reglas. Se explicará la creación de reglas manuals y sus ventajas de interpretabilidad.
Objetivos: 1 2 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Corpus-based dialog systems: Retrieval and frame-bases systems.

En aquesta activitat s'explicaràn els sistemes basats en un corpus d'exemples i les seves principals diferències amb els sistemes basats en regles. Dins d'aquests nous sistemes, ens centrarem en sistemes que recuperen exemples d'una base d'exemples (retrieval) i de sistemes generatius a partir de frames (frame-based).
  • Teoría: En esta actividad se explicarán los sistemas basados en un corpus de ejemplos y sus principales diferencias con los sistemas basados en reglas. Dentro de estos nuevos sistemas, nos centraremos en los sistemas que recuperan ejemplos de una base de ejemplos (retrieval) y los sistemas generativos a partir de frames (frame-based).
Objetivos: 3 4
Contenidos:
Teoría
4h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Sistemas de diálog basados en Deep Learning.

Introducción a los sistemas Seq2Seq, Transformer y su aplicación al diálogo.
  • Teoría: Introducción a los sistemas Seq2Seq, Transformer y su aplicación al diálogo.
Objetivos: 1 3 4
Contenidos:
Teoría
6h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Consideraciones éticas y política de diálogo.

Consideracions ètiques cuan entrenem sistemes de diàleg i mètodes per mitigar els riscs d'aquest tipus de sistemes.
  • Teoría: Consideraciones éticas al entrenar sistemas de diálogo y métodos para mitigar los riesgos de este tipo de sistemas.
Objetivos: 3 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Procesamiento del habla.

Introducción al procesado del habla, especialmente las transformaciones necesarias para entrenar sistemas basados en deep learning.
  • Teoría: Introducción al procesado del habla, especialmente las transformaciones necesarias para entrenar sistemas basados en deep learning.
Objetivos: 2 3 4
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Reconocimiento automático del habla.

Tècniques basades en deep learning per reconeixement de la parla, CTC loss sistemes basats en Seq2Seq.
  • Teoría: Técnicas basadas eb deep learning para le reconocimiento del habla, CTC loss y sistemas basados en Seq2Seq.
Objetivos: 2 3 4
Contenidos:
Teoría
4h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Sistemas de texto a voz.

Introducción. los sistemas de texto a voz usando deep learning.
  • Teoría: Introducción. los sistemas de texto a voz usando deep learning.
Objetivos: 2 3 4
Contenidos:
Teoría
4h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Examen Parcial

Examen de los contenidos de diálogo de la asignatura.
Objetivos: 1 3 4
Semana: 8 (Fuera de horario lectivo)
Tipo: examen de teoría
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
20h

Examen final

Examen sobre los contenidos de habla de la asignatura
Objetivos: 1 2 3 4
Semana: 15 (Fuera de horario lectivo)
Tipo: examen de teoría
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
25h

Prácticas

Entrega de prácticas realizadas durante la asignatura
Objetivos: 1 2 3 4
Semana: 14 (Fuera de horario lectivo)
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
45h

P1. Sistema de diàlogo basado en reglas.

Realización de un sistema de diálogo basado en reglas a partir de una tarea.
  • Laboratorio: Realización de un sistema de diálogo basado en reglas a partir de una tarea.
Objetivos: 1 3 4
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
8h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

P2. Sistema de diálogo basado en frames i Deep Learning.

Creació d'un sistema de diàleg basat en frames fent servir tècniques de deep learning.
  • Laboratorio: Creació d'un sistema de diàleg basat en frames fent servir tècniques de deep learning.
Objetivos: 3 4
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
8h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

P3. Reconocimiento automático del habla.

Creación de un sistema de reconocimiento automático del habla usando técnicas de deep learning.
  • Laboratorio: Creación de un sistema de reconocimiento automático del habla usando técnicas de deep learning.
Objetivos: 2 3 4
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
8h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Presentación de un artículo sobre el diálogo o la voz.

Presentación oral de un artículo científico sobre la voz o el diálogo.
  • Laboratorio: Presentación oral de un artículo científico sobre la voz o el diálogo.
Objetivos: 1 2 3 4
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
4h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Metodología docente

El curso profundiza en los conceptos de Procesamiento del Lenguaje Humano, ampliándolos a tareas de diálogo. Además, introduce una nueva modalidad de datos, el habla, y cómo se pueden combinar ambas tareas a la hora de crear nuestros sistemas.

Las clases están organizadas en sesiones de teoría y laboratorio. En las clases de teoría, el profesor presentará los conceptos a los alumnos combinándolos con ejercicios y preguntas para realizar las clases más interactivas y asegurar que los alumnos adquieren los conceptos de la asignatura. En las clases del laboratorio, los alumnos trabajan en grupos de forma autónoma para aplicar a datos reales los conceptos que han visto en clase. Estas tareas incluyen sesiones de laboratorio donde los alumnos pueden realizar consultas y resolver sus dudas, con trabajo autónomo para desarrollar sus sistemas. Se valoró la capacidad de los alumnos para investigar y encontrar nuevas soluciones a los problemas propuestos. Además, al final de la asignatura los alumnos tendrán que probar su capacidad para alcanzar nuevo conocimiento autónomamente, haciendo una presentación de un artículo de investigación sobre uno de los temas tratados en la asignatura.

Método de evaluación

20% Examen Parcial + 25% Examen Final + 45% Laboratorio + 10% Presentación Artículo


La parte teórica de la asignatura se evaluará a partir de dos exámenes. El primer examen parcial se centrará en el blog de diálogo (Contenidos 1-5). El segundo examen (Final) evaluará el segundo bloque de procesamiento del habla (Contenidos 6-8). En este examen se incluirán ejercicios que combinen el habla con el diálogo para evaluar cómo los alumnos han adquirido los conocimientos de ambos bloques.

Sobre la parte de laboratorio, las tres actividades tendrán el mismo peso, un 15% del total de la asignatura. Los alumnos tendrán alrededor de cuatro semanas para realizarlas. El objetivo es evaluar cómo los alumnos aplican a la práctica los contenidos vistos en clase así como su capacidad de solucionar problemas y trabajar en equipo.

Finalmente, al final del curso los alumnos tendrán que escoger un artículo sobre el procesamiento del diálogo o la voz y hacer una presentación en clase. El objetivo de esta tarea es evaluar su capacidad de analizar nueva información y ser capaces de lograr un nuevo conocimiento de la materia, autónomamente.

Evaluación de las competencias.

La evaluación de la competencia sobre uso autónomo de la información se realizará con la presentación oral del artículo científico (10%). Los alumnos tendrán que ser capaces de extraer sus conclusiones sobre un nuevo trabajo relacionado con los temas vistos en clase.

Bibliografía

Básica:

Capacidades previas

Para poder realizar esta asignatura, es recomendable haber cursado anteriormente las siguientes asignaturas:
XNDL-IA: En esta asignatura, se explican los fundamentos de deep learning, incluyendo redes recurrentes. Conocer estos temas es necesario para comprender cómo funcionan los modelos basados en arquitecturas Seq2Seq, estado del arte tanto en procesamiento de la voz como del diálogo.
PLH-IA: Esta asignatura explica los fundamentos del procesamiento del lenguaje humano. Conceptos como el preprocesamiento del texto para reducir ambigüedades o la representación continua del texto son necesarios para poder desarrollar los sistemas que estudiaremos en la asignatura.