Sistemas de reconocimiento del habla automáticos para interfaces en aplicaciones y dispositivos

Gómez Antelo, Raquel

Ver/Abrir

GomezAntelo_Raquel_TFG_2023.pdf - TFG_EI_Computacion (1.690Mb)

Use este enlace para citar

http://hdl.handle.net/2183/39423

Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución 3.0 España

Colecciones

Traballos académicos (FIC) [715]

Metadatos

Mostrar el registro completo del ítem

Título

Sistemas de reconocimiento del habla automáticos para interfaces en aplicaciones y dispositivos

Autor(es)

Gómez Antelo, Raquel

Directores

López-Riobóo Botana, Iñigo Luis
Fernández-Caramés, Tiago M.

Fecha

2023-11

Centro/Dpto/Entidad

Universidade da Coruña. Facultade de Informática

Descripción

Traballo fin de grao (UDC.FIC). Enxeñeria informática. Curso 2023/2024

Resumen

[Resumen]: Los sistemas de reconocimiento del habla, del inglés, Automatic Speech Recognition (ASR), son una herramienta de gran importancia que están presentes en muchas aplicaciones de uso diario, tales como asistentes virtuales, asistentes de navegación en coches, entre otros. La técnica de ASR se utiliza mucho junto a métodos de Procesamiento de Lenguaje Natural (PLN), existiendo una gran cantidad de modelos para lenguajes específicos e incluso modelos multilenguaje, capaces de entender varios idiomas a la vez. Sin embargo, existe dificultad a la hora de disponer de modelos en lenguas minoritarias, debido al escaso número de datos disponibles en internet. En este proyecto se proponen varios modelos de ASR entrenados en gallego, con el objetivo de integrarlos en una aplicación del Instituto Tecnológico de Galicia (ITG) que utiliza comandos por voz. Se exploran modelos pre-existentes, diferentes formas de entrenamiento, fases de experimentación y posterior integración de servicios. Esta colaboración con el ITG profundiza en el estudio de ASR en lenguas minoritarias así como en su desarrollo e integración en servicios NLP de aplicaciones propietarias de la empresa.

[Abstract]: Automatic Speech Recognition (ASR) systems are a tool of great importance in many applications of daily use such as virtual assitants, car navigation assistants, among others. The ASR technique is widely used together with Natural Language Processing (NLP), there being a great number of models for specific languages and even multilingual models, capable of understanding several languages at the same time. However, there is a difficulty when it comes to having models in minority languages, due to the limited number of data available on the internet. In this project, we propose several ASR models trained in Galician, aiming at their integration into an application of the Instituto Tecnológico de Galicia (ITG) that uses voice commands. We explore pre-existing models, different forms of training, experimentation phases and subsequent service integrations. This colaboration with ITG deepens the study of ASR in minority languages as well as its development and integration within NLP services from proprietary applications of the company.

Palabras clave

Reconocimiento automático del habla
Lenguas minoritarias
Aprendizaje federado
Procesamiento del lenguaje natural
Streaming de audio
Modelos transformer
RESTful API
Automatic Speech Recognition
Low-resource languages
Federated learning
Natural language processing
Audio Streaming
Transformer models

Derechos

Atribución 3.0 España