Arquitectura con captura de datos distribuída e computación centralizada aplicada á tradución e xestión de voz a texto

Limia García, Xan

Arquitectura con captura de datos distribuída e computación centralizada aplicada á tradución e xestión de voz a texto

UDC.coleccion	Traballos académicos	es_ES
UDC.tipotrab	TFG	es_ES
UDC.titulacion	Grao en Enxeñaría Informática	es_ES
dc.contributor.advisor	Vázquez, Carlos
dc.contributor.author	Limia García, Xan
dc.contributor.other	Universidade da Coruña. Facultade de Informática	es_ES
dc.date.accessioned	2024-10-24T12:45:14Z
dc.date.embargoEndDate	2025-04-01	es_ES
dc.date.embargoLift	2025-04-01
dc.date.issued	2024-09
dc.description.abstract	[Resumo]: Neste traballo deseñamos unha arquitectura que permite a captura de datos a través de dispositivos con baixas prestacións de hardware, o seu posterior envío a través dunha rede Wi-Fi a un servidor central onde se procesa a información. A súa principal aplicación é a transcrición de voz a texto. O dispositivo cliente está deseñado para un control completo por voz, conta cun módulo despertador que permite iniciar as comunicacións co servidor mediante a pronunciación dunha palabra chave. No proxecto tamén se valoraron diferentes alternativas, tanto para as comunicacións como para o modelo de transcrición. Finalmente optamos por utilizar en Python a librería Websockets para o envío de información entre o cliente e o servidor. Para o modelo de transcrición decidimos usar finalmente Faster-Whisper, posto que presenta un rendemento moi superior á versión orixinal de Whisper. Para o dispositivo cliente decidimos utilizar unha Raspberry Pi 4 modelo B polo seu custo reducido así como polas prestacións que presenta. Utilizamos un micrófono con altofalante de videoconferencia da marca Jabra. Nesta memoria amósanse os resultados de rendemento dos diferentes modelos de transcrición ante ficheiros de voz de diferente duración. Resultados tras someter o servidor a cargas altas de traballo para determinar cantos clientes pode soportar mantendo un rendemento aceptable, e probas de precisión dos modelos ante a presencia de ruído. Este tipo de arquitectura presenta grandes vantaxes fronte ao procesamento local que se facía directamente no dispositivo cliente en traballos anteriores. Puidemos comprobar que ao traballar cun servidor centralizado podemos mellorar os tempos de resposta así como traballar con ata 10 clientes simultáneos sen que o rendemento se vexa afectado.	es_ES
dc.description.abstract	[Abstract]: In this work we design an architecture that allows data capture through devices with low hardware performance, its subsequent sending through Wi-Fi to a central server where the information is processed. The main application of this architecture is speech-to-text transcription. The client device is designed for complete voice control, it has an alarm clock module that allows to initiate communications with the server through the pronunciation of a keyword. The project also evaluated different alternatives, both for communications and for the transcription model. Finally, we chose to use the WebSockets library in Python to send information between the client and the server. For the transcription model, we finally decided to use Faster-Whisper, because it has a much better performance than the original version of Whisper. For the client device, we decided to use a Raspberry Pi 4 model B because of its low cost, as well as the features it presents. It was also necessary to acquire a good quality microphone for the prototype device. We used a Jabra speaker microphone. This report shows the results of the performance of the different transcription models with audios of different lengths. Results after subjecting the server to high workloads to determine how many clients it can support while maintaining acceptable performance, and accuracy tests of the models in the presence of noise. This type of architecture has great advantages over the local processing that was done directly on the client device in previous works. We were able to verify that by working with a centralized server, we can improve response times and work with up to 10 simultaneous clients without affecting performance.	es_ES
dc.description.traballos	Traballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2023/2024	es_ES
dc.identifier.uri	http://hdl.handle.net/2183/39766
dc.language.iso	glg	es_ES
dc.rights	Atribución 3.0 España	es_ES
dc.rights.accessRights	open access	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/es/	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/es/
dc.subject	Arquitectura cliente-servidor	es_ES
dc.subject	Transcrición de voz a texto	es_ES
dc.subject	Faster-Whisper	es_ES
dc.subject	Vosk	es_ES
dc.subject	WebSockets	es_ES
dc.subject	Client-server architecture	es_ES
dc.subject	Speech to text	es_ES
dc.title	Arquitectura con captura de datos distribuída e computación centralizada aplicada á tradución e xestión de voz a texto	es_ES
dc.type	bachelor thesis
dspace.entity.type	Publication
relation.isAdvisorOfPublication	dbc2be8e-6741-46b3-a22e-b648eae643d4
relation.isAdvisorOfPublication.latestForDiscovery	dbc2be8e-6741-46b3-a22e-b648eae643d4

Files

Original bundle

Now showing 1 - 1 of 1

Name:: LimiaGarcia_Xan_TFG_2024.pdf
Size:: 3.14 MB
Format:: Adobe Portable Document Format
Description:: TFG EI

Download

Collections

Traballos académicos (FIC)