Arquitectura con captura de datos distribuída e computación centralizada aplicada á tradución e xestión de voz a texto
| UDC.coleccion | Traballos académicos | es_ES |
| UDC.tipotrab | TFG | es_ES |
| UDC.titulacion | Grao en Enxeñaría Informática | es_ES |
| dc.contributor.advisor | Vázquez, Carlos | |
| dc.contributor.author | Limia García, Xan | |
| dc.contributor.other | Universidade da Coruña. Facultade de Informática | es_ES |
| dc.date.accessioned | 2024-10-24T12:45:14Z | |
| dc.date.embargoEndDate | 2025-04-01 | es_ES |
| dc.date.embargoLift | 2025-04-01 | |
| dc.date.issued | 2024-09 | |
| dc.description.abstract | [Resumo]: Neste traballo deseñamos unha arquitectura que permite a captura de datos a través de dispositivos con baixas prestacións de hardware, o seu posterior envío a través dunha rede Wi-Fi a un servidor central onde se procesa a información. A súa principal aplicación é a transcrición de voz a texto. O dispositivo cliente está deseñado para un control completo por voz, conta cun módulo despertador que permite iniciar as comunicacións co servidor mediante a pronunciación dunha palabra chave. No proxecto tamén se valoraron diferentes alternativas, tanto para as comunicacións como para o modelo de transcrición. Finalmente optamos por utilizar en Python a librería Websockets para o envío de información entre o cliente e o servidor. Para o modelo de transcrición decidimos usar finalmente Faster-Whisper, posto que presenta un rendemento moi superior á versión orixinal de Whisper. Para o dispositivo cliente decidimos utilizar unha Raspberry Pi 4 modelo B polo seu custo reducido así como polas prestacións que presenta. Utilizamos un micrófono con altofalante de videoconferencia da marca Jabra. Nesta memoria amósanse os resultados de rendemento dos diferentes modelos de transcrición ante ficheiros de voz de diferente duración. Resultados tras someter o servidor a cargas altas de traballo para determinar cantos clientes pode soportar mantendo un rendemento aceptable, e probas de precisión dos modelos ante a presencia de ruído. Este tipo de arquitectura presenta grandes vantaxes fronte ao procesamento local que se facía directamente no dispositivo cliente en traballos anteriores. Puidemos comprobar que ao traballar cun servidor centralizado podemos mellorar os tempos de resposta así como traballar con ata 10 clientes simultáneos sen que o rendemento se vexa afectado. | es_ES |
| dc.description.abstract | [Abstract]: In this work we design an architecture that allows data capture through devices with low hardware performance, its subsequent sending through Wi-Fi to a central server where the information is processed. The main application of this architecture is speech-to-text transcription. The client device is designed for complete voice control, it has an alarm clock module that allows to initiate communications with the server through the pronunciation of a keyword. The project also evaluated different alternatives, both for communications and for the transcription model. Finally, we chose to use the WebSockets library in Python to send information between the client and the server. For the transcription model, we finally decided to use Faster-Whisper, because it has a much better performance than the original version of Whisper. For the client device, we decided to use a Raspberry Pi 4 model B because of its low cost, as well as the features it presents. It was also necessary to acquire a good quality microphone for the prototype device. We used a Jabra speaker microphone. This report shows the results of the performance of the different transcription models with audios of different lengths. Results after subjecting the server to high workloads to determine how many clients it can support while maintaining acceptable performance, and accuracy tests of the models in the presence of noise. This type of architecture has great advantages over the local processing that was done directly on the client device in previous works. We were able to verify that by working with a centralized server, we can improve response times and work with up to 10 simultaneous clients without affecting performance. | es_ES |
| dc.description.traballos | Traballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2023/2024 | es_ES |
| dc.identifier.uri | http://hdl.handle.net/2183/39766 | |
| dc.language.iso | glg | es_ES |
| dc.rights | Atribución 3.0 España | es_ES |
| dc.rights.accessRights | open access | es_ES |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/es/ | * |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/es/ | |
| dc.subject | Arquitectura cliente-servidor | es_ES |
| dc.subject | Transcrición de voz a texto | es_ES |
| dc.subject | Faster-Whisper | es_ES |
| dc.subject | Vosk | es_ES |
| dc.subject | WebSockets | es_ES |
| dc.subject | Client-server architecture | es_ES |
| dc.subject | Speech to text | es_ES |
| dc.title | Arquitectura con captura de datos distribuída e computación centralizada aplicada á tradución e xestión de voz a texto | es_ES |
| dc.type | bachelor thesis | |
| dspace.entity.type | Publication | |
| relation.isAdvisorOfPublication | dbc2be8e-6741-46b3-a22e-b648eae643d4 | |
| relation.isAdvisorOfPublication.latestForDiscovery | dbc2be8e-6741-46b3-a22e-b648eae643d4 |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- LimiaGarcia_Xan_TFG_2024.pdf
- Size:
- 3.14 MB
- Format:
- Adobe Portable Document Format
- Description:
- TFG EI

