Desenvolvemento dunha plataforma multilingüe de xeración automática de vídeos de Karaoke con Intelixencia Artificial

Loading...
Thumbnail Image

Identifiers

Publication date

Authors

Fernández Quintela, Gael

Other responsabilities

Universidade da Coruña. Facultade de Informática

Journal Title

Bibliographic citation

Type of academic work

Abstract

[Resumo]: O presente traballo de fin de grao consiste no desenvolvemento dunha plataforma web que xera vídeos de karaoke de forma automática a partir de cancións obtidas a partir de ligazóns de YouTube ou arquivos MP4. O sistema está optimizado para funcionar en múltiples idiomas, incluíndo linguas minoritarias como o galego. Para dito fin empréganse ferramentas de intelixencia artificial como modelos de recoñecemento de voz, para transcribir as cancións, sincronizar as letras coa música e crear vídeos con subtítulos animados. En primeiro lugar, sepáranse as pistas de voz e as instrumentais empregando Demucs con aceleración GPU. Posteriormente transcríbese a voz con WhisperX e derivados, obtendo marcas de tempo a nivel de palabra e incluso de sílaba para garantir unha sincronización precisa, ou ben se realiza forced alignment cunha letra proporcionada polo propio usuario, opción particularmente valiosa para os idiomas minoritarios coma o galego onde os modelos de aprendizaxe profundo actuais aínda non están suficientemente entrenados. Despois un módulo descrito en Python e sustentado por MoviePy, FFmpeg e outras ferramentas xera o vídeo e os subtítulos aplicando un resaltado progresivo silábico segundo vai avanzando o/a cantante. Todo isto baixo unha arquitectura de microservizos Docker. A interface web con Flask e o procesamento asíncrono con Celery permiten unha experiencia de usuario que inclúe biblioteca de cancións, reproductor avanzado con sincronización de múltiples pistas audio e acceso público mediante ngrok. O proxecto vai moito máis alá da simple integración de ferramentas, o sistema conta con multitude de módulos e algoritmos complexos que fan que todo funcione correctamente.
[Abstract]: This final degree project consists of the development of a Web platform that automatically generates karaoke videos from songs obtained through YouTube links or MP4 files. The system is optimized to work in multiple languages, including minority languages such as Galician. For this purpose, artificial intelligence tools are employed such as speech recognition models, to transcribe songs, synchronize lyrics with music, and create videos with animated subtitles. First, vocal and instrumental tracks are separated using Demucs with GPU acceleration. Subsequently, the vocals are transcribed with WhisperX and derivatives, obtaining timestamps at word and even syllable level to ensure precise synchronization, or alternatively, forced alignment is performed with lyrics provided by the user themselves, an option particularlyvaluable for minority languages like Galician where current deep learning models are not yet sufficiently trained. Then, a module described in Python and supported by MoviePy, FFmpeg, and other tools generates the video and subtitles applying progressive syllabic highlighting as the singer advances. All of this under a Docker microservices architecture. The web interface with Flask and asynchronous processing with Celery enable a user experience that includes a song library, an advanced player with multi-track audio synchronization, and public access through ngrok. The project goes far beyond simple tool integration, as the system incorporates multiple complex modules and algorithms that ensure everything works correctly.

Description

Editor version

Rights

Os titulares dos dereitos de autor autorizan a visualización do contido desta obra a través de Internet, así como a súa reprodución, gravación en soporte informático ou impresión para uso privado ou con fins de investigación. En ningún caso se permite o uso lucrativo deste documento. Estes dereitos afectan tanto ao resumo da obra como ao seu contido. Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de este trabajo a través de Internet, así como su reproducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen del trabajo como a su contenido.