Padrón, Emilio J.Taibo, JavierMures, Omar A.2025-09-022025-09-022025-07-07https://hdl.handle.net/2183/45691[Resumo] Un problema recorrente na aprendizaxe automática con redes neuronais profundas é a cantidade de datos necesaria. Este tipo de modelos permite capturar padróns complexos, pero o seu elevado número de capas e parámetros precisa conxuntos de datos anotados suficientemente grandes para un adestramento axeitado. Porén, o rexistro e etiquetado de datos son tarefas que demandan importantes recursos económicos e humanos. Un problema adicional é a obtención, en número suficiente, de determinados datos reais difíciles ou problemáticos de rexistrar. A xeración automática de datos sintéticos anotados, temática central desta tese, pode axudar a mitigar o impacto da escaseza de datos reais. O obxectivo principal foi o estudo e desenvolvemento de novos métodos e paradigmas de aumento e xeración de conxuntos de datos, e consecuentemente a xeración automática de contido multimedia anotado. A investigación abrangueu dende a xeración procedural de escenarios 3D e as súas corresponentes imaxes 2D automaticamente anotadas, ata o balanceo de conxuntos de datos tabulares. Así mesmo, realizáronse achegas en distintos dominios, dende a condución autónoma ata a simulación computacional de fluídos, pasando pola produción automatizada de retransmisións deportivas. O traballo realizado derivou en múltiples publicacions científicas, así coma contribucións open source no eido da xeración de datos sintéticos.[Resumen] El aprendizaje automático con redes neuronales profundas permite capturar patrones complejos, pero su elevado número de capas y parámetros requiere conjuntos de datos anotados lo suficientemente grandes para su correcto entrenamiento. Sin embargo, el registro y etiquetado de datos son tareas que demandan importantes recursos económicos y humanos. Otro problema adicional es la obtención de una cantidad adecuada de determinados datos reales cuyo registro es difícil o problemático. La generación automática de datos sintéticos anotados puede ayudar a mitigar el impacto de la escasez de datos reales. El objetivo principal de esta tesis ha sido el estudio y el desarrollo de nuevos métodos y paradigmas de generación y aumento de conjuntos de datos y, en consecuencia, la generación automática de contenido multimedia anotado. La investigación ha abarcado desde la generación procedural de escenarios 3D y sus correspondientes imágenes 2D anotadas automáticamente, hasta el balanceo de conjuntos de datos tabulares. Asimismo, se han realizado aportaciones en distintos dominios, desde la conducción autónoma hasta la simulación computacional de fluidos, pasando por la producción automatizada de retransmisiones deportivas. El trabajo realizado ha dado lugar a múltiples publicaciones científicas, así como a contribuciones open source en el ámbito de la generación de datos sintéticos.[Abstract] A recurring challenge in Deep Learning is the large amount of data required for training. While these models can capture complex patterns, their many layers and parameters demand sufÏciently large annotated datasets for proper training. However, data collection and annotation require significant economic and human resources. An additional challenge is obtaining, in sufÏcient quantity, real-world data that are difÏcult or problematic to record. The automatic generation of annotated synthetic data, the central topic of this thesis, can help mitigate the impact of data scarcity. The main objective has been the study and development of new methods and paradigms for dataset generation and augmentation, and consequently, the automatic creation of annotated multimedia content. The research has ranged from the procedural generation of 3D scenarios and their corresponding automatically annotated 2D renders to balancing of tabular datasets. Additionally, contributions have been made in various domains, from autonomous driving to large-scale computational fluid dynamics (CFD) simulation, as well as the automated production of sports broadcasts. The work carried out has resulted in multiple scientific publications, as well as open source contributions in the field of synthetic data generation.engOs titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reprodución, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En ningún caso se permite o uso lucrativo deste documento. Estes dereitos afectan tanto ao resumo da tese como ao seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su reproducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenidoAutomatic Multimedia Data GenerationDatasetGeneración Automática de Datos MultimediaXeración Automática de Datos MultimediaAutomatic Multimedia Data Generation for Dataset Augmentation and Simulationdoctoral thesisopen access