Aprendizaje profundo para segmentación panóptica de escenas robusta a adaptación de dominio

Use este enlace para citar
http://hdl.handle.net/2183/31888
A non ser que se indique outra cousa, a licenza do ítem descríbese como Atribución-NoComercial-SinDerivadas 3.0 España
Coleccións
Metadatos
Mostrar o rexistro completo do ítemTítulo
Aprendizaje profundo para segmentación panóptica de escenas robusta a adaptación de dominioAutor(es)
Director(es)
Novo Buján, JorgeRouco, J.
Data
2022Centro/Dpto/Entidade
Universidade da Coruña. Facultade de InformáticaDescrición
Traballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2021/2022Resumo
[Resumen]: En el ámbito de la visión por computador, la segmentación semántica y la segmentación de
instancias suponen el estado del arte en materia de análisis de escenas. Mientras que la primera
busca realizar una predicción densa de toda la imagen segmentando las regiones conexas de
elementos de una misma categoría, la segunda tiene como objetivo segmentar únicamente los
objetos instanciables diferenciando entre las distintas instancias de cada uno. Recientemente
ha surgido un nuevo paradigma que supone la vanguardia en este campo y que busca unificar
las dos tareas anteriores, buscando establecerse como la nueva práctica para el análisis de
escenas: la segmentación panóptica. En este proyecto, se plantea el estudio de dos modelos de
referencia en el estado del arte para dicha tarea sobre dos conjuntos de datos con imágenes
de dominios significativamente distintos, públicos y comúnmente usados en esta área. Se ha
observado el problema de adaptación de dominio que sufren comúnmente los sistemas basados
en aprendizaje aplicados a problemas reales, al ser incapaces de predecir correctamente el
resultado en dominios cuya distribución de los datos varía considerablemente respecto a los
datos de entrenamiento. Se ha comprobado qué tipo de modelo presenta una mayor robustez
ante este tipo de cambios y resulta más apto para su aplicación sobre un nuevo entorno. También
se ha confirmado que el entrenamiento con imágenes de contextos diversos es más eficaz
para extrapolar el conocimiento a nuevos dominios que el entrenamiento sobre un contexto
único con una perspectiva singular.
Además, aunque actualmente existe una abundancia de datos, en diversas situaciones se
evidencia la escasez de datos etiquetados, provocado en mayor medida por los enormes costes
asociados al proceso de anotación. Por esta razón, avances en técnicas como la de self-training
cobran vital importancia en problemas de visión por computador, al generar etiquetas automáticamente
de una forma rápida y sencilla. Es por ello que se ha realizado un estudio
exhaustivo de esta técnica para incrementar el rendimiento de uno de los modelos sobre uno
de los conjuntos de datos, generando las anotaciones necesarias para entrenar sobre ellas.
Se han planteado múltiples alternativas para su aplicación, logrando una mejora sobre todas
las clases no instanciables, tanto en las que el modelo original mostraba un comportamiento
relativamente bueno en la segmentación como en las que el rendimiento no era tan destacable.
En definitiva, no solo se ha experimentado con técnicas de vanguardia y con un gran
potencial futuro, sino que a partir del análisis exhaustivo realizado en cada etapa se ha conseguido
adquirir conocimiento relevante para la comunidad científica y abrir el camino hacia
futuras líneas de investigación. [Abstract]: In the field of computer vision, semantic segmentation and instance segmentation represent
the state-of-the-art in scene analysis. While the former seeks to perform a dense prediction
of the whole image by segmenting the connected regions of elements of the same
category, the latter aims at segmenting only the instantiable objects distinguishing between
the different instances of each one. Recently, a new paradigm has emerged that is at the
vangard of this field and seeks to unify the two previous tasks, aiming to become the new
practice for scene analysis: panoptic segmentation. In this project, we propose the study of
two state-of-the-art models for this task on two datasets with images from significantly different
domains, public and commonly used in this area. It has been observed the domain
adaptation problem commonly suffered by learning-based systems applied to real problems,
being unable to correctly predict the output in domains whose data distribution varies considerably
with respect to the training data. It has been verified which type of model is more
robust to this type of changes and is more suitable for application in a new environment. It
has also been confirmed that training on images from diverse contexts is more effective in
extrapolating knowledge to new domains than training on a single context with a singular
perspective.
Furthermore, although there is currently an abundance of data, in multiple situations there
is evidence of a scarcity of labeled data, mostly caused by the enormous costs associated with
the annotation process. For this reason, advances in techniques such as self-training are vital
in computer vision problems, since it generates labels automatically in a fast and simple way.
For this reason, an exhaustive study of this technique has been carried out to increase the
performance of one of the models on one of the datasets, generating the necessary annotations
to train on them. Multiple alternatives have been proposed for its application, achieving an
improvement over all the non-instantiable classes, both in those where the original model
showed a relatively good behavior in segmentation and in those where the performance was
not so remarkable.
In short, not only have we experimented with state-of-the-art techniques with great future
potential, but from the exhaustive analysis carried out at each stage we have managed to
acquire relevant knowledge for the scientific community and open the way to future lines of
research.
Palabras chave
Inteligencia artificial
Aprendizaje profundo
Redes de neuronas convolucionales
Segmentación panóptica
Segmentación de escenas
Adaptación de dominio
Self-training
Artificial intelligence
Deep learning
Convolutional neural networks
Panoptic segmentation
Scene segmentation
Domain adaptation
Aprendizaje profundo
Redes de neuronas convolucionales
Segmentación panóptica
Segmentación de escenas
Adaptación de dominio
Self-training
Artificial intelligence
Deep learning
Convolutional neural networks
Panoptic segmentation
Scene segmentation
Domain adaptation
Dereitos
Atribución-NoComercial-SinDerivadas 3.0 España