Estudio y diseño de modelos de aprendizaje profundo para generación multimodal de imagen oftalmológica

Morano, José

Ver/abrir

J.Morano_Sánchez_Estudio_y_diseño_de_modelos_de_aprendizaje_2019.pdf (12.95Mb)

Use este enlace para citar

http://hdl.handle.net/2183/24720

A non ser que se indique outra cousa, a licenza do ítem descríbese como Atribución-NoComercial-SinDerivadas 3.0 España

Coleccións

Enxeñaría informática, Grao en [452]

Metadatos

Mostrar o rexistro completo do ítem

Título

Estudio y diseño de modelos de aprendizaje profundo para generación multimodal de imagen oftalmológica

Autor(es)

Morano, José

Director(es)

Novo Buján, Jorge
Rouco Maseda, José

Data

2019

Centro/Dpto/Entidade

Enxeñaría informática, Grao en

Resumo

[Resumen] En el ámbito oftalmológico, para realizar algunos procesos de diagnóstico, se suele disponer de diferentes modalidades de imagen del fondo de ojo. Generalmente, estas son de dos tipos: invasivas —implican la agresión del organismo—, y no-invasivas —no implican tal agresión y suelen ser más baratas y sencillas de obtener—. En este trabajo, se estudian y adaptan diferentes modelos de aprendizaje profundo (redes de neuronas convolucionales) para la generación de una modalidad de imagen invasiva, la angiografía, a partir de otra no invasiva, la retinografía, en lo que se conoce como paradigma de reconstrucción multimodal. Además, el entrenamiento de estos modelos ha permitido estudiar su utilidad como preentrenamientos de una segunda tarea de carácter finalista, la segmentación de vasos en retinografía, mediante la aplicación de la técnica de transfer learning. La comparación de los resultados de estos modelos para las dos tareas con los de uno de referencia (con un diseño más clásico y sencillo) ha permitido comprobar dos cosas. En primer lugar, que los resultados de estos modelos, aunque se acercan, no alcanzan en muchos casos a los del modelo de referencia. Y en segundo lugar, que la utilización de modelos preentrenados, independientemente de la arquitectura empleada, tiene un impacto positivo en los resultados. Con ellos, las segmentaciones son mejores con un menor tiempo de entrenamiento. La primera de estas observaciones nos han permitido, primero, cuestionar la relevancia de las variantes arquitecturales y principios de diseño de los modelos nuevos en el dominio escogido; y segundo, confirmar la adecuación de dichos modelos generativos a la tarea de reconstrucción multimodal, permitiendo validar el propio paradigma. Por otra parte, la segunda de las observaciones nos ha permitido confirmar la utilidad de los preentrenamientos de la tarea de reconstrucción. Cuando se dispone de pocos datos etiquetados, este tipo de preentrenamientos surgen como una buena opción para mitigar esa escasez y mejorar así los resultados.

[Abstract] In the ophthalmological field, different modalities of fundus imaging are usually available to perform some diagnosis. These modalities are of two types: invasive —they involve the aggression of the organism—, and non-invasive —they do not imply such aggression and are usually cheaper and easier to obtain—. In this work are studied and adapted different deep learning models (convolutional neural networks) to generate an invasive imaging modality —angiography— from another non-invasive modality —retinography—. This is known as multimodal reconstruction paradigm. In addition, the training of these models has allowed us to study their usefulness as pre-trainined models of second finalist task: vessel segmentation in retinography. This is achieved through the application of transfer learning technique. The results obtained by the selected models in both tasks were compared to those of a reference model with a more classic and simple design. This comparison showed two points. First, that the results of the selected models did not reach in many cases those of the reference model. Second, that the use of pre-trained models, regardless of the architecture used, has a positive impact on the results. When transfer learning is applied, segmentation images are better with less training time. The first point allowed us to question the relevance of the architectural variants and design principles of the selected models in the chosen domain. Moreover, it confirmed the adequacy of generative models to the task of multimodal reconstruction, validating the paradigm itself. On the other hand, the second point allowed us to confirm the usefulness of pre-trainings from the reconstruction task. This type of pre-training is able to mitigate data scarcity in finalist tasks, and therefore improve the results.

Palabras chave

Aprendizaje profundo
Imagen médica
Aprendizaje transferido
Redes de neuronas convolucionales
Imagen oftalmológica
Deep learning
Medical imaging
Transfer learning
Convolutional neural networks
Ophthalmological imaging

Dereitos

Atribución-NoComercial-SinDerivadas 3.0 España