Automatic 3D modeling and editing ofimmersive indoor environments from a single omnidirectional image

Pintore, Giovanni

Título

Autor(es)

Pintore, Giovanni

Director(es)

Jaspe-Villanueva, Alberto
Dorado, Julián
Dorado, Julián (Titor)

Data

2024

Resumo

[Resumo] Nos últimos anos, houbo un interese significativo na investigación da reconstrución 3D automática e o modelado de escenas de interior, o que resulta nun campo emerxente ben definido[1]. Neste contexto, a adquisición de panorámicas 360 graos xurdiu como unha solución eficaz para as contornas de interior. Ofrece unha cobertura rápida e completa, mesmo desde un único punto de vista, e é compatible cunha ampla gama de dispositivos de adquisición profesionais e de consumo, o que fai que a captura de interiores sexa eficiente e rendible[2]. As imaxes panorámicas tamén se converteron en parte integrante da creación de contidos inmersivos directamente a partir de escenas do mundo real e en soporte de diversas aplicacións de Realidade Virtual (RV)[3]. En particular, as visitas virtuais baseadas en imaxes esféricas gañaron popularidade no sector inmobiliario, especialmente durante o período de pandemia. Para lograr unha inmersión total, o sistema debe responder tamén á translación do punto de vista. Aínda que se propuxeron moitas solucións para as configuracións de captura multivista (por exemplo, [4, 5]), realizar a síntese da vista a partir de panoramas dunha soa toma é de gran importancia, debido á conveniencia e difusión da captura dispersa a través de cámaras monoculares de 360◦[6]. Con todo, a síntese de vistas arbitrarias depende da estimación do modelo xeométrico da contorna da imaxe, de forma explícita ou implícita, para realizar unha reproyección consciente da oclusión e sintetizar o contido non obstruído. Este aspecto é aínda máis crucial se o propósito é tamén derivar outra información non obvia da vista orixinal, como, por exemplo, derivar un modelo da estrutura permanente sen desorde[7]. Para lograr unha visualización inmersiva e unha edición eficaz na reconstrución 3D en interiores, é necesario abordar varias cuestións de investigación fundamentais, que están relacionadas coas tarefas de estimación da profundidade e a disposición e a síntese do renderizado de novos puntos de vista. Neste proxecto de investigación, propuxémonos ampliar a estado da arte nestas tarefas fundamentais e, en particular, na súa combinación orientada á exploración e edición inmersiva en interiores, partindo dunha única imaxe de 360 graos. Con este fin, investigamos novos enfoques para explotar as características arquitectónicas previas en interiores, que teñen en conta as características moi específicas da contorna creada polo home, e solucións eficaces baseadas en datos, que aprenden relacións ocultas a partir de exemplos de big data. As nosas contribucións dan lugar a varias solucións innovadoras de tipo end-to-end, como unha nova metodoloxía para a síntese de escenas 3D de interiores de tipo Atlanta-world a partir dunha única imaxe omnidireccional, un enfoque novo para a síntese e exploración en profundidade de contornas estereoscópicos omnidireccionales a partir dunha imaxe panorámica monoscópica, así como unha técnica innovadora para o baleirado automático e instantáneo de escenas de interiores panorámicas, que permite limpar de mobles e outras oclusiones a imaxe e mostrar a arquitectura basee das habitacións. Este tese presenta as meteodologías e resultados obtidos durante a devandita investigación.

[Resumen] En los últimos años, ha habido un interés significativo en la investigación de la reconstrucción 3D automática y el modelado de escenas de interior, lo que resulta en un campo emergente bien definido [1]. En este contexto, la adquisición de panorámicas 360 grados ha surgido como una solución eficaz para los entornos de interior. Ofrece una cobertura rápida y completa, incluso desde un único punto de vista, y es compatible con una amplia gama de dispositivos de adquisición profesionales y de consumo, lo que hace que la captura de interiores sea eficiente y rentable [2]. Las imágenes panorámicas también se han convertido en parte integrante de la creación de contenidos inmersivos directamente a partir de escenas del mundo real y en soporte de diversas aplicaciones de Realidad Virtual (RV) [3]. En particular, las visitas virtuales basadas en imágenes esféricas han ganado popularidad en el sector inmobiliario, especialmente durante el periodo de pandemia. Para lograr una inmersión total, el sistema debe responder también a la traslación del punto de vista. Aunque se han propuesto muchas soluciones para las configuraciones de captura multivista (por ejemplo, [4, 5]), realizar la síntesis de la vista a partir de panoramas de una sola toma es de gran importancia, debido a la conveniencia y difusión de la captura dispersa a través de cámaras monoculares de 360◦ [6]. Sin embargo, la síntesis de vistas arbitrarias depende de la estimación del modelo geométrico del entorno de la imagen, de forma explícita o implícita, para realizar una reproyección consciente de la oclusión y sintetizar el contenido no obstruído. Este aspecto es aún más crucial si el propósito es también derivar otra información no obvia de la vista original, como, por ejemplo, derivar un modelo de la estructura permanente sin desorden [7]. Para lograr una visualización inmersiva y una edición eficaz en la reconstrucción 3D en interiores, es necesario abordar varias cuestiones de investigación fundamentales, que están relacionadas con las tareas de estimación de la profundidad y la disposición y la síntesis del renderizado de nuevos puntos de vista. viii En este proyecto de investigación, nos propusimos ampliar el estado del arte en estas tareas fundamentales y, en particular, en su combinación orientada a la exploración y edición inmersiva en interiores, partiendo de una única imagen de 360 grados. Con este fin, investigamos nuevos enfoques para explotar las características arquitectónicas previas en interiores, que tienen en cuenta las características muy específicas del entorno creado por el hombre, y soluciones eficaces basadas en datos, que aprenden relaciones ocultas a partir de ejemplos de big data. Nuestras contribuciones dan lugar a varias soluciones innovadoras de tipo endto- end, como una nueva metodología para la síntesis de escenas 3D de interiores de tipo Atlanta-world a partir de una única imagen omnidireccional, un enfoque novedoso para la síntesis y exploración en profundidad de entornos estereoscópicos omnidireccionales a partir de una imagen panorámica monoscópica, así como una técnica innovadora para el vaciado automático e instantáneo de escenas de interiores panorámicas, que permite limpiar de muebles y otras oclusiones la imagen y mostrar la arquitectura base de las habitaciones. Este tesis presenta las meteodologías y resultados obtenidos durante dicha investigación

[Abstract] Over the past few years, there has been significant research interest in the automatic 3D reconstruction and modeling of indoor scenes, resulting in a well-defined emerging fieldc [1]. Within this context, 360-degree panoramic acquisition has emerged as an effective solution for indoor environments. It offers rapid and comprehensive coverage, even from a single viewpoint, and is compatible with a wide range of professional and consumer acquisition devices, making indoor data capture efficient and cost-effective [2]. Panoramic images have also become integral to creating immersive content directly from real-world scenes and supporting various Virtual Reality (VR) applications [3]. Notably, virtual tours based on spherical images have gained popularity in the real estate industry, especially during the pandemic period. To fully support immersion, a system must thus also respond to viewpoint translation. While many solutions have been proposed for multiview capture setups (e.g., [4, 5]), performing view synthesis from single-shot panoramas is of primary importance, due to the convenience and diffusion of sparse capturing through monocular 360◦ cameras [6]. However, view synthesis relies on estimating the geometric model of the imaged environment, explicitly or implicitly, to perform occlusion-aware reprojection and synthesize disoccluded content. This aspect is even more crucial if the purpose is also to derive other non-obvious information from the original view, such as, for example, deriving a model of the permanent structure without clutter [7]. To achieve immersive visualization and effective editing in indoor 3D reconstruction, it is necessary to address several fundamental research questions related to depth and layout estimation and novel view synthesis. In our research project, we proposed to extend the state of the art in these fundamental tasks and particularly in their combination aimed at indoor immersive exploration and editing, just starting from a single 360-degree image. To this end, we researched novel approaches to exploit indoor architectural priors, that take in account the very specific man-made environment features, and effective data-driven solutions, that x learn hidden relations from big-data examples. Our contributions result in several, innovative, end-to-end solutions, such as a novel methodology for 3D scene synthesis of Atlanta-world interiors from a single omnidirectional image, a novel approach for deep synthesis and exploration of omnidirectional stereoscopic environments from a monoscopic panoramic image, an innovative end-to-end technique for instant automatic emptying of panoramic indoor scenes. This thesis presents the results obtained during such a research.

Palabras chave

View Synthesis
Omnidirectional Capture
Panoramic capture
Immersive Exploration
Computer Graphics
Reconstrucción 3D
Realidad virtual
Exploración Inmersiva
Estimación del Trazado 3D
Síntesis de la Vista
Gráficos por computador
Visión por computador
Informática Visual
Realidade virtual
Proxección Equiretangular

Dereitos

Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reprodución, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En ningún caso se permite o uso lucrativo deste documento. Estes dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su reproducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido