Automatic 3D modeling and editing ofimmersive indoor environments from a single omnidirectional image
Non accesible ata 2025-05-07
Ver/ abrir
Use este enlace para citar
http://hdl.handle.net/2183/40244Coleccións
- Teses de doutoramento [2184]
Metadatos
Mostrar o rexistro completo do ítemTítulo
Automatic 3D modeling and editing ofimmersive indoor environments from a single omnidirectional imageAutor(es)
Director(es)
Jaspe-Villanueva, AlbertoDorado, Julián
Dorado, Julián (Titor)
Data
2024Resumo
[Resumo]
Nos últimos anos, houbo un interese significativo na investigación da reconstrución
3D automática e o modelado de escenas de interior, o que resulta nun campo
emerxente ben definido[1]. Neste contexto, a adquisición de panorámicas 360 graos
xurdiu como unha solución eficaz para as contornas de interior. Ofrece unha cobertura
rápida e completa, mesmo desde un único punto de vista, e é compatible cunha
ampla gama de dispositivos de adquisición profesionais e de consumo, o que fai que
a captura de interiores sexa eficiente e rendible[2]. As imaxes panorámicas tamén se
converteron en parte integrante da creación de contidos inmersivos directamente a
partir de escenas do mundo real e en soporte de diversas aplicacións de Realidade
Virtual (RV)[3]. En particular, as visitas virtuais baseadas en imaxes esféricas gañaron
popularidade no sector inmobiliario, especialmente durante o período de pandemia.
Para lograr unha inmersión total, o sistema debe responder tamén á translación do
punto de vista. Aínda que se propuxeron moitas solucións para as configuracións
de captura multivista (por exemplo, [4, 5]), realizar a síntese da vista a partir de
panoramas dunha soa toma é de gran importancia, debido á conveniencia e difusión
da captura dispersa a través de cámaras monoculares de 360◦[6]. Con todo, a síntese
de vistas arbitrarias depende da estimación do modelo xeométrico da contorna da
imaxe, de forma explícita ou implícita, para realizar unha reproyección consciente
da oclusión e sintetizar o contido non obstruído. Este aspecto é aínda máis crucial
se o propósito é tamén derivar outra información non obvia da vista orixinal, como,
por exemplo, derivar un modelo da estrutura permanente sen desorde[7]. Para
lograr unha visualización inmersiva e unha edición eficaz na reconstrución 3D en
interiores, é necesario abordar varias cuestións de investigación fundamentais, que
están relacionadas coas tarefas de estimación da profundidade e a disposición e a
síntese do renderizado de novos puntos de vista.
Neste proxecto de investigación, propuxémonos ampliar a estado da arte nestas
tarefas fundamentais e, en particular, na súa combinación orientada á exploración
e edición inmersiva en interiores, partindo dunha única imaxe de 360 graos. Con
este fin, investigamos novos enfoques para explotar as características arquitectónicas
previas en interiores, que teñen en conta as características moi específicas da contorna
creada polo home, e solucións eficaces baseadas en datos, que aprenden relacións
ocultas a partir de exemplos de big data.
As nosas contribucións dan lugar a varias solucións innovadoras de tipo end-to-end,
como unha nova metodoloxía para a síntese de escenas 3D de interiores de tipo
Atlanta-world a partir dunha única imaxe omnidireccional, un enfoque novo para
a síntese e exploración en profundidade de contornas estereoscópicos omnidireccionales
a partir dunha imaxe panorámica monoscópica, así como unha técnica
innovadora para o baleirado automático e instantáneo de escenas de interiores
panorámicas, que permite limpar de mobles e outras oclusiones a imaxe e mostrar a
arquitectura basee das habitacións. Este tese presenta as meteodologías e resultados
obtidos durante a devandita investigación. [Resumen]
En los últimos años, ha habido un interés significativo en la investigación de la
reconstrucción 3D automática y el modelado de escenas de interior, lo que resulta en
un campo emergente bien definido [1]. En este contexto, la adquisición de panorámicas
360 grados ha surgido como una solución eficaz para los entornos de interior.
Ofrece una cobertura rápida y completa, incluso desde un único punto de vista, y es
compatible con una amplia gama de dispositivos de adquisición profesionales y de
consumo, lo que hace que la captura de interiores sea eficiente y rentable [2]. Las
imágenes panorámicas también se han convertido en parte integrante de la creación
de contenidos inmersivos directamente a partir de escenas del mundo real y en soporte
de diversas aplicaciones de Realidad Virtual (RV) [3]. En particular, las visitas
virtuales basadas en imágenes esféricas han ganado popularidad en el sector inmobiliario,
especialmente durante el periodo de pandemia. Para lograr una inmersión
total, el sistema debe responder también a la traslación del punto de vista. Aunque
se han propuesto muchas soluciones para las configuraciones de captura multivista
(por ejemplo, [4, 5]), realizar la síntesis de la vista a partir de panoramas de una
sola toma es de gran importancia, debido a la conveniencia y difusión de la captura
dispersa a través de cámaras monoculares de 360◦ [6]. Sin embargo, la síntesis de
vistas arbitrarias depende de la estimación del modelo geométrico del entorno de la
imagen, de forma explícita o implícita, para realizar una reproyección consciente de
la oclusión y sintetizar el contenido no obstruído. Este aspecto es aún más crucial si
el propósito es también derivar otra información no obvia de la vista original, como,
por ejemplo, derivar un modelo de la estructura permanente sin desorden [7]. Para
lograr una visualización inmersiva y una edición eficaz en la reconstrucción 3D en
interiores, es necesario abordar varias cuestiones de investigación fundamentales,
que están relacionadas con las tareas de estimación de la profundidad y la disposición
y la síntesis del renderizado de nuevos puntos de vista.
viii
En este proyecto de investigación, nos propusimos ampliar el estado del arte en estas
tareas fundamentales y, en particular, en su combinación orientada a la exploración y
edición inmersiva en interiores, partiendo de una única imagen de 360 grados. Con
este fin, investigamos nuevos enfoques para explotar las características arquitectónicas
previas en interiores, que tienen en cuenta las características muy específicas del
entorno creado por el hombre, y soluciones eficaces basadas en datos, que aprenden
relaciones ocultas a partir de ejemplos de big data.
Nuestras contribuciones dan lugar a varias soluciones innovadoras de tipo endto-
end, como una nueva metodología para la síntesis de escenas 3D de interiores
de tipo Atlanta-world a partir de una única imagen omnidireccional, un enfoque
novedoso para la síntesis y exploración en profundidad de entornos estereoscópicos
omnidireccionales a partir de una imagen panorámica monoscópica, así como una
técnica innovadora para el vaciado automático e instantáneo de escenas de interiores
panorámicas, que permite limpiar de muebles y otras oclusiones la imagen y mostrar
la arquitectura base de las habitaciones. Este tesis presenta las meteodologías y
resultados obtenidos durante dicha investigación [Abstract]
Over the past few years, there has been significant research interest in the automatic
3D reconstruction and modeling of indoor scenes, resulting in a well-defined emerging
fieldc [1]. Within this context, 360-degree panoramic acquisition has emerged as
an effective solution for indoor environments. It offers rapid and comprehensive
coverage, even from a single viewpoint, and is compatible with a wide range of
professional and consumer acquisition devices, making indoor data capture efficient
and cost-effective [2]. Panoramic images have also become integral to creating
immersive content directly from real-world scenes and supporting various Virtual
Reality (VR) applications [3]. Notably, virtual tours based on spherical images have
gained popularity in the real estate industry, especially during the pandemic period.
To fully support immersion, a system must thus also respond to viewpoint translation.
While many solutions have been proposed for multiview capture setups (e.g., [4,
5]), performing view synthesis from single-shot panoramas is of primary importance,
due to the convenience and diffusion of sparse capturing through monocular 360◦
cameras [6]. However, view synthesis relies on estimating the geometric model of the
imaged environment, explicitly or implicitly, to perform occlusion-aware reprojection
and synthesize disoccluded content. This aspect is even more crucial if the purpose
is also to derive other non-obvious information from the original view, such as,
for example, deriving a model of the permanent structure without clutter [7]. To
achieve immersive visualization and effective editing in indoor 3D reconstruction, it
is necessary to address several fundamental research questions related to depth and
layout estimation and novel view synthesis.
In our research project, we proposed to extend the state of the art in these fundamental
tasks and particularly in their combination aimed at indoor immersive exploration
and editing, just starting from a single 360-degree image. To this end, we researched
novel approaches to exploit indoor architectural priors, that take in account the very
specific man-made environment features, and effective data-driven solutions, that
x
learn hidden relations from big-data examples. Our contributions result in several,
innovative, end-to-end solutions, such as a novel methodology for 3D scene synthesis
of Atlanta-world interiors from a single omnidirectional image, a novel approach
for deep synthesis and exploration of omnidirectional stereoscopic environments
from a monoscopic panoramic image, an innovative end-to-end technique for instant
automatic emptying of panoramic indoor scenes. This thesis presents the results
obtained during such a research.
Palabras chave
View Synthesis
Omnidirectional Capture
Panoramic capture
Immersive Exploration
Computer Graphics
Reconstrucción 3D
Realidad virtual
Exploración Inmersiva
Estimación del Trazado 3D
Síntesis de la Vista
Gráficos por computador
Visión por computador
Informática Visual
Realidade virtual
Proxección Equiretangular
Omnidirectional Capture
Panoramic capture
Immersive Exploration
Computer Graphics
Reconstrucción 3D
Realidad virtual
Exploración Inmersiva
Estimación del Trazado 3D
Síntesis de la Vista
Gráficos por computador
Visión por computador
Informática Visual
Realidade virtual
Proxección Equiretangular
Dereitos
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reprodución, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En ningún caso se permite o uso lucrativo deste documento. Estes dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su reproducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido