Learning-Based Optimization For Intelligent Reflecting Surface And Cell-Free Massive Mimo Wireless Networks

Castedo, LuisFresnedo, ÓscarPereira Ruisánchez, Dariel2026-03-042026-03-042025https://hdl.handle.net/2183/47582[Resumo] Nas últimas décadas os sistemas de comunicacións sen fíos experimentaron unha evolución significativa, impulsada pola crecente demanda dunha maior eficiencia espectral (SE, pola súa sigla en inglés) e enerxética, e menor latencia. A aparición das redes 5G e a investigación en curso arredor das 6G puxeron de manifesto a necesidade de solucións intelixentes, flexibles e escalables. Dúas das tecnoloxías clave que se están a explorar neste contexto son as superficies reflectoras intelixentes (IRS) e as arquitecturas MIMO masivo sen celas (CF-mMIMO), que prometen desempeñar un papel fundamental na configuración das redes sen fíos de próxima xeración. Os sistemas MIMO asistidos por IRS introducen un enfoque novo para manipular as canles sen fíos mediante o uso de superficies case pasivas que permiten controlar as fases dos sinais. Deste modo, mellórase a dirección dos sinais e mitíganse as interferencias. A diferenza dos repetidores activos convencionais, as IRS non requiren cadeas de radiofrecuencia adicionais, o que reduce a complexidade e o consumo enerxético. Non obstante, a optimización conxunta das fases da IRS e os precodificadores MIMO presenta desafíos non convexos e de alta dimensionalidade. Pola súa banda, a CF-mMIMO representa un cambio de paradigma con respecto ás arquitecturas celulares tradicionais. Ao permitir a formación cooperativa e centrada no usuario dos clústeres de cooperación de puntos de acceso (AP), esta tecnoloxía consegue unha distribución máis homoxénea da cobertura e maiores capacidades para o control da interferencia. Ademais, resolve os problemas de rendemento nos bordos de cela que son característicos das redes convencionais. Porén, as arquitecturas CF-mMIMO introducen unha serie de complexidades adicionais. Algunhas tarefas de asignación de recursos, como a reconfiguración dinámica dos clústeres colaborativos de AP e a asignación de pilotos, requiren métodos de optimización máis escalables e adaptativos. A motivación principal desta tese xorde do recente auxe das redes sen fíos intelixentes, nas que se agarda que os modelos de aprendizaxe participen en tarefas de optimización que van desde o deseño da rede ata a súa reconfiguración en tempo real. Como anticipan os estudos sobre arquitecturas ORAN, a incorporación de intelixencia artificial (IA) en diferentes procesos resulta esencial para dotar as redes de comunicacións da adaptabilidade necesaria para escalar e optimizar os seus recursos de xeito eficiente. Os esforzos iniciais nesta dirección centráronse principalmente en técnicas de aprendizaxe supervisada convencional. Porén, estes algoritmos atopan dificultades ante o dinamismo das redes sen fíos e a escaseza de datos etiquetados. Por isto, consideramos un conxunto alternativo de ferramentas, que inclúe algoritmos de aprendizaxe por reforzo (RL) e contextual bandits (CB), estratexias de aprendizaxe non supervisada e modelos baseados en redes neuronais gráficas (GNN). En primeiro lugar, os enfoques baseados en RL e CB proporcionáronnos formas eficaces de formular varios problemas de optimización en comunicacións MIMO asistidas por IRS. Así mesmo, as alternativas baseadas en aprendizaxe profunda DCB e DRL, que integran o poder de xeneralización das redes neuronais, permitíronnos reducir a dependencia de datos de adestramento ao aprender directamente mediante interacción por proba e erro. Como resultado, desenvolvéronse dous marcos de solución denominados DCB-DDPG e DRL-DDPG para a optimización conxunta dos precodificadores e da matriz de fases da IRS. Así mesmo, a tarefa de selección dos equipos de usuario (UE) foi abordada con éxito mediante a implementación do algoritmo PPO, unha das técnicas máis salientables dentro do RL. Paralelamente, as GNN ofreceron unha alternativa escalable e eficiente computacionalmente fronte aos modelos supervisados tradicionais. Aproveitando as estruturas de grafo que xorden de forma natural en CF-mMIMO, as GNN convertéronse no compoñente central de solucións competitivas para a formación dos clústeres colaborativos de AP. Por último, o algoritmo proposto C-footprints, que adapta unha estratexia clásica de aprendizaxe non supervisada ás particularidades de CF-mMIMO, demostrou ser unha ferramenta útil para simplificar o problema da asignación de pilotos. En conxunto, estas contribucións enriquecen a comprensión teórica das redes sen fíos emerxentes e exploran vías viables para a súa implementación práctica, acadando un equilibrio entre rendemento e viabilidade computacional.[Resumen] En las últimas décadas, los sistemas de comunicaciones inalámbricas han experimentado una evolución significativa, impulsada por la creciente demanda de mayor eficiencia espectral (SE, por sus siglas en inglés), menor latencia y eficiencia energética. La aparición de las redes 5G y la investigación en curso sobre 6G han puesto de manifiesto la necesidad de soluciones inteligentes, flexibles y escalables. Dos tecnologías clave que se están explorando en este contexto son las superficies reflectantes inteligentes (IRS) y las arquitecturas MIMO masivo sin celdas (CF-mMIMO), las cuales prometen desempeñar un papel fundamental en la configuración de las redes inalámbricas de próxima generación. Los sistemas MIMO asistidos por IRS introducen un enfoque novedoso para manipular los canales inalámbricos mediante el uso de superficies casi pasivas que permiten controlar las fases de las señales. De esta manera, se mejora la dirección de las señales y se mitigan las interferencias. A diferencia de los repetidores activos convencionales, las IRS no requieren cadenas de radiofrecuencia adicionales, lo que reduce la complejidad y el consumo energético. No obstante, la optimización conjunta de las fases de la IRS y los pre-codificadores MIMO plantea desafíos no convexos y de alta dimensionalidad. Por otro lado, CF-mMIMO representa un cambio de paradigma respecto a las arquitecturas celulares tradicionales. Al permitir la formación cooperativa y centrada en el usuario de los clústeres de cooperación de puntos de acceso (AP), esta tecnología logra una distribución más homogénea de la cobertura y mejores capacidades para el control de interferencias. Además, resuelve los problemas de rendimiento en los bordes de celda que son característicos de las redes convencionales. Sin embargo, las arquitecturas CFmMIMO introducen una serie de complejidades adicionales. Algunas tareas de asignación de recursos, como la reconfiguración dinámica de los clústeres colaborativos de AP y la asignación de pilotos, requieren métodos de optimización más escalables y adaptativos. La motivación principal de esta tesis surge del auge reciente de las redes inalámbricas inteligentes, en las que se espera que los modelos de aprendizaje participen en tareas de optimización que abarcan desde el diseño de la red hasta su reconfiguración en tiempo real. Como anticipan los estudios sobre arquitecturas O-RAN, la incorporación de inteligencia artificial (IA) en distintos procesos resulta esencial para dotar a las redes de comunicaciones de la adaptabilidad necesaria para escalar y optimizar sus recursos de manera eficiente. Los esfuerzos iniciales en esta dirección se centraron principalmente en técnicas de aprendizaje supervisado convencional. Sin embargo, dichos algoritmos enfrentan dificultades ante el dinamismo de las redes inalámbricas y la escasez de datos etiquetados. Por ello, hemos considerado un conjunto alternativo de herramientas, incluyendo algoritmos de aprendizaje por refuerzo (RL) y contextual bandits (CB), estrategias de aprendizaje no supervisado y modelos basados en redes neuronales gráficas (GNN). En primer lugar, los enfoques basados en RL y CB nos proporcionaron formas eficaces de formular varios problemas de optimización en comunicaciones MIMO asistidas por IRS. Además, las alternativas basadas en aprendizaje profundo DCB y DRL, que integran el poder de generalización de las redes neuronales, nos permitieron reducir la dependencia de datos de entrenamiento al aprender directamente mediante interacción por ensayo y error. Como resultado, desarrollamos dos marcos de solución denominados DCB-DDPG y DRL-DDPG para la optimización conjunta de los precodificadores y la matriz de fases de la IRS. Asimismo, la tarea de selección de equipos de usuarios (UE) fue abordada exitosamente mediante la implementación del algoritmo PPO, uno de los métodos más destacados dentro del RL. Paralelamente, las GNN ofrecieron una alternativa escalable y computacionalmente eficiente frente a los modelos supervisados tradicionales. Aprovechando las estructuras de grafo que surgen de forma natural en CF-mMIMO, las GNN se convirtieron en el componente central de soluciones competitivas para la formación de los clústeres colaborativos de AP. Por último, el algoritmo propuesto C-footprints, que adapta una estrategia clásica de aprendizaje no supervisado a las particularidades de CF-mMIMO, demostró ser una herramienta útil para simplificar el problema de asignación de pilotos. En conjunto, estas contribuciones enriquecen la comprensión teórica de las redes inalámbricas emergentes y exploran vías viables para su implementación práctica, logrando un equilibrio entre rendimiento y viabilidad computacional.[Abstract] Over the past few decades, wireless communication systems have undergone significant evolution, driven by increasing demands for higher spectral efficiency (SE), lower latency, and energy efficiency. The emergence of fifth generation (5G) networks and ongoing sixth generation (6G) research has highlighted the need for intelligent, flexible, and scalable solutions. Two key technologies being explored are intelligent reflecting surfaces (IRSs) and user-centric cell-free massive MIMO (CF-mMIMO), which promise to shape next-generation wireless networks. IRS-assisted MIMO systems introduce a novel approach to manipulating wireless channels that relies on the use of nearly passive surfaces to control signal phases. In this way, they enable improved signal steering and interference mitigation. IRSs, in contrast to conventional active relays, eliminate the need for extra radio frequency (RF) chains, thereby minimizing both complexity and energy consumption. However, optimizing IRS phase shifts alongside MIMO precoders presents nonconvex, high-dimensional challenges. On the other hand, CF-mMIMO represents a paradigm shift from conventional cellular architectures. By enabling cooperative, user equipment (UE)-centric formation of the access point (AP) cooperation clusters, CF-mMIMO achieves a more homogeneous distribution of the coverage map and better capabilities for interference control. Additionally, it resolves celledge performance issues inherent to conventional networks. Nevertheless, CF-mMIMO architectures introduce their own set of additional complexities over existing communication systems. Some resource allocation tasks, such as the dynamic reconfiguration of the AP cooperation clusters and the pilot assignment, require the study of more scalable and adaptive optimization methods. The motivation driving this thesis stems from the recent surge in intelligent wireless networks, where learning models are expected to participate in optimization tasks that range from network design to real-time reconfiguration. As anticipated by research on open radio access network (O-RAN) architectures, the inclusion of artificial intelligence (AI) into various processes is essential for endowing communication networks with the adaptability needed to scale and optimize their resources efficiently. Some initial efforts in this regard primarily focused on conventional supervised learning techniques. However, these algorithms struggle with the dynamism of wireless networks and the scarcity of labeled data. That is why we have considered a different set of learning-based tools, including reinforcement learning (RL) and contextual bandit (CB) algorithms, unsupervised learning clustering strategies, and graph neural network (GNN)-based models. Firstly, RL and CB provided us with effective ways for characterizing some of the optimization problems addressed in IRS-assisted MIMO communications. Besides, deep reinforcement learning (DRL)- and deep contextual bandit (DCB)-based algorithms, which incorporate the generalization power of neural networks (NNs), enabled us to reduce the dependence on training data by learning directly from trial-and-error interactions. Consequently, two frameworks, termed deep contextual banditoriented deep deterministic policy gradient (DCB-DDPG) and deep reinforcement learning-oriented deepengAttribution-ShareAlike 4.0 Internationalhttp://creativecommons.org/licenses/by-sa/4.0/Contextual bandits (CB)Redes neuronales gráficas (GNN)Aprendizaje por refuerzo (RL)Superficies reflectantes inteligentes(IRS)Sistemas MIMOIAAlgoritmosRedes 5GLearning-Based Optimization For Intelligent Reflecting Surface And Cell-Free Massive Mimo Wireless NetworksOptimización Baseada en Aprendizaxe para Superficies Reflectoras Intelixentes e Sistemas MIMO Masivo sen Celasdoctoral thesisopen access