Identificación de xenes relacionados con peor prognóstico en cancro de mama usando autoencoders

Use this link to cite
http://hdl.handle.net/2183/31923
Except where otherwise noted, this item's license is described as Atribución-NoComercial-CompartirIgual 3.0 España
Collections
Metadata
Show full item recordTitle
Identificación de xenes relacionados con peor prognóstico en cancro de mama usando autoencodersAuthor(s)
Directors
Fernández-Lozano, CarlosDate
2022Center/Dept./Entity
Universidade da Coruña. Facultade de InformáticaDescription
Traballo fin de grao (UDC.FIC). Enxeñaría Informática. Curso 2021/2022Abstract
[Resumen] En la época actual, el estado de la tecnología es tal que, para cualquier problema, existe cada
vez un mayor número de datos que lo describe. En concreto, en el ámbito de la biología molecular
se dispone de plataformas de secuenciación de próxima generación o Next Generation
Sequencing (NGS) que son capaces de extraer de una muestra celular una cantidad ingente
de datos (superior al gigabyte por cada muestra). Dicha información, en forma de cadenas de
texto y letras que representan la secuencia de ADN de la muestra secuenciada, se procesa y se
alinea contra el genoma humano para obtener los niveles de expresión génica de la misma. El
número de pacientes es, debido a los costes de proceso de secuenciación y, en la mayoría de
los casos, muy inferior al número de genes secuenciados. La alta dimensionalidad de los datos
supone un problema a la hora de analizarlos, ya que para obtener un resultado estadísticamente
sólido y fiable, el número de muestras debe aumentar con la dimensionalidad. A partir
de una base de datos pública y de acceso abierto con más de 20.000 genes secuenciados para
cada paciente, el trabajo consiste en la aplicación de técnicas de inteligencia artificial para su
análisis, en concreto, mediante la aplicación de autoenconders en cáncer de mama. Este tipo
de técnicas pertenece a las conocidas Redes de Neuronas Artificiales de entrenamiento no supervisado
y su principal uso consiste en el aprendizaje e identificación de una representación
de los datos suficientemente informativa con el menor número posible de variables, en este
caso genes. La enfermedad que se estudiará presenta unos patrones comunes que pueden ser
potencialmente descubiertos con este tipo de técnicas y así facilitar el análisis por parte de los
clínicos que podrían estudiar las vías de comunicación celular en las que intervienen dichos
genes de manera mucho más simplificada. [Abstract] Nowadays, the state of technology is such that, for any problem, there is more and more
data that describes it. Specifically, in the field of molecular biology, there are Next Generation
Sequencing platforms (NGS) that are capable of extracting a huge amount of data from
a cell sample (greater than a gigabyte for each sample). This information, in the form of text
strings and letters that represent the DNA sequence of the sequenced sample, is processed
and aligned against the human genome to obtain its gene expression levels. The number of
patients is, due to the costs of the sequencing process and, in most cases, much lower than
the number of genes sequenced. The high dimensionality of the data is a problem when analyzing
it, since to obtain a statistically robust and reliable result, the number of samples must
increase with dimensionality. Using a public and open access database with more than 20,000
genes sequenced for each patient, the project consists of the application of artificial intelligence
techniques for their analysis, specifically, through the application of autoencoders in
breast cancer. This type of technique belongs to the well-known Neural Networks of unsupervised
training and its main use consists of learning and identifying a sufficiently informative
data representation with the least possible number of variables, in this case genes. The disease
to be studied has common patterns that can potentially be discovered with this type of technique
and thus facilitate analysis by clinicians who could study the cellular communication
pathways in which these genes are involved in a much more simplified way.
Keywords
Reducción de la dimensionalidad
Redes de neuronas artificiales
Aprendizaje no supervisado
Autoencoders
Selección de características
Dimensionality reduction
Artificial neural network
Unsupervised learning
Feature selection
Redes de neuronas artificiales
Aprendizaje no supervisado
Autoencoders
Selección de características
Dimensionality reduction
Artificial neural network
Unsupervised learning
Feature selection
Rights
Atribución-NoComercial-CompartirIgual 3.0 España