Nonparametric Inference for Big-But-Biased Data

View/ Open
Use this link to cite
http://hdl.handle.net/2183/28500Collections
- Teses de doutoramento [2221]
Metadata
Show full item recordTitle
Nonparametric Inference for Big-But-Biased DataAuthor(s)
Directors
Cao, RicardoDate
2021Abstract
[Abstract]
It is often believed that in a Big Data context, given the large amount of data available,
the data re
ect precisely the underlying population. However, the data are
often strongly biased due to the procedure used for obtaining them.
In order to reduce the signi cant bias that may appear in Big Data (Big-but-
Biased Data, B3D), di erent testing methods for bias detection are used and completely
nonparametric estimation methods for bias correction are proposed. Nonparametric
estimators for the mean of a transformation of the random variable of
interest are considered. When ignoring the biasing weight function, two di erent
setups are proposed. In Setup 1 a small-sized simple random sample of the real population
is assumed to be additionally observed, while in Setup 2 it is assumed that a
twice biased sample of small size is observed. The asymptotic properties of the proposed
estimators are extensively studied under suitable limit conditions on the small
and the large sample sizes and standard and non-standard asymptotic conditions on
the two bandwidths. The performance of the proposed nonparametric estimators is
compared with the classical estimators based on the two samples involved in each
setup through Monte Carlo simulation studies. Simulation results show that the new
mean estimators outperform the classical empirical means for suitable choices of the
two smoothing parameters involved. The in
uence of these smoothing parameters
on the performance of the nal estimators is also studied, exhibiting a striking limit
behaviour of their optimal values. In addition, bootstrap bandwidth selection methods
for each nonparametric mean estimator are introduced. Finally, the proposed
techniques are applied to several real data sets from different areas Resumen`]
Se acostumbra a pensar que en un contexto de datos de gran volumen, el conjunto
de datos refleja fi elmente la población objeto de estudio, dada la gran cantidad de
datos disponible. No obstante, en ocasiones estos datos están fuertemente sesgados
debido, por lo general, al procedimiento de obtención de los mismos.
Con el objetivo de reducir el importante sesgo que puede aparecer en un contexto
de datos de gran volumen, se propone el uso de métodos de contraste para la detección
de sesgo y se desarrollan métodos de estimación para la corrección del mismo.
Se consideran estimadores no paramétricos de la media de una transformación de la
variable aleatoria de interés. Se proponen dos escenarios diferentes para abordar el
problema de la estimación cuando la función peso que produce el sesgo es desconocida.
En el escenario 1, se supone que se observa adicionalmente una muestra aleatoria
simple de tamaño pequeño de la población verdadera, mientras que en el escenario
2 se asume que se observa una muestra de tamaño pequeño doblemente sesgada.
Las propiedades asintóticas de los estimadores propuestos se estudian ampliamente
bajo condiciones límite adecuadas en los tamaños muestrales y bajo condiciones
asintóticas estándar y no estándar en los dos parámetros de suavizado. El comportamiento
de los estimadores no paramétricos propuestos se compara con el de los
estimadores clásicos basados en las dos muestras involucradas en cada escenario a
través de estudios de simulación de Monte Carlo. Los resultados de la simulación
muestran que los nuevos estimadores de la media mejoran a las medias empíricas
clásicas para una elección adecuada de los dos parámetros de suavizado implicados.
También se estudia la influencia de los parámetros de suavizado en el funcionamiento
de los estimadores, los cuales exhiben un comportamiento límite llamativo en cuanto
a sus valores óptimos. Además, se introducen métodos bootstrap para la selección
automática de los parámetros de suavizado para cada estimador no paramétrico de
la media. Finalmente, las técnicas propuestas se aplican a varios conjuntos de datos
reales procedentes de diversas áreas. Resumo
Adoitase pensar que nun contexto de datos de gran volume, o conxunto de datos
reflicte fielmente a poboación obxecto de estudo, dada a gran cantidade de datos
dos que se dispoñen. Non obstante, en moitas ocasións estes datos están fortemente
nesgados debido, polo xeral, ao procedemento de obtención dos mesmos.
Co obxectivo de reducir o importante nesgo que pode aparecer nun contexto
de datos de gran volume, proponse o uso de métodos de contraste para a detección
do sesgo e desenvólvense métodos de estimación para a corrección do mesmo.
Considéranse estimadores non paramétricos para a media dunha transformación da
variable aleatoria de interese. Propóñense dous escenarios diferentes para abordar o
problema da estimación cando a función peso que produce o sesgo é descoñecida. No
escenario 1, suponse que se observa adicionalmente unha mostra aleatoria simple de
tamaño pequeno da poboación verdadeira, mentres que no escenario 2 suponse que
se observa unha mostra de tamaño pequeno dobremente sesgada. As propiedades
asintóticas dos estimadores propostos son amplamente estudadas baixo condicións
límite axeitadas sobre os tamaños mostrais e condicións asintóticas estándar e non
estándar sobre os dous parámetros de suavizado. O comportamento dos estimadores
non paramétricos propostos comparase co dos estimadores clásicos baseados nas d uas
mostras implicadas en cada escenario por medio de estudos de simulaci on de Monte
Carlo. Os resultados das simulacións amosan como os novos estimadores da media
melloran ás medias empíricas clásicas para escollas axeitadas dos dous parámetros
de suavizado implicados. Tamén se estuda a inf
uencia dos parámetros de suavizado
no funcionamento dos estimadores, amosando un comportamento límite sorprendente
en canto os seus valores óptimos. Ademais, introdúcense métodos bootstrap para
a selección automática dos parámetros de suavizado para cada estimador non paramétrico da media. Finalmente, as técnicas propostas aplícanse a varios conxuntos
de datos reais procedentes de diversas áreas.
Keywords
Teoría de la estimación-Modelos matemáticos
Big data-Investigación
Estadística no paramétrica-Informática
Big data-Investigación
Estadística no paramétrica-Informática
Rights
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido