Compositional language processing for multilingual sentiment analysis

View/ Open
Use this link to cite
http://hdl.handle.net/2183/19211Collections
- Teses de doutoramento [2221]
Metadata
Show full item recordTitle
Compositional language processing for multilingual sentiment analysisAuthor(s)
Directors
Gómez Rodríguez, CarlosAlonso, Miguel A.
Date
2017Center/Dept./Entity
Universidade da Coruña. Departamento de ComputaciónAbstract
[Abstract] This dissertation presents new approaches in the field of sentiment
analysis and polarity classification, oriented towards obtaining the sentiment
of a phrase, sentence or document from a natural language
processing point of view. It makes a special emphasis on methods
to handle semantic composionality, i. e. the ability to compound the
sentiment of multiword phrases, where the global sentiment might
be different or even opposite to the one coming from each of their
their individual components; and the application of these methods to
multilingual scenarios.
On the one hand, we introduce knowledge-based approaches to calculate
the semantic orientation at the sentence level, that can handle
different phenomena for the purpose at hand (e. g. negation, intensification
or adversative subordinate clauses).
On the other hand, we describe how to build machine learning
models to perform polarity classification from a different perspective,
combining linguistic (lexical, syntactic and semantic) knowledge,
with an emphasis in noisy and micro-texts.
Experiments on standard corpora and international evaluation campaigns
show the competitiveness of the methods here proposed, in
monolingual, multilingual and code-switching scenarios.
The contributions presented in the thesis have potential applications
in the era of the Web 2.0 and social media, such as being able to
determine what is the view of society about products, celebrities or
events, identify their strengths and weaknesses or monitor how these
opinions evolve over time. We also show how some of the proposed
models can be useful for other data analysis tasks. [Resumen] Esta tesis presenta nuevas técnicas en el ámbito del análisis del sentimiento
y la clasificación de polaridad, centradas en obtener el sentimiento
de una frase, oración o documento siguiendo enfoques basados en
procesamiento del lenguaje natural. En concreto, nos centramos en
desarrollar métodos capaces de manejar la semántica composicional,
es decir, con la capacidad de componer el sentimiento de oraciones
donde la polaridad global puede ser distinta, o incluso opuesta, de la
que se obtendría individualmente para cada uno de sus términos; y
cómo dichos métodos pueden ser aplicados en entornos multilingües.
En la primera parte de este trabajo, introducimos aproximaciones
basadas en conocimiento para calcular la orientación semántica a nivel
de oración, teniendo en cuenta construcciones lingüísticas relevantes
en el ámbito que nos ocupa (por ejemplo, la negación, intensificación,
o las oraciones subordinadas adversativas).
En la segunda parte, describimos cómo construir clasificadores de
polaridad basados en aprendizaje automático que combinan información
léxica, sintáctica y semántica; centrándonos en su aplicación sobre
textos cortos y de pobre calidad gramatical.
Los experimentos realizados sobre colecciones estándar y competiciones
de evaluación internacionales muestran la efectividad de los
métodos aquí propuestos en entornos monolingües, multilingües y
de code-switching.
Las contribuciones presentadas en esta tesis tienen diversas aplicaciones
en la era de la Web 2.0 y las redes sociales, como determinar la
opinión que la sociedad tiene sobre un producto, celebridad o evento;
identificar sus puntos fuertes y débiles o monitorizar cómo estas opiniones
evolucionan a lo largo del tiempo. Por último, también mostramos
cómo algunos de los modelos propuestos pueden ser útiles
para otras tareas de análisis de datos. [Resumo] Esta tese presenta novas técnicas no ámbito da análise do sentimento
e da clasificación da polaridade, orientadas a obter o sentimento dunha
frase, oración ou documento seguindo aproximacións baseadas
no procesamento da linguaxe natural. En particular, centrámosnos
en métodos capaces de manexar a semántica composicional: métodos
coa habilidade para compor o sentimento de oracións onde o sentimento
global pode ser distinto, ou incluso oposto, do que se obtería
individualmente para cada un dos seus términos; e como ditos métodos
poden ser aplicados en entornos multilingües.
Na primeira parte da tese, introducimos aproximacións baseadas
en coñecemento; para calcular a orientación semántica a nivel de oración,
tendo en conta construccións lingüísticas importantes no ámbito
que nos ocupa (por exemplo, a negación, a intensificación ou as oracións
subordinadas adversativas).
Na segunda parte, describimos como podemos construir clasificadores
de polaridade baseados en aprendizaxe automática e que combinan
información léxica, sintáctica e semántica, centrándonos en textos
curtos e de pobre calidade gramatical.
Os experimentos levados a cabo sobre coleccións estándar e competicións
de avaliación internacionais mostran a efectividade dos métodos
aquí propostos, en entornos monolingües, multilingües e de
code-switching.
As contribucións presentadas nesta tese teñen diversas aplicacións
na era da Web 2.0 e das redes sociais, como determinar a opinión que
a sociedade ten sobre un produto, celebridade ou evento; identificar
os seus puntos fortes e febles ou monitorizar como esas opinións
evolucionan o largo do tempo. Como punto final, tamén amosamos
como algúns dos modelos aquí propostos poden ser útiles para outras
tarefas de análise de datos.
Keywords
Inteligencia artificial-Aplicaciones
Semántica-Informática
Aprendizaje automático
Semántica-Informática
Aprendizaje automático
Rights
Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido