Identificación Automática del Idioma en Twitter: Adaptación de Identificadores del Estado del Arte al Contexto Ibérico
Use este enlace para citar
http://hdl.handle.net/2183/35766Colecciones
Metadatos
Mostrar el registro completo del ítemTítulo
Identificación Automática del Idioma en Twitter: Adaptación de Identificadores del Estado del Arte al Contexto IbéricoTítulo(s) alternativo(s)
Automatic Language Identification in Twitter: Adapting State-of-the-Art Identifiers to the Iberian ContextFecha
2014Cita bibliográfica
Doval, Yerai, Vilares, David, Vilares, Jesús. Identificación Automática del Idioma en Twitter: Adaptación de Identificadores del Estado del Arte al Contexto Ibérico. Proceedings of the Tweet Language Identification Workshop co-located with 30th Conference of the Spanish Society for Natural Language Processing (SEPLN 2014), Girona, Spain, September 16th, 2014. CEUR-WS.org. Vol-1228 urn:nbn:de:0074-1228-1, https://ceur-ws.org/Vol-1228/tweetlid-7-doval.pdf.
Resumen
[Abstract]: We describe here our partipation in TweetLID. After having studied
the problem of language identification, the resources available, and designed a text
conflation approach for this kind of tasks, we joined the competition with two sys-
tems: the first one was based in the guesser langdetect, re-trained and adapted in
order to work with conflated text; the second one was an approach based on majo-
rity vote which used a set of re-trained and adapted classifiers. Results are analized
both globally and at language and tweet-type levels. [Resumen]: Describimos aquí nuestra participación en el TweetLID. Tras estudiar la problemática de la identificación del idioma, los recursos disponibles y diseñar una solución para la normalización del texto en este tipo de tareas, presentamos dos sis- temas a competición: el primero basado en el clasificador langdetect, re-entrenado y adaptado para trabajar con texto normalizado; el segundo, una solución basada en la votación de clasificadores individuales igualmente re-entrenados y adaptados. Los resultados son analizados tanto globalmente como por idioma y tipo de tuit.
Palabras clave
Identificación de idioma
Tuit
Normalización de texto
Language identification
Tweet
Text conflation
Tuit
Normalización de texto
Language identification
Tweet
Text conflation
Versión del editor
Derechos
Atribución 4.0 Internacional
ISSN
1613-0073