WikiCorporaComposer: Creación semiautomática de subcorpora bilingües español-inglés (...) - TV Universidad de Murcia

Este sitio usa cookies para mejorar su experiencia de uso del sitio web. Si continua navegando, usted acepta el uso de nuestra política de uso.

ATENCIÓN: JavaScript es necesario para poder visualizar este objeto multimedia. Por favor, actívelo en su navegador. Guía para habilitar JavaScript en su navegador .

WikiCorporaComposer: Creación semiautomática de subcorpora bilingües español-inglés (...)

Idioma: Español

Fecha: 14 Abr 2021

Duración: 20m 13s

Lugar: Conferencia

Visitas: 949 visitas

WikiCorporaComposer: Creación semiautomática de subcorpora bilingües español-inglés (...)

José Antonio Jiménez Millán (Universidad de Cádiz), Antonio Moreno-Sandoval (Universidad Autónoma de Madrid) y José María Guirao-Miras (Universidad de Granada)

Descripción

Presentamos WikiCorporaComposer, una aplicación web gratuita para crear corpus con artículos de la Wikipedia en español e inglés. A principios de 2020, la Wikipedia contiene más de un millón setecientos mil artículos en español y casi seis millones de artículos en inglés. Es una fuente general de consulta sobre virtualmente cualquier tema de conocimiento. Es especialmente interesante para la creación de documentación y terminología en dominios de especialidad y estudios de traducción.

La utilidad principal es ofrecer de manera automática la posibilidad de crear un corpus de artículos a partir de una lista de semillas. La idea está basada en el programa BootCat de Marco Baroni (http://bootcat.dipintra.it) que automatiza el proceso de encontrar textos en la web. Nuestro programa solo busca en los textos de la Wikipedia, que previamente hemos descargado, limpiado e indexado con Elastic Search. A diferencia de BootCat, que requiere la instalación en nuestro ordenador de un “frontend” en java, WikiCorporaComposer realiza todas las operaciones en su servidor. El usuario solo tiene que descargar los resultados. Se ofrecen dos tipos de búsquedas: por términos o por categorías de la Wikipedia. Para ello, el usuario tiene que subir una lista de términos (incluidos multiwords) que deben aparecer en los artículos de la Wikipedia que formarán el corpus buscado. Después de realizar la consulta, se puede crear un corpus comparable de artículos en inglés a partir de los enlaces de la Wikipedia.

El programa corre en un servidor de linux y consta de dos partes a) Base de datos ElasticSearch y b) programa que hace de interfaz web y, al mismo tiempo, consulta a la base de datos, implementado en lenguaje Golang. Actualmente tenemos indexados en ElasticSearch la Wikipedia en español y en inglés, incluyendo los enlaces a las versiones de los artículos en ambos idiomas. En total, el sistema está utilizando 107,7 GB de disco duro distribuidos en: 78,4 GB y 6.207.570 artículos para la wikipedia en inglés; 21,8 GB y 1.799.416 artículos para la Wikipedia en español; y alrededor de 8 GB extra para el mantenimiento interno de la base de datos (artículos borrados, logs, etc.).

Propietarios

Congreso Cilc 2021

Comentarios

Nuevo comentario

Serie: CILC2021: Lingüística computacional basada en corpus / Corpus-based computational linguistics (+información)

Orden en el caos: estrategias para el reconocimiento automático de las variantes gráficas (...)

Canal

Orden en el caos: estrategias para el reconocimiento automático de las variantes gráficas (...)

Eva María Domínguez Noya (Universidad de Santiago de Compostela)

To move or not to move: an entropy-based approach to the informativeness of research articles (...)

Canal

To move or not to move: an entropy-based approach to the informativeness of research articles (...)

Li Li and Wei Xiao (Chongqing University)

How is information content distributed in RA introduction moves across disciplines? (...)

Canal

How is information content distributed in RA introduction moves across disciplines? (...)

Jin Liu and Wei Xiao (Chongqing University)

Un desafío para la etiquetación automática: la nomenclatura científica en el CORGA

Canal

Un desafío para la etiquetación automática: la nomenclatura científica en el CORGA

Eva María Domínguez Noya y Vítor Míguez Rego (Universidad de Santiago de Compostela)

Stylometric analysis of Avellaneda’s Don Quijote

Canal

Stylometric analysis of Avellaneda’s Don Quijote

Yoshifumi Kawasaki (University of Tokyo)

The great recession’s influence in financial terminology: a longitudinal sentiment analysis

Canal

The great recession’s influence in financial terminology: a longitudinal sentiment analysis

Javier Fernández Cruz (Universidad de Málaga)

A corpus-based, computational approach to language and emotions in CORIECOR

Canal

A corpus-based, computational approach to language and emotions in CORIECOR

Nancy E. Avila-Ledesma (Universidad de Extremadura)

Identifying formal markers of sarcasm on Twitter: #CatsMovie vs. #TheRiseOfSkywalker

Canal

Identifying formal markers of sarcasm on Twitter: #CatsMovie vs. #TheRiseOfSkywalker

Antonio Moreno-Ortiz, María García-Gámez y Chantal Pérez-Hernández (Universidad de Málaga)

USAS semantic annotation for single and multiword financial terms: method and strategies used

Canal

USAS semantic annotation for single and multiword financial terms: method and strategies used

Chelo Vargas Sierra (Universidad de Alicante) y Antonio Moreno Sandoval (Universidad Autónoma de Madrid)

Repository of lexical lists for researchers and teachers of English

Canal

Repository of lexical lists for researchers and teachers of English

John Blake (University of Aizu)