Idioma: Español
Fecha: Subida: 2021-04-14T00:00:00+02:00
Duración: 20m 13s
Lugar: Conferencia
Visitas: 949 visitas

WikiCorporaComposer: Creación semiautomática de subcorpora bilingües español-inglés (...)

José Antonio Jiménez Millán (Universidad de Cádiz), Antonio Moreno-Sandoval (Universidad Autónoma de Madrid) y José María Guirao-Miras (Universidad de Granada)

Descripción

Presentamos WikiCorporaComposer, una aplicación web gratuita para crear corpus con artículos de la Wikipedia en español e inglés. A principios de 2020, la Wikipedia contiene más de un millón setecientos mil artículos en español y casi seis millones de artículos en inglés. Es una fuente general de consulta sobre virtualmente cualquier tema de conocimiento. Es especialmente interesante para la creación de documentación y terminología en dominios de especialidad y estudios de traducción.

La utilidad principal es ofrecer de manera automática la posibilidad de crear un corpus de artículos a partir de una lista de semillas. La idea está basada en el programa BootCat de Marco Baroni (http://bootcat.dipintra.it) que automatiza el proceso de encontrar textos en la web. Nuestro programa solo busca en los textos de la Wikipedia, que previamente hemos descargado, limpiado e indexado con Elastic Search. A diferencia de BootCat, que requiere la instalación en nuestro ordenador de un “frontend” en java, WikiCorporaComposer realiza todas las operaciones en su servidor. El usuario solo tiene que descargar los resultados. Se ofrecen dos tipos de búsquedas: por términos o por categorías de la Wikipedia. Para ello, el usuario tiene que subir una lista de términos (incluidos multiwords) que deben aparecer en los artículos de la Wikipedia que formarán el corpus buscado. Después de realizar la consulta, se puede crear un corpus comparable de artículos en inglés a partir de los enlaces de la Wikipedia.

El programa corre en un servidor de linux y consta de dos partes a) Base de datos ElasticSearch y b) programa que hace de interfaz web y, al mismo tiempo, consulta a la base de datos, implementado en lenguaje Golang. Actualmente tenemos indexados en ElasticSearch la Wikipedia en español y en inglés, incluyendo los enlaces a las versiones de los artículos en ambos idiomas. En total, el sistema está utilizando 107,7 GB de disco duro distribuidos en: 78,4 GB y 6.207.570 artículos para la wikipedia en inglés; 21,8 GB y 1.799.416 artículos para la Wikipedia en español; y alrededor de 8 GB extra para el mantenimiento interno de la base de datos (artículos borrados, logs, etc.).

Propietarios

Congreso Cilc 2021

Comentarios

Nuevo comentario

Serie: CILC2021: Lingüística computacional basada en corpus / Corpus-based computational linguistics (+información)