Idioma: Español
Fecha: Subida: 2021-04-13T00:00:00+02:00
Duración: 11m 04s
Lugar: Conferencia
Visitas: 1.048 visitas

Un desafío para la etiquetación automática: la nomenclatura científica en el CORGA

Eva María Domínguez Noya y Vítor Míguez Rego (Universidad de Santiago de Compostela)

Descripción

Esta contribución aborda un aspecto problemático para la anotación morfosintáctica automática del Corpus de Referencia do Galego Actual (CORGA), extensible a cualquier otro corpus anotado en el nivel morfológico de cualquier lengua. Se trata de la identificación y caracterización de las unidades lingüísticas que conforman la denominación de especies y subespecies recurriendo a la nomenclatura científica. Es un problema, por tanto, de alcance general, potencialmente relevante para muchos otros corpus de otras lenguas que afecta al plano léxico y que permite hacerse una idea de las dificultades que entraña el procesamiento automático del lenguaje natural. Nuestro objetivo aquí es dar cuenta del problema, revisar su categorización en otros corpus y ofrecer una propuesta de análisis. La nomenclatura científica permite la identificación exacta de cualquier organismo, vivo o extinto, y resuelve los problemas de sinonimia de las denominaciones vernáculas. De este modo, polbo, pulpo, pop, polvo, etc. se identifican internacionalmente mediante el Octopus vulgaris, una expresión binomial constituida por un género y un subtipo, que por convención se escribe en cursiva y con la inicial del género en mayúscula, lo que lleva en general a su categorización como nombre propio. El sistema de nomenclatura binominal, además de identificar a una especie inequívocamente, se caracteriza, a efectos lingüísticos, por conformar expresiones latinas o latinizadas, lo cual las aleja del acervo léxico de una lengua concreta, como el gallego, y convierte nuestra propuesta en una solución aplicable a otras lenguas. Las principales cuestiones que estos elementos sitúan sobre la mesa son: (i) el tratamiento de los constituyentes binomiales de modo individual o como unidad multipalabra; (ii) su clasificación en el etiquetario; (iii) los valores categoriales que deben caracterizarlos; (iv) su lematización y, por último, (v) la posible asignación de un hiperlema en caso de variación gráfica.
Nuestra propuesta intenta tratar estas formas de modo coherente con las características de un recurso (http://corpus.cirp.gal/corga) que cuenta ya con 40 millones de palabras. Así, (i) consideramos que las denominaciones científicas latinizadas, binomiales o trinomiales, conforman una unidad multipalabra; (ii) proponemos su integración en la clase de palabra sustantivo, (iii) pero rechazamos considerarlos nombres propios por entender que tanto la denominación vernácula como la científica son comunes aunque, por pertenecer a una lengua distinta del gallego y para facilitar su recuperación y extracción en la plataforma de consultas, decidimos crear dentro del sustantivo el subtipo ‘nomenclatura científica’, a fin de individualizar estos elementos, al tiempo que (iv) establecemos como lema la propia forma y, en último término, (v) asignamos un hiperlema cuando existen divergencias ortográficas entre los lemas de una misma especie o subespecie.
Pretendemos así mejorar la calidad de una de las principales herramientas para el estudio del gallego actual e ilustrar los problemas que plantea la anotación íntegra de un corpus al obligarnos a enfrentarnos a unidades que en general no han sido objeto de atención en estudios gramaticales ni foco de nuestra primera capa de análisis (Domínguez, 2013).

Propietarios

Congreso Cilc 2021

Comentarios

Nuevo comentario

Serie: CILC2021: Lingüística computacional basada en corpus / Corpus-based computational linguistics (+información)