Idioma: Español
Fecha: Subida: 2021-03-30T00:00:00+02:00
Duración: 20m 59s
Lugar: Conferencia
Visitas: 1.120 visitas

Orden en el caos: estrategias para el reconocimiento automático de las variantes gráficas (...)

Eva María Domínguez Noya (Universidad de Santiago de Compostela)

Descripción

A la variación inherente a cualquier lengua -geográfica o diatópica, social o diastrática,
situacional o diafásica y temporal o diacrónica-, es preciso sumar en gallego dos factores que, en mi
opinión, contribuyen a incrementarla de modo notable. Se trata, por un lado, de la ausencia hasta
1982 de una norma oficial que guíe su ortografía y, por otro, de la convivencia en el mismo
territorio de gallego y castellano, hecho que origina numerosas interferencias. Ambos factores,
además de la variación natural intrínseca, ocasionan una enorme multiplicidad gráfica que es
preciso afrontar al acometer la anotación morfosintáctica del Corpus de Referencia do Galego
Actual (CORGA), dado que este abarca cronológicamente desde 1975 hasta la actualidad y los
textos no se normativizan, sino que en su codificación se respetan fielmente las variantes elegidas
por los autores.
Esta contribución muestra las estrategias que hemos seguido para anotar automáticamente la
enorme heterogeneidad ortográfica existente en el CORGA y, al tiempo, posibilitar que el usuario
pueda, a demanda, neutralizar o focalizar esa multiplicidad en la plataforma de consulta.
Grosso modo, para facilitar la introducción de la información en la base de datos léxica que
maneja el etiquetador automático, creamos modelos formales que reducen la flexión en las clases de
palabras variables. A modo de capas de una cebolla, progresivamente, junto a las soluciones
avaladas por la norma, incluimos otras que, bien por aparecer en textos anteriores a 1982, bien por
ser variantes características de una parte del territorio, bien por deberse a interferencias, se registran
en los textos. Para ello recurrimos a:
(i) Grupos de derivación. Constituyen conjuntos de desinencias en los que acaba de formarse y
definirse un elemento gramatical. Por ejemplo, todos los polisílabos agudos que terminan en ‘-l’ se
remiten al grupo G32, en el cual, al lado de la desinencia ‘-is’ que preconiza la norma para el plural
(animais), figura la terminación ‘-es’ (animales), que es la solución más extendida en todo el
territorio gallego. Se integran así en el sistema las formas con grafías innovadoras para un lenguaje
inclusivo (alumno/a, alumn@, alumnos/as, alumnos/alumnas…), modelos flexivos divergentes (i.e.
femeninos en ‘-ona’ y ‘-oa’ para palabras terminadas en ‘-ón’, tipo campioa y campiona) o las
formas con acentuación paroxítona y proparoxítona para la 1ª y 2ª personas del plural del
copretérito (andabamos, andábamos), pospretérito, etc.
(ii) Duplicación de raíces. Es la solución mayoritaria para integrar la variación gráfica en el
CORGA cuando esta tiene lugar en la raíz. Aquí entran todas las formas duplas acabadas en ‘-ble’ y
‘-bel’ (amable, amábel), las terminadas en ‘-aría’ y ‘-ería’ (cafetaría, cafetería), con ausencia o
presencia de grupo culto (ditar, dictar; osíxeno, oxíxeno), con variación en el vocalismo (fociño,
fuciño; mesmo, mismo), etc.
(iii) Lematización automática. Para evitar que el tamaño desmesurado del lexicón dificulte y
empeore la anotación, optamos recientemente por la creación de reglas que combinan la
etiquetación y lematización automáticas de formas elativas o afijas, así como de las que presentan
gheada, fenómeno fonético característico del gallego que se representa en el registro escrito con el
dígrafo ‘gh’ (ghato, ghustar...).
A la ya conocida información gramatical disponible en cualquier corpus anotado para facilitar la
recuperación de información -elemento gramatical, etiqueta morfosintáctica y lema-, en el CORGA
añadimos también el hiperlema, que agrupa a lemas hermanos con variación gráfica y permite
neutralizar esta.

Propietarios

Congreso Cilc 2021

Comentarios

Nuevo comentario

Serie: CILC2021: Lingüística computacional basada en corpus / Corpus-based computational linguistics (+información)