Idioma: Español
Fecha: Subida: 2021-04-22T00:00:00+02:00
Duración: 21m 07s
Lugar: Conferencia
Visitas: 1.318 visitas

CHARTA 3.0: Retos para la integración del corpus CHARTA en la plataforma TEITOK

Ricardo Pichel, Belén Almeida Cabrejas (Universidad de Alcalá), Leyre Martín Aizpuru (Universidad de Sevilla) y Víctor Caballero Gómez (Universidad de Alcalá y Universidad Complutense de Madrid)

Descripción

Se presenta en esta comunicación los objetivos principales, el plan de trabajo y la
metodología seguida en el proyecto “CHARTA 3.0: De la edición digital a la web
semántica”, desarrollado en la Universidad de Alcalá y financiado por la Comunidad de
Madrid (Ref. CM/JIN/2019-008) para el periodo 2019-2021. La concepción de este
proyecto supone la conversión del corpus CHARTA (Corpus Hispánico y Americano en
la Red: Textos Antiguos; http://corpuscharta.es) en lenguaje XML-TEI y su integración
en la plataforma TEITOK (http://teitok.org). Como es sabido, dicha plataforma,
desarrollada por Maarten Jansen en 2012, permite reunir en un único soporte XML tanto el corpus anotado y lematizado como la propia edición digital de los documentos. De esta manera, la codificación del corpus en un lenguaje marcado y estandarizado como XMLTEI y su migración a TEITOK permite, entre otras cosas, la interconexión de las diferentes presentaciones del texto (paleográfica, semipaleográfica, regularizada, crítica, modernizada, etc.), al tiempo que contribuye a optimizar su explotación (extra)lingüística a través de una búsqueda refinada de cualquier elemento etiquetado, de acuerdo con los diferentes niveles editoriales definidos en el corpus (forma original, forma normalizada, clase de palabra, lema, etc.). Ahora bien, la incorporación del corpus CHARTA a TEITOK plantea, como es natural, importantes retos en términos metodológicos, filológicos y lingüísticos. Por un lado, para la adaptación y actualización de los criterios CHARTA al estándar XML-TEI y a la arquitectura de TEITOK, se ha tomado como base la guía Edición digital de documentos antiguos: marcación XML-TEI basada en los criterios CHARTA (Isasi et alii, 2020). Por otra parte, en relación a la migración a TEITOK y la ulterior implementación textual del corpus, sen han previsto diferentes protocolos o estrategias de actuación en cuanto a la codificación, transcripción y normalización de los textos dentro y fuera de la plataforma. En particular, se discutirán algunos aspectos relativos al desarrollo de un protoetiquetado, pensado tanto para procesador de texto como para editor XML, convertible mediante script a TEI, así como las posibilidades que ofrece el módulo de transcripción interno de TEITOK. Por último, se hará referencia a los objetivos del proyecto en lo que concierne al proceso de explotación semántica de los textos a través de los módulos de lematización y anotado morfosintáctico que ofrece la plataforma.

Propietarios

Congreso Cilc 2021

Comentarios

Nuevo comentario

Serie: CILC2021: Diseño, compilación y tipos de corpus / Corpus design, compilation and types (+información)