Idioma: Español
Fecha: Subida: 2021-04-27T00:00:00+02:00
Duración: 13m 22s
Lugar: Conferencia
Visitas: 971 visitas

Repository of lexical lists for researchers and teachers of English

John Blake (University of Aizu)

Descripción

The lexical list repository aims to provide an easy-to-find, easy-to-use one-stop-solution to
word lists. Corpus linguists, computational linguists and developers of technology-enhanced
language learning software frequently make use of various types of word lists. Textbooks for
learners of English also incorporate various lists with a list of irregular verb forms being
commonplace. The general service list and academic word list are two commonly-used yet
rather dated lists that feature regularly in academic articles. This may be due to ease of
access, however, rather than suitability of purpose.
Lists required for research or pedagogic purposes may be based on form, such as parts of
speech, particularly for closed sets, e.g. prepositions; or class of words, such as stative verbs,
e.g. love and live; or words semantically related, such as lexical sets, e.g. spicy, salty, bitter,
etc. However, to date, there is no single repository that provides free access to curated
categorized lists. This means that researchers need to create lists ad hoc.
The list creation process may involve searching for relevant lists offline in corpus grammars
and textbooks and online with multiple searches in the indexed web. Having spent many
hours searching for and compiling lists to help my own research agenda, and through
discussions with other researchers, it became clear that many researchers also create their
own lists. This project aims to fill this niche and meet the demand from researchers and
teachers by providing central shared repository.
This study details the creation of an open-access repository, currently housed on GitHub, that
users can access, download and contribute to lists for English. A wish-list of lists was created,
and the repository structured to enable researchers to commit and combine their lists. Lists
published in various corpus grammars and coursebooks were compiled and collated. These
lists from off-line sources were amalgamated with lists from online resources to create master
lists for each category. The creation process is documented for each word list to enable
verification of the word lists. Moderators monitor the quality of the lists and ensure that the
documentation is up to date. Lexical lists are systematically categorized and available in
multiple formats to reduce the technical entry barrier for those who want to conduct corpus
research but are less familiar with programming.
The current categories of lists include: part-of-speech lists: pronoun, preposition, etc.;
word class lists: attributive adjectives, predicative adjectives, postnominal adjectives,
gradable and limit adjective pairs, etc.; semantic category lists: cars, countries, cities; etc. and
lexical sets: kitchen, recipes and ingredients, etc. Each list provides details of the sources,
collection protocols, and any pertinent information. Some lists also contain regular
expressions for JavaScript and Python, which may be of use to some developers. This
repository actively seeks contributions from researchers worldwide, and so it is envisaged
that the quantity and quality of datasets will increase greatly over time as this resource gains
in popularity among the corpus and computational linguist communities.

Transcripción (generada automáticamente)

Foster. Etc ocho que además no va sin venir pues son dos dólares en deprisa. Ustedes. Bueno, todo va, ti a han decidido. Nombró a Fox, Frings, a Alfonso Bastia Hahn y dicho y hecho hizo. Ha estado al lado de los blues, a fans tan variados o talleres, charlas de Alborán a cabo. Ahora. Alguien andar que ya no voy a a la crisis buena señal buena Anzhi así que podamos. A. Mucho; y yo me eché. 2, hubo. A como. La faena a faena, a eta. Quique. Guía Jaime echáis. Ahora está en sus héroes. Es y te gusta mucho, sobre todo picados y tenía. Solo Sancho da codazos y Chipre, que está muy bien, no va a no. Irán no dudes esa tía de Ourense. Y Luis Campoy que Míchel a Boffo más a quien estén. City. Brych. Tan tabúes o falanges y Sitapha y Sí? Sí pues fue. Cuando decís, oye, produce esta suda y si puede ser penado. A Davos, de que hay sana Waits. Ahí está. Este Westwood que tenía a Vinci o. Haces mucho de Intifada y cromático mitin en Estambul, Ihsan y. Mucho. Han sudado, estará el guante y no quien ha insistido la iata. Ha dicho, Hugues que le pedí a quien aprovechó un grave fallo por ahí que luego sólo realizó pagos a hecho de. A su uso por a dos Luisa, están Drais de Haití o os sabéis quien sea? Le hubiera dicho antes. A. A. A si defensa de tu chico fue ahí pronto, avances han sido hecho al mes. A v Boys. Fo. Se utilizó sólo tengo que estar. Y eso para efectuar esta ironía y no vais a a migrar? Oye. Webs of Blues. Porque ni no he visto un psiquiatra. Silvio fue un monstruo, luego me llamó vs optimismo, se puso 6. Sexistas -crisis está en a a tu voz a Efe, que estamos me hará hoy en día, me Michu través de la ponencia, y se queda fuera su aire plano y seis mes, como hace con a día. And se mantiene es de Oviedo? Esos. Son al resto de sus pasos. Peces, hui o y tienen a sus datos a fichajes. Han sometido, vais a protagonizar. A Bisbal, donde Suárez ha selectivo a 11 enfoques izquierda. A si ves a-se manche y chicles. Fueron fichados a la familia; y noches o. Hice a mis fans no a más Bond no solo. Yo-programa, mofan y amenazó el fallecido. Era muy. Piqué -expandirá, solo se expanda armas. Crisis de. Estricta: heroico y o Moreno. A su psiquiatra, un mes dado. A mí no me quiero ir al cine o fama, ni da Volpi a Linnets Atauri. El dato es bueno, pero a veces hoy ahí. La mesa, y si fuera otro costa o me hizo Sudán somos derecho dices a vais a a al a como. Han. Además, se ha hecho pensar, pensar que irá ordenado a la faena y nombró a los de Tubinga faena y nombró a su hijo, que ha vuelto faena y han modificado Iniesta Cruces Máximo Maico y ancho sois se ha hecho en distintas no has dejado Sáez y Verdi o pensar a Paraninfo, Fanning. Fui a una izquierda o allí que tuviese eso o quiebra, y que iba a tener pilotos adolecía existen. Que pare. Y Films! Y pasta izquierda o pasta. A fondo, animáis o pensar como quiera. Hay gente que nos demos cuenta, eso. A Sánchez han ido. Sánchez a la vitrina que tenía para peces. Por 108 a seis a. Su tenis y su tío. Muy. A Diego, cara al hueco Honda, son Michael. Ha dedicado a Chicho, es normal, pero no hay un hueso. Es para el chino. Wang se mueve a 11. Samoa. Bonzo Chicho es a no fue a Siria. Nacido en Niza y a la familia.

Propietarios

Congreso Cilc 2021

Comentarios

Nuevo comentario

Serie: CILC2021: Lingüística computacional basada en corpus / Corpus-based computational linguistics (+información)

Relaccionados