Workshop: From a dictionary to a constructicon / Töötuba: Sõnastikust konstruktikoniks

From a dictionary to a constructicon—how to represent the syntax-lexicon continuum in a digital resource?

For almost twenty years now, the idea has circulated that more complex linguistic units with variable components should be described in a resource similar to an electronic dictionary – a constructicon (Fillmore 2006, 2008). Put simply, the reason for this is that not all complex linguistic units are regularly formed or have predictable semantics or pragmatics based on their components. At the same time, the lexicon cannot be described as a separate module: for instance, lexical items may have meanings that they acquire only in specific syntactic contexts. The idea of the constructicon stems from a specific theoretical framework—Construction Grammar—according to which all linguistic knowledge consists of units that have both form and meaning, although they vary in terms of schematicity. Most importantly, a continuum between lexicon and syntax has been postulated, suggesting the impossibility of drawing a boundary between lexicon and grammar (see e.g Goldberg, 2003; Hoffmann & Trousdale 2013). 

The aim of the current workshop is practical—to exchange experiences and ideas on how to start a systematic description and representation of constructions from scratch, in an existing lexical database, which has been under development for some time. We hope to learn from one another's experiences, as similar projects have already been initiated worldwide, for languages such as English, Swedish, Russian, Brazilian Portuguese, Japanese, German (see e.g Lyngfelt et al., 2018; Ziem et al., 2019; Boas et al., 2022), and Hungarian (Sass, 2023). 

The workshop will take place on April 19, 2024, in Tallinn, Estonia, as part of the Estonian Association of Applied Linguistics spring conference, and it will be inaugurated by the invited keynote speaker, Benjamin Lyngfelt from the University of Gothenburg.

The workshop is organized by the team of the Estonian Research Council grant PRG 1978 'Expanding the scope of a multi-purpose lexicographic resource to grammar and L2 competence'. 

We look forward to presentations and discussions on, but not limited to, the following topics: 

  • How to define a construction—narrowly or in a broader sense? Should a constructicon encompass the most general phrase structure constructions or be limited to idiosyncratic constructions? 
  • Which constructions should be included in the resource, i.e., how to arrive at a nomenclature? 
  • What should a constructional entry look like in the database? 
  • How to deal with constructions at different levels of abstraction? 
  • What are the best practicies of identifying the constructions?
  • How to describe the variability of constructions? 
  • How to describe the productivity and frequency of constructions? 
  • What relationships and how should be shown between constructions, and between constructions and other units (i.e., lexical) in the same database? 
  • How to fit all constructional information into a data model initially designed for representing lexical units? 
  • How to ensure that the meta-language of descriptions is user-friendly for learners, native speakers, linguists, and NLP applications simultaneously? 
  • What should be the relationship between the constructicon and corpora—how can raw data, entries and examples be automatically extracted from a corpus? 
  • How can users search for constructions in the dictionary/database? Based on meaning, fixed components, part-of-speech, etc.? 
  • How to represent constructions by proficiency levels? 

Sõnastikust konstruktikoniks – kuidas esitada süntaksi ja leksikoni kontiinumit digiressursis?

Juba peaaegu paarkümmend aastat on maailmas ringelnud idee, et ka sõnadest komplekssemaid ning varieeruva koostisega keeleüksusi peaks esitama samalaadse ressursina nagu on seda e-sõnastik – „konstruktikonina“ (Fillmore 2006, 2008). Lihtsustatult on põhjus selles, et mitte kõik komplekssed keeleüksused ei ole reeglipäraselt moodustatavad ega komponentide põhjal ennustatava semantika või pragmaatikaga. Teiselt poolt ei ole ka sõnavara kirjeldatav eraldiseisva moodulina, näiteks võib sõnadel olla tähendusi, mille nad omandavad ainult kindlas süntaktilises kontekstis. Konstruktikoni idee tuleneb konkreetsest teoreetilisest raamistikust – konstruktsioonigrammatikast –, mille kohaselt kogu keeleline teadmine koosneb üksustest, millel on nii vorm kui tähendus, ehkki nad erinevad skemaatilisuse astmelt. Mis peamine: postuleeritakse leksika ja grammatika (süntaksi) kontiinum, ehk põhimõtteline piiri tõmbamise võimatus leksikoni ja grammatika vahele (vt nt Goldberg 2003; Hoffmann ja Trousdale 2013). 

Praeguse töötoa eesmärk on siiski pigem praktiline – vahetada kogemusi ja ideid selles osas, kuidas alustada täiesti nullist konstruktsioonide süstemaatilist kirjeldamist ning esitamist andmebaasis, mida ei ehitata nullist, vaid mis on ühtlasi aluseks ka sõnastikule ja mida on juba mõnda aega arendatud. Loodame õppida üksteise kogemusest, sest maailmas on juba samalaadsete projektidega alustatud, nt inglise, rootsi, vene, Brasiilia portugali, jaapani, saksa (vt nt Lyngfelt jt 2018; Ziem jt 2019; Boas jt 2022) ja ungari keele jaoks (Sass 2023).

Töötuba toimub 19.04.2024 Tallinnas Eesti Rakenduslingvistika Ühingu kevadkonverentsi raames ja selle avab kutsustud plenaaresineja Benjamin Lyngfelt (Göteborgi ülikool).

Töötuba korraldab Eesti Teadusagentuuri rühmagrandi PRG 1978 „ Uue aja sõnastik: grammatika ja keelepädevuse kirjeldamine integreeritud multifunktsionaalses leksikograafilises ressursis “ meeskond.

Ootame ettekandeid ja arutelusid näiteks järgnevatel teemadel (kuid mitte ainult):

  • Kuidas defineerida konstruktsiooni – kas kitsamalt või laiemalt? Kas konstruktikon peaks hõlmama ka kõige üldisemaid fraasistruktuurikonstruktsioone või ainult idiosünkraatilisemaid konstruktsioone?
  • Millised konstruktsioonid peaks andmekogusse kuuluma, st kuidas jõuda nomenklatuurini?
  • Milline peaks olema konstruktsiooniartikli kirje?
  • Kuidas toimida erineval abstraktsuse astmel olevate konstruktsioonidega?
  • Kuidas kirjeldada konstruktsioonide varieeruvust?
  • Kuidas kirjeldada konstruktsioonide produktiivsust ja sagedust?
  • Kuidas ja milliseid seoseid näidata konstruktsioonide vahel ning sama andmebaasi teiste (st leksikaalsete) üksustega?
  • Kuidas paigutada kogu konstruktsioonispetsiifiline info andmemudelisse, mis on algselt disainitud leksikaalsete üksuste haldamiseks?
  • Kuidas teha nii, et kirjelduste metakeel oleks samaaegselt sõbralik nii õppija, tavakasutaja, keeleuurija kui IT süsteemide nõudmiste suhtes?
  • Milline hakkab olema konstruktikoni suhe korpustega – kuivõrd reaalne on perspektiiv pärida näitelauseid korpusest automaatselt?
  • Kuidas saab kasutaja konstruktsioone sõnastikust/baasist otsida? Kas tähenduse, kinniskomponentide, sõnaliigi vm alusel?
  • Kuidas esitada konstruktsioone keeletasemete kaupa?

Contact / Kontakt

Ene Vainik (Institute of the Estonian Language / Eesti Keele Instituut) ene.vainik[at]

Jelena Kallas (Institute of the Estonian Language / Eesti Keele Instituut) jelena.kallas[at]

► The workshop is organised by the project PRG1978 team and will be held in English / Töötuba korraldab PRG1978 meeskond ja see toimub inglise keeles

Important dates / Tähtsad kuupäevad

Abstract submission / Teeside esitamine

