Projekt sestavlja 5 delovnih sklopov ter sklop za upravljanje in diseminacijo, ki bo trajal tekom celega projekta.
DS1: Nabor, označevanje in obogatenje besedil.
Trajanje: M1-M12, vodja: FRI
- T1.1 Priprava korpusov: Nabor slovenskih in angleških korpusov iz agregatorjev novic, označevanje na nivoju skladnje, koreference. Prilagoditev slo-angl BERT modelov na korpuse novic.
- T1.2 Označevanje s ključnimi besedami in imenskimi entitetami: Treniranje na označenih javnih množicah in ocenjevanje na domenskih korpusih, prilagoditev metod.
- T1.3 Označevanje s sentimentom in tematskimi okviri novic: Prenosi modelov angl-slo za okvire in slo-angl za sentiment.
DS2: Diahrona analiza novic.
Trajanje: M4-M18, vodja: IJS
- T2.1 Metode enojezične diahrone analize: Na modelu BERT temelječe metode ter razvoj metod za gručenje tekstovnih vložitev ter metod, ki podpirajo analizo večbesednih fraz in avtomatsko identifikacijo konceptov.
- T2.2 Metode večjezične diahrone analize: Metode za avtomatsko čezjezikovno identifikacijo konceptov in metode za interpretacijo večjezikovnih semantičnih premikov.
DS3: Primerjalna analiza novic.
Trajanje: M10-M24, vodja: IJS
- T3.1 Metode za enojezično primerjalno analizo novic: Metode podpirajo analizo pristranosti in razlik poročanja različnih virov (npr. konzervativni, liberalni). Nenadzorovane metode analizirajo razlike v vložitvah, nadzorovane pa temeljijo na interpretaciji klasifikacijskih modelov.
- T3.2 Večjezična primerjalna analiza novic: Primerjava diskurznih okvirov z nenadzorovanimi metodami in čezjezična klasifikacija z nadzorovanimi, kjer se napoveduje vir novice/politična pripadnost.
DS4: Zaznava retoričnih sredstev: metafora in metonimija.
Trajanje: M16-M30, vodja: IJS
- T4.1 Zaznava metafor: Označevanje testnega korpusa za slovenščino in gradnja osnovnih NN modelov za zaznavo metafore. Učenje na angleških dostopnih označenih množicah in izboljšave s kontekstualnimi vložitvami.
- T4.2 Interpretiranje metafor: Označevanje s kategorijo novosti in povezanosti domene, prilagoditev na večrazredno klasifikacijo.
- T4.3 Razpoznava metonimij: Označevanje množice, dvorazredni in večrazredni klasifikator s prilagoditvijo modela iz 4.1.
DS5: Študije primera: analiza v skupnem metodološkem okvirju analize diskurza in obdelava naravnega jezika.
Trajanje: M6-M36, vodja: FDV
- T5.1 Ozadje izbranih študij primerov: Identificirati različne interpretativne okvirje in hipoteze glede na predhodne raziskave kritične analize diskurza (glavne študije primerov migracije, LGBTQ, Brexit).
- T5.2 Kvalitativna analiza: Raziskava kritične analize diskurza na malih vzorcih aktualnih korpusov (glavne študije primerov ekologija mesa, migracije, spol).
- T5.3 Kvantitativna korpusna analiza: Kvantitativna korpusna analiza z orodjem SketchEngine (konkordance, ključne besede, kolokacije) in primerjava z razvitimi metodami obdelave naravnega jezika (fokusne študije primerov: spol, migracije).
- T5.4 Računalniško podprta analiza diskurza: Interpretacija in kontekstualizacija rezultatov procesiranja naravnega jezika (vsi primeri).
- T5.5 Skupni metodološki okvir: Iterativne, interdisciplinarne in participativne raziskave, ki razpoznavajo potrebe CDA in potenciala metod ONJ (v začetnem pregledovanju obsežnih korpusov, s poudarkom na kontrastnih vzorcih in diskurzivnih premikih, in v potrjevanju ugotovitev kritične analize diskurza v fazi nasprotnega pregledovanja), teoretično pozicioniranje metod procesiranja naravnega jezika v raziskavah kritične analize diskurza.
DS6: Upravljanje, diseminacija in nadaljnja uporaba.
Trajanje: M1-M36, vodja: IJS
- T6.1 Upravljanje projekta vključno s tveganji.
- T6.2 Diseminacija in komunikacija: objave na konferencah in revijah, organizacija delavnice in komunikacija za širšo javnost.
- T6.3 Nadaljna uporaba: Prostodostopna koda ter prezentacija deležnikom drugih projektov.