Menu Close

Zbrali smo tematske korpuse novic ter razvili metode za njihovo označevanje. Zgradili smo slovenski jezikovni model SloBERTa, ki vsebuje veliko količino novic (Ulčar idr., 2021). Besedilne podatke smo obogatili z modeli strojnega učenja, za kar smo prilagodili sodobne pristope z modeli ELMo in BERT (Ulčar idr., 2024, v recenziji), razvili več izboljšav metod za obdelavo naravnega jezika in prilagoditev medjezikovnih prenosov slovenščini. Metode za označevanje (Ulčar idr., 2024, v recenziji) zajemajo oblikoslovno označevanje, gradnjo dreves odvisnosti, razdvoumljanje (Fijavž idr., 2023), gradnjo reprezentacij dokumentov (Koloski idr., 2023a), čezjezikovno prepoznavanje zanimivih novic (Koloski idr., 2023b), za luščenje informacij pa smo prilagodili tudi model za odgovarjanje na vprašanja (Logar idr., 2022). Razvili smo izviren bayesovski pristop k zanesljivejši anotaciji podatkov (Miok idr., 2020) in metode za povzemanje (Žagar idr., 2021; Žagar idr., 2023). V okviru organizacije mednarodnega tekmovanja smo izdelali nove označene korpuse za prepoznavanje imenskih entitet (Piskorski idr., 2021). Razvili smo tudi nove večjezične metode za njihovo prepoznavanje (Ivačič idr., 2023; Ulčar idr., 2024, v recenziji), ter metode za označevanje s ključnimi besedami, ki zajemajo tako enojezične pristope (Koloski idr., 2022b) kot pristope z medjezikovnim prenosom (Koloski idr., 2022a). Natrenirali smo tudi generativni model T5 za slovenščino in ga preizkusili na vrsti nalog, vključno s prepoznavanjem imenskih entitet (Ulčar idr., 2023). Ukvarjali smo se z analizo tematik (Bajt idr., 2022) ter razvili čezjezične klasifikacijske modele za označevanje sentimenta (Logar idr., 2022; Ulčar idr., 2024, v recenziji), žanrov (Kuzman idr., 2022) ter tematskih okvirjev novic (Ivačič idr., 2024). 

Razvili smo interpretabilno metodo za diahrono analizo na podlagi kontekstualnih vložitev (Montariol idr., 2021), ki temeljijo na gručenju vektorjev rab ter razlik v njihovi distribuciji. Posebno pozornost pa smo namenili razvoju metod za slovenščino, kjer smo tudi izdelali ročno označeni korpus za evalvacijo in na njem preizkusili novo metodo za zaznavanje semantičnih premikov, ki temelji na matematičnem principu optimalnega transporta (Pranjić idr., 2024, v recenziji). Razvili smo spletno aplikacijo, kjer lahko uporabniki preučujejo razlike v rabi besed skozi čas (http://kt-nlp-demo.ijs.si:8080/). Uporabili smo tudi metode za razumevanje razvoja tematik skozi čas in jih aplicirali na korpus novic o mesu (Martinc idr., 2023) ter na tvite o migracijah (Chatterjee idr., 2024, sprejeto). Primerjali smo tudi poročanja o migracijah v obdobjih vojne v Siriji in Ukrajini (Caporusso idr., 2024a, sprejeto; Ivačič idr., 2024, sprejeto). V Martinc idr. (2024) pa raziskujemo hipotezo, da ima politična orientiranost medijev velik vpliv na diahrone semantične premike besed, in identificiramo besede z najbolj različnim semantičnim razvojem v levih in desnih medijih.

Razvili in uporabili smo metode za primerjalno analizo novic. V interdisciplinarnem prispevku (Pollak idr., 2021) analiziramo besedila različnih medijev pri pisanju o COVID- 19. S pomočjo metode za modeliranje tematik smo določili glavne teme, analizirali variabilnost poročanja za posamezne tematike ter z metodo za primerjalno analizo na podlagi analize distribucije rabe kontekstualnih vložitev primerjali poročanja različnih medijev. Primerjalni analizi tematik smo se posvetili tudi v (Bajt idr., 2022). Z uporabo primerjalnih korpusnih metod smo z vidika sentimenta in jezikovnih struktur analizirali tudi besedila o političnih dogodkih v Franciji (Zwitter Vitez, 2022; Zwitter Vitez, 2023). V Valmarska idr. (2021) pa smo z metodo odkrivanja podskupin imenskih entitet analizirali razlike med skupinami novic z različnim sentimentom. V (Martinc idr., 2021; Perger idr., 2024, v recenziji) smo primerjali medijsko poročanje o LGBTIQ+ skupnosti, pri čemer smo skupine medijev primerjali glede na sentiment ter zaznali in vizualizirali najbolj spreminjajoče se besede glede na distribucijo gruč pomenov. Izdelali smo tudi orodje za večjezikovno vizualizacijo besedil, ki temelji na vložitvah stavkov z uporabo večjezičnih jezikovnih modelov (http://gpu-proc1.cjvt.si:8050/). Za primerjalno analizo smo uporabili tudi metode za razlago klasifikacijskih modelov (Evkoski idr., 2023), kjer smo primerjali diskurze političnih pripadnosti na temo migracij. V primerjalnih analizah poročanja o migracijah po ukrajinski in sirijski krizi (Caporusso idr., 2024a, sprejeto) ter med mediji glede na politično orientacijo bralcev (Caporusso idr., 2024b, sprejeto) merimo statistično signifikantnost na podlagi primerjave vsidranih vektorskih vložitev s pomočjo statističnega testa Kolmogorov–Smirnov ter razlik v sentimentu. Medije različnih političnih orientacij primerjamo tudi v Ivačič idr. (2024, sprejeto).

V pilotni raziskavi smo za analizo metafor uporabili nenadzorovane metode z uporabo vektorskih vložitev (Brglez, idr., 2021). Glavnino DS4 pa so zajemale nadzorovane metode, kjer smo razvili več pristopov za razpoznavanje metaforične rabe jezika. Izhajali smo iz učnih množic za idomatske izraze in sodobnih kontekstualnih modelov, na podlagi katerih smo zgradili tako modele za slovenščino (Škvorc idr., 2021) kot tudi medjezikovne modele (Škvorc idr., 2022). Metode smo nato prilagodili za prepoznavanje metafor (Zwitter Vitez idr., 2022) (metafore in metonimije smo zaradi označevanja učnih podatkov v korpusu KOMET obravnavali skupaj) in delovanje ocenili na novem testnem korpusu na primeru migracij. Zgradili smo tudi nevronske čezjezikovne prepoznavalnike metafor in jih primerjali z modeli, zgrajenimi le na slovenskem jeziku (Klemen idr., 2023). Poseben fokus smo namenili analizi dehumanizacijskega diskurza, kjer smo prilagodili računalniški pristop za slovenščino (Caporusso idr., 2024a, sprejeto). Sodelujemo tudi pri pripravi naloge tekmovanja “ CLEF 2024 – CheckThat! Lab: Checkworthiness, Subjectivity, Persuasion, Roles, Authorities and Adversarial Robustness”.

Osrednji del DS5 je bil namenjen razvoju skupnega metodološkega okvira in interpretaciji rezultatov računalniških metod na izbranih študijah primerov. Pripravili smo tehnična poročila z ozadjem izbranih študij primerov, izvedli kvalitativno analizo na manjših vzorcih in primerjalno jezikoslovno korpusno analizo (Zwitter Vitez, 2021; Zwitter Vitez, 2023). Razvili smo spletne delotoke, ki neračunalniškim uporabnikom omogočajo gradnjo in analizo vektorskih predstavitev na izbranih korpusih (Žnidaršič idr., 2022).

Za študijo primera migracij smo predlagali shemo za označevanje metafor o migracijah ter uporabili in ocenili metode za luščenje metafor (Zwitter Vitez idr., 2022). Prav tako smo za modele za diahrono analizo (Montariol, idr., 2021) (DS2), ki so na voljo tudi v obliki spletne aplikacije, določili obdobja za analizo diskurza o migracijah (http://kt-nlp-demo.ijs.si:8080/semanticshifttable/6). Na primeru političnega diskurza levih in desnih političnih strank o migracijah smo tudi pokazali pomen metod za intepretacijo klasifikacijskih modelov (Evkoski idr., 2023, prispevek je bil prepoznan kot najboljši študentski prispevek na konferenci HLT 2023). Novičarski diskurz o migracijah smo analizirali tudi z vidika primerjave novic po sirijski in ukrajinski krizi, kjer smo pokazali, da je okvirjanje novic med sirijsko krizo bolj vezano na poročanje o varnosti kot med ukrajinsko krizo (Ivačič idr., 2024, sprejeto). Primerjava z vidika dehumanizacije pa je pokazala, da se skozi čas dehumanizacijski diskurz do migrantov povečuje, vendar pa se to kaže manj, ko govorimo o ukrajinskih kot o drugih migrantih (Caporusso idr., 2024b, sprejeto). V interdisciplinarnem prispevku (Chatterjee idr., 2024) analiziramo francoske in angleške tvite desnih politikov na temo migracij in vpeljemo metodologijo, ki temelji na modeliranju tematik, razpoznavanju tehnik prepričevanja in detekciji sovražnega govora, ki jih uporabimo skupaj s kvalitativno analizo za razumevanje diskurza o migracijah.

Za študijo primera mesne ekologije smo pripravili tehnično poročilo, ki je služilo kot podlaga za interdisciplinarno raziskavo. V računalniško podprti analizi diskurza smo analizirali tematike člankov na temo mesa in razvoj tematik skozi čas, posamezne koncepte pa smo preučili z metodo diahrone analize semantičnih sprememb (Ivačič idr., 2024, sprejeto). Izvedli smo tudi kvalitativno analizo na prispevkih iz ameriškega in britanskega tiska, vendar se rezultati niso izkazali za dovolj zanimive za publikacijo.

Pri študiji primera na temo poročanja o LGBTIQ+ skupnosti smo uporabili metode DS3 za primerjavo medijskega poročanja z vidika sentimenta in razlik v besednih rabah (Martinc idr., 2021). V nadaljevanju smo razvili skupni metodološki okvir za analizo diskurza s kombinacijo metod računalniške obdelave naravnega jezika in kvalitativne tematske analize (Perger idr., 2024, v recenziji), kjer analiziramo razlike v poročanju različnih skupin medijev na primeru besede “globok”.

Metodološkega vidika je prispevek pomemben, saj podaja skupni metodološki okvir za računalniško podprto kvalitativno analizo in obravnava prednosti in pomanjkljivosti obeh metod ter njihove komplementarnosti, z vidika same študije primera pa posebno pozornost namenimo rabi koncepta globoke države v okviru diskurza o skupnosti LGBTIQ+ (Perger idr., 2024, v recenziji; Perger idr., 2023). Pristranost do družbenih skupin (migranti in pripadniki LGBTIQ+) smo preučevali tudi z analizo predikcije zamaskiranih besed v velikih jezikovnih modelih (Caporusso idr., 2023) in prek analize sentimenta. V [40] primerjamo slovenske medije z vidika odnosa do migrantov in migrantk ter skupnosti LGBTIQ+ z vidika dehumanizacije. Naše nove metode računalniškega družboslovja za podporo interdisciplinarnega raziskovanja migracij in LGBTIQ+ vsebin smo predstavili tudi v okviru vabljenih predavanj (glej točko 8). Pri študiji primera reprezentacij spolov smo različne jezikovne modele analizirali z vidika pristranosti prek analogij poklicev (Ulčar idr., 2021).

V projekt smo tudi vključili študijo primera o COVID-19 (Pollak idr., 2021) in  z uporabo kontekstualnih vložitev in analizo tematik preučevali razlike v poročanju medijev, v (Brglez idr., 2021) pa smo se osredotočali na metafore s področja vojne pri poročanju o Covid-19.

Razvili smo nove metode za zaznavanje lažnih novic z uporabo nove predstavitve dokumentov z uporabo grafov znanja (Koloski idr., 2022c), prispevek (Koloski idr., 2022c) je bil s strani ARIS uvrščen kot izjemni dosežek v humanistiki in predstavljen v sklopu dogodka Odlični v znanosti 2023.

Objavili smo 9 prostodostopnih znanstvenih člankov v revijah, 25 na konferencah in 1 poglavje v monografski publikaciji. 4 članki v revijah so še v recenzentskem postopku, 5 konferenčnih člankov je sprejetih, a še neobjavljenih. Rezultate projekta smo predstavili na vabljenih predavanjih in delavnicah. Sodelovali smo tudi pri organizaciji mednarodnih tekmovanj, Slav-NER za prepoznavanje imenskih entitet (Piskorski idr., 2021) ter pri tekmovanju v razpoznavanju strategij prepričevanja v okviru CLEF 2024 – CheckThat! Lab. Povezovali smo se tudi z drugimi projekti (SOVRAG, IMSYPP, ARENAS…) in rezultate na sestankih predstavili tujim partnerjem. Rezultati metod za zaznavanje semantičnih premikov so bili uporabljeni tudi na drugih področjih, npr. literarna analiza (Žejn idr., 2024, sprejeto).