Naziv projekta: Pristupi istraživanju semantike prirodnoga jezika pomoću umjetne inteligencije (SemUI)
Vrstu projekta: UNIRI projekti mladih znanstvenika
Trajanje: 15.4.2024. – 15.4.2025.
Voditelj projekta: doc. dr. sc. Slobodan Beliga
Šifra projekta: uniri-mladi-drustv-23-33
Sažetak:
Semantika je grana lingvistike koja proučava riječi, izraze i rečenice te objašnjava prirodu njihovih međusobnih odnosa. U tom kontekstu, riječi i njihove grupacije nosioci su određenih značenja. Semantikom se također utvrđuju i procesi koji vode do promjena u značenju riječi. U području računalne analize prirodnog jezika, semantičke tehnologije predstavljaju skup alata, tehnika i modela koji omogućuju računalima da razumiju, tumače i generiraju tekst na način koji je blizak ljudskom razumijevanju semantike. Glavne skupine računalnih pristupa koje proučavaju semantičke odnose, značajke i mjere semantičku sličnost uglavnom se granaju na one koje koriste eksterne izvore znanja i one bazirane na dubokom učenju i velikim jezičnim modelima. Obje skupine imaju brojne prednosti, ali i nedostatke. Pristupi temeljeni na eksternim izvorima znanja često su manje precizni i ne uzimaju u obzir kontekst. Pristupi temeljeni na dubokom učenju zahtijevaju velike skupove podataka i snažne računalne resurse, te pate od problema transparentnosti i sposobnosti generalizacije.
Projekt ima za cilj istražiti i primijeniti metode iz područja umjetne inteligencije za određivanje semantičkih značajki teksta. Planirane faze uključuju pregled postojećih istraživanja, analizu semantike hrvatskog jezika i jezičnih resursa, te analizu specifičnih problema poput povezivanja jezičnih fraza iz različitih jezika, pojednostavljenja složenih jezičnih konstrukcija te detekcije dezinformacija u komunikaciji uslijed različitih globalnih kriza. Naposljetku, cilj projekta je doprinijeti razvoju hibridnih metoda koje kombiniraju različite pristupe (npr. kombinaciju velikih jezičnih modela sa specifičnim bazama znanja u LOD formatu) metoda mjerenja semantičke sličnosti i njihovoj primjeni u različitim područjima. Primjene uključuju računalno istraživanje semantike hrvatskog jezika i detekciju kulturoloških razlika u drugim jezicima na temelju spoznaja o semantici jezika, razvijanje metoda koje mogu koristiti u čitanju i edukaciji populacije koja ima poteškoće čitanja i učenja te metode koje koriste semantičke značajke u modelima za upravljanje komunikacijom u globalnim krizama i kriznim stanjima.