Software pro kombinování strukturovaných informací a textu, reprezentaci významu a odpovídání na otázky
Odpovídání na otázky je náročný úkol v oboru zpracování přirozeného jazyka. Systém musí disponovat konkrétními znalostmi, aby byl schopen na danou otázku odpovědět, a musí být schopen rozeznat relevanci faktů k otázce. K tomu je nutné zvolit vhodnou reprezentaci, která je schopna co nejlépe zachovat význam otázky a textu, obsahujícího odpověď. Dnes se k odpovídání na otázky používají především metody založené na modelech umělých neuronových sítí, schopných vytvářet kontextové reprezentace.
Tato technická dokumentace popisuje systém, který je schopen odpovídat na otázky, kladené na specifikovanou množinu dokumentů, a i na otázky, ke kterým takovéto dokumenty dodány nebyly (tzv. open-domain). Umožňuje také zpracovat strukturované informace a transformovat je do podoby, vhodné k trénování použitých neuronových sítí.
Analýza funkčních požadavků
V této části je uveden stručný souhrn vytyčených požadavků, které vyplynuly z konzultací s hlavním řešitelem projektu – firmou Lingea, jakož i kolegy z ÚFAL MFF UK.
Hlavním cílem bylo vytvořit systém, který bude schopen odpovědět na otázky v anglickém jazyce. Na tyto otázky bude poskytovat stručné odpovědi a bude možné určit, zda se má vygenerovat extraktivní či abstraktní odpověď. V případě extraktivní odpovědi se jedná o krátký podřetězec nacházející se v podkladových textech. Naopak abstraktní odpověď se v podkladových textech nemusí nacházet přímo v té konkrétní podobě, jak byla odpověď vygenerována, tedy může být například parafrázována.
Otázky mohou být kladeny jak s poskytnutou množinou dokumentů, která definuje zdroj znalostí, tak musí umět i pracovat v tzv. režimu open-domain, kdy tyto dokumenty systému nejsou poskytnuty.
Dalším požadavkem je, aby bylo možné výsledný zdrojový kód začlenit jako modul do systému MASAPI. Za tímto účelem byl systém implementován jako balíček v jazyce Python (Python package), poskytující funkcionalitu pro případy užití systému s poskytnutými a neposkytnutými vstupními dokumenty.
Začlenění do systému MASAPI může také do budoucna znamenat, že zdrojové texty mohou být napsány v libovolném jazyce, budou přeloženy automatickým systémem překladu a budou začleněny do systému. Obdobným způsobem mohou být potom přeloženy otázky, případně odpovědi.
Výsledky
datum realizace: srpen 2023
podrobné informace naleznete zde (pdf 475 kB)
repozitař: https://github.com/KNOT-FIT-BUT/MASAPI_QA