Úvod
Cílem projektu je vytvoření multilingválního asistenčního nástroje pro podporu rozhodování a přípravu informativních textů vysoké kvality. Asistent bude zpracovávat dostupné informace (lokální soubory, e-maily, indexované weby) v běžně užívaných formátech (HTML, TXT, PDF, DOCX, XLSX, ODT apod.) a podporovaných jazycích, budovat z nich znalostní bázi, odpovídat uživateli na dotazy nad ní a dohledávat podporu pro výsledky v indexovaných dokumentech. Nástroj bude schopen sumarizovat velká množství textu a automatizovaně získávat data z webu a tím výrazně šetřit čas uživatele. Bude obsahovat uživatelsky přístupné AI nástroje pro řešení konkrétních praktických problémů, např. z oblasti prodeje a marketingu.
Popis řešení v roce 2021
V roce 2021 podle plánu:
- vznikl funkční základ uživatelského software, který obsahuje funkcionality plánované pro první etapu;
- probíhaly přípravné fáze u dalších technologií, které plánujeme integrovat v následujících etapách.
Popis řešení v roce 2022
V roce 2022 probíhala etapa 2, v níž:
- Vznikl funkční základ nástroje pro automatizaci prohlížeče, který obsahuje funkcionality plánované pro druhou etapu.
- Byly integrovány další typy indexů do IndexingService.
- Byl připraven podsystém pro odpovídání na otázky s rerankerem.
- Byl připraven podsystém pro generování textu na základě dodaných textových podkladů.
- Byla vytvořena rozšiřitelná sada nástrojů implementující automatizované zpracování dat a strojové učení a inferenci nad nimi.
Popis řešení v roce 2023
V roce 2023 probíhala první část 3. etapy projektu, během níž došlo k vývoji na následujících komponentách MASAPI:
- Lingea
- Indexery (Reindexer)
- Indexing Service
- Browser Automator
- Data Toolkit (RAT)
- MasapiQA
- DocFusion
- Opinion Mining
- Frontend
- Anotace dat
- ÚFAL MFF UK
- DocFusion
- Abstraktivní sumarizace
- UDPipe 2
- CorPipe
- VUT
- Sumarizátor
Popis řešení v roce 2024
- Indexery
- Indexing Service
- Data Toolkit
- Embedding Service
- Pdf2Text
- Image Captioning
- Editor
- Uživatelské rozhraní
- Doplňovač diakritiky
- Anotace dat
Výsledky
datum realizace: srpen 2023
podrobné informace naleznete zde (pdf 475 kB)
repozitař: https://github.com/KNOT-FIT-BUT/MASAPI_QA
Software pro generování textu ze zadaných informací
datum realizace: srpen 2023
podrobné informace naleznete zde (pdf 561 kB)
Multilingvální asistent pro hledání, analýzu a zpracování informací a podporu rozhodování (MASAPI)
datum realizace: duben 2024
podrobné informace naleznete zde (pdf 1 084 kB)
Plán dalšího vývoje v roce 2024
V roce 2024 bude pokračovat vývoj klíčových komponent MASAPI, zejména vylepšování kvality vyhledávání a jeho pokročilých funkcí, jež se týkají filtrace výsledků vyhledávání a rafinovanější zpracování obrázků a PDF souborů. Zaměříme se především na uživatelské rozhraní, kde probíhají práce na rozvoji Editoru, který integruje textový editor, všechny sumarizační nástroje a doplňkové jazykové pomocníky. Dále se budeme zabývat anotací dat pro vyhodnocení kvality vyhledávače.
Souběžně s výše zmíněnými úkony se zaměříme na finalizaci všech komponent projektu do dlouhodobě vývojově udržitelného stavu, vypracujeme detailní programátorskou dokumentaci a zajistíme kontrolu kvality uživatelského rozhraní.