Úvod
Cílem projektu je vytvoření multilingválního asistenčního nástroje pro podporu rozhodování a přípravu informativních textů vysoké kvality. Asistent bude zpracovávat dostupné informace (lokální soubory, e-maily, indexované weby) v běžně užívaných formátech (HTML, TXT, PDF, DOCX, XLSX, ODT apod.) a podporovaných jazycích, budovat z nich znalostní bázi, odpovídat uživateli na dotazy nad ní a dohledávat podporu pro výsledky v indexovaných dokumentech. Nástroj bude schopen sumarizovat velká množství textu a automatizovaně získávat data z webu a tím výrazně šetřit čas uživatele. Bude obsahovat uživatelsky přístupné AI nástroje pro řešení konkrétních praktických problémů, např. z oblasti prodeje a marketingu. Vysoce multilingvální aplikace bude prodávána v Evropě, USA a Jižní Americe.
Na základě výše uvedených poznatků jsme připravili projekt, jehož hlavním cílem je průmyslový výzkum a experimentální vývoj vedoucí k vytvoření funkčního prototypu nového multilingválního asistenčního nástroje (dále též jen Asistent) pro podporu rozhodování (hlavní výstup projektu). V rámci definovaných etap řešení se budou práce soustředit na klíčové aspekty daného systému:
Pokročilé vyhledávání informací v souborech, mailech a v minulosti zobrazených webových stránkách (omezitelné jen na relevantní část dokumentů):
- vyhledávání booleovským dotazem s klíčovými slovy a frázemi – hledá se dokument vyhovující dotazu a slova a fráze v něm;
- vyhledávání seznamem klíčových slov a frází – hledá se dokument a slova a fráze v něm;
- vyhledávání zadáním hledané informace – hledá se dokument obsahující zadanou informaci a tato informace v něm;
- odpovídání na dotazy kladené v přirozeném jazyce – hledá se odpověď na dotaz a dokument, v němž je obsažena.
Pokročilé a vysoce automatizované zpracování textu, které umožní:
- sumarizovat zadaný text (extrahovat jen nejdůležitější informace);
- generovat text shrnující informace ze zadaných zdrojových textů (vygenerovat z mnoha textů jeden, vypustit z něj duplicity, neredukovat množství informace).
Automatizaci práce s prohlížečem nevyžadující schopnost programovat a nabízející:
- hromadné stahování dat pro vyhledávání a zodpovídání dotazů, případně pro přípravu datových sad;
- automatické vyhledávání relevantních dokumentů webovými vyhledávači a jejich indexaci pro pokročilé hledání (pokud je to při vyhledávání povoleno);
- automatizaci rutinních úkonů s webovými rozhraními.
Některé specifické aplikace umělé inteligence prakticky využitelné ve firmách:
- vyhledávání podobných dokumentů (například relevantní profily účastníků veletrhu, relevantní životopisy, jiné verze téhož dokumentu);
- opinion mining s extrakcí informací často asociovaných s kladným/záporným hodnocením;
Základní obecné metody strojového učení – trénování i inference.
Nástroj pro extrakci a export datových sad ze stažených dokumentů.
Nástroj pro kombinování datových sad:
- spojení datových sad podle hodnot vybraných atributů,
- selekce prvků datové sady splňujících zadanou podmínku,
- projekce na podmnožinu atributů, přejmenování atributů,
- doplnění atributu jako výsledku funkce na ostatních atributech,
- rozdíl a průnik datových sad,
- export do formátů CSV, JSON, XML a HTML,
- import z formátů CSV, JSON, XML a HTML.
Pro přístup k veřejné instanci MASAPI pište na michalh@lingea.cz