DocumentAnts je řešení společnosti StringData pro komplexní digitalizaci procesu zpracování a inteligentní vytěžování finančních výkazů (výkazy zisků a ztrát, rozvahy, daňová přiznání). Proces zpracování dokumentu za pomoci DocumentAnts je oproti manuální práci až desetkrát rychlejší a prakticky s nulovou chybovostí. Vedoucí zakázkového vývoje a autor řešení Ondřej Kozel nám během krátkého rozhovoru představuje nové řešení a detailně vysvětluje, jak „mravenci“ těží data a mění je na informace.
Ne, není. DocumentAnts spolupracují s OCR. OCR vrací pouze data, na rozdíl od OCR DocumentAnts mění data v informace. OCR rovněž umí těžit informace, většinou jde však pouze o šablonové těžení. DocumentAnts se neřídí šablonou, vyhledává pomocí kontextu.
Pokud to hodně zjednoduším, tak data jsou údaje, které dokážeme vytěžit, ale nedávají nám smysl. Informace jsou data, kterým rozumíme, mají pro nás nějaký smysl. Jsou to tedy data, která prošla validací a obohacením, mají relevanci a adekvátnost potřebě. Informace je pro nás relevantní jen v případě, pokud obsahuje, co potřebujeme vědět.
Zjednodušeně bych to vysvětlil tak, že DocumentAnts stačí vysvětlit, jak se má ke stránce chovat, co má hledat a kde. Často používám přirovnání, že DocumentAnts je jako člověk. Musíme vždy vysvětlit jako člověku, co hledat, podle čeho atd. Proti tomu u šablonového těžení musíš označit místo, kde se daná informace nachází, což bývá z důvodu variabilitu vstupů problém. DocumentAnts těží jako člověk a učí se jako člověk.
Libovolnou cestou, ať už se jedná o API, popřípadě soubory nebo mail či mobilní aplikaci, nezáleží na vstupu. DocumentAnts si každý dokument sám vyhledá v předem určeném adresáři a nahraje, na vstupu dokument zkontroluje a zvaliduje, dále určí, zda je dokument strojově čitelný či nikoliv. V případě, že je potřeba převést na strojově čitelný, můžeme použít OCR. StringData je solution partnerem ABBYY, takže primárně nabízíme toto řešení, ale samozřejmě můžeme integrovat i jakékoliv jiné řešení, se kterým klient aktuálně pracuje. Pokud dokument není strojově čitelný, vytěží ho DocumentAnts kontextově. Díky tomu, že nemusíme posílat všechny dokumenty na OCR, šetříme průměrně 50% nákladů na zpracování.
DA disponuje řadou vlastních parserů pro získávání informací ze strojově čitelných dokumentů, takže umí přečíst např. datová pdf, textové soubory, dokonce i speciální formáty finanční správy P7S, ZFO, XML.
Orientujeme se kontextově, používáme teorii překlepu, slovníky i různé mutace slov, abychom informace v dokumentu našli dokonce i v případě, pokud někdo před námi při zadávání údajů udělal v dokumentu chybu. Dále pracujeme s morfologií slov, hledáme kořen slova, takže nezáleží na tom, jaká je předpona, přípona a koncovka, takto dokážeme určit hledaný element a podle toho přiřadíme informace.
Naší expertízou jsou podklady pro finanční monitoring, díky čemuž umožníme digitalizovat celý proces. Například, manuální kontrole zaplacení daně se dříve uživatelé museli podívat na daňové přiznání, najít výši nedoplatku, následně na výpis z účtu a sečíst platby. Díky DocumentAnts provádíme tyto kontroly automatizovaně bez nutnosti lidského zásahu.
Určitě ne, nahrazujeme pouze stereotypní část lidské práce a dáváme možnost zaměstnancům dělat kreativní činnost, čímž je činíme šťastnější a tvoříme jejich práci různorodější. Primární motivace nebývá ušetření lidské síly, ale efektivita a snížení chybovosti na pracovišti. Díky snížení tlaku na zaměstnance a snížení objemu rutinní činnosti dochází k tomu, že zaměstnanci zůstávají na svých pozicích, ale zabývají se činností s vyšší přidanou hodnotou.
Když jsme přemýšleli nad názvem, napadala nás řada možností. DocumentAnts fungují na základě fronty a malých drobných úkolů, nabízelo se tedy hledat název v živočišné říši. Hledali jsme tvora, který odpovídá tomuto chování. Narazili jsme na mravence, kteří nás překvapili svými schopnostmi. Mimo jiné i proto, že jsou nesmírně pracovití a uzvednou až dvacetinásobek své váhy. 40 000 mravenců v jedné kolonii má dohromady přibližně stejný počet mozkových buněk jako člověk. Zkrátka dokáží nemožné, stejně jako naše řešení DocumentAnts. Jednou z variant byl i chroust (smích), protože chroustá dokumenty, ale chrousta bychom asi složitě marketingově komunikovali.
Budoucnost vidíme v cloudu, abychom co nejvíce zjednodušili implementační stránku a zvýšili dostupnost pro širokou veřejnost. Mobilní aplikace, všeobecně kdekoliv, kde je potřeba pracovat s informacemi, protože my získáváme informace i z okolních systémů. Do budoucna nemusí být vstup pouze dokument, už nyní pracujeme nejen s textem, ale například i s fotografiemi, kde dokážeme určit osobu, nebo objekt na fotografii.
Momentálně je pro nás primární textová analýza a naše zkušenosti, které jsme získali během spolupráce s finančními institucemi. Tam vyžíváme textovou analýzu nejen k těžení informací z finančních dokumentů, ale i například na určení kontextu přijatého mailu. Jsme rovněž schopni na základě předem definovaných požadavků kontrolovat například zaplacení daně z nemovitosti na výpisu z účtu – i tohle jsme schopni DocumentAnts naučit.
Manuální zpracování příchozích finančních výkazů, ruční přepisování dat a následná analýza je časově i finančně nákladná agenda, spojená s vysokou mírou chybovosti. Tuto agendu dnes řeší zejména finanční instituce a státní správa. Vhodným řešením pro tuto oblast je komplexní digitalizace procesu zpracování příchozích dokumentů v DocumentAnts, které s sebou přináší vyšší míru efektivity zpracování, kvalitnější data na výstupu a úsporu nákladů. Při příležitosti představení nového produktu DocumentAnts jsme se sešli s obchodním ředitelem StringData Janem Denemarkem na krátký rozhovor.
U našich klientů jsme se často setkávali s problémem automatizace a vytěžování různých druhů formulářů a nestrukturovaných dokumentů. Rozhodli jsme se s tím něco udělat, a proto jsme investovali do nového produktu DocumentAnts. Díky moderním technologiím machine learningu mohou naši klienti rychle a s vysokou přesností automatizovat vytěžování různých dokumentů a elektronických příloh do podoby, se kterou dále pracují jejich interní systémy a procesy.
Klíčová hodnota digitalizace je přirozeně ve zvýšení efektivity a snížení nákladů na zpracování, často ručně přepisovaných informací. Současně se ale při použití v rámci prodejních portálů a procesů zkrátí doba odezvy zákazníkům, což přispívá ke zvýšení zákaznické spokojenosti.
Víte, jedna z nejcennějších kvalit, kterou oceníte na vyspělém produktu je „zkušenost“. To znamená, že nejde o nějaký prázdný framework nebo platformu, kde musíte ještě vše nastavit a často naprogramovat. V tom je náš produkt DocumentAnts jiný. Ačkoliv se jedná o nový produkt, dodáváme ho včetně znalosti rozpoznání finančních výkazů. Tj. rozvahy a výsledovky a daňového přiznání. Klient tak může úspěšně zpracovávat uvedené dokumenty okamžitě po instalaci DocumentAnts. Navíc neustále tuto znalost uvedených dokumentů v produktu vyvíjíme. Klienti tak dostávají aktualizace a díky nim je DocumentAnts stále vyspělejší, efektivnější a nezastarává.
„ Ačkoliv je DocumentAnts nový produkt, dodáváme ho včetně znalosti rozpoznání finančních výkazů. Tzn. rozvahy a výsledovky a daňového přiznání. Klient tak může úspěšně zpracovávat uvedené dokumenty okamžitě po instalaci.“
Ano, OCR technologie je nenahraditelná tam, kde zpracováváte obrázek. Tyto technologie obecně pracují s elektronickými dokumenty jako s obrázky. A proto je jejich úspešnost převodu do strukturované a pro další zpracování čitelné podoby nižší. Navíc hodně závisí na tom, jak zpracovávaný dokument vypadá – musí se totiž podobat naučenému vzoru. Naopak DocumentAnts pracují na principu vyhledání konkrétních slov a kontextu, a proto najdou například finanční výkaz ukrytý uprostřed výroční zprávy. Nicméně jakmile je podkladem skutečně jen obrázek (vyfocená nebo scanovaná předloha) posíláme ji v DocumentAnts na „přečtení“ do OCR, a pak zpracujeme vytěžený text pomocí DocumentAnts. Naše zkušenost je taková, že většina finančních výkazů a daňových přiznání je ale v čitelných formátech (PDF, XML, Excel) a v tom případě OCR nepotřebujeme.
Druhou odlišností od OCR komponent je, že DocumentAnts řeší celý proces zpracování dokumentů od jejich příjmu z digitálního kanálu a rychlé kontroly toho, že je to ten správný dokument, až po uložení strukturovaných dat na požadované místo nebo do požadovaného procesu klienta. Díky tomu, že ve StringDatech implementujeme také RPA, umíme získaná data robotem vložit v podstatě kamkoliv do jakékoliv jiné aplikace nebo databáze.
Proto pokud se vrátím k otázce – historicky první revolucí bylo nasazení OCR pro vytěžování elektronických šablon, kdy se nahrazoval manuální přepis přesně vybraných formulářů. Další revolucí je v tomto směru DocumentAnts kde umíme vytěžovat jakékoliv dokumenty v libovolných formátech a z libovolných digitálních kanálů.
„První revolucí bylo nasazení OCR pro vytěžování elektronických šablon, kdy se nahrazoval manuální přepis přesně vybraných formulářů. Další revolucí je v tomto směru DocumentAnts kde umíme vytěžovat jakékoliv dokumenty v libovolných formátech a z libovolných digitálních kanálů.“
Máme jasně danou roadmapu digitalizace dokumentů, která počítá jak s technickým, tak i zkušenostním rozvojem. Z technického pohledu dokončujeme nyní klientský modul, aby si sami uživatelé mohli nastavovat nová pravidla a kontroly na vytěžování informací. Součástí modulu je i statistika zpracovaných dokumentů a přehledné grafy o úspěšnosti automatizace. V roce 2021 doplníme ještě modul manuální kontroly dokumentů, který usnadní kontrolu a manuální revizi nerozpoznaných dokumentů nebo jejich částí v případech kdy ani DocumentAnts nebylo úspěšné.
Z pohledu zkušeností budeme DocumentAnts učit digitalizovat další dokumenty vhodné k automatizaci jako jsou faktury, objednávky, občanské průkazy apod.
Roadmapu nám mohou obohatit také požadavky našich klientů, u kterých DocumentAnts implementujeme, například MONETA Money Bank, a.s. V minulosti se nám i u dalších našich produktů osvědčilo naslouchat klientům a upravovat naši produktovou strategii dle potřeb našich klientů.
Zaujalo Vás naše řešení DocumentAnts? Kontaktujte naše obchodní oddělení sales@stringdata.cz a domluvte si konzultaci.