Jak funguje řešení DocumentAnts?

DocumentAnts je řešení společnosti StringData pro komplexní digitalizaci procesu zpracování a inteligentní vytěžování finančních výkazů (výkazy zisků a ztrát, rozvahy, daňová přiznání). Proces zpracování dokumentu za pomoci DocumentAnts je oproti manuální práci až desetkrát rychlejší a prakticky s nulovou chybovostí. Vedoucí zakázkového vývoje a autor řešení Ondřej Kozel nám během krátkého rozhovoru představuje nové řešení a detailně vysvětluje, jak „mravenci“ těží data a mění je na informace.


Je DocumentAnts OCR? 


Ne, není. DocumentAnts spolupracují s OCR. OCR vrací pouze data, na rozdíl od OCR DocumentAnts mění data v informace. OCR rovněž umí těžit informace, většinou jde však pouze o šablonové těžení. DocumentAnts se neřídí šablonou, vyhledává pomocí kontextu.


Jaký je rozdíl mezi daty a informacemi?

 

Pokud to hodně zjednoduším, tak data jsou údaje, které dokážeme vytěžit, ale nedávají nám smysl. Informace jsou data, kterým rozumíme, mají pro nás nějaký smysl. Jsou to tedy data, která prošla validací a obohacením, mají relevanci a adekvátnost potřebě. Informace je pro nás relevantní jen v případě, pokud obsahuje, co potřebujeme vědět.


Jaký je rozdíl mezi šablonovým těžením a kontextovým?

 

Zjednodušeně bych to vysvětlil tak, že DocumentAnts stačí vysvětlit, jak se má ke stránce chovat, co má hledat a kde. Často používám přirovnání, že DocumentAnts je jako člověk. Musíme vždy vysvětlit jako člověku, co hledat, podle čeho atd. Proti tomu u šablonového těžení musíš označit místo, kde se daná informace nachází, což bývá z důvodu variabilitu vstupů problém. DocumentAnts těží jako člověk a učí se jako člověk.


Jak se dokumenty do DocumentAnts dostávají?

 

Libovolnou cestou, ať už se jedná o API, popřípadě soubory nebo mail či mobilní aplikaci, nezáleží na vstupu. DocumentAnts si každý dokument sám vyhledá v předem určeném adresáři a nahraje, na vstupu dokument zkontroluje a zvaliduje, dále určí, zda je dokument strojově čitelný či nikoliv. V případě, že je potřeba převést na strojově čitelný, můžeme použít OCR. StringData je solution partnerem ABBYY, takže primárně nabízíme toto řešení, ale samozřejmě můžeme integrovat i jakékoliv jiné řešení, se kterým klient aktuálně pracuje. Pokud dokument není strojově čitelný, vytěží ho DocumentAnts kontextově. Díky tomu, že nemusíme posílat všechny dokumenty na OCR, šetříme průměrně 50% nákladů na zpracování.


Jak získáte informace z dokumentů?


DA disponuje řadou vlastních parserů pro získávání informací ze strojově čitelných dokumentů, takže umí přečíst např. datová pdf, textové soubory, dokonce i speciální formáty finanční správy P7S, ZFO, XML.


Jak získává DA informace? 


Orientujeme se kontextově, používáme teorii překlepu, slovníky i různé mutace slov, abychom informace v dokumentu našli dokonce i v případě, pokud někdo před námi při zadávání údajů udělal v dokumentu chybu. Dále pracujeme s morfologií slov, hledáme kořen slova, takže nezáleží na tom, jaká je předpona, přípona a koncovka, takto dokážeme určit hledaný element a podle toho přiřadíme informace.


Jak tedy DocumentAnts funguje? 


Naší expertízou jsou podklady pro finanční monitoring, díky čemuž umožníme digitalizovat celý proces. Například, manuální kontrole zaplacení daně se dříve uživatelé museli podívat na daňové přiznání, najít výši nedoplatku, následně na výpis z účtu a sečíst platby. Díky DocumentAnts provádíme tyto kontroly automatizovaně bez nutnosti lidského zásahu.

 

Nahrazujete lidskou práci roboty? 


Určitě ne, nahrazujeme pouze stereotypní část lidské práce a dáváme možnost zaměstnancům dělat kreativní činnost, čímž je činíme šťastnější a tvoříme jejich práci různorodější. Primární motivace nebývá ušetření lidské síly, ale efektivita a snížení chybovosti na pracovišti. Díky snížení tlaku na zaměstnance a snížení objemu rutinní činnosti dochází k tomu, že zaměstnanci zůstávají na svých pozicích, ale zabývají se činností s vyšší přidanou hodnotou.


Proč jsou v názvu DocumentAnts mravenci? 


Když jsme přemýšleli nad názvem, napadala nás řada možností. DocumentAnts fungují na základě fronty a malých drobných úkolů, nabízelo se tedy hledat název v živočišné říši. Hledali jsme tvora, který odpovídá tomuto chování. Narazili jsme na mravence, kteří nás překvapili svými schopnostmi. Mimo jiné i proto, že jsou nesmírně pracovití a uzvednou až dvacetinásobek své váhy. 40 000 mravenců v jedné kolonii má dohromady přibližně stejný počet mozkových buněk jako člověk. Zkrátka dokáží nemožné, stejně jako naše řešení DocumentAnts. Jednou z variant byl i chroust (smích), protože chroustá dokumenty, ale chrousta bychom asi složitě marketingově komunikovali.

 

Jakou perspektivu mají DocumentAnts do budoucna?

 

Budoucnost vidíme v cloudu, abychom co nejvíce zjednodušili implementační stránku a zvýšili dostupnost pro širokou veřejnost. Mobilní aplikace, všeobecně kdekoliv, kde je potřeba pracovat s informacemi, protože my získáváme informace i z okolních systémů. Do budoucna nemusí být vstup pouze dokument, už nyní pracujeme nejen s textem, ale například i s fotografiemi, kde dokážeme určit osobu, nebo objekt na fotografii.


Momentálně je pro nás primární textová analýza a naše zkušenosti, které jsme získali během spolupráce s finančními institucemi. Tam vyžíváme textovou analýzu nejen k těžení informací z finančních dokumentů, ale i například na určení kontextu přijatého mailu. Jsme rovněž schopni na základě předem definovaných požadavků kontrolovat například zaplacení daně z nemovitosti na výpisu z účtu – i tohle jsme schopni DocumentAnts naučit.

This website uses cookies to provide services, personalize ads and analyze traffic. By using this website you agree to this.