Agnostix: Vývoj virtuálních asistentů s umělou inteligencí

Když Martin Franc vešel v roce 2005 do dveří, aby se ucházel o práci, čekal na něj za stolem přísně vypadající muž. To byl Mário Mitas, který měl s Martinem vést přijímací pohovor. Po deseti letech se svým zaměstnáním oba sekli a v roce 2017 se zrodil Agnostix, firma vyvíjející asistenty za pomoci umělé inteligence a také hlasy, kterými tito asistenti mluví. 'Byl jsem tenkrát na uchazeče velmi přísný až nemilosrdný,' přiznává dnes Mário s tím, že si však s budoucím byznysovým parťákem hned sedli. 'Nakonec jsem to místo vzal hlavně proto, že jsem chtěl pracovat s Máriem,' dodává s pobavením Martin Franc, který spolu s Mitasem vlastní sto procent firmy. Investicím zvenku firmu zatím neotevřeli. Deset let po zmíněním pohovoru seděli na pivu a domluvili se, že v procesně svázaném korporátu skončí. V době, kdy na trhu byly první verze asistentky Alexy od Amazonu, bylo u nás toto odvětví neprobádanou oblastí. Mělo ale potenciál. Vedle toho chtěli dělat ještě rozšířenou realitu, jelikož Martin měl vystudovanou počítačovou grafiku. Tehdejší stav hardwaru ale nenapovídal, že by se tato oblast rychleji rozvíjela. Místo zraku se tak zaměřili na řeč, Mário měl navíc rozsáhlé zkušenosti s konstruováním audiosystémů. Společně pak vybudovali Agnostix, firmu, která se může pochlubit loňským obratem sedmdesát milionů korun, pravidelným meziročním růstem kolem 25 procent a jedním z nejpoužívanějších českých chatbotů. Tím je virtuální asistentka Kate v barvách banky ČSOB, která už má za sebou přes čtyři miliony konverzací s klienty. I když jde ve své podstatě o 'ajťácký byznys', bez humanitního segmentu se fungování firmy neobejde. Dává to smysl: účelem všech virtuálních asistentů je přece jen perfektně pochopit, co po nich člověk z masa a kostí na druhém konci sítě skutečně chce. I proto kromě programátorů potkáte na chodbách kanceláře firmy v pražské Hybernské ulici i lingvisty, fonetiky či překladatele. Personální politika je v Agnostixu vůbec netypická. Ve firmě například úplně chybí klasičtí obchodníci, a když už nějakého potkáte, dělá zároveň s tím i na další pozici. Navíc si firma cíleně žádné lidi nehledá, čeká, kdo přijde. 'Spíš většinou narazíme na zajímavého člověka. Řekneme si, že s ním chceme dělat, a najdeme pro něj práci,' popisuje Mário Mitas. Jádrem jejich byznysu jsou nástroje umělé inteligence, které zpracovávají přirozený lidský jazyk. Ať už jde o virtuálního, či hlasového asistenta, modely rozpoznávající sémantiku textu nebo analýzu hovorů. A další a další možnosti využití díky mílovým skokům AI přibývají prakticky každý den. Hlas bota, hlas firmy Vlajkovým produktem Agnostixu, alespoň co do známosti, je určitě hlasová a virtuální asistentka Kate, která pomáhá klientům ČSOB. Na svět ale přišla tak trochu náhodou. Firma obou zakladatelů v roce 2020 akorát dokončila framework pro hlasového asistenta, kterého nazvali K8, v anglické výslovnosti tedy Kate. ČSOB se tou dobou po hlasovém asistentovi poohlížela a určitě neuhádnete, jaké jméno mu chtěli dát. Samozřejmě Kate. Velká, dá se říct až přelomová zakázka pro Agnostix byla na světě a Franc s Mitasem jsou na ni patřičně hrdí. 'Troufnu si říct, že Kate je nejpokročilejší asistent i v rámci střední Evropy. Spolupracujeme s lidmi z USA, kteří nám vždy říkají, že jde o jedno z vůbec nejpokročilejších řešení virtuální asistence, se kterým se setkávají,' tvrdí Franc. Pro jakoukoli firmu je takový hlasový asistent do velké míry součástí identity brandu, takový maskot, se kterým se klienti setkávají při prvním kontaktu se strukturou společnosti. To je byznysově dost intimní vztah. Mário Mitas (vlevo) a Martin Franc 'Různých hlasových asistentů začalo v poslední době přibývat a s tím se objevil i problém, že začínali znít všichni stejně. Zároveň začínají pokrývat ve firmách stále více agendy a stávají se součástí firemní identity, jako třeba tiskový mluvčí. To je moment, ve kterém nechcete mít stejný firemní hlas, jako má třeba váš vysavač,' vysvětluje Mitas. Umělá inteligence samozřejmě je klíčem k jejich byznysu, sami zakladatelé Agnostix přiznávají, že nevlastní žádné zázračné technologické nástroje. Spíše se ty běžně dostupné snaží využít lépe než jiní. Na druhou stranu ale dělá AI s trhem psí kusy. Jak Franc i Mitas dodávají, kvůli vlně nadšení kolem velkých jazykových modelů se teď do velmi nedokonalých verzí asistentů pouští kdekdo. Co oběma vývojářům na běžně používaných chatbotech vadí, si už asi odzkoušel každý. Typický model takových asistentů vlastně moc chytrý není a kopíruje takzvanou stromečkovou strukturu. Začnete na hlavním rozcestníku, vyberete jednu z voleb a proklikáváte se dál bez jistoty, že směřujete správným směrem. Pokud se potřebujete vrátit, vracíte se zpět. 'To je postup typický pro call centra, která tak začínala, ale bohužel se už ve většině případů neposunula dál. Vlastně vůbec nejde o konverzaci, sémantika nula,' shrnuje Franc, podle kterého takový přístup končí i na extrémech, kdy ani nemůžete aktivně asistentovi nic napsat a jen klikáte na předvybrané možnosti. Tady podle Mitase přichází největší inspirace od těch největších – Google, Apple, Microsoft a další. Třeba asistentka Siri od Applu reaguje na oslovení jen jednoduchým a lidským 'Hm?' a vyčkává, co přesně po ní chcete. Když pak třeba v chytré domácnosti zavelíte, aby zhasla světla, ozve se jen 'O. k.' a světla se zhasnou. 'Vlastně si povídáte. Jasně, jsou to jednorázové povely, ale nejsou kolem toho žádné zbytečné řeči. Tak to má vypadat,' myslí si Mário Mitas. Virtuální asistent u doktora To vždy není úplně snadné. Správný pomocník by podle nich třeba v bankovním systému měl uživatele pustit k možnosti odeslat platbu, na dotaz mu pak ukázat zůstatek na účtu a zase ho na platební bránu vrátit. To ale vyžaduje spolupráci prakticky všech systémů, které pro klientskou obsluhu banka používá. A to už není jednoduché. Naopak většina požadavků na chatbota jednoduchých je a v nich by takový virtuální sluha měl excelovat. Nejčastěji klient na stránkách nemůže něco najít, najde ve výpisu podezřelou transakci nebo má prostě zablokovanou kartu. Jak takový hlas vlastně vzniká? Na začátku je prachobyčejné nahrávání, které má ale jasná pravidla. Ta určují, že abyste vytvořili spolehlivý hlasový model, potřebujete několik hodin mluveného záznamu. Pro dabéra či herce by to ale bylo na hlas náročné, takže se většinou točí například ve více dvouhodinových sekcích. Vybraný nositel hlasu během nich namluví sadu přesně určených různě dlouhých vět. Pak už nastupuje jednotka fonetiků a lingvistů. Ti hledají špatné artefakty – tak se říká chybám, které se v prvních verzích modelu vyskytují. Na základě těch pak znalci jazyka českého dopracují další věty, na kterých se umělá inteligence zdokonalí a chyby odstraní. Se vzrůstající komplexitou virtuálních asistentů se samozřejmě zvedá i jejich cena a ne všechny korporáty jsou ochotné se touta cestou vydat. To obratem znamená problém pro škálování byznysů, jaké vede Martin Franc a Mário Mitas. 'Pro nás je důležité, aby firma meziročně rostla,' říká Martin Franc. 'Osobně budu spokojený, když to bude o pět procent, ale také když to bude o dvacet pět. Nemáme ambice ve smyslu, že za pět let chceme vydělat dvě stě milionů. Přijde mi to jako nesprávné uvažování. Může se stát, že jeden rok vyrosteme o třicet procent, druhý rok to budou tři procenta.' Jeden potenciálně byznysově-škálovací produkt ale přece letos spouštějí. Vyvinuli totiž takového doktora pro virtuální asistenty: Bot Doctora. Jejich vlastní konkurence jim totiž vytvořila další trh, konkrétně trh plný nepovedených realizací virtuálních asistentů. Jejich Bot Doctor by měl jejich chyby detekovat prakticky v každém jazyce a navrhnout možné změny. 'Slibujeme si od toho rozšíření našich služeb do světa. Protože vyladit chatbota umíme stejně dobře pro českou, mexickou nebo belgickou firmu. Jazyk není žádná bariéra,' vysvětluje Mário Mitas. Ve spolupráci s akademickou sférou navíc vyvíjejí vedle doktora chatbotů také jejich výrobní linku. Jde o třetí generaci platformy EVA, která by měla umět jednoduše na pár kliknutí vytvořit virtuálního asistenta i úplnému amatérovi.