Přejít na obsah

Flag-en show English version

Identifikace výsledku:
ZCU/KKY/2015/015

poloprovoz (Z)

Rok vydání: 2015
Autor: Psutka J.V.; Švec J.;Šmídl L.; Müller L.; Psutka J.

Prototyp hlasového interaktivního systému

Popis

Vyvinutá technologie hlasového interaktivního systému s modulem automatického rozpoznávání mluvené řeči slouží k vyhledávání relevantní informace ve velkých audiovizuálních archivech ať už hlasovou nebo psanou formou dialogu – v řešené úloze šlo o archiv TV zpravodajských pořadů. Systém je schopen zpracovat mluvenou řeč uživatele a převést ji do textového zápisu a poskytnout uživateli požadovanou odpověď či provést vyžadovaný úkon (poskytnutí informace, provedení žádané akce).

Hlasový interaktivní systém pracuje s modulem automatického rozpoznávání řeči (slovník větší než 1 mil slov), modulem počítačové syntézy řeči a dialogovým modulem pro inteligentní interakci. Systém umožňuje automaticky zpracovávat nové zpravodajské pořady. Vstupní audio řetězec je rozpoznán a indexován na slovní a fonetické úrovni. Je využita moderní technologie Docker a dokumentová databáze MongoDB. Interaktivní dialogový systém využívá webové rozhraní HTML5 pro textový vstup v kombinaci s technologií WebRTC, která umožňuje hlasovou interakci.

realizace

Řešená cílová úloha (automatizované zpracování záznamů zpravodajských pořadů) je velice vhodná k implementaci interaktivního systému. Tento systém umožní vyhledávání v rozsáhlém archívu audiovizuálních záznamů prostřednictvím multimodální interakce (vstup z klávesnice / hlasový vstup). Textový vstup umožní vyhledávání obdobně jako v běžných nástrojích pro vyhledávání na internetu (např. Google), hlasový vstup pak usnadní ovládání grafického uživatelského rozhraní. Zároveň bude možné prostřednictvím hlasového vstupu zadat vyhledávací dotaz. Počítačová syntéza řeči je použita pro získání hlasové zpětné vazby (např. počet nalezených výsledků při zadávání hlasem).

 Systém hlasového interaktivního systému se skládá ze dvou klíčových komponent:

  • řetězce nástrojů pro automatizované rozpoznávání a indexaci zpravodajských pořadů
  • interaktivního dialogového systému pro vyhledávání a zpřístupnění výsledků.

Automatizovaný řetězec nástrojů pro každý nový záznam provede následující kroky:

  • konverzi do cílového audio/video záznamu pro archivaci
  • extrakci audia
  • segmentaci audia
  • rozpoznávání na slovní a fonémové úrovni.

automaticky retezec

 

Výsledky rozpoznávání řeči jsou následně zaindexovány a uloženy do dokumentové databáze. Inovativní je především technické řešení tohoto automatizované řetězce, který propojuje dílčí modely a technologie vyvinuté v rámci předchozích činností WP5. Implementace zařízení využívá moderní technologii Docker pro implementaci masivně paralelního řešení vhodného pro nasazení v cloudové infrastruktuře. Použitá dokumentová databáze MongoDB umožňuje efektivní škálování databázového clusteru pro databáze o velikosti mnoha terabytů.

     Interaktivní dialogový systém využije možnosti moderních webových technologií pro implementaci multimodálního dialogu. Běžné webové rozhraní umožňující textový vstup je implementováno pomocí technologie HTML5. Jeho obohacení o hlasovou interakci využívá technologie WebRTC pro přenos hlasu mezi klientským webovým prohlížečem a modulem dialogového manažeru. Rozpoznávání řeči v interaktivním dialogovém systému používá stejný jazykový model jako řetězec nástrojů pro indexaci. Porozumění řeči používá technologie detekce sémantických entit pro extrakci příkazů ovládajících interaktivní systém.

     Architektura výsledku umožňuje mnoho způsobů užití a nasazení. Nejjednodušší varianta spočívá v instalaci na jeden výpočetní uzel a zpřístupnění technologie automatizovaného řetězce nástrojů prostřednictvím definovaného API (Application Programming Interface). Komplexnější varianty pak umožňují nasazení v distribuovaném clusterovém prostředí, čímž je možné cílit na rozsáhlejší úlohy vyžadující především vysokou propustnost v čase (např. monitorování callcenter). Další z možností je nabízení formou služby (SaaS -- Software as a Service) provozované a zajišťované společností SpeechTech s.r.o. (partnerem ve WP5).

 

 

Grafické uživatelské rozhraní

 

GUI

Pro ukázku si představme, že chceme vyhledat slovo československo. Do kolonky Zadejte dotaz tedy napíšeme československo a stiskneme tlačítko „s lupou“. Tím se přesuneme na obrazovku s výsledky vyhledávání.

GUI2

 

V levém sloupci máme seznam výsledků spolu se jménem řečníka, datem nahrávání a číselným ohodnocením, jak moc si je systém jistý svým rozhodnutím, že výsledek odpovídá vašemu dotazu (od 0 do 100%). Napravo nahoře je panel základního ovládání a pod ním jméno řečníka spolu s pojmenováním archivu. Uprostřed je samotný přehrávač videa. Tenká červená linka pod obrazem ukazuje pozici v nahrávce. Zelené značky ve stejné oblasti pak ukazují výsledky hledání v rámci dané nahrávky. V nahrávce se lze také volně pohybovat kliknutím na libovolné umístění. 
Lokalizace výsledku / potvrzení o užívání

Tento prototyp hlasového interaktivního systému byl vytvořen s finanční podporou TA ČR projekt TE01020197 - Centrum aplikované kybernetiky 3. 


Tacr


https://www.tacr.cz/


Poloprovoz je testován Media Tenor, spol. s r.o. Pobřežní 249/46 186 00 Praha 8 IČ 25901800, info Ing. Luděk Müller (Ludek.Muller@speechtech.cz). Pro získání licence je nutný souhlas autorů systému. text to speech