Přejít na obsah

Flag-en show English version

Identifikace výsledku:
ZCU/KKY/2012/006

autorizovaný software (R)

Rok vydání: 2012
Autor: Martin Grůber

Software pro nahrávání databáze promluv formou předpřipravených scénářů

ZÁKLADNÍ POPIS

Software je určen pro nahrávání databáze promluv formou předpřipravených scénářů. Scénáře jsou vytvořeny na základě reálných dialogů, které mohou být předem nahrány i v horší kvalitě. Během nahrávání promluv je pak řečníkovi přehrána část reálného dialogu a jeho úkolem je reagovat dle zobrazených pokynů (nejčastěji přímo požadovaný text). Tato forma nahrávání má řečníka dostat do situace reálného dialogu (vcítit se do osoby, která v dialogu účinkuje) a přitom zůstává zachována vysoká kvalita nahrávek, které mohou být pořízené v nahrávacím studiu. Software umožňuje jak kontrolu nad samotným nahráváním (např. opakování nepovedených nahrávek), tak také automatickou kontrolu vlastních zvukových dat (dostatečná hlasitost, dodržení pauz na začátku a na konci nahrávky, apod.).

Validace softwaru byla provedena na pracovišti Katedry kybernetiky Západočeské univerzity v Plzni. Byl učiněn závěr, že vytvořený nástroj plně vyhovuje a splňuje požadavky, které na něj byly kladeny.

Hlavní část verifikace softwaru byla provedena na pracovišti Katedry kybernetiky Západočeské univerzity v Plzni v různých fázích vývoje tohoto nástroje pomocí systémového testování. Další kroky verifikace byly postupně prováděny pomocí metody akceptačního testování.

Výsledky validace a verifikace potvrdily možnost nasazení nástroje v úloze nahrávání databáze řečových dat. Software byl použit při nahrávání dat pro účely výzkumu a vývoje syntézy expresivní řeči.

POPIS APLIKACE

Hlavní obrazovka

Okno hlavní obrazovky obsahuje ovládací prvky pro přehrávání scénáře (reálného dialogu) a pro nahrávání/přehrávání nahraných promluv.

Hlavní obrazovka

Okno nastavení

V okně nastavení je možné nastavit parametry pro nahrávání (počet kanálů a vzorkovací frekvence), vstupní a výstupní zařízení (určené pro nahrávání a přehrávání), adresáře s vstupními a výstupními daty a specifikaci jména výstupního souboru (jednotlivé nahrávky jsou pak odlišeny číselně).

Je také možné zvolit automatické spuštění nahrávání při ukončení přehrávání příslušné části scénáře, nebo zvukové upozornění na spuštění nahrávání. Dále lze zapnout/vypnout automatickou kontrolu nahraných promluv pomocí kontrolních modulů, ukládání vět označených kontrolními moduly jako chybné, nebo povinnost vyplňovat důvod přeskočení u vět, které chce mluvčí přeskočit či vynechat.

Okno nastavení

Průběh nahrávacího sezení

Sezení se skládá z mnoha tzv. nahrávacích kol (turnů). Každé takové nahrávací kolo má dvě části: přehrávání části scénáře a nahrávání příslušné reakce. Tato kola se opakují, dokud neproběhne celý scénář.

Přehrávání scénáře

V průběhu přehrávání části reálného dialogu jsou na obrazovce zobrazeny pokyny (v tomto případě konkrétní text) pro následující nahrávání. Lze také vidět čas zbývající do další interakce řečníka. Přehrávání dialogu může řečník ovládat tlačítky PLAY, PAUSE a STOP, případně příslušnými klávesovými zkratkami. V dolní části okna je také možno vidět (pokud je zapnutá příslušná volba) akustický signál předchozí nahrané promluvy.

Přehrávání scénáře

Ukázka scénáře (XML souboru) je vidět na následujícím obrázku.

Ukázka části scénáře

Nahrávání promluvy

Po skončení přehrávání části reálného dialogu (části scénáře) je buď automaticky, nebo ručně řečníkem (záleží na nastavení) spuštěno nahrávání promluvy. Pokyny (v tomto případě konkrétní text) jsou zvýrazněné. Nahrávání se ukončí tlačítkem STOP v části ovládání nahrávání (vpravo), případně příslušnou klávesovou zkratkou.

Nahrávání promluvy

Po nahrání promluvy a její kontrole může řečník pokračovat dalším kolem, tedy přehráváním další části scénáře.

Zdrojový kód

Aplikace je implementována v programovacím jazyce Python, zdrojový kód je tvořen celkem 2780 řádky. Aplikace je na platformě nezávislá (avšak instalační balíček je připraven pro instalaci na systému Windows).

Citace

GRŮBERM.Software pro nahrávání databáze promluv formou předpřipravných scénářů. Software, KKY FAV ZČU v Plzni, 2012. (http://www.kky.zcu.cz/cs/sw/dialogueBasedCorpusRecorder)

 POŽADAVKY

Více informací o softwaru lze získat na vyžádání na riv@control.zcu.cz.



Licenční podmínky

Informace k licenční politice podá Martin Grůber, gruber@kky.zcu.cz.



Lokalizace výsledku / potvrzení o užívání

Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni


Kontaktní formulář

Tento software je chráněn licencí, pro jeho stažení, kontrolu RIV, či získání informací o něm, prosím, vyplňte tento formulář:


text to speech