Přejít na obsah

Detail publikace

Citace

Matoušek, J. : On Minimizing the Size of Speech Unit Database in Concatenative Speech Synthesis . Speech Processing, proceedings of the 16th Czech-German Workshop, p. 70-76, Institute of Radio Engineering and Electronics AS CR, Prague, 2006.

Abstrakt

In this paper, minimization of speech unit database is researched in order to have a compact speech unit database yielding a "good enough" synthetic speech usable also for low-resource devices. We focused mainly on HMM-based speech unit database preparation, a process which prepares a set of context-dependent phones (triphones) by means of HMM modelling, CART-based clustering, and HMM-based segmentation in a fully automatic way. Three experiments are described in the paper: the first one concerns the size of the source speech corpus, the second one deals with the triphone clustering process, and the last one concerns the modelling of the cross-word dependencies. The final minimised system exploits techniques used in all three experiments. The size of the resulting speech unit database decreased from 28.1 to 1.6 MB. The resulting synthetic speech was then judged by means of CCR listening tests and evaluated as "slightly worse" than speech generated by the baseline system.

Abstrakt v češtině

V článku se zkoumají možnosti minimalizace databáze řečových jednotek za účelem získání kompaktní databáze řečových jednotek, která bude poskytovat syntetickou řeč "rozumné kvality" také pro zařízení s menšími systémovými zdroji. Zaměřili jsme se zejména na přípravu databáze řečových jednotek s využitím HMM, plně automatický proces, který připravuje soubor kontextově závislých fonů (trifonů) pomocí modelování HMM, shlukování založeného na CART a segmentace s využitím HMM V článku jsou popsány tři experimenty: první experiment se týká velikosti zdrojového řečového korpusu, druhý experiment se zabývá procesem shlukování trifonů a poslední experiment pojednává o modelování mezislovních závislostí. Výsledný minimalizovaný systém využívá postupy použité ve všech třech experimentech. Velikost výsledné databáze řečových jednotek se snížila z 28,1 MB na 1,6 MB. Výsledná syntetická řeč byla testována formou poslechových testů CCR a hodnocena jako "o něco horší" než řeč vytvářená původním systémem.

Detail publikace

Název: On Minimizing the Size of Speech Unit Database in Concatenative Speech Synthesis
Autor: Matoušek, J.
Název - česky: Minimalizace velikosti databáze řečových jednotek v úloze konkatenační syntézy řeči
Jazyk publikace: anglicky
Datum vydání: 27.9.2006
Rok vydání: 2006
Typ publikace: Stať ve sborníku
Název knihy: Speech Processing, proceedings of the 16th Czech-German Workshop
Strana: 70 - 76
ISBN: 80-86269-15-9
Nakladatel: Institute of Radio Engineering and Electronics AS CR
Místo vydání: Prague
Datum: 27.9.2006 - 29.9.2006
/ 2008-05-20 10:01:19 /

Klíčová slova

speech synthesis, minimization of speech unit database, HMM modelling, HMM-based segmentation, CART clustering

Klíčová slova v češtině

syntéza řeči, minimalizace databáze řečových jednotek, modelování HMM, segmentace HMM, shlukování CART

BibTeX

@INPROCEEDINGS{MatousekJ_2006_OnMinimizingthe,
 author = {Matou\v{s}ek, J.},
 title = {On Minimizing the Size of Speech Unit Database in Concatenative Speech Synthesis},
 year = {2006},
 publisher = {Institute of Radio Engineering and Electronics AS CR},
 address = {Prague},
 pages = {70-76},
 booktitle = {Speech Processing, proceedings of the 16th Czech-German Workshop},
 ISBN = {80-86269-15-9},
 url = {http://www.kky.zcu.cz/en/publications/MatousekJ_2006_OnMinimizingthe},
}