Přejít na obsah

Detail publikace

Citace

Alexey Karpov and Liliya Tsirulnik and Zdeněk Krňoul and Andrey Ronzhin and Boris Lobanov and Miloš Železný : Audio-Visual Speech Asynchrony Modeling in a Talking Head . Proceedings of Interspeech 2009, 10, vol. 1, p. 2911-2914, Causal Productions, 2009.

PDF ke stažení

PDF

Abstrakt

An audio-visual speech synthesis system with modeling of asynchrony between auditory and visual speech modalities is proposed in the paper. Corpus-based study of real recordings gave us the required data for understanding the problem of modalities asynchrony that is partially caused by the coarticulationphenomena. A set of context-dependent timing rules and recommendations was elaborated in order to make a synchronization of auditory and visual speech cues of the animated talking head similar to a natural humanlike way. The cognitive evaluation of the model-based talking head for Russian with implementation of the original asynchrony model has shown high intelligibility and naturalness of audio-visual synthesized speech.

Abstrakt v češtině

V tomto článku je navržen systém audiovizuální syntézy řeči obsahující modelování asynchronie mezi zvukovou a vizuální modalitou řeči. Studie reálných nahrávek obsažených v řečových databázích nám poskytují požadované údaje k pochopení problému modalit asynchronie, která je částečně způsobena koartikulací. Byl vypracován soubor kontextově závislých pravidel časování a doporučení zajišťující synchronizaci zvukové a vizuální řeči tak, že animace mluvící hlavy je více přirozená. Kognitivní ohodnocení systému mluvící hlavy, který je nastaven pro Ruštinu a implementující původní model asynchronie, ukazuje vysokou srozumitelnost a přirozenost syntetizované audiovizuální řeči.

Detail publikace

Název: Audio-Visual Speech Asynchrony Modeling in a Talking Head
Autor: Alexey Karpov ; Liliya Tsirulnik ; Zdeněk Krňoul ; Andrey Ronzhin ; Boris Lobanov ; Miloš Železný
Název - česky: Modelování asynchnie v systému mluvící hlavy
Jazyk publikace: anglicky
Datum vydání: 10.9.2009
Rok vydání: 2009
Typ publikace: Článek z časopisu
Název knihy: Proceedings of Interspeech 2009
Svazek: 10
Číslo vydání: 1
Strana: 2911 - 2914
ISSN: 1990-9772
Nakladatel: Causal Productions
/ 2012-05-25 11:21:43 /

Klíčová slova

audio-visual speech processing, text-to-speech synthesis, multimodal speech perception, cognitive study

Klíčová slova v češtině

audiovizuální zpracocání řeči, převod textu na řeč, multimodální vjem řeči, kognitivní studie

BibTeX

@ARTICLE{AlexeyKarpov_2009_Audio-VisualSpeech,
 author = {Alexey Karpov and Liliya Tsirulnik and Zden\v{e}k Kr\v{n}oul and Andrey Ronzhin and Boris Lobanov and Milo\v{s} \v{Z}elezn\'{y}},
 title = {Audio-Visual Speech Asynchrony Modeling in a Talking Head},
 year = {2009},
 publisher = {Causal Productions},
 volume = {1},
 pages = {2911-2914},
 booktitle = {Proceedings of Interspeech 2009},
 series = {10},
 ISSN = {1990-9772},
 url = {http://www.kky.zcu.cz/en/publications/AlexeyKarpov_2009_Audio-VisualSpeech},
}