Přejít na obsah

Detail publikace

Citace

Krňoul, Z. : Visual Speech Synthesis - Talking Head . University of West Bohemia, 2008.

PDF ke stažení

PDF

Abstrakt

This PhD thesis describes the research conducted in the field of visual speech synthesis. The main aim of the thesis is to create a complete system of automatic visual speech synthesis, which converts written text into animation of talking head (talking head synthesis system). To meet this objective, the thesis describes a summary of current knowledge in this field, the analysis of the different approaches and methods and the solution divided into several separate parts. The first part is to create images of human faces and animation in such a way that it is possible to make visual speech intelligible. Addressing this part includes an analysis of possible methods for facial animation, and advantages and disadvantages of different approaches are discussed. A new approach of talking head animation is designed and implemented. This face animation method is suitable for expression of articulatory movements of the lips and tongue as well as for deformations observed in the upper half of the face. Another part is the problem of preparing, recording and processing audiovisual data. Addressing the problem, new approach involving the three-dimensional reconstruction of human faces based on scanning with the strip light is designed. The problem of capturing the visual speech is dealt with the proposal of two new methods of tracking the movements of the lip and chin. In the context of the thesis, two audio-visual databases are created for Czech speech suitable for the visual speech synthesis. The databases include also speech segmentation and the articulatory trajectories describing the shape and movement of the lips. The research on the audio-visual synthesis deals also with the issue of controlling of animation. It carries out a summary of existing methods of automatic creation of articulatory trajectories from arbitrary input text. With a focus on issues of lip coarticulation, one current approach is selected and trained according to speech recorded in the audio-visual databases. In order to address this task, new synthesis method of articulatory trajectories is also proposed and implemented to solve the lip coarticulation problem in another way. The automatic synthesis of visual speech has been tested. Two levels of testing are included. The first test level compares the newly created articulatory trajectories synthesized using the method of selection of articulatory targets. The outcome of this test does not indicate a significant difference between articulatory trajectories synthesized by the current method and the newly proposed method. The task of the second test level is to verify the overall intelligibility of the talking head. Two studies of visual speech perception testing 19 normally hearing subjects are designed and carried out. The results confirm that proposed talking head system has significant visual contribution to speech perception, but also the possibility of further improvement. At the end of the PhD thesis, several applications of the talking head are mentioned.

Abstrakt v češtině

Tato disertační práce popisuje výzkum provedený v oblasti syntézy vizuální řeči v počítači. Hlavním cílem disertační práce je vytvoření kompletního systému automatické syntézy vizuální řeči, který převádí psaný text do animace mluvící hlavy (systém syntézy mluvící hlavy). Pro splnění tohoto cíle disertační práce popisuje souhrn stávajícího poznání v této oblasti, analýzu jednotlivých přístupů a metod a vlastní řešení problému rozdělené do několika samostatných částí. První částí je vytvoření obrazu lidské tváře a její animace takovou cestou, aby bylo možné vyjádřit srozumitelnou vizuální řeč. Řešení této části zahrnuje analýzu možných metod animace tváře, jsou diskutovány výhody a nevýhody jednotlivých přístupů. Je uveden návrh a implementace nového přístupu animace mluvící hlavy. Animace tváře je vhodná jak pro vyjádření artikulačních pohybů rtů a jazyka tak i pro deformace pozorované v horní polovině tváře. Další částí je řešení problému přípravy, záznamu a zpracování potřebných dat. Řešení zahrnuje nový přístup trojrozměrné rekonstrukce lidské tváře založený na principu skenování proužkem světla. Problém zachycení vizuální řeči je řešen návrhem dvou nových metod sledování pohybů rtů při promluvě. V rámci disertační práce jsou dále vytvořeny dvě audiovizuální databáze pro českou řeč vhodné pro syntézu audiovizuální řeči. Součástí databází je anotace textu, segmentace do řečových segmentů a také artikulační trajektorie popisující tvar a pohyb rtů. Následující částí výzkumu audiovizuální syntézy vizuální řeči je řešení problematiky řízení animace. Je proveden souhrn stávajících metod automatického vytváření artikulačních trajektorií podle libovolného vstupního textu. Se zaměřením na problematiku koartikulace rtů je vybrán jeden stávající přístup, který je nastaven podle zaznamenaných promluv v audiovizuálních databázích. V rámci řešení tohoto úkolu je navržena a implementována také nová metoda syntézy artikulačních trajektorií. Navržený systém automatické syntézy vizuální řeči je otestován dvěma způsoby. První testování porovnává vytvářené artikulační trajektorie nově navržené metody řízení animace. Výsledek testů nenaznačuje významný rozdíl mezi artikulačními trajektoriemi syntetizovanými stávající metodou a nově navrženou metodou. Úkolem druhého testování je ověření celkové srozumitelnosti systému mluvící hlavy. Jsou navrženy a provedeny dvě studie vjemu vizuální řeči testující celkem 19 normálně slyšících osob. Výsledek studií potvrzuje významný přínos porozumění vytvořenému systému mluvící hlavy, ale také možnosti dalšího zlepšování. Na závěr disertační práce je uvedeno několik aplikací systému mluvící hlavy.

Detail publikace

Název: Visual Speech Synthesis - Talking Head
Autor: Krňoul, Z.
Název - česky: Automatická syntéza vizuální řeči - mluvící hlava
Jazyk publikace: česky
Datum vydání: 9.10.2008
Rok vydání: 2008
Typ publikace: Vysokoškolská kvalifikační práce (dizertační, habilitační)
Nakladatel: University of West Bohemia
/ 2011-12-16 15:52:17 /

Klíčová slova

talking head, visual speech synthesis, selection of articulatory targets, faceanimation, perception tests

Klíčová slova v češtině

mluvící hlava, syntéza vizuální řeči, výběr artikulačních míst, animace tváře, percepční testy

BibTeX

@PHDTHESIS{KrnoulZ_2008_VisualSpeech,
 author = {Kr\v{n}oul, Z.},
 title = {Visual Speech Synthesis - Talking Head},
 year = {2008},
 publisher = {University of West Bohemia},
 url = {http://www.kky.zcu.cz/en/publications/KrnoulZ_2008_VisualSpeech},
}