Přejít na obsah

Syntéza znakové řeči

Syntézou znakové řeči rozumíme napodobení pohybů znakující lidské postavy. Úkolem syntézy je vytvoření obrazu modelu člověka ukazující znakovou řeč například na obrazovce počítače. Spojením této animace se systémem překládající psaný text do znakové řeči dostáváme virtuálního tlumočníka překládající například televizní zprávy.

(AVI (Xvid) ke stažení: Ukázka - člověk, Ukázka - animovaná postava)
Flash Player
Filmové ukázky - Video záznam reálné osoby [1] a první verze syntézy pohybující s H-anim modelem, projekt MUSSLAP.

[1] Jiří Langer, Václav Ptáček a Karel Dvořák: Znaková zásoba českého znakového jazyka, Univerzita Palackého v Olomouci, Olomouc 2004.

Syntéza

Při řešení problému syntézy znakového jazyka je jedním z klíčových problémů správné zachycení vlastních znaků. Známe dva základní přístupy k řešení:

  1. Záznam znakujícího člověka a přenesení jeho pohybů do počítače
  2. Symbolický popis pohybů a vytvoření animace z těchto informací

První přístup je více intuitivní. Pro pořízení požadované zásoby znaků je potřeba zaznamenat znakujícího člověka a tento záznam nějak zpracovat. Může se obecně jednat o obyčejný záznam pomocí videokamery a nebo využití velmi specializovaných zařízení podobných těm co se využívají při vytváření 3D počítačových her. Výsledkem je pak 2D nebo i 3D syntéza s velmi věrnými pohyby. Animace postavičky se pohybuje velmi reálně. Problém však nastává při přesném zachycení a ztvárnění některých specifických znaků. Konkrétně jde o vzájemný vztah rukou, kontakt a jejich tvar.

Druhým přístupem je symbolický popis. Zde není přímo vyžadován záznam znaků, snahou je nějaké symbolické popsání. Takovýto popis musí být dostatečně bohatý, aby bylo možné zachytit všechny tvarové varianty konkrétního znakového jazyka. Počítačová syntéza je také ztvárněna animací lidské postavy, ale rozdíl je v tom, že se pohyby postavy vytvářejí vhodnou kombinací a navazováním zapsaných symbolů. Velkou výhodou je iterativní rozšiřování, ale i modifikace shromážděných znaků, nevýhodou pak méně přirozená animace (bez provedených úprav) tj. příliš jednotvárné strojové pohyby, ale také řešení problému inverzní kinematiky. Inverzní kinematika je metoda pro určení (dopočtení) uspořádaní řetězce na sebe navazujících segmentů tj. pro animaci paže můžeme říci, že jde o určení pozice loktu a dlaně podle zadaných hodnot umístění ruky.

Symbolickým popisem znakových jazyků se ve světě zabývalo a zabývá několik pracovišť. Nejvíce nalezneme popisy americké a britské znakové řeči (ASL a BSL) např. systém SignWriting nebo Stokoeův zápis. V Německu je pak prosazován tzv. Hamnosys (Hamburský notifikační systém). Princip zápisu můžeme ukázat např. na poslední zmíněné notaci. Hamnosys zapisuje znaky jako jednotlivá slova, jako obdoba slova běžného jazyka. Všechna slova podléhají obecné struktuře (formě) a abecedě „písmen“ nebo lépe řečeno symbolů. Hamnosys jich má přibližně 200 a každý má nějaký význam a nějaké grafické zpracování. Struktura slova pak dodržuje určitou formu. V tomto případě jsou slova postupně složena z bloků (obdoba slabik). Nalezneme blok symetrie, blok startovací pozice a blok akce.

Pomocí 31 symbolů pro blok popisující tvar ruky dokážeme popsat většinu přirozeně proveditelných tvarů.

Symboly pro základní tvary rukyObrázek: Symboly pro základní tvary ruky.

Celkový zápis např. znaku dům: Hamnosys:dům, kde zápis znamená: tvar dominantní ruky bude otevřená dlaň s prsty i palcem u sebe, prsty směřují od těla a dlaň je skloněna šikmo doleva dolů. Zápis pohybu pak prozrazuje přímočarý pohyb šikmo vpravo dolů, dále navazující změna otočení dlaně na směr vlevo a nakonec přímočarý pohyb dolů. Celý znak však bude ukázán zrcadlově i druhou rukou. Tvoření věty pak vypadá následovně: Věta hamnosysu Tato věta je složena ze tří znaků oddělených čárkou a v překladu má význam: „Když jsem četl noviny, dal jsem si šálek kávy.“

Animace lidské postavy

Při řešení problému syntézy znakového jazyka je nutné vytvořit a rozpohybovat model lidské postavy. Můžeme nalézt několik reprezentací, které pocházejí z různorodých komerčních softwarových aplikací. O standardizaci se pokusilo v roce 1997 Web3D konsorcium. Jednou z možností řešení obecné animace lidské postavy je tedy využití jejich standardu nazvaného H-anim (Humanoid animation working group).Standard H-anim vznikl postupným vývojem 3D nástrojů po internetu a také vývojem modelování virtuální reality se třemi prioritami:

  • Kompatibilita
  • Flexibilita
  • Jednoduchost
H-anim postavičkyH-anim postavičky
Obrázek: H-anim postavičky. Model člověka složený z 89 částí spojených 89 klouby. Takto strukturovaný model je vhodný pro animaci znakové řeči.

Právě pro popis virtuální reality v počítači vznikl jazyk VRML (Virtual Reality Modeling Language) nebo X3D a právě H-anim je metodika, jak s jejich pomocí pospat lidskou postavu a umožnit i její animaci.

Úplná specifikace definuje 89 kloubních spojení a 89 segmentů těla připojených k těmto kloubům. Ne však všechny definice musejí být dodrženy. Takto strukturovaný počítačový model je vhodný použít při animaci postavičky použité při animaci znakové řeči.

Aplikace syntézy

Je mnoho aplikací technologie syntézy znakové řeči, snad jednou z nejpopulárnějších je idea úplné nahrazení tlumočníka počítačem. Počítač by tak zprostředkoval komunikaci mezi slyšícím a neslyšícím. Další aplikací je zprostředkování obsahu novin, televize, internetu apod., neboť většina neslyšících má problémy se čtením psaného textu.


text to speech