Přejít na obsah

Detail publikace

Citace

Kolář, J. and Švec, J. and Strassel, S. and Walker, Ch. and Kozlíková, D. and Psutka, J. : Czech spontaneous speech corpus with structural metadata . Interspeech Lisboa 2005, p. 1165-1168, ISCA, Bonn, 2005.

PDF ke stažení

PDF

Abstrakt

This paper describes a Czech spontaneous speech corpus consisting of radio talk show recordings. As the first complete non-English MDE corpus, it has been annotated with structural metadata information beyond the words that is critical to both increasing transcript readability and allowing application of downstream NLP methods. Metadata annotation involves partitioning verbatim transcripts into syntactic/semantic units (SUs) that function to express a complete idea; and identifying fillers and edit disfluencies. Annotation guidelines for English metadata developed by Linguistic Data Consortium were taken as the starting point, with changes applied to accommodate specific phenomena of Czech. In addition to the necessary language-dependent modifications, we further propose some language-independent modifications including limited prosodic labeling at SU boundaries. Statistics about the structural metadata annotation present in the corpus and inter-annotator agreement numbers are also presented.

Abstrakt v češtině

Tento článek popisuje český korpus spontánní řeči skládajícíse z nahrávek rozhlasových diskusních pořadů. Jako první kompletní neanglický MDE korpus byl anotován strukturálními metadaty, která zvyšují čitelnost přepisů člověkem a umožňují i další automatické zpracování. Anotace zahrnuje rozdělení přepisů do syntakticko-sémantických jednotek a identifikace výplní a neplynulostí. Mimo modifikací nutných pouze pro češtinu také navrhujeme některé modifikace nezávislé na jazyku, jako je například limitované prozodické značkování na hranicích syntakticko-sémantických jednotek.

Detail publikace

Název: Czech spontaneous speech corpus with structural metadata
Autor: Kolář, J. ; Švec, J. ; Strassel, S. ; Walker, Ch. ; Kozlíková, D. ; Psutka, J.
Název - česky: Český korpus spontánní řeči s anotací strukturálních metadat
Jazyk publikace: anglicky
Datum vydání: 4.9.2005
Rok vydání: 2005
Typ publikace: Stať ve sborníku
Název časopisu / knihy: Interspeech Lisboa 2005
Strana: 1165 - 1168
Nakladatel: ISCA
Místo vydání: Bonn
Datum: 4.9.2005 - 8.9.2005
/ 2008-04-18 14:23:16 /

Klíčová slova

SUs, structural metadata, spontaneous speech, disfluencies, fillers

Klíčová slova v češtině

výpovědní jednotky, strukturální metadata, spontánní řeč, neplynulosti, výplně

BibTeX

@INPROCEEDINGS{KolarJ_2005_Czechspontaneous,
 author = {Kol\'{a}\v{r}, J. and \v{S}vec, J. and Strassel, S. and Walker, Ch. and Kozl\'{i}kov\'{a}, D. and Psutka, J.},
 title = {Czech spontaneous speech corpus with structural metadata},
 year = {2005},
 publisher = {ISCA},
 journal = {Interspeech Lisboa 2005},
 address = {Bonn},
 pages = {1165-1168},
 url = {http://www.kky.zcu.cz/en/publications/KolarJ_2005_Czechspontaneous},
}