autorzy: Lesław Pawlaczyk i Paweł Bosky
Instytut Informatyki, Politechnika Śląska.
Abstrakt
W artykule prezentujemy polski system indeksowania dekodowanych do tekstu wiadomości radiowych i telewizyjnych. Celem systemu jest szybka nawigacja i wyszukiwanie informacji, które nie są dostępne za pomocą standardowych wyszukiwarek internetowych. System składa się z modułów: rozpoznawania mowy, pozycjonowania i indeksowania.
Moduł rozpoznający trenujemy godzinami transkrypcji nagrań i milionów słów reprezentujących współczesny język polski, następnie stosujemy statystyczne przetwarzanie języka typu HMM (z ang.: Ukryte Pola Markowa). Nagranie jest dekodowane a dane są wysyłane do oprogramowania wyszukiwarki, które wizualizuje wynik wyszukiwania.
Prezentowany system ma duży potencjał praktycznego zastosowania w wielu obszarach: monitoring mediów, indeksowanie wykładów uniwersyteckich, centra telefoniczne, systemy bezpieczeństwa.
Book Series: Advances in Soft Computing; Publisher: Springer Berlin / Heidelberg; ISSN: 1615-3871 (Print) 1860-0794 (Online); Volume 59/2009
Link do publikacji: http://www.springerlink.com/content/005r89701h218005/