Verfasser: Lesław Pawlaczyk und Paweł Bosky
Institut für Informatik, Schlesische Technische Universität.
Abstract
In diesem Artikel präsentieren wir ein polnisches System für Indexierung der in Text dekodierter Fernseh- und Radionachrichten. Ziel dieses Systems ist eine schnelle Navigation, sowie eine vereinfachte Suche nach Informationen, die nicht mit üblichen Internetsuchmaschinen gefunden werden können. Das System besteht aus: einem Spracherkennungs-, Positionierungs- und Indexierungsmodul.
Das Erkennungsmodul wird von uns mit Stunden von transkribierten Aufnahmen, sowie Millionen Wörter, die die moderne polnische Sprache repräsentieren, trainiert. Dann verwenden wir die statistische Sprachbearbeitung vom HMM-Typ (Engl.: Hidden Markov Model). Die so gewonnenen Daten werden von der Suchmaschinensoftware dekodiert, und das Suchergebnis visualisiert.
Das präsentierte System hat ein großes praktisches Potential in vielen Bereichen: in der Medienbeobachtung, beim Indexieren von Universitätsvorträgen, in Call Centers, sowie bei Sicherheitssystemen.
Book Series: Advances in Soft Computing; Publisher: Springer Berlin / Heidelberg; ISSN: 1615-3871 (Print) 1860-0794 (Online); Volume 59/2009
Link zur Publikation: http://www.springerlink.com/content/005r89701h218005/