Files
DissLiteratur/storage/NC8E86U6/.zotero-ft-cache
Johannes Paehr c4354c0441 init
2025-10-18 15:35:31 +02:00

3810 lines
176 KiB
Plaintext
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
Beat Pfister Tobias Kaufmann
Sprachverarbeitung
Grundlagen und Methoden der Sprachsynthese und Spracherkennung 2. Auflage
Sprachverarbeitung
Beat Pfister Tobias Kaufmann
Sprachverarbeitung
Grundlagen und Methoden der Sprachsynthese und Spracherkennung
2., aktualisierte und erweiterte Auflage
Beat Pfister ETH Zürich Zürich, Schweiz
Tobias Kaufmann ETH Zürich Zürich, Schweiz
ISBN 978-3-662-52837-2 DOI 10.1007/978-3-662-52838-9
ISBN 978-3-662-52838-9 (eBook)
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Springer Vieweg © Springer-Verlag GmbH Deutschland 2008, 2017 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichenund Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral.
Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier.
Springer Vieweg ist Teil von Springer Nature Die eingetragene Gesellschaft ist Springer-Verlag GmbH Deutschland Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Vorwort zur zweiten Auflage
Das Sprechen und das Verstehen von Sprache sind in unserem Alltag so selbstverständlich, dass wir uns kaum Gedanken darüber machen, wie anspruchsvoll diese Tätigkeiten sind. Versucht man jedoch das Sprechen oder das Verstehen von Sprache mit einem Computer zu verwirklichen, dann entpuppt sich das Vorhaben als verblüffend schwierig. Die Forschung im Bereich Sprachverarbeitung begann erst vor etwa fünfzig Jahren, als Computer verfügbar wurden, und sie gehört bis heute zu den stark wachsenden Forschungs- und Wissensbereichen. Immer komplexere Probleme lassen sich lösen, weil dank rasantem Fortschritt im IT-Bereich stets mächtigere Ansätze und Methoden und grössere Datenmengen eingesetzt werden können. So ist die Sprachverarbeitung zu einem weitläufigen, interdisziplinären Gebiet geworden, welches den Rahmen eines einzelnen Sachbuches bei weitem sprengt. Das vorliegende Buch hat jedoch nicht den Anspruch, den gesamten Sachbereich der Sprachverarbeitung abzudecken. Es beschränkt sich auf die Themen der zweisemestrigen Vorlesung Sprachverarbeitung an der ETH Zürich. Am Aufbau und an der Durchführung dieser Vorlesung und der zugehörigen, computerbasierten Übungen wirkten etliche frühere Mitarbeiter der Gruppe für Sprachverarbeitung mit, insbesondere Hans-Peter Hutter, Christof Traber, René Beutler und Schamai Safra. Ebenfalls an den Übungen und zusätzlich an der Bereinigung der ersten Ausgabe des Buches Sprachverarbeitung haben sich Thomas Ewender, Michael Gerber, Sarah Hoffmann und Harald Romsdorfer beteiligt. In der zweiten Ausgabe ist hauptsächlich das Kapitel über die polyglotte Sprachsynthese neu dazugekommen. Zudem wird gezeigt, wo in der Sprachverarbeitung neuerdings komplexe neuronale Netze eingesetzt werden. Zusätzlich sind im Buch viele Stellen für ein besseres Verständnis ergänzt oder umformuliert worden. Schliesslich sind die Fehler korrigiert worden, die nachträglich in der ersten Ausgabe bemerkt worden sind. Da eBooks zunehmend an Bedeutung gewinnen, sind in der eBook-Version alle buchinternen Verweise neu als Hyperlinks ausgebildet, was das Navigieren in diesem Buch mit seinen unterschiedlichen Fachbereichen stark erleichtert.
Zürich, Februar 2017
Beat Pfister und Tobias Kaufmann
Vorwort zur ersten Auflage
Das vorliegende Buch ist aus den Skripten zur zweisemestrigen Vorlesung Sprachverarbeitung an der ETH Zürich entstanden. Am Aufbau dieser Vorlesung haben etliche frühere Mitarbeiter der Gruppe für Sprachverarbeitung mitgewirkt, insbesondere Hans-Peter Hutter, Christof Traber und René Beutler. Der Aufbau der Skripte war konsequent auf den zeitlichen Ablauf der Vorlesung ausgerichtet. Die Vorlesung ist so konzipiert, dass Studierende, die nur ein Semester lang die Vorlesung belegen, trotzdem von fast allen wichtigen Aspekten der Sprachsynthese und der Spracherkennung mindestens einen groben Überblick erhalten. Das führte zwangsläufig dazu, dass mehrere Gebiete im Band I des Vorlesungsskripts nur eingeführt und erst im Band II eingehend behandelt oder vertieft wurden. Inhaltlich deckt das Buch den Vorlesungsstoff ab, aber es ist neu gegliedert worden, sodass nun Grundlagen, Sprachsynthese und Spracherkennung je einen Block bilden. Wir möchten an dieser Stelle allen, die zu diesem Buch beigetragen haben, bestens danken. Es sind dies zur Hauptsache die Mitglieder der Gruppe für Sprachverarbeitung, nämlich Thomas Ewender, Michael Gerber, Sarah Hoffmann und Harald Romsdorfer. Insbesondere Sarah und Thomas haben sich als kritische Leser intensiv mit dem Inhalt und der Form des Buches auseinandergesetzt und zu vielen fruchtbaren Diskussionen beigetragen.
Zürich, Januar 2008
Beat Pfister und Tobias Kaufmann
Inhaltsverzeichnis
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1
Grundsätzliches zur Sprache . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1 Sprache als Kommunikationsmittel .......................... 5
1.1.1 Lautsprachliche Kommunikation.............................. 5
1.1.2 Geschriebene vs. gesprochene Sprache ...................... 6
1.2 Die Beschreibung von Sprache................................ 8
1.2.1 Die linguistischen Ebenen ...................................... 8
1.2.2 Die phonetische Schrift......................................... 10
1.2.3 Die akustisch-phonetische Ebene ............................. 11
1.2.4 Die Prosodie der Sprache ...................................... 11
1.3 Die menschliche Sprachproduktion........................... 12
1.3.1 Übersicht über den Sprechapparat ........................... 12
1.3.2 Die Funktion des Sprechapparates ........................... 12
1.3.3 Die Artikulation der Sprachlaute ............................. 14
1.4 Das menschliche Gehör ......................................... 15
1.4.1 Wahrnehmung der Schallintensität........................... 16
1.4.2 Periodizität und Tonhöhe ...................................... 17
1.4.3 Die Phasenwahrnehmung ...................................... 18
1.4.4 Der Verdeckungseffekt.......................................... 18
1.4.5 Wahrnehmung der Sprachlaute ............................... 19
1.5 Verarbeitung natürlicher Sprache............................. 21
2
Übersicht über die Sprachverarbeitung . . . . . . . . . . . . . . 23
2.1 Was in einem Sprachsignal steckt ............................ 25
2.2 Teilgebiete der Sprachverarbeitung........................... 26
2.3 Sprachsynthese ................................................... 27
2.4 Spracherkennung................................................. 28
2.5 Sprecheridentifikation ........................................... 29
2.6 Sprachidentifikation ............................................. 29
2.7 Sprechertransformation......................................... 30
2.8 Sprachsignalcodierung .......................................... 30
2.8.1 Signalformcodierung ............................................ 32
2.8.2 Modellierung von Sprachsignalen............................. 35
3
Darstellung und Eigenschaften des Sprachsignals . . . . 37
3.1 Digitalisieren von Sprachsignalen ............................. 39
3.1.1 Bandbegrenzungsfilter .......................................... 39
3.1.2 Zeit- und Amplitudendiskretisierung ......................... 41
3.1.3 Rekonstruktionsfilter ............................................ 41
VIII
Inhaltsverzeichnis
3.2 Darstellung digitaler Sprachsignale im Zeitbereich........ 43 3.3 Darstellung im Frequenzbereich .............................. 45 3.4 Kombinierte Zeit-Frequenz-Bereichs-Darstellungen ....... 48 3.5 Darstellung der Phase eines Sprachsignals.................. 50 3.6 Sprachmerkmale und ihre Darstellung ....................... 52 3.6.1 Grundfrequenz.................................................... 52 3.6.2 Formanten ........................................................ 53 3.6.3 Dauer der Laute ................................................. 54 3.6.4 Intensität der Laute ............................................. 55
4 4.1 4.2 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 4.3 4.4 4.4.1 4.4.2 4.4.3 4.5 4.5.1 4.5.2 4.5.3 4.6 4.6.1 4.6.2 4.6.3 4.6.4 4.6.5 4.6.6 4.6.7 4.6.8 4.7 4.7.1 4.7.2
Analyse des Sprachsignals . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Kurzzeitanalyse .................................................. 59 Schätzung des Kurzzeitspektrums............................ 60 Diskrete Fouriertransformation................................ 60 Eigenschaften der DFT ......................................... 64 Fensterfunktionen................................................ 64 Die Frequenzauflösung der DFT .............................. 66 Zeitabhängige Fouriertransformation ........................ 69 Schätzung des Leistungsdichtespektrums ................... 71 Autokorrelation................................................... 73 Definition der Autokorrelationsfunktion ..................... 73 Eigenschaften der Autokorrelationsfunktion ................ 73 Kurzzeit-Autokorrelation ....................................... 74 Lineare Prädiktion ............................................... 77 Herleitung der LPC-Analyse ................................... 77 Sprachmodellierung mittels linearer Prädiktion ............ 80 Interpretation der linearen Prädiktion ....................... 86 Homomorphe Analyse........................................... 89 Das verallgemeinerte Superpositionsprinzip ................ 89 Homomorphe Systeme .......................................... 89 Das DFT-Cepstrum ............................................. 90 Cepstrale Glättung .............................................. 92 Das Mel-Cepstrum .............................................. 94 Das Delta-Cepstrum ............................................ 96 Mittelwertfreie Cepstren........................................ 97 Cepstrale Distanz ................................................ 99 Vektorquantisierung ............................................. 100 Realisation der Vektorquantisierung ......................... 101 Generieren eines Codebuches.................................. 103
5
Hidden-Markov-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.1 Struktur und Parameter eines HMM ........................ 109
Inhaltsverzeichnis
IX
5.1.1 5.1.2 5.2 5.3 5.4 5.4.1 5.4.2 5.4.3 5.4.4 5.4.5 5.4.6 5.4.7 5.4.8 5.4.9 5.5 5.5.1 5.5.2 5.5.3 5.5.4 5.5.5 5.5.6 5.5.7 5.6 5.7
Zustandsübergangswahrscheinlichkeiten..................... 110 Beobachtungswahrscheinlichkeiten ........................... 112 Die grundlegenden HMM-Probleme ......................... 114 Trellis-Diagramm ................................................ 115 Grundlegende Algorithmen für DDHMM ................... 117 Evaluationsproblem.............................................. 117 Forward-Algorithmus für DDHMM........................... 118 Decodierungsproblem ........................................... 120 Viterbi-Algorithmus für DDHMM ............................ 120 Schätzproblem.................................................... 122 Backward-Algorithmus für DDHMM ........................ 122 Baum-Welch-Algorithmus für DDHMM..................... 123 Viterbi-Training für DDHMM ................................. 126 Initial-DDHMM .................................................. 128 Grundlegende Algorithmen für CDHMM.................... 129 Forward-Algorithmus für CDHMM ........................... 129 Viterbi-Algorithmus für CDHMM ............................ 129 Backward-Algorithmus für CDHMM......................... 129 Baum-Welch-Algorithmus für CDHMM ..................... 130 Viterbi-Training für CDHMM ................................. 131 Initial-CDHMM .................................................. 132 Mixture Splitting................................................. 133 Training mit mehreren Beobachtungssequenzen........... 134 Underflow bei HMM ............................................ 135
6 6.1 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.2.5 6.3 6.3.1 6.3.2 6.3.3 6.4 6.5 6.5.1 6.5.2
Darstellung und Anwendung linguistischen Wissens. . 137 Formale Sprachen und Grammatiken ........................ 139 Die Sprachhierarchie nach Chomsky ......................... 140 Reguläre Sprachen (Typ 3) .................................... 143 Kontextfreie Sprachen (Typ 2)................................ 145 Kontextsensitive Sprachen (Typ 1)........................... 146 Allgemeine Sprachen (Typ 0) ................................. 150 Das Wortproblem ................................................ 150 Die Wortanalyse ................................................. 152 Wortanalyse für Typ-3-Grammatiken ........................ 152 Wortanalyse für Typ-2-Grammatiken ........................ 160 Wortanalyse für Typ-1- und Typ-0-Grammatiken ......... 167 Formalisierung natürlicher Sprachen ......................... 167 Der DCG-Formalismus.......................................... 172 Definition und Eigenschaften von DCG ..................... 172 Unifikation ........................................................ 175
X
Inhaltsverzeichnis
6.5.3 6.5.4 6.5.5 6.6 6.6.1 6.6.2 6.6.3
DCG-Ableitungen ................................................ 175 DCG-Ableitungsbaum........................................... 177 DCG und Chart-Parsing ........................................ 178 Two-Level-Regeln und Transduktoren ....................... 178 Einführung ........................................................ 178 Two-Level-Regeln ................................................ 179 Transduktoren .................................................... 182
7 7.1 7.2 7.3 7.4 7.4.1 7.4.2 7.5 7.5.1 7.5.2
Einführung in die Sprachsynthese . . . . . . . . . . . . . . . . . . . 191 Überblick über die Geschichte der Sprachsynthese........ 193 Aufgabe der Sprachsynthese................................... 194 Zusammenhang zwischen Lautsprache und Schrift ....... 195 Teile der Sprachsynthese ....................................... 196 Die Transkription ................................................ 197 Die phonoakustische Stufe..................................... 199 Lautinventar für die Sprachsynthese ......................... 200 Linguistische Grundlagen....................................... 200 Festlegen der Lautdifferenzierung ............................ 201
8 8.1 8.1.1 8.1.2 8.2 8.2.1 8.2.2 8.3 8.3.1 8.3.2 8.3.3 8.4 8.4.1 8.4.2 8.4.3 8.4.4 8.4.5 8.4.6 8.4.7 8.4.8 8.4.9
Sprachsynthese: Transkription . . . . . . . . . . . . . . . . . . . . . . 203 Linguistische Grundlagen für die Transkription ............ 205 Ermitteln der Lautfolge......................................... 206 Ermitteln der Prosodie ......................................... 211 Automatische Transkription ................................... 214 Der “direkte” Ansatz der Transkription ..................... 214 Der linguistische Ansatz der Transkription ................. 214 Automatische morphosyntaktische Analyse................. 216 Morphologische Analyse mit DCG............................ 217 Generierung der phonetischen Umschrift in einer DCG .. 218 Hauptprobleme der morphosyntaktischen Analyse ........ 219 Realisation einer Transkriptionsstufe......................... 223 DCG in SVOX .................................................... 224 Morphologische Analyse in SVOX ............................ 225 Syntaxanalyse in SVOX ........................................ 225 Analyse unbekannter Wortstämme........................... 227 Phonetische Umschrift ganzer Wörter ....................... 228 Akzentuierung .................................................... 230 Phrasierung ....................................................... 233 Generierung der phonologischen Darstellung ............... 234 Weiterverarbeitung der phonologischen Darstellung ...... 235
Inhaltsverzeichnis
XI
9 9.1 9.1.1 9.1.2 9.1.3 9.2 9.2.1 9.2.2 9.2.3 9.2.4 9.2.5 9.2.6 9.3 9.3.1 9.3.2 9.3.3 9.3.4 9.3.5
Sprachsynthese: Phonoakustische Stufe . . . . . . . . . . . . . 237 Verfahren für die Sprachsignalproduktion................... 239 Der artikulatorische Ansatz .................................... 240 Der Signalmodellierungsansatz................................ 241 Der Verkettungsansatz ......................................... 245 Sprachsynthese nach dem Verkettungsansatz.............. 247 Wahl der Grundelemente....................................... 248 Ausschneiden von Grundelementen .......................... 249 Veränderung der prosodischen Grössen...................... 252 Signalveränderung mittels LPC-Analyse-Synthese ........ 253 Signalveränderung mittels Fourier-Analyse-Synthese ..... 254 Signalveränderung mittels PSOLA ........................... 260 Steuerung der Prosodie......................................... 262 Dauersteuerung .................................................. 264 Grundfrequenzsteuerung........................................ 273 Intensitätssteuerung............................................. 284 Umsetzung der prosodischen Grössen auf die Laute ...... 286 Prosodische Veränderung der Grundelemente.............. 286
10 Polyglotte Sprachsynthese . . . . . . . . . . . . . . . . . . . . . . . . . . 289 10.1 Motivation und Einführung .................................... 291 10.1.1 Aufgabe der polyglotten Sprachsynthese.................... 291 10.1.2 Gemischtsprachige Texte ....................................... 292 10.2 Konzept der polyglotten Sprachsynthese.................... 294 10.3 Transkription gemischtsprachiger Texte ..................... 297 10.3.1 Morphologische Analyse gemischtsprachiger Wörter...... 297 10.3.2 Syntaktische Analyse gemischtsprachiger Sätze ........... 303 10.3.3 Probleme der polyglotten morphosyntaktischen Analyse 307 10.3.4 Phonologische Transformationen ............................. 309 10.3.5 Akzentuierung und Phrasierung .............................. 314 10.3.6 Rekapitulation der polyglotten Transkription .............. 316 10.4 Polyglotte phonoakustische Stufe ............................ 317 10.4.1 Polyglotte Prosodiesteuerung ................................. 318 10.4.2 Polyglotte Sprachsignalproduktion ........................... 321
11 Einführung in die Spracherkennung . . . . . . . . . . . . . . . . . 323 11.1 Zur Geschichte der Spracherkennung ........................ 325 11.2 Ansätze zur Spracherkennung................................. 327 11.3 Probleme der Spracherkennung ............................... 328 11.4 Anwendungen .................................................... 331 11.5 Einteilung der Spracherkennungssysteme ................... 332 11.6 Evaluation der Erkennungsleistung........................... 334
XII
Inhaltsverzeichnis
11.6.1 Wortfehlerrate .................................................... 335 11.6.2 Algorithmus zur Bestimmung der Wortfehlerrate ......... 335 11.7 Merkmalsextraktion ............................................. 336 11.7.1 Mel Frequency Cepstral Coefficients (MFCC) ............. 338 11.7.2 Geglättete Mel-Spektren von Vokalen und Frikativen .... 339 11.7.3 Plosivlaute im geglätteten Mel-Spektrogramm ............ 340 11.7.4 Spektrale Variabilität ........................................... 342 11.7.5 Rekonstruktion des Signals .................................... 342 11.8 Aufnehmen einer Äusserung ................................... 344 11.8.1 Anwendungsszenarien........................................... 344 11.8.2 Anfangs- und Endpunktdetektion ............................ 346
12 Spracherkennung mit Mustervergleich . . . . . . . . . . . . . . . 351 12.1 Das Prinzip des Sprachmustervergleichs .................... 353 12.2 Zeitliche Anpassung zweier Sprachmuster .................. 356 12.3 Randbedingungen für die Warping-Kurve................... 357 12.4 Der DTW-Algorithmus ......................................... 360 12.5 Spracherkennung mittels DTW ............................... 363 12.5.1 Generieren von Referenzmustern ............................. 363 12.5.2 Einsatzmöglichkeiten und Grenzen ........................... 365
13 Statistische Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . 367 13.1 Informationstheoretische Sicht ................................ 369 13.2 Spracherkennung gemäss MAP-Regel ....................... 369 13.3 Modellierung von Merkmalssequenzen ...................... 371 13.3.1 Variabilität von Merkmalssequenzen ......................... 371 13.3.2 Statistische Beschreibung von Sprachmerkmalen ......... 371 13.3.3 Statistische Beschreibung von Merkmalssequenzen....... 372 13.3.4 Lösung der grundlegenden HMM-Probleme ................ 374 13.4 Akustische Modelle für Wörter ............................... 375 13.4.1 Sprachmerkmale für die Spracherkennung .................. 376 13.4.2 HMM als Wortmodell........................................... 378 13.4.3 Erzeugen von Wortmodellen................................... 379 13.5 Spracherkennung mit Wort-HMM ............................ 383 13.5.1 Einzelworterkennung ............................................ 383 13.5.2 Worterkenner mit Erkennungsnetzwerk ..................... 385 13.5.3 Schlüsselworterkennung ........................................ 387 13.5.4 Verbundworterkennung ......................................... 387 13.5.5 Erkennung mit dem N-best-Viterbi-Algorithmus .......... 389 13.5.6 Erkennung kontinuierlicher Sprache.......................... 390 13.6 Akustische Modelle für Wortteile............................. 391 13.6.1 Wahl der Grundelemente....................................... 391
Inhaltsverzeichnis
XIII
13.6.2 Erzeugen von Grundelementmodellen ....................... 397 13.7 Modelle für verschiedene akustische Ereignisse ............ 403 13.7.1 Modelle für Pausen.............................................. 403 13.7.2 Modelle für Geräusche .......................................... 404 13.7.3 Modell für beliebige Sprachsignale ........................... 404 13.8 Spracherkennung mit Laut-HMM ............................ 405 13.8.1 Erkennung einzeln gesprochener Wörter .................... 405 13.8.2 Erkennung kontinuierlicher Sprache.......................... 405 13.8.3 Reduktion des Rechenaufwands (Pruning) ................. 406 13.9 Stärken und Schwächen von HMM .......................... 407
14 Sprachmodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 14.1 Zum Begriff der Sprachmodellierung ........................ 411 14.2 Statistische Sprachmodellierung .............................. 412 14.2.1 Sprachmodellierung bei der Einzelworterkennung ......... 413 14.2.2 Sprachmodellierung für Wortfolgen .......................... 415 14.2.3 Das allgemeine statistische Sprachmodell................... 415 14.2.4 N-Gram-Sprachmodelle......................................... 417 14.2.5 Schätzen der Parameter von N-Gram-Sprachmodellen... 420 14.2.6 Kategorielle N-Gram-Sprachmodelle ......................... 423 14.2.7 Anwendung von N-Gram-Sprachmodellen .................. 424 14.2.8 Bewertung von Sprachmodellen .............................. 425 14.2.9 Stärken und Schwächen der statistischen Modellierung.. 428 14.3 Wissensbasierte Sprachmodellierung ......................... 431 14.3.1 Linguistisches Wissen in der Spracherkennung............. 431 14.3.2 Formale Grammatiken als Sprachmodelle................... 434 14.4 Neue Ansätze im Bereich der Spracherkennung ........... 440 14.4.1 Merkmalsextraktion mit einem neuronalen Netz .......... 441 14.4.2 Sprachmodellierung mit einem neuronalen Netz........... 441
A
Linguistische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
A.1 Phonetische Schrift in ASCII-Darstellung ................... 445
A.1.1 IPA-Symbole für Deutsch mit ASCII-Darstellung ......... 446
A.1.2 IPA-Symbole für Englisch mit ASCII-Darstellung ......... 448
A.1.3 IPA-Symbole für Französisch mit ASCII-Darstellung ..... 450
A.2 Phonemsystem des Deutschen ................................ 452
A.3 Erläuterungen zu den Grammatiken ......................... 453
A.3.1 Über den Zweck natürlichsprachlicher Grammatiken ..... 453
A.3.2 In den Grammatiken dieses Buches verwendete Symbole 454
B
Verschiedene Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
B.1 Wahrscheinlichkeitstheorie ..................................... 459
XIV
Inhaltsverzeichnis
B.1.1 Regeln der Wahrscheinlichkeitsrechnung.................... 459 B.1.2 Wahrscheinlichkeitsverteilungen .............................. 461 B.2 z-Transformation................................................. 467 B.3 Neuronale Netze: Mehrschicht-Perzeptron ................. 469 B.3.1 Das Neuronenmodell ............................................ 469 B.3.2 Das Mehrschicht-Perzeptron .................................. 470 B.3.3 Anwendungen von Mehrschicht-Perzeptronen ............. 471 B.3.4 Training eines Mehrschicht-Perzeptrons..................... 472 B.3.5 Hinweise zum Einsatz von neuronalen Netzen ............. 474 B.3.6 Komplexe neuronale Netze .................................... 476
Notationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
Glossar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
Einführung
Im Deutschen wird unter dem Begriff Sprachverarbeitung sowohl die Verarbeitung lautlicher als auch geschriebener Sprache verstanden. Im Gegensatz dazu gibt es beispielsweise im Englischen die Begriffe Speech Processing und Natural Language Processing, wobei mit dem ersten ausschliesslich die Verarbeitung gesprochener Sprache gemeint ist und der zweite die Verarbeitung geschriebener Sprache bezeichnet. Da es in diesem Buch hauptsächlich um den Zusammenhang zwischen lautlicher und textlicher Form von Sprache geht, bzw. um die Umsetzung lautlicher Sprache in Text oder umgekehrt, wird konsequent zwischen den beiden Formen unterschieden:
Lautsprache bezieht sich stets mehr oder weniger direkt auf das Sprechen oder Hören und wird je nach Zusammenhang auch als gesprochene Sprache, als akustische Form der Sprache oder im technischen Sinne als Sprachsignal bezeichnet. Text bezeichnet die geschriebene Form der Sprache, für die auch Begriffe wie orthographische oder graphemische Form der Sprache verwendet werden.
Die technische Umsetzung von Text in Lautsprache wird als Sprachsynthese bezeichnet. Der umgekehrte Prozess, die Spracherkennung, ermittelt aus der Lautsprache den entsprechenden textlichen Inhalt.
Die Zielsetzung dieses Buches besteht darin, die im Zusammenhang mit Sprachsynthese und Spracherkennung relevanten Grundlagen und Verfahren zu erklären. Dazu gehören insbesondere:
Grundkenntnisse über die menschliche Sprachproduktion und Sprachwahrnehmung Eigenschaften von Sprachsignalen und ihre Darstellung Grundkenntnisse in Linguistik der deutschen Sprache, insbesondere Phonetik, Morphologie und Syntax die wichtigsten Transformationen und Methoden der digitalen Sprachsignalverarbeitung die statistische Beschreibung vieldimensionaler Grössen mittels HiddenMarkov-Modellen Darstellung komplexer Zusammenhänge mit neuronalen Netzen Formulierung und Anwendung von Wissen in regelbasierten Systemen
© Springer-Verlag GmbH Deutschland 2017 B. Pfister, T. Kaufmann, Sprachverarbeitung, DOI 10.1007/978-3-662-52838-9_1
2
Einführung
Aufbauend auf diesen Grundlagen werden die wichtigsten Ansätze zur Sprachsynthese und Spracherkennung behandelt. In der Sprachsynthese sind dies:
die Umwandlung von Text, der gemischtsprachig sein kann, in eine phonologische Beschreibung, wie sie im ETH-Sprachsynthesesystem SVOX verwirklicht ist einfachere und ausgeklügeltere Ansätze zur Steuerung der Prosodie verschiedene Möglichkeiten zum Generieren von Sprachsignalen
In der Spracherkennung werden zwei grundlegende Ansätze behandelt: der ältere Mustererkennungsansatz, der primär in einfachen Systemen zur Anwendung kommt die moderne statistische Spracherkennung mittels Hidden-Markov-Modellen und N-Grams
Das Buch ist hauptsächlich mathematisch-technisch ausgerichtet. Um die interdisziplinären Aspekte der Sprachverarbeitung angemessen zu behandeln, werden jedoch auch die linguistischen Grundlagen eingeführt, soweit dies für das Verständnis der Sprachsynthese und der Spracherkennung nützlich ist. Viele Sachverhalte, sowohl aus dem Bereich der Sprachsignalverarbeitung als auch aus der Linguistik, werden mit Beispielen illustriert. Vor allem über diese Beispiele, aber auch über die linguistischen Konventionen, wird ein starker Bezug zur deutschen Sprache hergestellt. Die behandelten Grundlagen und Verfahren sind jedoch weitgehend sprachunabhängig.
Die Gliederung des Buches ist wie folgt: Das erste Kapitel enthält einführende Angaben zur Sprache als Kommunikationsmittel, zur Beschreibung von Sprache, zur Sprachproduktion und zur akustischen Wahrnehmung. Kapitel 2 vermittelt einen Überblick über die verschiedenen Bereiche der Sprachverarbeitung. Dabei werden auch einige in diesem Buch nicht behandelte Bereiche gestreift. Das 3. Kapitel zeigt die wesentlichen Darstellungsarten und Eigenschaften von Sprachsignalen. Die Kapitel 4 bis 6 enthalten wichtige Grundlagen: In Kapitel 4 werden alle in diesem Buch verwendeten Signaloperationen und Transformationen behandelt. Das Kapitel 5 umfasst die Grundlagen der Hidden-Markov-Modelle. In Kapitel 6 werden die Methoden zur Beschreibung und Anwendung regelbasierten, linguistischen Wissens eingeführt. Die weiteren Kapitel befassen sich mit der Sprachsynthese (Kapitel 7 bis 10) und mit der Spracherkennung (Kapitel 11 bis 14).
Kapitel 1
1
Grundsätzliches zur Sprache
© Springer-Verlag GmbH Deutschland 2017 B. Pfister, T. Kaufmann, Sprachverarbeitung, DOI 10.1007/978-3-662-52838-9_2
1
1
Grundsätzliches zur Sprache . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1 Sprache als Kommunikationsmittel .......................... 5
1.1.1 Lautsprachliche Kommunikation .............................. 5
1.1.2 Geschriebene vs. gesprochene Sprache ...................... 6
1.2 Die Beschreibung von Sprache ................................ 8
1.2.1 Die linguistischen Ebenen ...................................... 8
1.2.2 Die phonetische Schrift......................................... 10
1.2.3 Die akustisch-phonetische Ebene ............................. 11
1.2.4 Die Prosodie der Sprache ...................................... 11
1.3 Die menschliche Sprachproduktion........................... 12
1.3.1 Übersicht über den Sprechapparat ........................... 12
1.3.2 Die Funktion des Sprechapparates ........................... 12
1.3.3 Die Artikulation der Sprachlaute ............................. 14
1.4 Das menschliche Gehör ......................................... 15
1.4.1 Wahrnehmung der Schallintensität........................... 16
1.4.2 Periodizität und Tonhöhe ...................................... 17
1.4.3 Die Phasenwahrnehmung ...................................... 18
1.4.4 Der Verdeckungseffekt.......................................... 18
1.4.5 Wahrnehmung der Sprachlaute ............................... 19
1.5 Verarbeitung natürlicher Sprache............................. 21
1 Grundsätzliches zur Sprache
In diesem Kapitel werden allgemeine Grundlagen und Begriffe eingeführt, auf denen die weiteren Kapitel aufbauen.
1.1 Sprache als Kommunikationsmittel
1.1
1.1.1 Lautsprachliche Kommunikation Kommunikation bezeichnet allgemein die Übermittlung von Information. Dabei können die Art der Information und das Übertragungsmedium sehr unterschiedlich sein. Bei der direkten lautsprachlichen Kommunikation zwischen Menschen wird die Information (Botschaft, Gedanke, Idee etc.) in die Form der gesprochenen Sprache umgesetzt, die sich vom Mund des Sprechers via das Medium Luft als Schallwellen ausbreitet, wie in der Abbildung 1.1 schematisch dargestellt. Die Schallwellen gelangen an das Ohr des Zuhörers, der aus dem Sprachschall die Botschaft ermittelt.
sprechende Person Gedanke
zuhörende Person Gedanke
kognitiver Prozess
Artikulatoren
Gehör
kognitiver Prozess
Abbildung 1.1. Symbolische Darstellung der lautsprachlichen Übertragung einer gedanklichen Botschaft von einem Sprecher zu einem Zuhörer
Lautsprachliche Kommunikation kann nicht nur zwischen Menschen, sondern auch zwischen einer Maschine und einem Menschen stattfinden. Im Gegensatz zum menschlichen Sprecher versteht jedoch gewöhnlich die sprechende Maschine den Sinn der ausgegebenen Lautsprache nicht. Die sprechende Maschine ersetzt somit im Allgemeinen nicht einen Sprecher, der Gedanken in Lautsprache umsetzt. Heutzutage geben die meisten der sogenannt sprechenden Maschinen bloss vorgängig aufgezeichnete Sprachsignale aus. Neuerdings kommt auch Sprachsynthese zum Einsatz, also das Umsetzen einer als Text ausformulierten Meldung in ein Sprachsignal. Das Übersetzen von Ideen, Fakten etc. in sprachlich korrekte und sinnvolle Texte wird jedoch weitgehend bei der Konzeption der Maschine vollzogen und ist somit Sache des Menschen.
6
1. Grundsätzliches zur Sprache
Sinngemäss trifft dies auch für den Vergleich einer Spracherkennungsmaschine mit einem Zuhörer zu. Während der Zuhörer das Gehörte automatisch auf seinen Sinn hin überprüft, indem er es zum aktuellen Thema und zu allgemeinem Wissen in Bezug setzt, begnügt sich die Spracherkennung in der Regel damit, das Sprachsignal in eine Folge von Wörtern zu transformieren. Ob diese Wortfolge auch sinnvoll ist, überprüft die Spracherkennung nicht.
1.1.2 Geschriebene vs. gesprochene Sprache Die lautliche Form der menschlichen Sprache ist viel älter als die geschriebene. Entwicklungsgeschichtlich gesehen ist das Bestreben, nebst der Lautsprache auch eine schriftliche Form der Kommunikation zu haben, relativ jung, insbesondere im deutschen Sprachraum. Ursprünglich versuchte die (alphabetische) Schrift ein Abbild der Lautsprache zu geben, war also eher eine Art phonetische Schreibweise. Die so entstandene Orthographie der deutschen Sprache war naheliegenderweise stark durch den Dialekt und die persönliche Auffassung des Schreibers geprägt und somit sehr uneinheitlich.1 Mit der zunehmenden Bedeutung der schriftlichen Kommunikation durch die Erfindung des Buchdrucks Mitte des 15. Jahrhunderts und noch ausgeprägter durch die Einführung der allgemeinen Schulpflicht zu Beginn des 19. Jahrhunderts wurde die Vereinheitlichung der deutschen Rechtschreibung verstärkt. Die Veröffentlichung des “Vollständiges orthographisches Wörterbuch der deutschen Sprache” von Konrad Duden im Jahre 1880 war ein wichtiger Schritt auf diesem Wege. Eine allgemein anerkannte und als verbindlich festgelegte deutsche Orthographienorm entstand jedoch erst 1901 an der Orthographischen Konferenz in Berlin. Die moderne Zivilisation mit ihrer starken Abhängigkeit von der geschriebenen Sprache verleitet dazu, Sprache in erster Linie in ihrer geschriebenen Form zu betrachten und die Lautsprache zur ungenauen verbalen Realisation eines Textes abzuqualifizieren. Tatsächlich sind jedoch die Ausdrucksmöglichkeiten der Lautsprache vielfältiger als diejenigen der geschriebenen Sprache (vergl. auch Abschnitt 1.2.4), und zwar unabhängig davon, ob es sich um gelesene Sprache oder um sogenannte Spontansprache handelt. Dieses Buch befasst sich sowohl mit der geschriebenen, als auch mit der gesprochenen Sprache und insbesondere mit der automatischen Umwandlung der einen Form in die jeweils andere. Die Charakterisierung von geschriebener bzw. gesprochener Sprache erfolgt dementsprechend unter einer technischen Perspektive.
1So sind beispielsweise für das Wort “Leute” in Dokumenten aus dem 14. bis 16. Jahrhundert unter anderem die folgenden Schreibweisen zu finden: Leut, Leüthe, Lude, Luede, Lute, Lüt, Lút, Luite, wobei nicht alle hinsichtlich Bedeutung identisch sind (vergl. [42]).
1.1 Sprache als Kommunikationsmittel
7
Unter geschriebener Sprache soll hier Text verstanden werden, der z.B. als Zeichenfolge in einem Computer vorliegt. Mit gesprochener Sprache sind digitalisierte Sprachsignale, sogenannte Zeitreihen gemeint. Die augenfälligsten Unterschiede sind somit (vergl. auch Abbildung 1.2):
Text besteht grundsätzlich aus einer Folge diskreter Zeichen aus einem relativ kleinen Zeichensatz, den Buchstaben des Alphabets. Die Zeichen beeinflussen sich gegenseitig nicht und die Wörter sind klar gegeneinander abgegrenzt.
Lautsprache ist zwar auch eine Abfolge von Elementen, nämlich von Lauten, die wir mehr oder weniger eindeutig wahrnehmen. Die in der Form des Sprachsignals physikalisch erfassbare Lautsprache zeigt jedoch, dass die Laute nicht scharf voneinander abgegrenzt sind, weder in zeitlicher Hinsicht noch bezüglich der charakteristischen Eigenschaften. Die lautlichen Eigenschaften des Sprachsignals verändern sich kontinuierlich von einem Laut zum nächsten, auch über die Wortgrenzen hinweg. Wortgrenzen sind somit in der Regel nicht ersichtlich. Zudem ist die Ausprägung eines Lautes stark von seinen Nachbarlauten (Koartikulation), von seiner Stellung im Wort bzw. Satz und nicht zuletzt vom Sprecher abhängig. Ein digitalisiertes Sprachsignal ist eine Folge von Abtastwerten, also eine Zahlenreihe und somit auch eine Folge diskreter Zeichen. Im Gegensatz zur geschriebenen Sprache, bei der z.B. jedes ASCII-Zeichen genau einem Buchstaben entspricht, besteht jedoch zwischen einem Signalabtastwert und einem Laut kein direkter Zusammenhang.
Diese rudimentäre Charakterisierung zeigt, dass das Sprachsignal von diversen sehr unterschiedlichen Faktoren geprägt wird. Es kann deshalb kaum erstaunen, dass das Detektieren von Lauten im Sprachsignal und damit die Spracherkennung alles andere als trivial ist.
Text: “Heinrich kommt nach Hause.” Sprachsignal:
0
0.2
0.4
0.6
0.8
1
1.2
1.4 [s]
Abbildung 1.2. Veranschaulichung der Verschiedenheit von Text und Sprachsignal
8
1. Grundsätzliches zur Sprache
1.2
1.2 Die Beschreibung von Sprache
In diesem Abschnitt geht es um die Beschreibung von Sprache aus der Sicht der Linguistik. Dabei interessiert, aus welchen Elementen die Sprache besteht, welche Gesetzmässigkeiten zwischen Elementen (oder Folgen von Elementen) vorhanden sind und welche Beziehungen zwischen den Elementen und dem “Rest der Welt” bestehen (siehe Abschnitt 1.2.1). Diese vielschichtigen Zusammenhänge werden auch als Struktur der Sprache bezeichnet und die sprachlichen Elemente werden dabei als Symbole oder Abstrakta betrachtet. Aus der Sicht der Phonetik geht es bei der Beschreibung von Sprache um die Eigenschaften der konkreten lautsprachlichen Realisierungen der abstrakten Elemente. Dabei wird zwischen der segmentalen Ebene, also der Ebene der Laute (vergl. Abschnitt 1.2.3), und der suprasegmentalen Ebene, der Prosodie (siehe Abschnitt 1.2.4) unterschieden.
1.2.1 Die linguistischen Ebenen Bei der Beschreibung der Struktur der Sprache unterscheidet die Linguistik verschiedene Ebenen. Es ist üblich, die Ebenen nach Komplexität zu ordnen, wobei zur Komplexität hauptsächlich die Vielfalt und die Grösse der Elemente beitragen. Auf der untersten Ebene wird zudem zwischen Lautsprache und geschriebener Sprache unterschieden:
Graphemische Ebene: Sie definiert den Vorrat an Schriftzeichen, das sogenannte Alphabet. Die Elemente des Alphabets werden auch als Grapheme bezeichnet. Wie alle anderen Ebenen ist auch die graphemische Ebene sprachspezifisch. Sie spezifiziert beispielsweise, dass die Grapheme ä , ö und ü zum deutschen, nicht aber zum englischen Alphabet gehören.
Phonemische Ebene: Die kleinsten Einheiten der Lautsprache sind die Laute oder Phone, wobei die Linguistik unterscheidet zwischen den Phonemen und den Allophonen:
Die Phoneme sind die kleinsten bedeutungsunterscheidenden Einheiten einer Sprache. Die Phoneme einer Sprache können mit der Minimalpaaranalyse ermittelt werden. So gibt es im Deutschen beispielsweise das Wortpaar “doch” und “roch” (in phonemischer Darstellung gemäss Abschnitt A.2 geschrieben als /dOx/ und /rOx/) und damit die Phoneme /d/ und /r/. Weil im Deutschen auch Wortpaare wie “Rate” /ra:t@/ und “Ratte” /rat@/ existieren, sind auch /a/ und /a:/ Phoneme. Zwar nicht im Deutschen, aber in sogenannten Tonsprachen (z.B. Chinesisch) gibt es auch Wortpaare und damit Laute, die sich nur in der Tonhöhe bzw. im Tonhöhenverlauf unterscheiden. Solche Laute sind definitionsgemäss auch Phoneme.
1.2 Die Beschreibung von Sprache
9
Die Allophone sind zum selben Phonem gehörige Laute oder Lautvarianten. Sie bewirken in der betrachteten Sprache keinen Bedeutungsunterschied. So ist die Bedeutung des Wortes “roch” dieselbe, unabhängig davon, ob es als [rOx] (mit Zungenspitzen-R) oder als [öOx] (mit Zäpfchen-R) gesprochen wird. Die Laute [r] und [ö] werden als Allophone des Phonems /r/ bezeichnet. Sind die Allophone beliebig gegeneinander austauschbar (d.h. unabhängig von der Stellung), dann heissen sie freie Allophone. So sind z.B. [ö] und [r] freie Allophone des Phonems /r/. Kommen die Laute nur in bestimmten Kontexten vor, dann werden sie als stellungsbedingte Allophone bezeichnet. Im Deutschen sind beispielsweise die Laute [ç] in “ich” und [x] in “ach” stellungsbedingte Allophone des Phonems /x/.
Morphologische Ebene: Die Morphologie beschreibt, wie aus Morphemen korrekte Wortformen aufgebaut werden. In der Linguistik werden mit dem Begriff Morphem Abstrakta wie Stamm-, Präfix- und Pluralmorphem bezeichnet. Die konkreten Realisationen sind die Morphe. Morphe wie haus und häus , die zu einer gemeinsamen Grundform {haus} gehören, werden Allomorphe genannt und die Grundform {haus} wird ebenfalls als Morphem bezeichnet. Morpheme sind die kleinsten bedeutungstragenden Einheiten einer Sprache. Eine wesentliche Eigenschaft der Morphe ist, dass sie nicht anhand eines kompakten Satzes von Regeln beschrieben werden können. Sie lassen sich bloss aufzählen.
Syntaktische Ebene: Die Syntax beschreibt mittels Regeln, wie Wortformen zu Konstituenten (Satzteilen oder Wortgruppen) und diese wiederum zu Sätzen kombiniert werden können. Für das Deutsche gibt es beispielsweise die Regel, dass Artikel, Adjektiv und Nomen in einer Nominalgruppe bezüglich Kasus, Numerus und Genus (Fall, Zahl und grammatisches Geschlecht) übereinstimmen müssen. So ist “des alten Hauses” eine korrekte neutrale (sächliche) Nominalgruppe im Genitiv Singular.
Semantische Ebene: Die Semantik befasst sich mit der Bedeutung von Wörtern, Ausdrücken und Sätzen. Die Abgrenzung gegenüber der Syntax zeigt sich einleuchtend anhand von Sätzen wie “Die Polizei fängt den ausgebrochenen Vulkan wieder ein.”, der zwar syntaktisch, nicht aber semantisch korrekt (sinnhaft im Gegensatz zu sinnlos) ist.
Pragmatische Ebene: Diese Ebene wird oft nicht der Linguistik im engeren Sinne zugerechnet. Sie befasst sich mit dem Zweck der Sprache und stellt das Geschriebene oder Gesprochene in Bezug zur schreibenden bzw. sprechenden Person und in einen grösseren Zusammenhang. Beispielsweise kann der Satz “Du musst dieses Buch lesen!” eine Empfehlung oder ein Be-
10 1. Grundsätzliches zur Sprache
fehl sein, abhängig davon, ob die Kommunikation zwischen Kollegen stattfindet oder ob ein Lehrer den Satz zu einem Schüler spricht. Zudem erzielt die Sprache je nach Wortwahl oder Formulierung (bei der Lautsprache ist auch die Sprechweise2 relevant) eine unterschiedliche Wirkung.
1.2.2 Die phonetische Schrift Aus dem Fremdsprachenunterricht weiss man, dass aus der Schreibweise (graphemische Form) von Wörtern oft nicht ohne weiteres auf deren korrekte Aussprache (phonetische Form) geschlossen werden kann. Vielen Menschen fallen diese Unterschiede zwischen Schreib- und Sprechweise in ihrer Muttersprache nicht auf. Sie sind jedoch in jeder Sprache in mehr oder weniger ausgeprägter Form vorhanden, so auch im Deutschen. Da die Lautvielfalt grösser als die Anzahl der Buchstaben ist, hauptsächlich weil auch Dauer, Tonhöhe, Nasalierung, Stimmhaftigkeit etc. lautunterscheidende Merkmale sind, ist zur Notation der Aussprache eine spezielle Schrift erforderlich, also eine phonetische Schrift. Es gibt eine grosse Vielfalt von phonetischen Schriften, die das Lautsystem einer Sprache verschieden differenziert beschreiben. Für den Sprachenunterricht hat sich die als IPA-Alphabet (International Phonetic Association) bezeichnete phonetische Schrift durchgesetzt. Die IPA-Lautschrift wird auch in diesem Buch verwendet. Einige Beispiele solcher IPA-Symbole sind in der Tabelle 1.1 aufgeführt. Die vollständige Liste aller hier verwendeten IPA-Symbole ist im Anhang A.1 zu finden.
Tabelle 1.1. IPA-Symbole mit Beispielen in graphemischer und phonetischer Schreibweise.
a hat a: Bahn 5 Ober 5 Uhr “a<i weit a<u Haut b Ball ç sich
[hat] [ba:n] ["Šo:b5] [Šu:5] [va<i“t] [ha<ut] [bal] [zIç] ...
d dann e Methan e: Beet E hätte E: wähle @ halte f Fass ...
[dan] [me"ta:n] [be:t] ["hEt@] ["vE:l@] ["halt@] [fas]
2Bei der Lautsprache ist selbstverständlich die Prosodie (siehe Abschnitt 1.2.4) ein wichtiges pragmatisches Element. So wird im vorgetragenen Märchen der Wolf mit mächtig bedrohlicher Stimme sprechen, das Rotkäppchen situationsbedingt jedoch mit einem dünnen, ängstlichen Stimmlein antworten.
1.2 Die Beschreibung von Sprache
11
1.2.3 Die akustisch-phonetische Ebene Im Gegensatz zu den Abschnitten 1.2.1 und 1.2.2, in denen die lautsprachlichen Elemente (also die Laute) als Abstrakta betrachtet werden, bezieht sich die akustisch-phonetische Ebene der Sprache auf die konkreten Realisierungen. Es interessiert insbesondere die Frage, wodurch sich die verschiedenen Laute auszeichnen bzw. unterscheiden. In der Phonetik werden die Sprachlaute anhand verschiedenartiger Merkmale charakterisiert. So sind Laute z.B. stimmhaft oder stimmlos (periodisch oder rauschartig), sind gerundet oder ungerundet, hell oder dunkel, zeichnen sich durch bestimmte Formantfrequenzen aus (siehe Abschnitt 1.4.5), sind vokalisch oder konsonantisch. Die Merkmale können sich somit auf die Lautproduktion bzw. den Sprechapparat (nasal, gerundet etc.), auf das Sprachsignal selbst (messbare physikalische Grössen wie Periodizität und Formantfrequenzen), auf die akustische Wahrnehmung (hell / dunkel) oder auf linguistische Konventionen (vokalisch / konsonantisch) beziehen. Da die Laute anhand dieser Merkmale unterschieden werden, werden sie als distinktive Merkmale bezeichnet.3
1.2.4 Die Prosodie der Sprache Die Laute bilden die segmentale Ebene der gesprochenen Sprache. Die suprasegmentale Ebene der Lautsprache wird als Prosodie bezeichnet. Die Prosodie ist ausschliesslich ein Phänomen der gesprochenen Sprache. Ein Pendant dazu gibt es in der geschriebenen Sprache nicht.4 Die linguistische Funktion der Prosodie umfasst:
Kennzeichnung des Satztyps, z.B. von Fragesätzen, die nicht aufgrund der Wortstellung zu erkennen sind, und deshalb mit einer gegen das Satzende ansteigenden Intonation gekennzeichnet werden Gewichtung, d.h. Unterscheidung wichtiger von weniger wichtigen Teilen einer Äusserung Gliederung längerer Äusserungen in sinnvolle Teile.
3In der Phonetik wird gewöhnlich versucht, die Laute einer Sprache anhand eines minimalen Satzes distinktiver Merkmale zu beschreiben, z.B. in [27], Seite 128 ff. Dadurch lassen sich relevante Unterschiede von irrelevanten trennen, was grundsätzlich eine gute Grundlage für die Lautunterscheidung in der Spracherkennung liefern könnte. Weil jedoch gewisse Merkmale nur auf linguistischen Konventionen beruhen (z.B. vokalisch / konsonantisch) und nicht einer physikalischen Eigenschaft des Sprachsignals entsprechen, sind diese Merkmale in der Spracherkennung nicht sehr hilfreich.
4Zwar bietet die textliche Form der Sprache die Möglichkeit, Zeichen (Frage-, Ausrufzeichen, Anführungsstriche etc.) oder Markierungen (z.B. das Unterstreichen) anzubringen, oder den Text hinsichtlich Layout zu gestalten. Aber diese Möglichkeiten sind bei weitem nicht gleichwertig.
12 1. Grundsätzliches zur Sprache
Die linguistischen Abstrakta der Prosodie sind die Akzente (Betonungen) und die Phrasen (Sprechgruppen), wobei sowohl Akzente als auch Phrasengrenzen verschiedene Stärkegrade aufweisen. Nebst der linguistischen hat die Prosodie auch eine ausserlinguistische Funktion: Sie bestimmt, ob eine Stimme gehetzt, zaghaft, traurig, langweilig, wütend usw. wirkt. Damit spielt die Prosodie eine wesentliche Rolle auf der pragmatischen Ebene der Sprache (vergl. Abschnitt 1.2.1). Diesen komplexen, die sinnliche Wahrnehmung betreffenden Eigenschaften der Prosodie stehen die im Sprachsignal messbaren physikalischen Grössen gegenüber, die auch als prosodische Grössen bezeichnet werden: der zeitliche Verlauf der Grundfrequenz und der Signalleistung und die Dauer der Laute und der Pausen. Wie in Abschnitt 1.2.1 erwähnt ist, können je nach Sprache die Dauer und die Tonhöhe auch phonemischen Charakter haben, also bedeutungsunterscheidend sein. So ist etwa im Deutschen die Dauer der Vokale teils phonemisch, weil es beispielsweise Wortpaare wie /va:l/ und /val/ (Wahl und Wall) oder /vE:l@/ und /vEl@/ (wähle und Welle) gibt. Hingegen ist die Tonhöhe in der deutschen Sprache ein rein suprasegmentales Phänomen, ganz im Gegensatz zu den sogenannten Tonsprachen, zu denen beispielsweise Chinesisch gehört. Bemerkenswert ist, dass sich sowohl die segmentalen, als auch die suprasegmentalen Merkmale auf dieselben physikalischen Grössen auswirken. So wird der an einer konkreten Stelle eines Sprachsignals messbare Wert der Grundfrequenz beeinflusst durch den Laut an dieser Stelle (die Art des Lautes und, bei Tonsprachen, die Art des Tones), durch den Betonungsgrad der Silbe und durch die Position im Satz.
1.3
1.3 Die menschliche Sprachproduktion
1.3.1 Übersicht über den Sprechapparat Die Gesamtheit der menschlichen Organe, die an der Produktion von Lautsprache beteiligt sind, wird als Sprechapparat bezeichnet. Dazu gehören im Wesentlichen die Lunge, die Luftröhre, der Kehlkopf mit den Stimmlippen (oder Stimmbändern), das Gaumensegel, die Zunge, die Zähne und die Lippen. Wichtig im Zusammenhang mit der Sprachproduktion sind auch die Hohlräume, insbesondere Rachen, Mund und Nasenraum. Eine Übersicht über den Aufbau des menschlichen Sprechapparates zeigt Abbildung 1.3.
1.3.2 Die Funktion des Sprechapparates Hinsichtlich der Funktion beim Sprechprozess können beim menschlichen Sprechapparat zwei Komponenten unterschieden werden:
1.3 Die menschliche Sprachproduktion
13
1
2
4
39
2
6 5
8 7
10
11
1 Nasenraum (Cavum nasi) 2 Lippen (Labia) 3 Zähne (Dentes) 4 Zahndamm (Alveolen) 5 harter Gaumen (Palatum) 6 weicher Gaumen (Velum) 7 Halszäpfchen (Uvula) 8 Mundraum (Cavum oris) 9 Zungenspitze (Apex) 10 Zungenrücken (Dorsum) 11 Stimmlippen im Kehlkopf (Larynx)
Abbildung 1.3. Mittelschnitt (Sagittalschnitt) durch den menschlichen Sprechapparat
a) Schallproduktion: Während des Sprechens wird aus der Lunge Luft ausgestossen, welche die aneinander liegenden Stimmlippen in Schwingung versetzt, wodurch der Luftstrom periodisch unterbrochen wird. Die Schwingfrequenz der Stimmlippen beträgt bei Männern im Mittel etwa 120 Hz, bei Frauen etwa 220 Hz. Die Schwingfrequenz variiert beim Sprechen in einem etwa eine Oktave umfassenden Bereich. Der pulsierende Luftstrom ist nichts anderes als ein akustisches Signal. Da die Stimmlippen im Luftstrom nicht frei schwingen, sondern periodisch aneinander schlagen und so den Unterbruch des Luftstromes bewirken, ist das entstehende akustische Signal stark oberwellenhaltig. Liegen die Stimmlippen beim Ausstossen der Luft nicht aneinander, dann entweicht die Luft gleichförmig durch Mund und/oder Nase. Wird der Luftstrom durch eine Engstelle behindert, dann entstehen Turbulenzen, die sich akustisch als zischendes Geräusch äussern.
b) Klangformung: Die mehr oder weniger neutralen akustischen Signale von den Stimmlippen und von den Engstellen werden durch Rachen, Mund und Nasenraum (sie bilden zusammen den sogenannten Vokaltrakt), die als akustisches Filter wirken, klanglich verändert. Wesentlich ist, dass sich mit der Bewegung der Artikulatoren (Zunge, Lippen, Kiefer und Gaumensegel) die Übertragungsfunktion und damit auch die Resonanzfrequenzen bzw. die Formanten (vergl. Abschnitt 1.4.5) dieses akustischen Filters verändern. So entstehen aus dem Signal von den Stimmlippen recht verschiedene Klänge,
14 1. Grundsätzliches zur Sprache
nämlich die Laute, insbesondere die stimmhaften. Auch die von den Luftturbulenzen herrührenden Geräusche werden durch den Vokaltrakt klanglich geformt, wobei hier in erster Linie der Ort der Engstelle massgebend ist.
Der Zusammenhang zwischen der Stellung der Artikulatoren und den Elementen der Lautsprache, also den Lauten, wird in Abschnitt 1.3.3 erläutert.
1.3.3 Die Artikulation der Sprachlaute Die beiden folgenden Abschnitte charakterisieren die Laute der deutschen Sprache anhand der Stellung der Artikulatoren. Die Laute werden dazu in zwei grosse Gruppen unterteilt, die Vokale und die Konsonanten.
Die Vokale Vokale sind Laute, bei denen die Stimmlippen im Kehlkopf schwingen und die Atemluft ungehindert durch den Mund bzw. durch Mund und Nase (bei nasalierten Vokalen) ausströmt. Die beweglichen Artikulatoren (Lippen, Zungenspitze, Zungenrücken etc.) dürfen sich deshalb nur so verschieben, dass nirgends im Vokaltrakt zu enge Stellen auftreten. So darf auch der Zungenrücken eine gewisse Grenzlinie nicht überschreiten. Die Klangfarbe des durch den Vokaltrakt produzierten Signals hängt vor allem von der Stellung des Zungenrückens und der Lippen ab. Bezüglich der Lippenstellung werden gerundete und ungerundete Vokale unterschieden:
ungerundet: [i I e E a @ 5] gerundet: [y Y ø œ u U o O]
Der Zusammenhang zwischen der Stellung des Zungenrückens und des produzierten Lautes wird durch das Vokalviereck in Abbildung 1.4 beschrieben.
vorn hinten
i (y)
(u)
I (Y)
e (ø)
(o)
()
hoch
e
(c)
tief
3
a
(œ)
a
Abbildung 1.4. Das Vokalviereck gemäss [9] beschreibt grob den Zusammenhang zwischen der Stellung des Zungenrückens und den Vokalen der deutschen Sprache. Die gerundeten Laute sind in Klammern gesetzt. Das Zentrum des Vokalvierecks bedeutet die entspannte Mittellage, in welcher der sogenannte Schwa-Laut artikuliert wird.
1.4 Das menschliche Gehör
15
Die Konsonanten Konsonanten sind Laute, bei denen ausströmende Atemluft durch eine Verengung im Vokaltrakt behindert oder durch einen Verschluss während einer gewissen Zeit gestoppt wird. Je nach Laut schwingen oder ruhen dabei die Stimmlippen. Im Deutschen werden die Konsonanten üblicherweise nach Artikulationsart und -ort gegliedert, was zu einer Tabelle führt, wie sie in Abbildung 1.5 dargestellt ist. Da die Affrikaten keine eigenständigen Laute sind, sondern durch enge Verbindung eines Verschlusslautes mit dem homorganen Reibelaut (homorgane Laute haben denselben Artikulationsort) entstehen, sind sie in dieser Tabelle nicht aufgeführt.
Ort bilabial labiodental alveolar palatoalveolar palatal velar uvular glottal
Art
plosiv
p b
t d
k g
nasal frikativ
m
n
nJ
fv sz  çj x
lateral
l
vibriert
r
R
aspiriert
h
Abbildung 1.5. Die Konsonanten der deutschen Sprache (ohne Affrikaten) geordnet nach Artikulationsort und -art gemäss [9]
1.4 Das menschliche Gehör
1.4
Im Zusammenhang mit der Sprachverarbeitung ist die Anatomie des menschlichen Gehörs nur von untergeordnetem Interesse, weil sich auf diesem Wege die sinnliche Wahrnehmung akustischer Ereignisse nur zu einem kleinen Teil erklären lässt. Nicht selten kommt es vor, dass aus der Anatomie gezogene Schlüsse der Perzeption widersprechen. Ein derartiges Phänomen ist beispielsweise, dass der Mensch die Höhe eines Tons von 1000 Hz auf etwa 0,1 % genau hört, also viel genauer als aufgrund des Aufbaus des Innenohres zu schliessen wäre. Ebenso ist das gute Richtungshören mit dem Aufbau des Ohres nicht erklärbar.
16 1. Grundsätzliches zur Sprache
In diesem Abschnitt werden deshalb weder der physiologische Aufbau des Ohrs, noch Hypothesen über die Arbeitsweise des Gehirns behandelt. Vielmehr sollen ein paar für die Sprachverarbeitung bedeutsame Gehörphänomene dargelegt werden, die sich über psychoakustische Experimente feststellen lassen.
1.4.1 Wahrnehmung der Schallintensität Schallintensität I und Schalldruck p sind physikalische Grössen5 und damit messtechnisch erfassbar. Die Lautheit bezeichnet hingegen eine subjektive Wahrnehmung, die über Experimente mit Versuchspersonen in Beziehung zur Schallintensität gebracht werden kann. So lässt sich beispielsweise feststellen, dass die wahrgenommene Lautheit von Sinustönen stark frequenzabhängig ist, wie Abbildung 1.6 zeigt.
Abbildung 1.6. Kurven gleicher Lautheit nach [50], wobei für 1 kHz die Lautheit in Phon so definiert ist, dass sie gleich der Schallintensität in dB ist. Die gestrichelte Kurve ist die mittlere Ruhehörschwelle.
Diese Frequenzabhängigkeit ist insbesondere in der Nähe der sogenannten Ruhehörschwelle (gestrichelte Kurve) ausgeprägt. Die Ruhehörschwelle gibt in Funktion der Frequenz die minimale Schallintensität an, die das Ohr noch zu hören vermag.6
5Der Zusammenhang zwischen Schallintensität und Schalldruck ist für eine sinusförmige Schallwelle gegeben als: I = p2eff /( c), wobei die spezifische Dichte des Gases (Luft: 1.293 kg/m3) und c die Schallgeschwindigkeit ist.
6Interessanterweise wird in älteren Publikationen die Ruhehörschwelle bei 1 kHz mit einem Schalldruck von peff = 2 · 105 N/m2 angegeben, was der Schallintensität von etwa 1012 W/m2 entspricht. Dieser als Ruhehörschwelle bei 1 kHz ermittelte Schalldruck wurde deshalb als 0 dB definiert. Heute scheint sich die Ruhehörschwelle
1.4 Das menschliche Gehör
17
Wichtig zu erwähnen ist auch, dass das Gehör Schallintensitäten relativ wahrnimmt und zwar über einen enorm grossen Bereich. Dieser erstreckt sich von der Ruhehörschwelle bis zur Schmerzgrenze (ca. 130 Phon) über gut sechs Grössenordnungen.
1.4.2 Periodizität und Tonhöhe Das menschliche Ohr hört die Frequenz von Sinusschwingungen in einem Bereich von etwa 20 Hz bis 18 kHz als Tonhöhe, wobei mit zunehmendem Alter die obere Grenze etwas abnimmt. Ähnlich wie im Fall der Lautheit nimmt das Ohr auch die relative Tonhöhe wahr. So hört beispielsweise das Ohr dann einen positiven Halbtonschritt zwischen zwei Tönen, wenn das Frequenzverhältnis f2/f1 = 21/12 beträgt. Die meisten natürlichen Schallquellen geben jedoch keine reinen Töne (Sinusschwingungen) ab, auch der menschliche Sprechapparat nicht. Mit den periodisch schwingenden Stimmlippen als Schallquelle entsteht aus dem Vokaltrakt ein periodisches Signal, aus dem das Ohr eindeutig eine Tonhöhe wahrnimmt, die als Grundfrequenz F0 bezeichnet wird und umgekehrt proportional zur Periode T0 ist. Diese Formulierung scheint auf den ersten Blick übertrieben kompliziert zu sein. Sie trägt jedoch der Tatsache Rechnung, dass das Ohr aus einem Signal mit harmonischen Komponenten nicht alle diese Komponenten mit ihren Tonhöhen hört, sondern einen einzigen Klang mit einer Tonhöhe, die gleich der Frequenz der Grundwelle ist. Wird jedoch die Grundwelle aus dem Signal ausgefiltert, dann hört das Ohr trotzdem noch die ursprüngliche Tonhöhe. Dies zeigt sich beispielsweise beim Telefon, wo ja nur die Frequenzkomponenten zwischen 300 Hz und 3400 Hz übertragen werden. Bei Männerstimmen gehen somit in der Regel die Grundwelle und die erste Oberwelle verloren. Trotzdem tönt die Stimme durch das Telefon nicht ein oder zwei Oktaven höher als beim direkten Hinhören. Vielfach wird deshalb gesagt, dass das Ohr die reziproke Periode als Tonhöhe wahrnimmt.7 Aus einem oberwellenhaltigen Signal hört das Ohr nebst der Tonhöhe auch eine Klangfarbe, welche durch die Amplitudenverhältnisse der Frequenzkomponenten bestimmt wird. Oberwellenhaltige Schallsignale werden deshalb auch als Klänge bezeichnet.
für Versuchspersonen unter 25 Jahren um etwa 3 dB erhöht zu haben, wahrscheinlich infolge der allgemeinen akustischen Reizüberflutung.
7Häufig ist dieses Modell der Tonhöhenwahrnehmung zweckmässig, insbesondere auch in der Sprachverarbeitung. Es darf jedoch nicht mit der wirklichen Tonhöhenwahrnehmung verwechselt werden, die nach wie vor unbekannt ist, wie sich mit Signalbeispielen zeigen lässt.
18 1. Grundsätzliches zur Sprache
Periodische und rauschartige Teile von Sprachsignalen unterscheiden sich im Wesentlichen durch die Aktivität der Stimmlippen und werden deshalb stimmhaft bzw. stimmlos genannt. Signale, für welche das Ohr keine Tonhöhe feststellen kann, sind rauschartig. Dies trifft z.B. für das Sprachsignal des Lautes [s] zu, beim dem die Stimmlippen inaktiv sind.
1.4.3 Die Phasenwahrnehmung Stark vereinfachend wird das menschliche Gehör oft als phasentaub bezeichnet. Richtig ist, dass beliebige, frequenzabhängige Laufzeitveränderungen im Bereich von wenigen Millisekunden (Kurzzeitphase, wie sie mit einem nicht allzu langen Allpassfilter erzeugt wird) nur sehr schlecht hörbar sind. Grössere Phasenveränderungen werden aber als Hall oder sogar als Echo wahrgenommen. Eine wichtige Funktion hat die Phase beim binauralen Hören, nämlich in Bezug auf die Schallortung. Insbesondere der Laufzeitenunterschied des Schalls von der Quelle zu den beiden Ohren wird im Gehirn ausgewertet um die Einfallsrichtung des Schalls zu detektieren. Dementsprechend kann durch Verändern der Phase eines oder beider Hörsignale die Ortung der Schallquelle erschwert, verunmöglicht oder sogar irregeführt werden, je nach Art der Phasenveränderung.
1.4.4 Der Verdeckungseffekt Eine im Zusammenhang mit der Sprachverarbeitung wichtige Eigenschaft des menschlichen Gehörs ist der Maskier- oder Verdeckungseffekt. Er besteht qualitativ darin, dass eine Schallkomponente mit grösserer Leistung eine andere mit kleinerer Leistung verdeckt, also unhörbar macht, wobei der Maskierungsbereich vor allem von der Frequenz und der Intensität des maskierenden Signals abhängt. Messtechnisch kann der Maskierungsbereich mit verschiedenen Methoden und Signalarten erfasst werden, wobei die Resultate leicht unterschiedlich ausfallen. In [50] ist die als Mithörschwelle bezeichnete Grenze des Maskierungsbereiches für Schmalbandrauschen mit der Mittenfrequenz fm bestimmt worden. Die Mithörschwelle gibt die Intensität eines Sinussignals in Funktion der Frequenz an, das durch das Maskierungsrauschen gerade noch verdeckt wird. In Abbildung 1.7 sind die Mithörschwellen für Schmalbandrauschen (als maskierendes Signal) mit verschiedenen Mittenfrequenzen dargestellt. Abbildung 1.8 zeigt die gemessenen Mithörschwellen, wenn Schmalbandrauschen gleicher Mittenfrequenz aber mit verschiedener Intensität als maskierendes Signal verwendet wird.
1.4 Das menschliche Gehör
19
Abbildung 1.7. Mithörschwellen für Schmalbandrauschen mit den Mittenfrequenzen 0.25 kHz, 1 kHz und 4 kHz (nach [50])
Abbildung 1.8. Mithörschwellen für Schmalbandrauschen mit der Mittenfrequenz 1 kHz und verschiedenen Schallpegeln (nach [50])
1.4.5 Wahrnehmung der Sprachlaute In der Phonetik werden die Laute nicht nur anhand artikulatorischer Kriterien eingeteilt, sondern vor allem auch aufgrund akustischer Merkmale. So ist es beispielsweise gebräuchlich, Vokale mittels der Formanten zu beschreiben. Als Formanten werden die lokalen Maxima des Spektrums des Sprachsignals bezeichnet, welche von den Resonanzen des Vokaltraktes herrühren. Da der Vokaltrakt eine komplizierte Form aufweist, treten beim Artikulieren eines Lautes gewöhnlich mehrere Formanten gleichzeitig auf, die als F1, F2, F3 etc. bezeichnet werden. Ein Formant wird mit den Parametern Mittenfrequenz (oder Formantfrequenz), Bandbreite und Amplitude beschrieben. Die Bezeichnungen F1, F2, F3 etc. werden oft auch für die Formantfrequenzen verwendet. Für die Formant-
20 1. Grundsätzliches zur Sprache
Abbildung 1.9. Durchschnittswerte der zwei untersten Formanten deutscher Vokale (aus [27], Seite 54)
frequenzen eines Lautes gilt: F1 < F2 < F3 etc. Der tiefste Formant oder die tiefste Mittenfrequenz ist also stets F1. Die Mittenfrequenz und die Bandbreite der Formanten sind von der Stellung der Artikulatoren abhängig. Wie in Abschnitt 1.3.3 erläutert, bestimmt die Stellung der Artikulatoren den gesprochenen Laut und somit gibt es auch einen Zusammenhang zwischen den Lauten und den Formantfrequenzen. Dieser Zusammenhang ist für die beiden tiefsten Formanten der deutschen Vokale in Abbildung 1.9 veranschaulicht. Da im Vokaltrakt nur bei den Vokalen ausgeprägte Resonanzen auftreten, wird der Begriff der Formanten nur auf die Vokale angewendet.
1.5 Verarbeitung natürlicher Sprache
21
1.5 Verarbeitung natürlicher Sprache
1.5
Die Tatsache, dass der Mensch Lautsprache ohne nennenswerte Anstrengung produzieren und verstehen kann, verleitet zur Annahme, dass es sich dabei um eine einfache Aufgabe handle, die auch von einem Computer leicht zu bewältigen sein müsse. Vergleicht man jedoch beispielsweise die heute mit modernsten Mitteln erreichbare Spracherkennungsleistung mit den menschlichen Fähigkeiten, dann stellt sich das bisher Erreichte als noch recht bescheiden heraus. Ende der sechziger Jahre herrschte die euphorische Ansicht vor, dass im Hinblick auf die rasante Entwicklung der Computertechnik das Spracherkennungsproblem in wenigen Jahren gelöst sein werde. Heute wird die Situation allgemein realistischer eingeschätzt. Viele Forscher sind der Ansicht, dass trotz grosser Forschungsanstrengungen die maschinelle Spracherkennung auch in 20 Jahren noch nicht den Stand der menschlichen Sprachwahrnehmungsfähigkeit erreicht haben wird. Ein wesentlicher Grund dafür ist sicher, dass die Handhabung natürlicher Sprache der grossen Komplexität wegen enorm schwierig ist.8 Während heute die maschinelle Beherrschung des Wortschatzes einer natürlichen Sprache9 halbwegs gelingt, ist ein Computer nicht in der Lage, für beliebige Sätze zu entscheiden, ob sie syntaktisch korrekt sind oder nicht. Noch viel schwieriger wird es beim Entscheid über die Bedeutung von Sätzen, die sich je nach Situation stark ändern kann. Genau dies macht der Mensch jedoch beim Verstehen von Sprache: er untersucht fortwährend, ob das Gehörte Sinn macht und kann damit z.B. sehr effizient ähnlich klingende Wörter mit unterschiedlicher Bedeutung gut auseinander halten. Eine weitere Schwierigkeit liegt darin, dass die beiden Erscheinungsformen natürlicher Sprachen sehr unterschiedlich sind (siehe Abschnitt 1.1.2) und folglich mit völlig anderen Mitteln und Methoden beschrieben bzw. verarbeitet werden müssen. Deshalb sind viele Aufgaben der Sprachverarbeitung, insbesondere auch die Sprachsynthese und die Spracherkennung nicht rein linguistische Probleme. Sie sind mit verschiedenen Wissensbereichen verknüpft (vergl. Abbildung 1.10).
8Im Gegensatz zu natürlichen Sprachen sind formale Sprachen (z.B. Programmiersprachen) relativ kompakt und insbesondere genau definiert. Die maschinelle Verarbeitung ist deshalb vergleichsweise unproblematisch. Es kann beispielsweise einfach entschieden werden, ob ein Programm syntaktisch korrekt ist oder nicht.
9Die Linguistik bezeichnet den Wortschatz der deutschen Sprache zwar als nicht begrenzt, weil durch Bildung von Komposita stets neue Nomen, Verben und Adjektive gebildet werden können. Im mathematischen Sinne ist der Wortschatz aber begrenzt, weil Wörter praktisch nicht beliebig lang sein können.
22 1. Grundsätzliches zur Sprache
Informatik
Linguistik
Akustik
Statistik
Sprachverarbeitung
Physiologie
Signalverarbeitung
Abbildung 1.10. Die Sprachverarbeitung stützt sich auf Wissen und Methoden verschiedener Disziplinen: sie ist interdisziplinär.
In der Sprachverarbeitung ist es deshalb erforderlich, sich mit Wissen aus recht verschiedenen Disziplinen zu beschäftigen, wobei hier selbstverständlich nur ein paar Schwerpunkte behandelt werden können, die im Zusammenhang mit der Spracherkennung und der Sprachsynthese wichtig sind.
Kapitel 2
2
Übersicht über die Sprachverarbeitung
© Springer-Verlag GmbH Deutschland 2017 B. Pfister, T. Kaufmann, Sprachverarbeitung, DOI 10.1007/978-3-662-52838-9_3
2
2
Übersicht über die Sprachverarbeitung . . . . . . . . . . . . . . 25
2.1 Was in einem Sprachsignal steckt ............................ 25
2.2 Teilgebiete der Sprachverarbeitung........................... 26
2.3 Sprachsynthese ................................................... 27
2.4 Spracherkennung................................................. 28
2.5 Sprecheridentifikation ........................................... 29
2.6 Sprachidentifikation ............................................. 29
2.7 Sprechertransformation......................................... 30
2.8 Sprachsignalcodierung .......................................... 30
2.8.1 Signalformcodierung ............................................ 32
2.8.2 Modellierung von Sprachsignalen............................. 35
2 Übersicht über die Sprachverarbeitung
2.1 Was in einem Sprachsignal steckt
2.1
Der wichtigste Gegenstand der Sprachverarbeitung ist das Sprachsignal. Es entsteht, wenn eine Person etwas spricht und die produzierten Schallwellen über einen elektroakustischen Wandler (Mikrophon) in ein elektrisches Signal umgewandelt werden. Das Sprachsignal wird also durch das, was die Person sagt (Aussage), geprägt. Das Sprechen kann man im Sinne eines Prozesses auffassen, wobei die Eingabe des Sprechprozesses die Aussage ist und die Ausgabe das Sprachsignal. Wie in Abbildung 2.1 dargestellt, wirkt jedoch nicht nur die Aussage auf den Sprechprozess, sondern auch die Stimme der sprechenden Person. So können beispielsweise der Dialekt, die Sprechgewohnheiten, die Physiologie des Vokaltraktes, aber auch der momentane emotionale Zustand und eventuell sogar die Gesundheit einen starken Einfluss haben. Auch Umgebungsgeräusche können auf den Sprechprozess wirken, z.B. indem die Person lauter spricht, wenn es lärmig ist. Da ein Zuhörer sein Ohr nicht beim Mund der sprechenden Person hat, hat in der Regel die Übertragung der Schallwellen (Raumakustik) bzw. des elektrischen Signals (Mikrophoncharakteristik, Signalcodierung und -kompression) einen Einfluss auf das schlussendlich vorhandene Sprachsignal. Man kann also sagen, dass sich all diese Einflüsse im Sprachsignal niederschlagen. Dies verursacht der Sprachverarbeitung erhebliche Schwierigkeiten. Bei der Spracherkennung interessiert beispielsweise nur die im Sprachsignal steckende
Emotionen
Gesundheit
Störgeräusche
Signalcodierung & -kompression
Aussage
SPRECHPROZESS Signalübertragung
Sprachsignal
Physiologie Sprechgewohnheiten
Raumakustik
Dialekt
Wandlercharakteristik
Abbildung 2.1. Nicht nur die zu machende Aussage steuert den Sprechprozess. Auch viele Eigenheiten der sprechenden Person (blau) wirken auf diesen Prozess. Zudem wird das Sprachsignal von der Übertragung (grün) beeinflusst.
26 2. Übersicht über die Sprachverarbeitung
Aussage. Alle anderen Einflüsse sind dabei bloss störend und erschweren die Aufgabe der Spracherkennung beträchtlich (vergl. Kapitel 11). Die sprecherspezifischen Komponenten im Sprachsignal sind jedoch dann wichtig, wenn anhand des Sprachsignals die sprechende Person identifiziert werden soll. Dazu sind etwa die Einflüsse des Dialekts, der Sprechgewohnheiten und der Physiologie auf das Sprachsignal nutzbar, weil sie für eine Person einigermassen konstant sind. Die emotionalen und gesundheitlichen Effekte, obwohl sie auch von der sprechenden Person herrühren, sind nicht konstant und deshalb bei der Sprecheridentifikation eher störend.
2.2
2.2 Teilgebiete der Sprachverarbeitung
Die maschinelle Verarbeitung natürlicher Sprache umfasst sehr unterschiedliche Bereiche. Die Verarbeitung kann sich ausschliesslich auf die geschriebene Form der Sprache beziehen, wie beispielsweise bei der automatischen Textübersetzung, oder sie kann nur die akustische Form der Sprache betreffen, wie dies bei der Sprachsignalcodierung der Fall ist. Abbildung 2.2 zeigt eine Übersicht über die verschiedenen Sprachverarbeitungsprozesse, welche entweder ein Sprachdokument in eine andere Form überführen oder daraus den Sprecher oder die Sprache bestimmen. In der Abbildung nicht enthalten ist Sprachverarbeitung im Sinne der graphischen Gestaltung von Texten.
TEXT Sprache A
Übersetzung
Sprachsynthese
Spracherkennung
TEXT Sprache B
Sprecher- & Sprachidentifikation
Sprecher oder Sprache
SPRACHSIGNAL Sprache A Sprecher X
Dolmetschen
SPRACHSIGNAL Sprache B Sprecher X
Sprechertransformation
Sprachsignalcodierung
codiertes Sprachsignal
SPRACHSIGNAL Sprache A Sprecher Y
Abbildung 2.2. Zusammenstellung der Erscheinungsformen eines sprachlichen Dokumentes und der Verarbeitungsprozesse, welche eine Form in eine andere überführen. Die grau eingetragenen Prozesse werden hier nicht behandelt.
2.3 Sprachsynthese
27
In diesem Buch interessiert in erster Linie der Zusammenhang zwischen der textlichen und der akustischen Erscheinungsform der Sprache. Es werden deshalb vorwiegend die Spracherkennung und die -synthese behandelt. In diesem Kapitel werden zusätzlich noch kurz die Bereiche Sprecheridentifikation, Sprachidentifikation, Sprechertransformation und Sprachcodierung gestreift. Auf das Übersetzen von geschriebener und gesprochener Sprache (letzteres ist unter der Bezeichnung Dolmetschen bekannt) wird nicht eingegangen.
2.3 Sprachsynthese
2.3
Das Ziel der Sprachsynthese ist, eine Aussage, die in einer symbolischen Notation vorliegt, in ein Sprachsignal umzusetzen. Mit symbolischer Notation ist hier beispielsweise orthographischer Text gemeint, im Unterschied etwa zu physikalischen Merkmalen des Sprachsignals. Je nach Art der Eingabe wird bei der Sprachsynthese zwischen zwei Arten von Systemen unterschieden:
a) Hat die Eingabe die Form eines orthographischen Textes, dann spricht man von TTS-Synthese (engl. text-to-speech synthesis). Dies impliziert, dass die Synthese nebst der eigentlichen Sprachsignalproduktion auch die Aussprache der Wörter, die Akzentstärke der Silben uvm. bestimmen muss. Dazu ist eine linguistische Analyse des Eingabetextes nötig. Die TTS-Synthese wird in den Kapiteln 7 bis 10 eingehend behandelt.
b) Sind die Eingabedaten hierarchisch strukturiert, z.B. als Syntaxbaum (formale Beschreibung des Satzaufbaus), dann wird von CTS-Synthese (engl. concept-to-speech synthesis) gesprochen. CTS-Synthese kommt in Systemen zum Einsatz, welche die auszugebenden Meldungen selbständig generieren, also eine Komponente haben, welche Information in eine natürlichsprachliche Form umsetzt und über das dafür nötige linguistische Wissen verfügt. Der syntaktische Aufbau dieser Meldungen ist somit vor der eigentlichen Sprachsynthese bekannt und kann dem Synthesesystem übergeben werden.
Von der TTS- und der CTS-Synthese ist die Sprachausgabe zu unterscheiden. Es werden Sprachsignale ausgegeben, die vorgängig von einem Sprecher gesprochen und aufgezeichnet worden sind. Der Vorrat an möglichen akustischen Meldungen ist damit automatisch auf die aufgenommenen Sprachsignale begrenzt, im Gegensatz zur Sprachsynthese, die grundsätzlich jeden Text in ein Sprachsignal umsetzen kann.
28 2. Übersicht über die Sprachverarbeitung
2.4
2.4 Spracherkennung
In Abbildung 2.2 wird das Umsetzen eines Sprachsignals in eine textliche Form als Spracherkennung bezeichnet. Es ist auch heute noch praktisch unmöglich, ein Spracherkennungssystem zu verwirklichen, welches das Spracherkennungsproblem allgemein löst. Spracherkennungssysteme werden deshalb stets für spezielle Anwendungsfälle oder Szenarien konzipiert. Spezialfälle, für welche das Spracherkennungsproblem einfacher zu lösen ist, sind beispielsweise die folgenden:
Spracherkennung nur für einzeln gesprochene Wörter
Spracherkennung für kleines Vokabular
sprecherabhängige Spracherkennung
Spracherkennung nur für Telefonsignale
Mit dieser Spezialisierung erreicht man zweierlei: Erstens zeigt sich, dass bessere Resultate erreicht werden können (weniger Erkennungsfehler) und zweitens sind diese Speziallösungen kompakter (weniger Rechenleistung und geringerer Speicheraufwand erforderlich) als eine allgemeinere Lösung und damit wirtschaftlicher. Dies trifft jedoch nur dann zu, wenn die spezialisierte Spracherkennung genau auf die Erfordernisse der Anwendung abgestimmt wird. Je nach zu lösendem Spracherkennungsproblem können unterschiedliche Ansätze angewendet werden. Die beiden wichtigsten sind:
a) Mustervergleich: Diese Art von Spracherkennung wird praktisch nur zum Erkennen einzeln gesprochener Wörter oder kurzer Ausdrücke verwendet. Dabei wird das Sprachsignal bzw. eine daraus berechnete Merkmalssequenz mit abgespeicherten Mustern der zu erkennenden Wörter und Ausdrücke verglichen. Es gilt dasjenige Wort als erkannt, dessen Muster am ähnlichsten ist.
b) Statistische Spracherkennung: Bei den heute erfolgreichsten Spracherkennungsmethoden werden statistische Beschreibungen für Laute oder Wörter eingesetzt. Die Erkennung von Lauten oder kurzen Wörtern ist jedoch recht fehleranfällig. Um die Erkennungsleistung in einem konkreten Anwendungsfall zu erhöhen, wird deshalb eine Statistik verwendet, die angibt, mit welcher Wahrscheinlichkeit welche Wörter vorkommen oder einander folgen können.
Auf die Probleme der Spracherkennung und die wichtigsten Verfahren zur Lösung dieser Probleme wird in den Kapiteln 11 bis 14 ausführlich eingegangen.
2.5 Sprecheridentifikation
29
2.5 Sprecheridentifikation
2.5
Das Problem, aus einem Sprachsignal die Identität des Sprechers zu ermitteln, wird als Sprecheridentifikation oder auch als Sprechererkennung bezeichnet. Die Aufgabe besteht konkret darin, eine Sprachprobe (Testsignal) einer von N Personen zuzuordnen, von denen Referenzdaten vorhanden sein müssen. Oft geht es auch darum, für zwei Sprachsignale (Referenz- und Testsignal) zu entscheiden, ob sie von derselben Person gesprochen worden sind. Dies wird als Sprecherverifikation bezeichnet. Die Sprecherverifikation kommt hauptsächlich in Zulassungssystemen zur Anwendung, wo die Sprache als zusätzliches Sicherheitselement eingesetzt wird. Ein Benutzer muss z.B. zuerst seine Codenummer eintippen, das System gibt die Anweisung, ein bestimmtes Wort zu sprechen, und vergleicht dann das Sprachsignal mit dem zugehörigen Referenzsprachsignal. Es gibt textabhängige und textunabhängige Verfahren. Bei der ersten Art muss für die Referenz- und die Testaufnahme derselbe Text gesprochen werden, für letztere ist es bloss nötig, dass die Signale genügend lang sind, damit die daraus gewonnenen statistischen Merkmale aussagekräftig sind. Hinsichtlich der angewendeten Methoden gibt es zwischen der Sprecheridentifikation und der Spracherkennung viele Parallelen. So kann beispielsweise bei der textabhängigen Sprecheridentifikation ähnlich wie bei der Erkennung einzeln gesprochener Wörter ein Sprachmustervergleich eingesetzt werden (siehe Abschnitt 2.4). Bei kooperativem Verhalten, d.h. die Person ist daran interessiert, bei der Testaufnahme möglichst gleichartig zu sprechen wie bei der Referenzaufnahme, wird heute bereits eine Entscheidungssicherheit erreicht, welche die diesbezüglichen menschlichen Fähigkeiten klar übertrifft.
2.6 Sprachidentifikation
2.6
Sprachidentifikation kann grundsätzlich auf Texte oder auf Sprachsignale angewendet werden, wobei selbstverständlich methodisch verschieden vorgegangen wird. Wir wollen uns hier auf die Sprachidentifikation von gesprochener Sprache beschränken. Die Sprachidentifikation hat die Aufgabe, für ein gegebenes Sprachsignal zu entscheiden, in welcher von N Sprachen L1, L2, . . . , LN gesprochen wird. In der Regel wird dabei nach einer der folgenden Strategien vorgegangen:
Suche nach sprachspezifischen Wörtern: Im Sprachsignal wird nach häufigen Wörtern wie Artikel, Pronomen, Präpositionen der Sprachen L1 bis LN gesucht (mit einem Spracherkenner). Im Gegensatz zu Texten, bei denen die Wortgrenzen stets mit Leerzeichen markiert sind und damit klar ist, von
30 2. Übersicht über die Sprachverarbeitung
wo bis wo ein Wort reicht, sind in Sprachsignalen die Wortgrenzen in der Regel nicht mit Pausen markiert. Ein Spracherkenner verwechselt deshalb kurze Wörter häufig mit Teilen längerer Wörter, auch sprachübergreifend. Die geschickte Wahl der Wörter, welche für die Suche eingesetzt werden, ist somit Voraussetzung dafür, dass dieser Ansatz funktioniert.
Untersuchen der lautlichen Zusammensetzung: Nicht nur das Lautinventar, sondern auch die Häufigkeit gewisser Lautfolgen ist sprachspezifisch. Beides lässt sich mit statistischen Modellen (z.B. mit HMM bzw. N-Grams; siehe Abschnitte 13.6 und 14.2.4) beschreiben. Für jede der N zu unterscheidenden Sprachen können die Modelle zur Identifikation der Sprache in einer ähnlichen Art eingesetzt werden wie beim statistischen Ansatz der Spracherkennung.
2.7
2.7 Sprechertransformation
Das Ziel der Sprechertransformation ist, ein Sprachsignal, das von einem Sprecher X gesprochen worden ist, so zu verändern, dass es als die Stimme eines Sprechers Y wahrgenommen wird. Je nach Anwendungsszenario kann die Zielstimme in der Form von Sprachsignalen einer realen Person vorgegeben sein oder sie wird durch gewisse abstrakten Parameter spezifiziert, z.B. Frauenstimme, tiefere Lage, flottes Sprechtempo, ausgeprägte Betonungen. In jedem Fall wird gefordert, dass die transformierte Stimme natürlich klingt. Die Sprechertransformation kann auf die Veränderung der Prosodie abzielen und/oder die lautlichen Eigenschaften des Sprachsignals modifizieren.
2.8
2.8 Sprachsignalcodierung
Das Ziel bei der Codierung digitaler Daten ist, die Information kompakt darzustellen, die Daten gegen Fehler zu schützen, oder zu verhindern, dass unberechtigterweise auf eine Information zugegriffen werden kann. Dementsprechend werden in der Codierung drei Gebiete unterschieden:
a) Die Quellencodierung hat zum Ziel, Daten in eine kompaktere Darstellung umzuformen, damit diese effizienter gespeichert oder übertragen werden können. Nach dem Lesen der gespeicherten Daten, bzw. nach dem Empfangen der übertragenen Daten müssen diese decodiert, also in ihre ursprüngliche Form gebracht werden. Es gibt verlustlose Codierungen, welche die Daten nur so stark komprimieren, dass sie bei der Decodierung wieder exakt rekonstruiert werden können. Dies wird als Redundanzreduktion bezeichnet. Bei der Quellencodierung di-
2.8 Sprachsignalcodierung
31
gitaler Sprachsignale sind jedoch diese Codierungen im Allgemeinen nicht besonders interessant, weil die erreichbare Datenreduktion relativ gering ist. Interessanter sind Codierungen, die bei der Decodierung zwar nicht mehr das identische Sprachsignal liefern, aber eines, das vom menschlichen Gehör als (fast) gleich wahrgenommen wird. Dazu gehören die Signalformcodierung und die Sprachsignalmodellierung, auf die in den Abschnitten 2.8.1 und 2.8.2 näher eingegangen wird.
b) Die Kanalcodierung bringt digitale Daten in ein Format, das sich für einen Übertragungskanal oder ein Speichermedium eignet. In der Regel ist dieses Format so ausgelegt, dass bei der Decodierung festgestellt werden kann, ob die Daten nach der Übertragung richtig empfangen bzw. korrekt vom Speichermedium gelesen worden sind. Eine sehr verbreitete Kanalcodierung ist die Parität. Dabei wird für je ein Datenwort, meistens 7 oder 8 Bits, ein zusätzliches Bit übertragen, das angibt, ob die Quersumme gerade oder ungerade ist (even or odd parity). Damit können alle Einbitfehler und 50 % der Mehrbitfehler detektiert, jedoch nicht korrigiert werden. Um mehr falsche Bits detektieren oder sogar korrigieren zu können, müssen kompliziertere Codierungen angewendet werden. Grundsätzlich gilt: Je mehr Fehler detektierbar oder korrigierbar sein sollen, umso mehr Redundanz muss den Daten zugefügt werden, wodurch sich das zu übertragende Datenvolumen selbstverständlich vergrössert, also die Nettodatenrate bei der Übertragung sinkt.
c) Die Datenchiffrierung soll den unberechtigten Zugriff auf Daten verhindern. Dies wird beispielsweise dadurch erreicht, dass zu den Daten bit-weise
uncodierte Daten Zufallsfolge
1100100010111 1001110011110
Chiffrierung
codierte Daten Zufallsfolge
0101010001001 1001110011110
Dechiffrierung
decodierte Daten
1100100010111
Abbildung 2.3. Eine digitale Nachricht kann durch bit-weise Addition (XOR-Funktion) mit einer Zufallsfolge chiffriert werden. Durch nochmaliges bit-weises Addieren derselben Zufallsfolge wird die Nachricht dechiffriert.
32 2. Übersicht über die Sprachverarbeitung
eine Zufallsfolge addiert wird, wie in Abbildung 2.3 dargestellt ist. Um die Daten zu entschlüsseln, wird dieselbe Operation auf die codierten Daten angewendet. Nur wer diese Zufallsfolge kennt oder erzeugen kann, also den Schlüssel besitzt, kann die chiffrierte Nachricht decodieren. Die Sicherheit der Chiffrierung hängt im Verfahren von Abbildung 2.3 nur von der Beschaffenheit der Zufallsfolge ab (mehr über Verfahren zur Chiffrierung und deren Sicherheit ist beispielsweise in [1] zu finden).
In der Regel wird nur bei der Quellencodierung berücksichtigt, dass es sich bei den zu codierenden Daten um Sprachsignale handelt. Es wird im Folgenden deshalb nur auf diesen Bereich noch etwas weiter eingegangen.
2.8.1 Signalformcodierung Mit der Signalformcodierung wird versucht, die Datenmenge eines digitalisierten Sprachsignals zu reduzieren, indem der zeitliche Verlauf des Sprachsignals so approximiert wird, dass zwar weniger Bits für das Näherungssignal benötigt werden, aber der Approximationsfehler vom menschlichen Gehör möglichst wenig wahrgenommen wird. Die Reduktion von Daten impliziert, dass eine Anfangsdatenmenge vorhanden ist, zu der die reduzierte Menge in Bezug gesetzt wird. Um diese Mengenangaben von der Dauer des Sprachsignals unabhängig zu machen, wird gewöhnlich mit Daten pro Signaldauer, also mit Bit/s operiert und dafür die Bezeichnung Datenrate verwendet. Als Referenzdatenrate dient im Folgenden der Wert von 96 kBit/s. Diese Datenrate erhält man beim Digitalisieren eines Signals mit einer Abtastrate von 8 kHz und einer Amplitudenauflösung von 12 Bit (dies entspricht einem ganzzahligen Wertebereich von -2048 bis +2047), wie es in Abbildung 2.4 dargestellt ist. Die Abtastrate von 8 kHz ist in der Telefonie üblich, und bei der Amplitudenquantisierung mit 12 Bit ist der Quantisierungsfehler für Sprachsignale so klein, dass er nicht wahrgenommen wird, d.h. er wird durch das Sprachsignal verdeckt (vergl. Abschnitt 1.4.4).
2048
0
2048
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Zeit [s]
Abbildung 2.4. Ausschnitt aus einem Sprachsignal mit 12-Bit-Auflösung. Der Ausschnitt umfasst die Wörter “Dies ist die Modulationsleitung”.
2.8 Sprachsignalcodierung
33
2.8.1.1 Logarithmischer Kompander Beim Quantisieren wird jeder Signalabtastwert auf die nächste Quantisierungsstufe gerundet. Der Betrag des dabei gemachten Quantisierungsfehlers ist maximal ein halbes Quantisierungsintervall. Für Signale, deren Amplitude viel grösser ist als das Quantisierungsintervall, ist der Quantisierungsfehler statistisch nur sehr schwach vom Sprachsignal abhängig. Der Quantisierungsfehler ist in diesem Fall also ein rauschartiges Signal, das auch vom Gehör als dem Originalsignal überlagertes Rauschen wahrgenommen wird. Bei gleichförmiger oder linearer Quantisierung, bei der die Quantisierungsintervalle Q über den ganzen Wertebereich gleich gross sind, ist der Quantisierungsfehler ein stationäres Rauschsignal, dessen Abtastwerte im Bereich [Q/2 . . . + Q/2] gleichverteilt sind (siehe oberer Teil von Abbildung 2.5). Die Leistung dieses Rauschsignals ist also zeitlich konstant. Das lokale Verhältnis zwischen Signal- und Rauschleistung (SNR: signal-to-noise ratio) ist somit proportional zur momentanen Signalleistung. Für die Hörbarkeit des Quantisierungsfehlers ist das SNR massgebend. Das Quantisierungsrauschen ist deshalb bei linearer Quantisierung an leisen Stellen des Sprachsignals und in den Sprechpausen besser zu hören als an den lauten Stellen. Für eine gehörmässig optimale Quantisierung mit minimaler Datenrate ist es deshalb nötig, leise Stellen des Signals feiner zu quantisieren als laute. Die logarithmische Kompandierung (Kurzform für Komprimieren und Expandieren), bei der die Quantisierungsintervalle auf einer logarithmierten Amplitudenachse gleichförmig sind, ist ein einfacher Ansatz, der in diese Richtung zielt. Weil dabei das Quantisierungsintervall mit dem Betrag des zu quantisierenden Wertes zunimmt, ist die Grösse des Quantisierungsfehlers im Mittel proportio-
40
0
40
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
40
0
40
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Zeit [s]
Abbildung 2.5. Für das Sprachsignal aus Abbildung 2.4 resultiert bei linearer 8-Bit-
Quantisierung der Quantisierungsfehler oben und bei 8-Bit-log-Quantisierung nach [19]
der Fehler unten.
34 2. Übersicht über die Sprachverarbeitung
nal zum Momentanwert der Signalamplitude (vergl. Abbildung 2.5). Dadurch wird für leise und laute Signalstellen ein ausgeglicheneres SNR erreicht, und das Sprachsignal kann praktisch ohne wahrnehmbare Verminderung der Sprachqualität statt mit 12 Bit nur mit 8 Bit pro Abtastwert dargestellt werden, was einer Datenreduktion von 33 % entspricht.
2.8.1.2 Differenzcodierer Als Differenzcodierer wird nicht ein einzelnes, sondern eine ganze Klasse von Codierverfahren bezeichnet. Das wesentliche Klassenmerkmal ist, dass ein Schätzwert s˜(n) für den momentanen Signalabtastwert s(n) ermittelt, und die Differenz bzw. der Schätzfehler codiert und übertragen wird. Das Blockschema des Differenzcodierers ist in Abbildung 2.6 zu sehen. Wichtig ist zu bemerken, dass ein Prädiktor immer Speicherelemente enthält (siehe z.B. Formel (1); vergl. auch Abschnitt 4.5), vielfach auch der Codierer und der Decodierer. Ein einfaches Differenzcodierungsverfahren ist die Deltamodulation, bei welcher als Fehlercodierer der 1-Bit-Quantisierer c(n) = 0.5 · {sign(e(n)) + 1} eingesetzt wird. Für die Funktion sign(x) wird hier angenommen, dass sie für x < 0 den Wert -1 und für x ≥ 0 den Wert 1 liefert. Der decodierte Fehler e˜(n) = 2 c(n)1 stimmt somit nur hinsichtlich des Vorzeichens mit dem Schätzfehler e(n) überein. Der Signalschätzwert s˜(n) wird mit dem Prädiktor (ein verlustbehafteter Integrator) aus dem decodierten Fehler gewonnen:
s˜(n) = k1 · s˜(n 1) + k2 · e˜(n 1) .
(1)
Die Konstante k1, die etwas kleiner als 1 sein muss, bestimmt den Verlust des Integrators und damit die Dauer, wie lange sich ein Übertragungsfehler im Empfänger auswirkt. Die Konstante k2 wird so eingestellt, dass der Erwartungswert des Fehlers e(n) möglichst klein ist.
s(n) +
e(n)
Codierer
c(n)
-
(Quantisierer)
s~(n)
Prädiktor e~(n) Decodierer
Abbildung 2.6. Blockschema des allgemeinen Differenzcodierers. Das Blockschema zeigt den Sender. Der Empfänger umfasst nur zwei Blöcke: Mit dem Decodierer wird c(n) in e˜(n) umgesetzt und daraus mit dem Prädiktor s˜(n) rekonstruiert.
2.8 Sprachsignalcodierung
35
Bei komplexeren Differenzcodierungsverfahren, beispielsweise bei der bekannten ADPCM (adaptive differential pulse code modulation; siehe [20]) werden sowohl der Quantisierer als auch der Prädiktor adaptiv gestaltet, damit sie sich stets optimal an die momentanen Eigenschaften des Signals anpassen. Dies ist bei Sprachsignalen sehr wichtig, weil die Signaleigenschaften von Laut zu Laut sehr stark variieren können.
2.8.2 Modellierung von Sprachsignalen Ein Codierer, der auf einem Sprachsignalmodellierungsverfahren beruht, wird im Englischen als Vocoder (Kurzform aus voice und coder) bezeichnet. Das Grundlegende der Vocoder ist, dass in grober Analogie zum menschlichen Sprechapparat die Tonerzeugung und die Klangformung getrennt gehandhabt werden. Wie die Bezeichnung Sprachsignalmodellierung antönt, werden dabei mathematische Modelle eingesetzt. Diese Modelle haben eine Anzahl von Parametern, die aus dem Sprachsignal (genauer aus kurzen, aufeinander folgenden Abschnitten des Sprachsignals) berechnet werden. Anstelle des Sprachsignals selbst werden dann für jeden Sprachsignalabschnitt nur die Modellparameter übertragen oder gespeichert. Aus diesen lässt sich das Sprachsignal nach Bedarf wieder rekonstruieren.1 Die Rekonstruktion ist allerdings verlustbehaftet, wobei der Verlust vom eingesetzten Modell und von der Zahl der Parameter abhängt. Das mit Abstand am meisten eingesetzte Modell verwendet zur Klangformung ein digitales Filter, welches das Spektrum des zu modellierenden Signalstücks approximiert. Die Filterkoeffizienten werden mithilfe der linearen Prädiktion bestimmt. Das Verfahren wird in Abschnitt 4.5 eingehend behandelt. Als Eingangssignal für das Filter wird eine periodische Impulsfolge oder ein weisses Rauschen verwendet, je nachdem, ob ein stimmhafter oder stimmloser Abschnitt des Sprachsignals zu modellieren ist. Die Reduktion der Datenrate kommt in zwei Schritten zustande: Erstens ist die Anzahl der Modellparameter etwa um einen Faktor 10 kleiner als die Zahl der Abtastwerte des modellierten Sprachsignalabschnittes, und zweitens können die Parameter mit viel geringerer Präzision (Anzahl Bits pro Parameter) dargestellt werden als die Signalabtastwerte. So ist es möglich, Datenraten von 2 3 kBit/s zu erreichen. Dies entspricht einem Reduktionsfaktor von 32 48, im Vergleich zur Referenzdatenrate von 96 kBit/s (vergl. Seite 32). Allerdings muss betont werden, dass der Qualitätsverlust beim rekonstruierten Sprachsignal gut hörbar ist.
1Diese Rekonstruktion wird in der Literatur oft als Synthese bezeichnet. Hier soll jedoch der Begriff Synthese ausschliesslich für die automatische Umsetzung von Text in Lautsprache (vergl. Abschnitt 2.3) verwendet werden.
Kapitel 3
3
Darstellung und Eigenschaften des Sprachsignals
© Springer-Verlag GmbH Deutschland 2017 B. Pfister, T. Kaufmann, Sprachverarbeitung, DOI 10.1007/978-3-662-52838-9_4
3
3
Darstellung und Eigenschaften des Sprachsignals . . . . 39
3.1 Digitalisieren von Sprachsignalen............................. 39
3.1.1 Bandbegrenzungsfilter .......................................... 39
3.1.2 Zeit- und Amplitudendiskretisierung ......................... 41
3.1.3 Rekonstruktionsfilter ............................................ 41
3.2 Darstellung digitaler Sprachsignale im Zeitbereich........ 43
3.3 Darstellung im Frequenzbereich .............................. 45
3.4 Kombinierte Zeit-Frequenz-Bereichs-Darstellungen ....... 48
3.5 Darstellung der Phase eines Sprachsignals.................. 50
3.6 Sprachmerkmale und ihre Darstellung ....................... 52
3.6.1 Grundfrequenz.................................................... 52
3.6.2 Formanten ........................................................ 53
3.6.3 Dauer der Laute ................................................. 54
3.6.4 Intensität der Laute ............................................. 55
3 Darstellung und Eigenschaften des Sprachsignals
Menschen produzieren beim Sprechen Schallwellen, die über einen elektroakustischen Wandler, also ein Mikrophon, in zeitabhängige, elektrische Signale umgewandelt werden können. Zur Darstellung und Verarbeitung von Sprachsignalen werden heute praktisch ausschliesslich die Mittel der digitalen Signalverarbeitung eingesetzt. Deshalb sind die Analog-Digital-Umsetzung (Digitalisierung) und die Digital-Analog-Umsetzung gewöhnlich die einzigen Verarbeitungsschritte, die mit dem analogen Signal zu tun haben.
3.1 Digitalisieren von Sprachsignalen
3.1
3.1.1 Bandbegrenzungsfilter Beim Digitalisieren wird das analoge Signal xa(t) zu den äquidistanten Zeitpunkten t = nTs = n/fs abgetastet. Ts ist das Abtastintervall, fs die Abtastfrequenz. Das Abtasten entspricht der Multiplikation des analogen Signals xa(t) mit der Pulsfolge s(t)
xs(t) = xa(t) · s(t) = xa(t) ·
δ(tnTs).
(2)
n=−∞
Im Frequenzbereich entspricht der Multiplikation in Gleichung (2) die Faltung mit der Fouriertransformierten der Pulsfolge (vergl. Abbildung 4.2):
Xs(ω)
=
1 2π Xa(ω)
S(ω)
=
ωs 2π
Xa(ω
)
δ(ωkωs).
(3)
k=−∞
Das Spektrum Xs(ω) entsteht also durch Superposition von frequenzverschobenen Xa(ω) um ganze Vielfache von ωs = 2πfs = 2π/Ts. Die Abbildung 3.1 zeigt, dass im Spektrum Xs(ω) nur dann Frequenzkomponenten zusammenfallen können, wenn die Nyquist-Frequenz1 von xa(t) höher ist als die halbe Abtastfrequenz. Dies wird als Aliasing bezeichnet.
Der Aliasing-Effekt lässt sich auch im Zeitbereich veranschaulichen. Abbildung
3.2 zeigt, dass eine Signalkomponente mit der Frequenz fa, die grösser als die halbe Abtastfrequenz fs/2 ist, die identische Folge von Abtastwerten ergibt wie die Komponente mit der Frequenz fb = fs fa.
1Der Begriff Nyquist-Frequenz wird verschieden gebraucht. In Anlehnung an [29] wird hier die obere Frequenzgrenze eines bandbegrenzten Signals als Nyquist-Frequenz bezeichnet und die halbe Abtastrate (oder -frequenz) als Nyquist-Rate.
40 3. Darstellung und Eigenschaften des Sprachsignals
|X ()|
a 2fN
 2fN
|X ()|
s
0
s
2s
Abbildung 3.1. Aus dem bandbegrenzten Spektrum Xa(ω) des analogen Signals xa(t) wird durch das Abtasten das unbegrenzte Spektrum Xs(ω) des abgetasteten Signals xs(t).
Da die zusammengefallenen Frequenzkomponenten nicht mehr getrennt werden können, ist beim Digitalisieren von Signalen darauf zu achten, dass das Abtasttheorem nicht verletzt wird. Dieses schreibt vor:
Beim Digitalisieren muss die Abtastfrequenz mindestens doppelt so hoch sein wie die Nyquist-Frequenz des analogen Signals, damit dieses wieder rekonstruiert werden kann.
Sprachsignale, die mit einem guten Mikrophon aufgenommen worden sind, weisen praktisch über den gesamten Hörbereich verteilte Frequenzkomponenten auf. Weil aber für die Sprachverständlichkeit die hohen Frequenzanteile (diejenigen über 5 kHz) nur eine untergeordnete Bedeutung haben, werden in vielen Anwendungen Sprachsignale mittels Tiefpassfilter bandbegrenzt, d.h. die NyquistFrequenz wird reduziert. Der Nyquist-Frequenz entsprechend kann dann auch die Abtastrate tief gewählt werden. Die durch die Filterung eliminierten Frequenzanteile gehen jedoch endgültig verloren.
1 0.5
0 0.5
1 0
0.02 0.04 0.06 0.08
0.1
0.12 0.14 0.16 0.18
0.2
1
0.5
0
0.5 1 0
0.02 0.04 0.06 0.08
0.1
0.12 0.14 0.16 0.18
0.2
Zeit [s]
Abbildung 3.2. Illustration des Aliasing-Effekts im Zeitbereich: Wird ein 70 Hz-Cosinussignal mit 100 Hz abgetastet (oben), dann resultiert die gleiche Folge von Abtastwerten, wie wenn ein 30 Hz-Cosinussignal mit 100 Hz abgetastet wird (unten).
3.1 Digitalisieren von Sprachsignalen
41
Merke: Die durch Aliasing zusammenfallenden Frequenzkomponenten eines Signals können nicht mehr getrennt werden. Es ist deshalb wichtig, vor dem Digitalisieren die Grenzfrequenz des Tiefpassfilters (auch Anti-Aliasing-Filter genannt) und die Abtastfrequenz richtig zu wählen.
3.1.2 Zeit- und Amplitudendiskretisierung Weil bei Sprachsignalen die absolute Zeit im Allgemeinen nicht interessiert,2 ist mit der Wahl der Abtastfrequenz im Wesentlichen auch die Diskretisierung der Zeit festgelegt. Bei der Diskretisierung bzw. Quantisierung der Amplitude wird der kontinuierliche Wertebereich der Signalabtastwerte auf eine Menge diskreter Werte abgebildet. Wir gehen davon aus, dass es sich dabei um eine uniforme Quantisierung handelt, bei der also die Quantisierungsintervalle über den ganzen Wertebereich gleich gross sind. Durch das Runden auf diskrete Werte wird dem Signal ein sogenanntes Quantisierungsrauschen überlagert. Die Amplitude dieses Rundungsrauschens ist auf ein halbes Quantisierungsintervall begrenzt (vergl. Abschnitt 2.8.1.1). Die Zeit- und die Amplitudendiskretisierung können voneinander unabhängig gewählt werden. Als Kriterium zur Festlegung der Amplitudendiskretisierung dient die Grösse des im konkreten Fall noch akzeptierbaren Quantisierungsrauschens bzw. das Verhältnis von Signal- und Rauschleistung (SNR).
3.1.3 Rekonstruktionsfilter Ein digitales Signal ist nur zu den diskreten Abtastzeitpunkten bestimmt. Um daraus ein analoges, also ein zeit- und amplitudenkontinuierliches Signal xa(t) zu erzeugen, muss das Signal auch zwischen den Abtastzeitpunkten ermittelt werden. Eine Methode ist, aus den Abtastwerten des digitalen Signals s(n) ein Signal xd(t) zu erzeugen, das zu den Zeitpunkten t = nTs (n ganzzahlig) gleich s(n) ist und sonst null. Das Spektrum von xd(t) ist nicht begrenzt und entspricht gemäss Abbildung 3.1 einer Wiederholung des Spektrums des gesuchten analogen Signals xa(t). Falls kein Aliasing vorliegt, dann kann entsprechend den Ausführungen in Abschnitt 3.1.1 das analoge Signal gewonnen werden, indem das aus den digitalen Abtastwerten erzeugte abgetastete Signal xd(t) mit einem Tiefpass gefiltert wird. Die Transfercharakteristik dieses Tiefpassfilters ist idealerweise im Durchlassbereich unterhalb der Nyquist-Frequenz fN gleich eins und oberhalb von fs fN gleich null.
2Bei gewissen Signalen ist die absolute Zeit eine massgebliche Information. So kann beispielsweise bei den Abtastwerten einer Temperaturkurve wesentlich sein, ob ein bestimmter Abtastwert am Mittag, am Abend oder in der Nacht gemessen worden ist.
42 3. Darstellung und Eigenschaften des Sprachsignals
x (t)
d
t
0 Ts 2Ts
4Ts
6Ts
8Ts
1
h (t)
0
t 0 Ts
x (t)
h
t
0 Ts 2Ts
4Ts
6Ts
8Ts
Abbildung 3.3. Durch Faltung des abgetasteten Signals xd(t) mit dem Impuls ho(t) entsteht die Treppenfunktion xh(t).
Weil das Signal xd(t) nur zu den diskreten Zeitpunkten t = nTs ungleich null ist (es ist aus δ-Funktionen zusammengesetzt wie das mit Gleichung (2) beschriebene Signal), und der Umgang mit der δ-Funktion in der Praxis schwierig ist, hat die obige Methode der Rekonstruktion des analogen Signals eher eine theoretische Bedeutung. Das in der Praxis übliche Verfahren nimmt an, dass die Abtastwerte während des Abtastintervalls Ts konstant bleiben. Das entsprechende Signal xh(t) entsteht aus der Operation
xh(t) = xd(t) ho(t),
(4)
wobei ho(t) die Impulsantwort der Haltefunktion (englisch: zero-order hold function) ist, also ein Impuls mit:
ho(t) =
1 für Ts/2 ≤ t < +Ts/2 0 sonst.
Im Zeitbereich betrachtet entsteht durch die Faltung des abgetasteten Signals mit ho(t) eine Treppenfunktion, wie sie in Abbildung 3.3 gezeigt wird. Die Faltung xd(t) ho(t) im Zeitbereich entspricht der Multiplikation der zugehörigen Spektren (siehe Abbildung 3.4):
Xh(ω)
=
Xd(ω) · Ho(ω)
=
1 2π
{Xa
(ω)
S(ω)}
· Ho(ω) ,
(5)
wobei S(ω) so definiert ist wie in Gleichung (3) und Xa(ω) dem Spektrum des gewünschten analogen Signals xa(t) entspricht. Damit lässt sich aus xh(t) das analoge Signal mit einem Rekonstruktionsfilter mit der Übertragungsfunktion
3.2 Darstellung digitaler Sprachsignale im Zeitbereich
43
Hr(ω) =
1/Ho(ω) für π/Ts < ω < +π/Ts
0
sonst
(6)
exakt gewinnen. Voraussetzung ist jedoch, dass kein Aliasing vorliegt, dass also die Nyquist-Frequenz von xa(t) kleiner als fs/2 ist.
|X ()|
d 0
s
2s
|H ()|
0 0
s
2s
|X ()|
h 0
s
2s
|H ()|
r
0
s/2
|X ()|
a
2fN
 2fN
Abbildung 3.4. Der Faltung des abgetasteten Signals xd(t) mit der Haltefunktion ho(t) entspricht die Multiplikation der entsprechenden Spektren. Aus Xh(ω) kann mittels des Tiefpasses Hr(ω) das analoge Signal rekonstruiert werden.
3.2 Darstellung digitaler Sprachsignale im Zeitbereich
3.2
Die naheliegendste Darstellung eines digitalisierten Sprachsignals ist das Oszillogramm, also die Darstellung der Abtastwerte in Funktion der Zeit. Oszillogramme sind eigentlich Aufzeichnungen von einem meist analogen x/t-Schreiber, einem Oszillographen. Die Bezeichnung wird jedoch auch allgemein für die Darstellung physikalischer Messgrössen in Funktion der Zeit verwendet. Üblicherweise werden dabei jeweils zwei benachbarte Punkte mit einer Geraden verbunden, so dass eine amplituden- und zeitkontinuierliche Linie3 entsteht, ähnlich wie bei einem Oszillogramm, das mit einem Analog-Kurvenschreiber
3Die lineare Interpolation ist für die graphische Darstellung in der Regel ausreichend. Soll das Signal jedoch hörbar gemacht werden, dann ist das analoge Signal aus den Abtastwerten so zu rekonstruieren, wie in Abschnitt 3.1.3 beschrieben.
44 3. Darstellung und Eigenschaften des Sprachsignals 1
0
1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Zeit [s]
1
0.5
0
0.5
1
1.4
1.45
1.5
1.55
1.6
Zeit [s]
Abbildung 3.5. Vom 2 s langen Sprachsignal “dies ist die Modulationsleitung” ist der 0.2 s lange, grau unterlegte Ausschnitt mit der Lautfolge [sla<i] unten vergrössert gezeichnet.
hergestellt worden ist. Eine solche Darstellung im Zeitbereich zeigt Abbildung 3.5, wobei hier die Amplitude so skaliert worden ist, dass der Betrag aller Abtastwerte kleiner als 1 ist (Darstellung im Einheitsformat). Im Oszillogramm kann man gut die quasiperiodischen, stimmhaften Bereiche des Sprachsignals von den rauschartigen, stimmlosen unterscheiden. Wie die Vergrösserung zeigt, sind die Laute jedoch nicht scharf gegeneinander abgegrenzt. Die Lautübergänge sind stets mehr oder weniger fliessend, auch über die Wortgrenzen hinweg. An den Wortgrenzen sind in der Regel keine Pausen. Die kurzen Pausen, die im Sprachsignal in Abbildung 3.5 sichtbar sind, sind alles präplosive Pausen. Es sind also nicht Sprechpausen, sondern sie gehören je zu einem Plosiv (Verschlusslaut), nämlich diejenige bei 0.5 s zum [t] in “ist”, die bei 1.1 s zur Affrikate [<ts] in “Modulation” und die bei 1.75 s zum [t] in “Leitung”. Um einen Plosiv zu produzieren, müssen die Artikulatoren im Vokaltrakt an einer Stelle kurz einen Verschluss machen. Während der Dauer des Verschlusses verstummt das Sprachsignal, es baut sich hinter dem Verschluss ein Überdruck auf, und bei Öffnen des Verschlusses entsteht die Plosion, ein kurzes, knallendes bis zischendes Geräusch, das meistens recht schnell in den nachfolgenden Laut übergeht.
3.3 Darstellung im Frequenzbereich
45
3.3 Darstellung im Frequenzbereich
3.3
Nebst der Zeitbereichsdarstellung ist bei Sprachsignalen die Frequenzbereichsdarstellung wichtig. Weil das Sprachsignal nicht stationär ist, ist man primär an seinen lokalen oder momentanen Eigenschaften interessiert. So will man beispielsweise wissen, wie das Spektrum an einer bestimmten Stelle des Signals aussieht. Um aus einer Zeitfunktion (physikalische Grösse in Funktion der Zeit) das zugehörige Spektrum zu bestimmen, wird die Fouriertransformation eingesetzt. Die Frequenzauflösung im Spektrum ist proportional zur Länge der Zeitfunktion. Um ein sinnvolles Spektrum zu erhalten, kann man deshalb die Fouriertransformation nicht auf einen einzelnen Abtastwert des Signals anwenden, sondern nur auf einen kurzen Signalabschnitt (bzw. eine kurze Folge von Abtastwerten). Die Länge diese Abschnittes muss so gewählt werden, dass das resultierende Spektrum eine genügend hohe Auflösung hat. Die diskrete Fouriertransformation und deren Anwendung auf Sprachsignale werden in Abschnitt 4.2 behandelt. Die in den Abbildungen 3.6 und 3.7 gezeigten Spektren sind mit einer hochauflösenden Fouriertransformation ermittelt worden (vergl. 4.2.4). Soll beispielsweise für das Sprachsignal von Abbildung 3.5 für den Zeitpunkt 0.18 s das Spektrum bestimmt werden, dann wird ein Abschnitt des Signals ausgewählt, bei dem dieser Zeitpunkt in der Mitte liegt, wie dies in Abbildung 3.6 oben dargestellt ist. Mittels der Fouriertransformation kann aus diesem Signalabschnitt das im unteren Teil der Abbildung gezeigte Spektrum (Betrag und Phase) bestimmt werden. Weil das Signal in diesem Abschnitt stimmhaft und damit ungefähr periodisch ist, und zwar mit einer Periode von etwa 8 ms, weist das Spektrum eine deutlich sichtbare harmonische Struktur auf. Es ist eine Grundwelle vorhanden, hier bei etwa 125 Hz, und auch viele der Oberwellen bei ganzzahligen Vielfachen der Grundwelle sind mehr oder weniger deutlich sichtbar. Ein Sprachsignalabschnitt ist nie exakt periodisch. Einerseits schwingen die Stimmlippen, die ja den quasiperiodischen Anteil im Sprachsignal erzeugen, nicht exakt konstant und andererseits ist stets ein Rauschanteil vorhanden, welcher von der beim Sprechen durch den Vokaltrakt ausströmenden Luft herrührt. Das Spektrum in Abbildung 3.6 ist aus einem stimmhaften Signalabschnitt um den Zeitpunkt 0.18 s ermittelt worden. Im Gegensatz dazu ist das Sprachsignal von Abbildung 3.5 zum Zeitpunkt 1.15 s nicht periodisch, also stimmlos. Dies ist auch im zugehörigen Betragsspektrum von Abbildung 3.7 zu erkennen: Das Spektrum weist keine harmonische Struktur auf.
46 3. Darstellung und Eigenschaften des Sprachsignals
0.5
0
Betrag [dB]
0.5
0.15
0.16
Grundwelle 30
20
10
0
10
20
30 0
500
1000
0.17
0.18
0.19
Zeit [s]
1500
2000
2500
Frequenz [Hz]
0.2
0.21
3000
3500
4000
Phase
0
−
0
500
1000
1500
2000
2500
3000
3500
4000
Frequenz [Hz]
Abbildung 3.6. Vom grau unterlegten Teil des stimmhaften Sprachsignals oben (Ausschnitt des Lautes [i:] aus dem Wort “dies” bzw. [di:s] des Sprachsignals von Abbildung 3.5) resultiert via Fouriertransformation das komplexe Spektrum. Das daraus ermittelte Betragsspektrum ist in der Mitte dargestellt, das Phasenspektrum unten.
Es zeigt sich also, dass sich das Betragsspektrum eines stimmhaften Signalabschnittes deutlich vom Betragsspektrum eines stimmlosen Abschnittes unterscheidet. Kein offensichtlicher Unterschied ist hingegen bei den Phasenspektren ersichtlich. Sowohl beim stimmhaften wie beim stimmlosen Abschnitt ist am auffälligsten, dass der Phasenverlauf Sprünge aufzuweisen scheint. Tatsächlich werden diese jedoch durch das Analysefenster verursacht. So bewirkt der Schmiereffekt des Fensters (vergl. Abschnitt 4.2.3) beispielsweise im Betragsspektrum von Abbildung 3.6, dass die Grundwelle nicht als eine Frequenzlinie erscheint, sondern stark verbreitert ist. Die Frequenzkomponenten
3.3 Darstellung im Frequenzbereich
47
0.5
0
Betrag [dB]
0.5
1.13
1.14
10 0
10 20 30 40 50
0
500
1000
1.15
1.16
1.17
Zeit [s]
1500
2000
2500
Frequenz [Hz]
1.18
1.19
3000
3500
4000
Phase
0
−
0
500
1000
1500
2000
2500
3000
3500
4000
Frequenz [Hz]
Abbildung 3.7. Vom grau unterlegten Teil des stimmlosen Sprachsignals oben (Ausschnitt
AdebrbAildffurinkgat3e.5[)t<s]reasuusltdieermenWvioartF“oMuroiedrutrlaatnisofno”rmbazwtio. n[mdoadsuBlaet<ts“rioa:gns]-
des Sprachsignals von und das Phasenspek-
trum unten.
dieser Verbreiterung sind jedoch nicht im Signal vorhanden. Die Phase dieser im Signal nicht existierenden Frequenzkomponenten kann somit kaum etwas über das Signal aussagen. Eine Darstellung der Phase eines Sprachsignals kann aber durchaus wichtig sein, z.B. im Zusammenhang mit der Fourier-Analyse-Synthese. Dann wird jedoch auf eine spezielle Darstellung zurückgegriffen, die in Abschnitt 3.5 erläutert wird.
48 3. Darstellung und Eigenschaften des Sprachsignals
3.4
3.4 Kombinierte Zeit-Frequenz-Bereichs-Darstellungen
Da Sprachsignale an verschiedenen Stellen spektral sehr unterschiedlich zusammengesetzt sind, ist eine Darstellung nützlich, in der die Zusammensetzung des Signals sowohl in Funktion der Zeit, als auch in Funktion der Frequenz ersichtlich ist. Diese Darstellung mit drei Dimensionen wird als Spektrogramm bezeichnet. Sie wird aus einem Sprachsignal ermittelt, indem dieses in kurze Abschnitte unterteilt und von jedem Abschnitt mittels der Fouriertransformation das Betrags- oder das Leistungsdichtespektrum berechnet wird. Die resultierende Folge von Kurzzeitspektren kann unter anderem auf die folgenden Arten graphisch dargestellt werden:
a) Zeit- und Frequenzachse werden als Abszisse bzw. Ordinate gezeichnet, die also die Zeit-Frequenz-Ebene aufspannen. In dieser Ebene wird nun jeder Punkt der Folge der Kurzzeitspektren entsprechend als Grauwert eingetragen. Dabei gilt, je grösser der Betrag an einer Stelle, desto dunkler wird der betreffende Punkt gesetzt. Wie bei Sprachspektren üblich, wird auch hier eine logarithmische Skala (in Dezibel) verwendet. Je nach Länge des bei der Fouriertransformation verwendeten Analysefensters entsteht dabei ein etwas unterschiedliches Bild. Ist das Fenster im Vergleich zur Signalperiode lang, dann resultiert ein sogenanntes Schmalbandspektrogramm mit einer hohen spektralen, aber geringen zeitlichen Auflösung, wie es Abbildung 3.8 oben zeigt. Die Frequenzauflösung dieses Spektrums ist so hoch, dass in stimmhaften (periodischen) Sprachsignalausschnitten die harmonische Struktur gut als Linienmuster erkennbar ist (Oberwellen ergeben Rippel in Richtung der Frequenzachse). Dabei zeigt die Linie mit der tiefsten Frequenz die Grundwelle an und die restlichen Linien die Oberwellen. Weil stimmlose Laute, insbesondere die Frikative und Affrikaten (z.B. die Affrikate [<ts], die zwischen den Zeitpunkten 1.1 und 1.2 s liegt) rauschartig sind, sind die Linienmuster an den betreffenden Stellen unterbrochen. Umgekehrt entsteht mit einem relativ kurzen Fenster ein Breitbandspektrogramm mit grösserer zeitlicher Auflösung, aber mit stärkerer spektraler “Verschmierung” (siehe Abbildung 3.8 unten). Darin sind insbesondere die harmonischen Muster der stimmhaften Laute nicht mehr auszumachen. Hingegen erscheinen die Formanten (Resonanzen des Vokaltraktes) im Breitbandspektrum deutlicher. Zudem ist hier ein Muster mit vertikalen Linien zu sehen, und zwar wiederum bei stimmhaften Lauten. Dies ist ein Hinweis dafür, dass das Analysefenster in diesem Fall eher zu kurz gewählt worden ist, nämlich etwa 1.5 Perioden lang. Die zweckmässige Wahl der Form und der Länge des Analysefensters wird in Abschnitt 4.2 behandelt.
3.4 Kombinierte Zeit-Frequenz-Bereichs-Darstellungen
49
Betrag [dB]
Frequenz [Hz]
4000 20
3500
10 3000
0 2500
2000
10
1500
20
1000
30
500
40
0
1 0.5
0 0.5
1
4000 3500
50
0.6 0.7 0.8 0.9
1
1.1 1.2 1.3 1.4 1.5
Zeit [s]
0.6 0.7 0.8 0.9
1
1.1 1.2 1.3 1.4 1.5
Zeit [s]
10
3000
0
Betrag [dB]
Frequenz [Hz]
2500 10
2000 20
1500
30 1000
500
40
0
50
0.6 0.7 0.8 0.9
1
1.1 1.2 1.3 1.4 1.5
Zeit [s]
Abbildung 3.8. Oszillogramm des Sprachsignalausschnitts “die Modulations” (Mitte) und zugehöriges Schmalbandspektrogramm (oben), das mit einem Hamming-Fenster der Länge 32 ms ermittelt worden ist. Für das Breitbandspektrogramm (unten) ist ein HammingFenster der Länge 12.5 ms verwendet worden.
50 3. Darstellung und Eigenschaften des Sprachsignals
30
20
Betrag [dB] Zeit [s]
10 1
0
10
0.8
20 0.6
30
40
0.4
0
1000
2000 Frequenz [Hz]
3000
0.2 0 4000
Abbildung 3.9. Breitbandspektrogramm aus dem Sprachsignal von Abbildung 3.8, dreidi-
mensional dargestellt als zeitliche Folge geglätteter Spektren.
b) Für feste Zeitpunkte bilden die Werte des Kurzzeitspektrums in Funktion der Frequenz Kurven, die sich in einem dreidimensionalen Koordinatensystem eintragen und als Schrägbild darstellen lassen, wie das Beispiel in Abbildung 3.9 zeigt. Diese Darstellung ist jedoch nur für Breitbandspektren tauglich, weil diese einigermassen glatte Kurven aufweisen, d.h. die der Signalperiode entsprechenden harmonischen Frequenzkomponenten sind nicht sichtbar.
3.5
3.5 Darstellung der Phase eines Sprachsignals
Die Spektrogramme in Abschnitt 3.4 zeigen, welche Frequenzen zu welcher Zeit wie stark in einem Signal vorhanden sind. Diese Darstellungen beruhen auf dem mit der Fouriertransformation ermittelten Betragsspektrum. Über die Phase geben sie keine Auskunft. In gewissen Fällen interessieren jedoch nicht nur die Amplitude und die Frequenz der Komponenten, aus denen ein Signal zusammengesetzt ist, sondern
3.5 Darstellung der Phase eines Sprachsignals
51
Frequenz [Hz]
1 0 1 1.55 1.56 1.57 1.58 1.59 1.6 1.61 1.62 1.63 1.64 1.65
Zeit [s] 2000
1800
1600
1400
1200
1000
800
600
400
200
0 1.55 1.56 1.57 1.58 1.59 1.6 1.61 1.62 1.63 1.64 1.65
Zeit [s] Abbildung 3.10. Für den stimmhaften Sprachsignalausschnitt oben ist alle 5 ms die spektrale Zusammensetzung (Zerlegung in Sinuskomponenten) ermittelt worden. Diese Sinuskomponenten sind unten auf der Zeit-Frequenz-Ebene aufgetragen (nur bis 2000 Hz).
52 3. Darstellung und Eigenschaften des Sprachsignals
auch die Phase dieser Komponenten. Eine Möglichkeit, die zeitliche Veränderung der Frequenz, der Amplitude und der Phase eines Sprachsignals darzustellen, wurde in [33] vorgeschlagen. Ein Beispiel dieser Darstellungsart ist in Abbildung 3.10 zu sehen. Sie zeigt, aus welchen Sinuskomponenten jeder stimmhafte Sprachsignalausschnitt zusammengesetzt ist. Diese Darstellung wird wie folgt ermittelt: Für jeden Ls = 5 ms langen Abschnitt des Sprachsignals wird geschätzt, aus welchen Sinuskomponenten er sich zusammensetzt, d.h. für jede Sinuskomponente die Frequenz f , die Amplitude a und die Phase p. Aus diesen Sinuskomponenten lässt sich eine Art Spektrogramm zeichnen, in dem bei genügend hoher zeitlicher Auflösung auch die Phase ersichtlich ist. Dies wird dadurch erreicht, dass für jede durch ein Tripel (f, a, p) beschriebene Sinuskomponente, die zum Abschnitt t = k Ls gehört, in der Zeit-Frequenz-Ebene für das Zeitintervall [t, t+5 ms] und die Frequenz f ein Abschnitt einer Sinuswelle mit (f, a, p) eingetragen wird (wieder mit logarithmierter Amplitude).
3.6
3.6 Sprachmerkmale und ihre Darstellung
In der Sprachverarbeitung interessieren nebst dem Spektrum bzw. Spektrogramm weitere aus dem Sprachsignal berechnete Grössen wie die Grundfrequenz, die Formanten, die Lautdauer und die Intensität. In den folgenden Abschnitten werden diese Grössen erläutert, um die Eigenheiten von Sprachsignalen eingehender zu illustrieren.
3.6.1 Grundfrequenz Stimmhafte Sprachsignalabschnitte sind quasiperiodisch und weisen folglich eine Grundwelle und Oberwellen auf, die sowohl im Spektrum (Abbildung 3.6) als auch im Schmalbandspektrogramm (Abbildung 3.8) ersichtlich sind, sofern das Analysefenster lang genug ist. Die Frequenz der Grundwelle, die gleich dem Abstand der Oberwellen ist, wird als Grundfrequenz oder F0 bezeichnet und entspricht dem Reziproken der Signalperiode T0. Es gilt also: F0 = 1/T0. Wie in Abschnitt 1.4.2 erläutert, hört man von einem oberwellenhaltigen Signal die Grundfrequenz als Tonhöhe. Die Grundfrequenz eines Sprachsignals ist jedoch nicht konstant, sondern ändert sich laufend. Dies ist an der Grundwelle im Schmalbandspektrogramm von Abbildung 3.8 nur schlecht erkennbar. Wird die Grundfrequenz jedoch wie in Abbildung 3.11 dargestellt, dann ist dies klar ersichtlich. Die Grundfrequenz ist deshalb ein wichtiges Merkmal eines Sprachsignals, weil der Mittelwert der Grundfrequenz als Stimmlage und die zeitliche Variation der Grundfrequenz als Sprechmelodie wahrgenommen wird.
3.6 Sprachmerkmale und ihre Darstellung
53
1
0
1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Zeit [s]
150
Grundfrequenz [Hz]
100
50
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Zeit [s]
Abbildung 3.11. Sprachsignal “dies ist die Modulationsleitung” und daraus ermittelter Verlauf der Grundfrequenz. Da nur für stimmhafte Segmente die Grundfrequenz ermittelt werden kann, ist der Grundfrequenzverlauf eines Sprachsignals im Allgemeinen lückenhaft. Die Lücken zwischen den Kurvenstücken sind also dort, wo sich stimmlose Segmente oder Pausen befinden.
3.6.2 Formanten Im Spektrum von Abbildung 3.6 ist zu sehen, dass in gewissen Frequenzbereichen die Amplitude der Oberwellen ausgeprägte lokale Maxima aufweist. Diese Maxima rühren von Resonanzen des Vokaltraktes her und werden Formanten genannt.
30
F
20
1
10
0
F
2
F
3
Betrag [dB]
10
20
30 0
500
1000 1500 2000 2500 3000 3500 4000
Frequenz [Hz]
Abbildung 3.12. Spektrum eines Signalabschnittes des Lautes [i:] und zugehöriges LPCSpektrum (punktiert, vergl. auch Abschnitt 4.5) mit eingetragenen Formanten. Innerhalb der 3-dB-Bandbreite sind die Formanten durchgezogen markiert.
54 3. Darstellung und Eigenschaften des Sprachsignals
Im Spektrum von Abbildung 3.12 sind drei Formanten eingetragen. Die Formanten werden mit aufsteigender Frequenz als F1, F2, F3 etc. bezeichnet. Formanten werden durch drei Grössen charakterisiert: Frequenz, Amplitude und Bandbreite. In der Regel wird die 3-dB-Bandbreite verwendet, manchmal auch die Güte, also der Quotient aus Bandbreite und Formantfrequenz. Die Formanten sind lautspezifisch (vergl. auch Abschnitt 1.4.5). In einem Sprachsignal verändern sich deshalb die Formantfrequenzen in Funktion der Zeit fortwährend. In Abbildung 3.12 ist nur eine Momentaufnahme der Formantkonstellation für den Laut [i:] zu sehen. Die zeitliche Veränderung der Formanten kann in der Zeit-Frequenz-Ebene dargestellt werden, wie dies Abbildung 3.13 zeigt.
4000
3500
3000
Frequenz [Hz]
2500
2000
1500
1000
500
0
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
1.5
Zeit [s]
Abbildung 3.13. Vom Sprachsignal in Abbildung 3.8 ermittelte Formanten in der ZeitFrequenz-Ebene dargestellt: Die Formanten erscheinen umso dunkler, je höher deren Amplitude ist; zudem sind Formantfrequenz und -bandbreite ersichtlich.
3.6.3 Dauer der Laute In Sprachsignalen sind die Lautgrenzen der gleitenden Übergänge wegen im Allgemeinen nicht klar ersichtlich. Es besteht deshalb stets ein gewisser Ermessensspielraum, wo die Grenzen zu setzen sind. Beim Sprachsignal in Abbildung 3.14 sind die Lautgrenzen manuell so gesetzt worden, dass beim Anhören eines Lautsegmentes nur der betreffende Laut hörbar ist. Die Lautsegmente sind in ETHPA-Notation beschriftet. Die Transkription in IPA-Notation lautet [di:s Ist di: modula<ts“io:nsla<itUN].
3.6 Sprachmerkmale und ihre Darstellung
55
1
0
d i: s I s t i: m o d u l a t_s i o: n s l a_i t U N
1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Zeit [s]
Abbildung 3.14. Im Sprachsignal “dies ist die Modulationsleitung” sind die Lautgrenzen eingetragen. Die Laute sind in ETHPA-Notation beschriftet (siehe Anhang A.1).
Aus dieser Abbildung ist ersichtlich, dass die Dauer der Laute stark variiert. Einerseits scheint die Dauer vom Laut abhängig zu sein, andererseits hat ein bestimmter Laut nicht stets dieselbe Dauer.
3.6.4 Intensität der Laute In Abbildung 3.15 ist der Intensitätsverlauf des Sprachsignals von Abbildung 3.14 dargestellt. Als Intensität wird hier der RMS-Wert (root mean square) über ein 30 ms langes Fenster verwendet, also die Wurzel aus der Leistung, die über einen 30 ms langen Signalabschnitt ermittelt wird. Es fällt auf, dass die Intensität der Laute sehr unterschiedlich ist. Beispielsweise ist im Wort “dies” (am Anfang des Signals) die Intensität des Lautes [i:] etwa zehnmal so gross wie die Intensität des Lautes [s]. Beim Anhören des Sprachsignal gewinnt man jedoch den Eindruck, dass alle Laute gleich laut sind. Die gemessene Intensität (also der RMS) der Laute und die subjektive Wahrnehmung sind demzufolge sehr verschieden.
0.3 d i: s I s t i: m o d u l a t_s i o: n s l a_i t U N
0.2
0.1
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Zeit [s]
Abbildung 3.15. Intensitätsverlauf des Sprachsignals von Abbildung 3.14
Kapitel 4
4
Analyse des Sprachsignals
© Springer-Verlag GmbH Deutschland 2017 B. Pfister, T. Kaufmann, Sprachverarbeitung, DOI 10.1007/978-3-662-52838-9_5
4
4 4.1 4.2 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 4.3 4.4 4.4.1 4.4.2 4.4.3 4.5 4.5.1 4.5.2 4.5.3 4.6 4.6.1 4.6.2 4.6.3 4.6.4 4.6.5 4.6.6 4.6.7 4.6.8 4.7 4.7.1 4.7.2
Analyse des Sprachsignals . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Kurzzeitanalyse .................................................. 59 Schätzung des Kurzzeitspektrums............................ 60 Diskrete Fouriertransformation................................ 60 Eigenschaften der DFT ......................................... 64 Fensterfunktionen................................................ 64 Die Frequenzauflösung der DFT .............................. 66 Zeitabhängige Fouriertransformation ........................ 69 Schätzung des Leistungsdichtespektrums ................... 71 Autokorrelation................................................... 73 Definition der Autokorrelationsfunktion ..................... 73 Eigenschaften der Autokorrelationsfunktion ................ 73 Kurzzeit-Autokorrelation ....................................... 74 Lineare Prädiktion ............................................... 77 Herleitung der LPC-Analyse ................................... 77 Sprachmodellierung mittels linearer Prädiktion ............ 80 Interpretation der linearen Prädiktion ....................... 86 Homomorphe Analyse........................................... 89 Das verallgemeinerte Superpositionsprinzip ................ 89 Homomorphe Systeme .......................................... 89 Das DFT-Cepstrum ............................................. 90 Cepstrale Glättung .............................................. 92 Das Mel-Cepstrum .............................................. 94 Das Delta-Cepstrum ............................................ 96 Mittelwertfreie Cepstren........................................ 97 Cepstrale Distanz ................................................ 99 Vektorquantisierung ............................................. 100 Realisation der Vektorquantisierung ......................... 101 Generieren eines Codebuches.................................. 103
4 Analyse des Sprachsignals
In diesem Kapitel werden die Transformationen und Signalverarbeitungsmethoden behandelt, auf welche in den Kapiteln über Sprachsynthese und Spracherkennung zurückgegriffen wird.
4.1 Kurzzeitanalyse
4.1
Die Kurzzeitanalyse ist ein wichtiges Instrument in der Sprachverarbeitung, da das Sprachsignal nicht stationär ist, sondern sich zeitlich verändert. Diese zeitliche Änderung wird wesentlich dadurch bestimmt, was und wie eine Person spricht. Daneben weist das Sprachsignal aber auch Komponenten auf, die zufälliger Natur sind (vergl. Abschnitt 2.1). Das Ziel der Kurzzeitanalyse ist also, gewisse Eigenschaften des Sprachsignals in Funktion der Zeit zu ermitteln. Die meisten Analysetechniken nutzen die Tatsache, dass sich die Artikulatoren beim Sprechen relativ langsam bewegen und sich folglich auch die zeitabhängigen Eigenschaften des Sprachsignals entsprechend langsam verändern. Um die zeitliche Veränderung des Signals zu erfassen, wird das Signal in kurze Analyseabschnitte unterteilt, wie dies Abbildung 4.1 veranschaulicht. Auf jeden dieser Signalabschnitte wird sodann eine Analyse angewendet, beispielsweise die Fouriertransformation oder die LPC-Analyse (siehe Abschnitt 4.5). Dadurch entsteht eine zeitliche Abfolge von Analyseresultaten, die wir im Folgenden als Merkmale bezeichnen. Für die Analyse wird im Allgemeinen vorausgesetzt, dass sich die interessierenden Eigenschaften innerhalb des Analyseabschnittes nicht stark ändern und somit das Sprachsignal näherungsweise als stationär betrachtet werden kann. Die meisten Analysetechniken setzen Stationarität voraus und liefern über den Analyseabschnitt “gemittelte” Werte. Für eine gute Schätzung der Eigenschaften sollte der Analyseabschnitt möglichst lang gewählt werden, um statistische Einflüsse auszumitteln. Andererseits muss aber der Analyseabschnitt so kurz
Verschiebung
Analyseabschnitt
Abbildung 4.1. Um den zeitlichen Verlauf interessierender Grössen (Merkmale) aus dem Sprachsignal zu extrahieren, wird das Signal abschnittweise analysiert, wobei sich aufeinander folgende Analyseabschnitte in der Regel überlappen.
60 4. Analyse des Sprachsignals
sein, dass die tatsächlichen Werte der zu ermittelnden Grössen innerhalb des Analyseabschnittes nicht zu stark variieren und so die Resultate der Analyse verfälscht werden. Da nicht beide Ziele gleichzeitig erfüllt werden können, ist in jedem konkreten Fall ein guter Kompromiss anzustreben. Die Verschiebung zwischen aufeinanderfolgenden Analyseabschnitten ist von der Länge des Abschnittes unabhängig und muss so gewählt werden, dass die zeitliche Auflösung der zu ermittelnden Grössen genügend hoch ist.
4.2
4.2 Schätzung des Kurzzeitspektrums
Um etwas über das Spektrum eines Signals aussagen zu können, bedient man sich meistens der Fouriertransformation. Das Resultat der Fouriertransformation bezeichnet man als Fouriertransformierte. Mit Spektrum bezeichnen wir hingegen eine Eigenschaft des Signals, die wir als frequenzmässige Zusammensetzung des Signals umschreiben können. Man kann zwar aufgrund der Fouriertransformierten unter Umständen etwas über das Spektrum aussagen, also eine Schätzung machen, die Fouriertransformierte und das Spektrum sind bei Sprachsignalen aber stets verschieden und somit auseinander zu halten.
4.2.1 Diskrete Fouriertransformation Das bekannteste Kurzzeitanalyseverfahren ist zweifellos die Kurzzeit-Fouriertransformation, wobei für digitale Signale selbstverständlich die diskrete Fouriertransformation (DFT) eingesetzt wird. Die DFT bildet eine Sequenz von N Abtastwerten eines Signals x(n) auf N Abtastwerte X(k) der entsprechenden Fouriertransformierten ab. Die DFT und die inverse DFT werden durch die beiden folgenden Gleichungen beschrieben:
N 1
X(k) =
x(n)ej (2π/N )kn
n=0
x(n) =
1
N 1
X (k)ej (2π/N )kn
N
k=0
0 ≤ k ≤ N 1
(7)
0 ≤ n ≤ N 1.
(8)
Um besser zu verstehen, wie die DFT mit der kontinuierlichen Fouriertransformation zusammenhängt, werden anhand der Abbildung 4.2 die einzelnen Schritte beim Übergang von der Fouriertransformation eines zeitkontinuierlichen Signals xa(t) zur entsprechenden diskreten Fouriertransformierten X(k) erläutert. Die Abbildungen auf gleicher Höhe bilden jeweils ein Fouriertransformationspaar: links die Zeitbereichsdarstellung, rechts der Betrag der entsprechenden kontinuierlichen Fouriertransformierten.
4.2 Schätzung des Kurzzeitspektrums
61
a) xa(t)
b) s(t)
Zeitsignal
Fouriertransformierte
|Xa(f )|
S(f )
c) xs(t)
d) w(t)
|Xs(f )| |W (f )|
e) x¯s(t)
|X¯s(f )|
f) sN (t)
SN (f )
g) x¯sp(t)
|X¯sp(f )|
0
1
2
3
4
Zeit [ms]
10 5
0
5
10
Frequenz [kHz]
Abbildung 4.2. Veranschaulichung des Zusammenhangs zwischen der DFT und der zeitkontinuierlichen Fouriertransformierten am Beispiel einer 1.25-kHz-Sinusschwingung xa(t). Die Abtastfrequenz, also die Pulsrate des Abtastsignals s(t), beträgt 8 kHz.
62 4. Analyse des Sprachsignals
Das zeitkontinuierliche Signal xa(t) in Abbildung 4.2a ist eine Sinusschwingung der Frequenz 1.25 kHz. Die Fouriertransformation dieses Signals ist:
Xa(f ) =
xa(t)ej2πftdt .
(9)
−∞
Für das Signal xa(t) = sin(2π · 1250 · t) ist die Fouriertransformierte Xa(f ) nur an den Stellen f = ±1250 Hz grösser als null. Der Betrag der Fouriertransformierten ist in Abbildung 4.2a in der rechten Spalte eingetragen. Das zeitkontinuierliche Signal wird mit fs = 8 kHz abgetastet. Das Abtasten entspricht der Multiplikation des zeitkontinuierlichen Signals xa(t) mit der periodischen Pulsfolge (vergl. Abschnitt 3.1.1)
s(t) =
δ(tnTs)
(10)
n=−∞
wobei der Einheits-Dirac-Puls δ(t) definiert wird als
1 für t = 0
δ(t) =
(11)
0 sonst
Die Fouriertransformation der periodischen Pulsfolge s(t) ist wiederum eine periodische Pulsfolge, nämlich:
1 S(f ) =
∞ δ(f k )
(12)
Ts k=−∞
Ts
Im Frequenzbereich ist diese Periode gleich der Abtastfrequenz fs = 1/Ts. Das Fouriertransformationspaar s(t) und S(f ) ist in Abbildung 4.2b dargestellt. Das abgetastete Signal xs(t) in Abbildung 4.2c resultiert aus der Multiplikation des zeitkontinuierlichen Signals xa(t) mit der Pulsfolge s(t):
xs(t) = xa(t) · s(t) .
(13)
Dem Faltungstheorem gemäss entspricht die Multiplikation im Zeitbereich einer Faltung im Frequenzbereich.
Xs(f ) = Xa(f ) S(f )
(14)
Das Spektrum des abgetasteten Signals Xs(f ) ist periodisch mit der Abtastfrequenz fs (Abbildung 4.2c). Ist die Nyquist-Frequenz des Signals xa(t) höher als fs/2, dann entsteht Aliasing und es können verschiedene Frequenzkomponenten des Signals xa(t) im Signal xs(t) zusammenfallen. Das ursprüngliche Signal kann dann nicht mehr korrekt aus dem abgetasteten Signal rekonstruiert werden (vergl. Abschnitt 3.1).
4.2 Schätzung des Kurzzeitspektrums
63
Da nur endlich viele Abtastwerte auf dem Computer verarbeitet werden können, oder weil man nur am Spektrum eines Ausschnittes des Signals interessiert ist, schneidet man N Abtastwerte aus dem Signal heraus. Dies entspricht nun der Multiplikation des abgetasteten Signals mit einer Rechteckfensterfunktion w(t). Das Spektrum der Rechteckfunktion w(t) mit der Dauer N Ts ist eine sin(x)/xFunktion mit Nullstellen bei den Frequenzen f = kfs/N , wobei k ganzzahlig und ungleich null ist. Im Beispiel von Abbildung 4.2d ist N = 16, was einer Fensterlänge von 2 ms entspricht. Das Spektrum des mit der Fensterfunktion multiplizierten Signals ist wiederum das Resultat einer Faltung, nämlich der Faltung des Spektrums des abgetasteten Signals xs(t) mit dem Spektrum der Fensterfunktion w(t):
X¯s(f ) = Xs(f ) W (f )
(15)
Durch diese Faltung wird das ursprüngliche Spektrum verschmiert (Abbil-
dung 4.2e). Die Verschmierung ist um so grösser, je kürzer das Fenster gewählt
wird (vergl. Abschnitt 4.2.3).
Um nun noch den Schritt von der kontinuierlichen zur diskreten Fouriertransformation zu machen, wird das Spektrum X¯s(f ) abgetastet, wobei das Abtastintervall fs/N ist. Dies entspricht wiederum einer Multiplikation, diesmal des Spektrums X¯s(f ) mit der periodischen Pulsfolge SN (f ). Im Zeitbereich entspricht dies der Faltung mit sN (t), was heisst, dass das Signal x¯sp(t) periodisch wird, wobei die Periode N Ts ist. Die Werte der Funktionen x¯sp(nTs) und X¯sp(kfs/N ) im Bereich n, k = 0, 1, . . . , N 1 stellen nun nichts anderes dar als die Funktionswerte von x(n) und X(k) des diskreten Fouriertransformationspaares (bis auf einen Skalie-
rungsfaktor).
Diese Illustration des Zusammenhangs zwischen der kontinuierlichen Fourier-
transformation und der DFT zeigt folgendes:
Bei der Anwendung einer N-Punkt-DFT nimmt man implizit an, dass sowohl das Zeitsignal x(n), als auch das Spektrum X(k) periodisch fortgesetzt sind mit der Periode N .
Die Fouriertransformierte, also das Resultat der DFT, entspricht demzufolge nur dann der tatsächlichen spektralen Zusammensetzung eines Signals, wenn die Länge des Analyseabschnittes ein ganzzahliges Vielfaches der Periode beträgt. In allen anderen Fällen, also insbesondere auch für aperiodische Signale, kann mit der DFT bloss eine mehr oder weniger grobe Schätzung des wirklichen Spektrums erzielt werden. Die Genauigkeit dieser Schätzung hängt einerseits vom Signal selbst ab, andererseits auch von der verwendeten Fensterfunktion (siehe Abschnitt 4.2.3).
64 4. Analyse des Sprachsignals
4.2.2 Eigenschaften der DFT Die wichtigsten Eigenschaften der DFT sind in Tabelle 4.1 zusammengefasst. Eine ausführlichere Behandlung der DFT und deren Eigenschaften ist beispielsweise in [29] zu finden.
Tabelle 4.1. Die wichtigsten Eigenschaften der DFT. Die Bezeichnung (())N bedeutet, dass das Argument in der Klammer modulo N gerechnet werden muss.
Zeitsequenz
DFT
Periodizität (i ganzzahlig)
x(n) = x(n+iN )
X(k) = X(k + iN )
Linearität Verschiebung
Zeitumkehr
x3(n) = ax1(n) + bx2(n) X3(k) = aX1(k) + bX2(k)
x((n+n0))N x(n)ej (2π/N )kn0
X (k)ej (2π/N )kn0 X ((k+n0 ))N
x((n))N
X (k)
Dualität
x(n) X (n)
Faltung
N 1
x1(m) x2((nm))N
m=0
Multiplikation
x1(n)x2(n)
X (k) N x((k))N
X1(k)X2(k)
1 N
N 1
X1(i)X2((ki))N
i=0
4.2.3 Fensterfunktionen Wie in Abschnitt 4.2.1 gezeigt worden ist, wird für die DFT eine endliche Anzahl von N Abtastwerten verwendet (Analyseabschnitt). Die Auswahl der N Abtastwerte aus dem Sprachsignal ist äquivalent zur Multiplikation des Sprachsignals mit einem Rechteckfenster der Länge N . Dieser Multiplikation des Sprachsignals mit dem Rechteckfenster entspricht im Frequenzbereich eine Faltung der betreffenden Spektren. Dies führt zu zwei unerwünschten Effekten, dem Verschmieren und dem Lecken. Beide Effekte haben damit zu tun, dass das Spektrum eines Rechteckfensters nicht aus einem einzelnen Dirac-Puls besteht, sondern aus einem Hauptlappen und vielen Nebenlappen (siehe Abbildung 4.3). Durch die Faltung dieses Spektrums mit dem Signalspektrum wird eine einzelne Frequenzlinie auf die Form des Hauptlappens verbreitert bzw. verschmiert. Eine einzelne Frequenzkomponente des Signals liefert Beiträge an mehrere nebeneinander liegende Komponenten der DFT. Die Breite des Hauptlappens bestimmt somit das spektrale
4.2 Schätzung des Kurzzeitspektrums
65
Rechteckfenster
1
0 [dB]
20
Rechteckfenster
40
60
0
80
0
10
20
30
40
0.5
f
s
0
0.5 f
s
HammingFenster
1
0 [dB]
20
HammingFenster
40
60
0
80
0
10
20
30
40
0.5
f
s
0
0.5 f
s
HanningFenster
1
0 [dB]
20
HanningFenster
40
60
0
80
0
10
20
30
40
Abtastwerte
0.5
f
s
0 Frequenz
0.5 f
s
Abbildung 4.3. Gebräuchliche Fensterfunktionen und ihre Spektren. Im Zeitbereich sind die Fensterfunktionen mit einer Länge von 40 Abtastwerten gezeichnet, im Frequenzbereich sind sie im Intervall [fs/2, +fs/2] mit hoher Frequenzauflösung (vergl. Abschnitt 4.2.4) dargestellt.
Auflösungsvermögen der DFT. Bei einem Rechteckfenster der Länge N Ts ist die Breite des Hauptlappens (der Abstand zwischen den zwei Nullstellen) durch 2fs/N gegeben. Um eine möglichst hohe spektrale Auflösung zu erreichen, muss also das Analysefenster möglichst lang sein. Bei einem nichtstationären Signal kann ein zu langes Analysefenster jedoch bewirken, dass das ermittelte Spektrum nicht korrekt ist (siehe z.B. Abschnitt 9.2.5). Die Wahl der Länge des Analysefensters hängt auch davon ab, ob man der spektralen oder der zeitlichen Auflösung mehr Gewicht beimisst. Der zweite unerwünschte Effekt der Multiplikation mit der Fensterfunktion, das Lecken (engl. leakage), wird durch die Nebenlappen des Spektrums der Fensterfunktion hervorgerufen. Diese führen dazu, dass neue Spektrallinien ausserhalb des Hauptlappens im abgetasteten Spektrum entstehen. Der Leckeffekt lässt sich nicht durch die Länge des Fensters verändern, sondern durch dessen Form. Beim Rechteckfenster ist die Höhe des ersten Nebenlappens 13 dB unter dem Maximum des Hauptlappens.
66 4. Analyse des Sprachsignals
In Abbildung 4.3 sind nebst dem Rechteckfenster zwei weitere oft verwendete Fensterfunktionen mit ihren Spektren dargestellt. Das in der Sprachverarbeitung am häufigsten verwendete Fenster ist das sogenannte Hamming-Fenster, das wie folgt definiert ist:
w(n) =
0.54 0.46 cos
2πn N 1
0 ≤ n ≤ N 1
(16)
0
sonst.
Dieses weist zwar gegenüber dem Rechteckfenster einen etwa doppelt so breiten Hauptlappen auf, dafür ist die Dämpfung der Nebenlappen mit 41 dB wesentlich besser. In der Sprachverarbeitung ebenfalls gebräuchlich ist das HanningFenster mit der Definition
w(n) =
0.5 0.5 cos
2πn N 1
0 ≤ n ≤ N 1
(17)
0
sonst.
Ein detaillierter Vergleich dieser und weiterer Fensterfunktionen ist in [29] zu finden. Wie sich die eingesetzte Fensterfunktion auf die Schätzung des Spektrums eines Sprachsignals auswirkt, ist in Abbildung 4.4 zu sehen. In diesem Beispiel ist der Unterschied zwischen den stärksten und den schwächsten Frequenzkomponenten ziemlich gross. Deshalb bewirkt das Lecken des Rechteckfensters, dass die schwachen Frequenzkomponenten im Bereich zwischen 1500 und 3500 Hz nicht ersichtlich sind. Es kann insbesondere nicht entschieden werden, welche relativen Maxima auf eine im Signal vorhandene Komponente hinweisen und welche bloss durch das Lecken der starken Komponenten entstanden sind. Nur bei den stärksten Komponenten ist das harmonische Muster erkennbar, das aufgrund der Signalperiode zu erwarten ist. Wird jedoch ein Hamming-Fenster verwendet, dann sind zwar die Frequenzkomponenten stärker verschmiert, aber immer noch problemlos zu unterscheiden. Insbesondere die schwachen harmonischen Frequenzkomponenten sind viel besser ersichtlich. Für eine wirklich gute Schätzung der spektralen Zusammensetzung sind ausser der passenden Fensterfunktion jedoch noch weitere Massnahmen erforderlich.
4.2.4 Die Frequenzauflösung der DFT Die Frequenzauflösung eines Spektrums wird gewöhnlich mit dem Frequenzabstand zweier benachbarter Frequenzkomponenten angegeben. Dabei gilt: je kleiner dieser Abstand, desto höher die Frequenzauflösung. Bei einem Spektrum, das mit einer DFT aus N Abtastwerten ermittelt worden ist, beträgt dieser Frequenzabstand fs/N , wobei fs die Abtastfrequenz ist. Um bei gegebener Abtastfrequenz eine hohe Frequenzauflösung zu erhalten, muss also N entsprechend gross gewählt werden. Während dies bei stationären Si-
4.2 Schätzung des Kurzzeitspektrums
67
0.5
0
0.5
1.25
1.26
1.27
1.28
1.29
1.3 [s] 1.31
30 [dB]
20
10
0
10
20
30 0
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
30 [dB]
20
10
0
10
20
30 0
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
Abbildung 4.4. Aus dem grau hinterlegten Signalabschnitt des Lautes [o] ermittelte Spektren unter Verwendung eines Rechteck- bzw. eines Hamming-Fensters (Mitte bzw. unten)
gnalen oder solchen mit sehr langsam veränderlicher spektraler Charakteristik möglich ist, muss bei Sprachsignalen ein anderer Weg beschritten werden. Dieser beruht auf der folgenden Überlegung. Die DFT der Sequenz x(n) = x0, x1, . . . , xN1 liefert die spektralen Werte X(k) = X0, X1, . . . , XN1, und mit der Abtastfrequenz fs beträgt die spektrale Auflösung fs/N . Wird nun obige Sequenz mit Nullen auf die Länge von 2N Abtastwerten ergänzt (das Ergänzen mit Nullen wird im Englischen als zero padding bezeichnet), dann entsteht die Sequenz x (n) = x0, x1, . . . , xN1, 0, 0, . . . , 0, deren Abtastfrequenz nach wie vor fs ist. Die DFT von x (n) liefert X (k) = X0, X1, . . . , X2N1. Die spektrale Auflösung von X (k) beträgt fs/(2N ), ist also gegenüber X(k) verdoppelt.
68 4. Analyse des Sprachsignals
0.65kHzSignal 1
0
1
0
1
2
3
4 [ms] 5
40PunktFouriertransformation 0 [dB]
20
Max: 7.1048 dB bei 0.6 kHz
40
0
1
2
3 [kHz] 4
80PunktFouriertransformation 0 [dB]
20
Max: 7.0933 dB bei 0.7 kHz
40
0
1
2
3 [kHz] 4
400PunktFouriertransformation 0 [dB]
20
Max: 6.264 dB bei 0.66 kHz
40
0
1
2
3 [kHz] 4
Abbildung 4.5. Aus dem 40 Abtastwerte langen 650 Hz-Sinussignal mit -6 dB (oben) ergibt die DFT 40 Frequenzpunkte (zweite Teilabbildung, nur positive Frequenzkomponenten eingezeichnet). Die DFT des mit Nullen auf doppelte Länge ergänzten Signalabschnittes (dritte Teilabbildung) zeigt, dass zwischen den ursprünglichen Werten je ein zusätzlicher Wert ermittelt worden ist (rot eingetragen). Wird das Signal auf zehnfache Länge mit Nullen ergänzt, ergibt das Maximum der DFT bereits eine viel bessere Schätzung für die Frequenz und die Intensität des Sinussignals.
Es stellt sich nun die Frage nach dem Zusammenhang von X(k) und X (k). Leicht lässt sich zeigen, dass X(k) = X (2k) gilt:
2N 1
N 1
X (2k) =
x (n)ej(2π/(2N))2kn =
x(n)ej (2π/(2N ))2kn
n=0
n=0
N 1
=
x(n)ej(2π/N)kn = X(k) ,
0≤k<N.
n=0
(18)
4.2 Schätzung des Kurzzeitspektrums
69
Alle Frequenzpunkte von X(k) sind somit in X (k) enthalten, wie dies in Abbildung 4.5 mit einer 40- und einer 80-Punkt-DFT illustriert wird. Weil mit dem Ergänzen von Nullen die spektrale Auflösung der DFT vergrössert werden kann, wird hier oft von “hochauflösender Fouriertransformation” gesprochen, insbesondere dann, wenn die Anzahl der Nullen viel grösser ist als die Zahl der Signalabtastwerte. Zu bedenken ist jedoch, dass das Resultat der hochauflösenden DFT nicht zwangsläufig besser ist als die normale DFT. In beiden Fällen wird nämlich implizit angenommen, dass das Signal periodisch ist: Bei der normalen DFT ist die angenommene Periodizität gleich dem N Abtastwerte langen Signalabschnitt; bei der hochauflösenden DFT gehören die Nullen auch zur Periode. Bei zweckmässiger Wahl der Fensterfunktion (Form und Länge) kann mit der hochauflösenden DFT die spektrale Zusammensetzung eines Signals recht genau ermittelt werden. Bei einem Signal mit einer einzigen Sinuskomponente ist dies einfach (vergl. Abbildung 4.5). Bei einem Sprachsignal sind jedoch noch weitere Punkte zu beachten (siehe Abschnitt 9.2.5).
4.2.5 Zeitabhängige Fouriertransformation Um für ein nicht- oder quasistationäres Signal den zeitlichen Verlauf des Kurzzeitspektrums zu erhalten, wird das Analysefenster über das Signal geschoben, wie dies in Abschnitt 4.1 beschrieben ist. Die zeitabhängige Fouriertransformation, also die DFT an der Stelle n des Signals unter Verwendung einer N Abtastwerte langen Fensterfunktion w(n) ist somit gegeben durch
n+N 1
X(n, k) =
w(mn) x(m) ej(2π/N)km.
m=n
(19)
Die Fensterfunktion w(mn) bestimmt den Signalausschnitt, der zum Zeitpunkt n analysiert wird. X(n, k) ist somit eine Funktion der beiden Variablen n und k, welche die diskrete Zeit bzw. die diskrete Frequenz darstellen. Das durch Gleichung (19) definierte Spektrum kann auf zwei Arten interpretiert werden. Wird die zeitabhängige Fouriertransformation für ein fixes n betrachtet, dann verwenden wir die Bezeichnung Xn(k), womit die gewöhnliche Fouriertransformation des mit der Fensterfunktion multiplizierten Signalabschnittes x(m) w(mn) gemeint ist. Betrachtet man die zeitabhängige Fouriertransformation für ein fixes k, wir bezeichnen sie dann mit Xk(n), so beschreibt die Gleichung (19) die Faltung der Fensterfunktion w(n) mit dem Signal xk(n) = x(n) ej(2π/N)kn. Das Signal xk(n) entsteht aus x(n), indem es mit dem komplexen Signal ej(2π/N)kn multipliziert wird, was einer Modulation entspricht, die alle Frequenzkomponenten des Signals um fk = fs(k/N ) verschiebt.
70 4. Analyse des Sprachsignals
x(n)
xk(n)
* w(m)
Xk(n)
e-j2fkn
Abbildung 4.6. Die zeitabhängige Fouriertransformation für eine fixe Frequenz fk entspricht der Filterung des mit dem komplexen Trägersignal ej(2πfk)n modulierten Signals x(n). Sowohl xk(n) als auch Xk(n) sind komplexwertig.
Die Faltung von w(n) mit dem Signal xk(n) entspricht der Filterung des Signals xk(n) mit dem Filter w(n), also einem Tiefpassfilter, dessen Übertragungsfunktion durch die Fensterfunktion gegeben ist (siehe Fig. 4.3). Diese Betrachtungsweise ist für ein k in Abbildung 4.6 dargestellt. Die zeitabhängige DFT kann somit auch als Filterbank mit N Filtern betrachtet werden, deren Mittenfrequenzen fk = fs(k/N ), k = 0, 1, . . . , N 1 sind und deren Bandbreite durch die Fensterfunktion bestimmt wird. Die DFT stellt demzufolge eine spezielle Art von Filterbank dar, bei der die Bandpassfilter gleichmässig auf den zu analysierenden Frequenzbereich verteilt sind. Man nennt sie deshalb eine uniforme Filterbank. Generell kann man durch die Parallelschaltung von Bandpassfiltern, wie in Abbildung 4.7 dargestellt, beliebige Filterbänke zusammenstellen. Das k-te Bandpassfilter hat dabei die Impulsantwort hk(n) mit der Mittenfrequenz fk und der Bandbreite Δfk. Die Mittenfrequenzen und Bandbreiten der einzelnen Filter werden normalerweise so gewählt, dass sie den gesamten interessierenden Frequenzbereich abdecken.
* h1(n)
x1(n)
* h2(n)
x2(n)
x(n)
* hJ(n)
xJ(n)
Abbildung 4.7. Allgemeine Filterbank mit J Kanälen: Die Filter h1(n), h2(n), . . . , hJ (n) können Durchlassbereiche unterschiedlicher Breite haben, und es sind transversale oder rekursive Filter einsetzbar.
4.3 Schätzung des Leistungsdichtespektrums
71
In der Sprachverarbeitung spielen nebst uniformen Filterbänken auch nicht uniforme Filterbänke eine wichtige Rolle, mit denen bestimmte Eigenschaften des menschlichen Gehörs nachgebildet werden (vergl. Abschnitt 4.6.5).
4.3 Schätzung des Leistungsdichtespektrums
4.3
In den vorherigen Abschnitten wurde die Fourieranalyse von periodischen Signalen behandelt. Diese haben ein diskretes Spektrum, dessen Komponenten mittels der (hochauflösenden) Kurzzeit-DFT geschätzt werden können. Rauschartige Signale, z.B. Sprachsignale von stimmlosen Lauten, haben kein diskretes Spektrum und werden gewöhnlich mit dem Leistungsdichtespektrum beschrieben. Die Frage ist also, was die Kurzzeit-DFT über das Leistungsdichtespektrum eines Rauschsignals aussagt. Sei x(n) ein stationäres, zeitdiskretes Zufallssignal und X(k) dessen diskrete Fouriertransformierte
N 1
X(k) =
w(n) x(n) ej(2π/N)kn ,
n=0
(20)
wobei die Fensterfunktion w(n) den zu analysierenden Signalabschnitt definiert.
Aus dieser DFT können wir das Leistungsdichtespektrum des Signalausschnittes
an diskreten Frequenzstellen ωk = 2πfsk/N , mit k = 0, 1, . . . , N 1, schätzen
als
S˜(ωk )
=
1 NU
|X (k)|2
,
(21)
wobei N die Länge des Fensters ist. Mit der Konstanten U wird der Einfluss des Fensters auf die Schätzung kompensiert:
U=
1
N 1
w2(n)
N
n=0
(22)
Wird für w(n) eine Rechteckfensterfunktion angenommen, so nennt man diesen Schätzwert S˜(ωk) Periodogramm. Werden andere Fensterfunktionen benützt, so spricht man von einem modifizierten Periodogramm. Es lässt sich zeigen (siehe z.B. [29]), dass bei der Wahl von U gemäss Formel (22) das Periodogramm eine asymptotisch erwartungstreue Schätzung des Leistungsdichtespektrums an den Stellen ωk ist, d.h. dass der Erwartungswert der Schätzung dem wahren Wert entspricht, wenn die Fensterlänge N gegen unendlich geht. Die Varianz der Schätzung ist auch für die einfachsten Fälle äusserst schwierig zu bestimmen. Es wurde jedoch gezeigt, dass über einen weiten Bereich von Bedingungen die Varianz der Schätzung für N → ∞ gegeben ist durch
var{S˜(ωk)} P 2(ωk) ,
(23)
72 4. Analyse des Sprachsignals
wobei P (ωk) das wahre Leistungsdichtespektrum von x(n) darstellt. Das heisst, die Standardabweichung der Schätzung des Leistungsdichtespektrums ist auch für Fensterlängen N → ∞ in derselben Grössenordnung wie das Leistungsdichtespektrum selbst. Daraus folgt, dass das Periodogramm eine nicht konsistente Schätzung des Leistungsdichtespektrums liefert, da die Varianz mit wachsender Fensterlänge nicht gegen null strebt (siehe Abbildung 4.8). Die Schätzung des Leistungsdichtespektrums über das Periodogramm kann verbessert werden, indem mehrere unabhängige Periodogramme gemittelt werden. Die Varianz von k gemittelten Periodogrammen ist k-mal kleiner als die eines einzelnen Periodogramms (vergl. Abbildungen 4.8 und 4.9). Somit erhalten wir für k → ∞ und mit einer Fensterlänge N → ∞ trotzdem noch eine erwartungstreue und konsistente Schätzung.
a) 10
[dB] 0
10
20
30 0
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
b) 10
[dB]
0
10
20
30 0
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
Abbildung 4.8. Die Schätzung des Leistungsdichtespektrums nach Formel (21) weist für ein Rauschsignal (weisses Rauschen mit 0 dB Leistung) eine grosse Varianz auf. Die Vergrösserung des Analysefensters von 300 Abtastwerten (oben) auf 3000 Abtastwerte (unten) verändert zwar die spektrale Auflösung, nicht aber die Varianz.
4.4 Autokorrelation
73
10 [dB]
0
10
20
30 0
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
Abbildung 4.9. Die Schätzung des Leistungsdichtespektrums für das gleiche weisse Rauschen wie in Abbildung 4.8 ist hier durch Mittelung der Periodogramme aus zehn Abschnitten mit je 300 Abtastwerten gewonnen worden. Die Varianz ist entsprechend reduziert worden.
4.4 Autokorrelation
4.4
4.4.1 Definition der Autokorrelationsfunktion
Für ein energiebegrenztes, zeitdiskretes Signal x(n) ist die Autokorrelationsfolge
(AKF) definiert als
r(k) =
x(n) x(n+k) .
(24)
n=−∞
Für periodische Signale sowie für stationäre, stochastische Signale gilt die entsprechende Beziehung:
1
N
r(k) = lim
x(n) x(n+k) .
(25)
N→∞ 2N + 1
n=N
4.4.2 Eigenschaften der Autokorrelationsfunktion Für die in Formel (24) bzw. (25) definierte AKF r(k) eines zeitdiskreten Signals x(n) gelten folgende Eigenschaften:
1. r(k) = r(k). 2. |r(k)| ≤ r(0) für alle k. 3. r(0) entspricht gemäss (24) und (25) der Energie für energiebegrenzte Signale
bzw. der mittleren Leistung für periodische oder stationäre, stochastische Signale.
4. Falls x(n) periodisch ist mit Periode P , dann ist auch r(k) periodisch mit derselben Periode (selbstverständlich ist dann r(k) nach Formel (25) zu berechnen).
74 4. Analyse des Sprachsignals
4.4.3 Kurzzeit-Autokorrelation Um die Kurzzeit-Autokorrelation an der Stelle n eines zeitdiskreten Signals x(n) zu ermitteln, wird durch das Anwenden einer Fensterfunktion ein zeitlich begrenzter Signalabschnitt an der Stelle n ausgeschnitten mit
x¯n(m) = x(n+m) w(m) , 0 ≤ m ≤ N 1 .
(26)
Weil x¯n(m) energiebegrenzt ist, kann die Kurzzeit-AKF grundsätzlich nach Gleichung (24) ermittelt werden. Selbstverständlich ist es jedoch sinnvoll, die Summationsgrenzen dem Signalabschnitt entsprechend zu setzen, womit sich für die Kurzzeit-AKF an der Stelle n die folgende Formel ergibt:
N 1|k|
rn(k) =
x¯n(m) x¯n(m+k) , |k| < N
(27)
m=0
Es ist leicht zu sehen, dass die Kurzzeit-AKF nach Formel (27) symmetrisch ist. Die Symmetrie ist auch in Abbildung 4.10 ersichtlich, in der das Ermitteln der Kurzzeit-AKF anhand eines synthetischen Signals mit drei Sinuskomponenten illustriert wird. Weil dieses Signal periodisch ist, sollte gemäss Abschnitt 4.4.2 die AKF auch periodisch sein. Tatsächlich nimmt jedoch die Amplitude der AKF mit zunehmendem Index |k| ab. Dies ist aufgrund von Gleichung (27) einleuchtend, weil mit grösser werdendem |k| die obere Summationsgrenze abnimmt, also immer weniger Werte aufsummiert werden.
1
x(n)
0
1
n
0
50 n
100
150
200
250
0
1
xn0(m) 0
1
m
0
20
40
60
k
10
rn0(k)
0
10
k
60 40 20
0
20
40
60
Abbildung 4.10. Berechnung der Kurzzeit-AKF: Durch Multiplikation des Signals x(n) mit einem Rechteckfenster der Länge N an der Stelle n0 resultiert der zeitbegrenzte Signalabschnitt x¯n0 (m) und unter Anwendung von Formel (27) die AKF rn0 (k).
4.4 Autokorrelation
75
1
x(n)
0
1 0
n
50
100
150
200
250
x(n)
FT
10
r(k)
0
[dB] 20
|X(f)|2
0
20 0
0.1 0.2 0.3 0.4 0.5 f
s
FT 1
10
k
60 40 20
0
20
40
60
80
100 120
Abbildung 4.11. Die AKF kann gemäss Gleichung (28) auch mit Fouriertransformation ermittelt werden. Das Resultat ist aber nur dann gleich wie in Abbildung 4.10, wenn eine hochauflösende Fouriertransformation (vergl. Abschnitt 4.2.4) angewendet wird. Falls genau die N = 64 Abtastwerte (als Punkte gezeichnet) für die Fouriertransformation verwendet werden, dann wird implizit angenommen, dass der Signalabschnitt x¯n0 (m) periodisch fortgesetzt ist (grau gezeichnet) und es resultieren die N Punkte des Leistungsdichtespektrums (nur positive Frequenzen dargestellt) bzw. die N Punkte der AKF, die wiederum mit N periodisch ist (vergl. Abschnitt 4.2.1).
Falls N gross ist, kann die Kurzzeit-AKF effizienter mithilfe der Fouriertransformation wie folgt ermittelt werden:
rn(k) = F 1{|F {x¯n(m)}|2} .
(28)
Dies geht aus dem Wiener-Khintchine-Theorem hervor, das grob besagt, dass das Leistungsdichtespektrum und die Autokorrelationsfunktion ein Fouriertransformationspaar bilden. Wie aus Abbildung 4.11 jedoch ersichtlich ist, liefert nur eine hochauflösende Fouriertransformation mit mindestens 2N Punkten das gleiche Resultat wie die Formel (27). In vielen Anwendungen sind die eigentlichen Werte der Kurzzeit-AKF nicht von Belang, sondern nur deren Verhältnis zu r(0). Deshalb wird in diesen Fällen die normierte AKF verwendet, bei der jeder AKF-Koeffizient durch r(0) dividiert wird.
76 4. Analyse des Sprachsignals
1
a)
0
stimmhafter Signalabschnitt
1 0
1
b)
0
10
20
30
40 [ms] 50
normierte AKF des stimmhaften Signalabschnittes
1 0
1
c)
0
10
20
30
40 [ms] 50
stimmloser Signalabschnitt
1 0
1
d)
0
10
20
30
40 [ms] 50
normierte AKF des stimmlosen Signalabschnittes
1
0
10
20
30
40 [ms] 50
Abbildung 4.12. Für den 50 ms langen, stimmhaften Sprachsignalabschnitt a) resultiert die AKF b), und aus dem stimmlosen Sprachsignalabschnitt c) ergibt sich die AKF d).
Die Kurzzeit-AKF wird in der Sprachverarbeitung unter anderem verwendet, um festzustellen, ob ein Signalabschnitt stimmhaft ist oder nicht. Ein stimmhafter Signalabschnitt ist quasiperiodisch. Aus den in Abschnitt 4.4.2 aufgeführten Eigenschaften der AKF folgt, dass r(k) für ein Signal mit Periode P an den Stellen 0, ±P, ±2P, . . . relative Maxima aufweist. Somit kann die Periode eines Signals anhand der Maxima der AKF bestimmt werden. In der Abbildung 4.12 ist für einen stimmhaften und einen stimmlosen Sprachsignalabschnitt je die normierte AKF gezeichnet. Aus der AKF des stimmhaften Abschnittes sieht man aufgrund des grössten relativen Maximums (abgesehen vom Nullpunkt), dass das Signal eine Periode T0 von etwa 9.5 ms hat. Die Grundfrequenz des Signals beträgt somit F0 = 1/T0 ≈ 105 Hz. Die aus dem stimmlosen Signalabschnitt in Abbildung 4.12c ermittelte normierte AKF in Abbildung 4.12d zeigt keine Hinweise auf eine Signalperiodizität. Sie fällt relativ schnell auf kleine Werte ab.
4.5 Lineare Prädiktion
77
4.5 Lineare Prädiktion
4.5
Bei vielen digitalen Signalen sind aufeinander folgende Abtastwerte nicht statis-
tisch unabhängig. Dies trifft auch für Sprachsignale zu. Der linearen Prädiktion
liegt die Idee zugrunde, diese Abhängigkeit zu nutzen, indem der n-te Abtast-
wert des Signals s(n) durch eine gewichtete Summe aus den K vorhergehenden Abtastwerten s(n1), . . . , s(nK) vorausgesagt wird. Der prädizierte Abtast-
wert s˜(n) ist:
K
s˜(n) = ak s(nk).
(29)
k=1
Das Minuszeichen vor der Summe in Gleichung (29) könnte grundsätzlich weggelassen werden, wodurch die Werte von ak selbstverständlich ihr Vorzeichen wechseln würden. Um aber den gewöhnlich bei Digitalfiltern verwendeten Vorzeichenkonventionen zu entsprechen, wird der Prädiktor wie gezeigt definiert. Die Gewichtungskoeffizienten ak des Prädiktors werden auch als LPCKoeffizienten1 bezeichnet und K als die Ordnung des Prädiktors. Mit dem Prädiktor werden nun N Abtastwerte des Signals s˜(n) generiert, wie dies in Abbildung 4.13 dargestellt ist. Um die K LPC-Koeffizienten für einen N Abtastwerte langen Sprachsignalabschnitt s(n) zu bestimmen, können N Gleichungen aufgeschrieben werden. Dieses lineare Gleichungssystem ist im Allgemeinen dann eindeutig lösbar, wenn N =K ist. Bei der Anwendung der linearen Prädiktion in der Sprachverarbeitung ist jedoch der Fall N K von Interesse. Im folgenden Abschnitt wird gezeigt, wie für diesen Fall die LPC-Koeffizienten bestimmt werden.
4.5.1 Herleitung der LPC-Analyse
Ein Prädiktor der Ordnung K nach Gleichung (29) kann für einen N Abtast-
werte langen Abschnitt des Sprachsignals s(n) die Abtastwerte im Allgemeinen
nicht fehlerfrei prädizieren, wenn N K ist. Der Prädiktionsfehler lässt sich
schreiben als
K
e(n) = s(n) s˜(n) = s(n) + ak s(nk),
(30)
k=1
für n = n0, . . . , n0+N 1. Die Prädiktorkoeffizienten ak sollen nun so bestimmt werden, dass die Energie des Fehlersignals e(n) über den Signalabschnitt mini-
1Da die lineare Prädiktion anfänglich hauptsächlich zu Codierungszwecken eingesetzt wurde, hat sich für die Bezeichnung linear predictive coding das Akronym LPC durchgesetzt. Dieses kommt nun in vielen Bezeichnungen vor, die mit der linearen Prädiktion zusammenhängen, auch wenn es dabei nicht um Codierung geht.
78 4. Analyse des Sprachsignals s(n)
K Abtastwerte
Prädiktor s˜(n)
N Abtastwerte
Abbildung 4.13. Der Prädiktor berechnet aus den Abtastwerten s(n1), . . . , s(nK) den Abtastwert s˜(n), dann aus s(n), . . . , s(nK+1) den Abtastwert s˜(n+1) usw. bis zum Abtastwert s˜(n+N 1).
mal wird. Die Fehlerenergie beträgt
K
2
E = e2(n) =
s(n) + ak s(nk) .
(31)
n
n
k=1
Für das Minimum der Fehlerenergie E gilt, dass die partiellen Ableitungen von E nach den Prädiktorkoeffizienten eine Nullstelle haben müssen:
∂E
=2
∂ai
n
K
s(n) + ak s(nk) s(ni) =! 0 ,
k=1
1 ≤ i ≤ K (32)
Aus diesen K Gleichungen mit K Unbekannten erhält man durch eine einfache Umformung die sogenannten Normalgleichungen:
K
ak s(nk) s(ni) = s(n) s(ni) ,
k=1
n
n
1 ≤ i ≤ K (33)
Die Summationen über n in den Gleichungen (31) und (33) liefern etwas unterschiedliche Ergebnisse, je nachdem, ob die Signalabtastwerte s(n0K), . . . , s(n01) gleich null angenommen werden oder nicht. Dadurch ergeben sich zwei Methoden für die Lösung der Normalgleichungen (33), die sogenannte Autokorrelationsmethode und die Kovarianzmethode.
4.5 Lineare Prädiktion
79
4.5.1.1 Autokorrelationsmethode Die Autokorrelationsmethode geht davon aus, dass der zu analysierende Signalabschnitt durch die Multiplikation des Signals mit einer Fensterfunktion entstanden ist und deshalb ausserhalb des Analyseabschnittes null ist. Das zu analysierende Signal wird an der Stelle n ausgeschnitten mit:
s¯n(m) = s(n+m) w(m) , 0 ≤ m ≤ N 1
(34)
Mit dieser Definition von s¯n(m) können die Normalgleichungen (33) in der folgenden Form aufgeschrieben werden:2
K
r(ik) ak = r(i) ,
1≤i≤K.
(35)
k=1
Dabei ist r(i) der i-te Term der (Kurzzeit-)Autokorrelationsfolge
N 1
r(i) = s¯n(m) s¯n(m+i).
(36)
m=0
Da die Autokorrelationsfolge symmetrisch ist, d.h. r(i) = r(i), ergibt sich die
Matrixformulierung von (35) zu
⎡ r(0) r(1) r(2) · · · r(K1) ⎤ ⎡ a1 ⎤
⎡ r(1) ⎤
⎢⎢⎢⎢⎢⎣
r(1)
r(2) ...
r(0)
r(1) ...
r(1)
r(0) ...
··· ···
r(K 2)
r(K 3) ...
⎥⎥⎥⎥⎥⎦
⎢⎢⎢⎢⎢⎣
a2
a3 ...
⎥⎥⎥⎥⎥⎦
=
⎢⎢⎢⎢⎢⎣
r(2)
r(3) ...
⎥⎥⎥⎥⎥⎦
(37)
r(K1) r(K2) r(K3) · · · r(0)
aK
r(K )
Die Matrix der (Kurzzeit-)Autokorrelationskoeffizienten r(i) ist eine sogenannte symmetrische Toeplitz-Matrix, da alle Elemente mit gleicher Distanz zur Diagonalen den gleichen Wert haben. Für das Lösen des Gleichungssystems (37) existieren effiziente Algorithmen, welche die spezielle Struktur der symmetrischen Toeplitz-Matrix ausnützen. Beispielsweise wird mit dem Durbin-Algorithmus (38) der Prädiktor der Ordnung i iterativ aus dem Prädiktor der Ordnung i1 ermittelt.
2Diese Gleichungen sind in der Statistik unter dem Namen Yule-Walker-Gleichungen bekannt, wobei dort mit den Erwartungswerten der Autokorrelationsfolge gerechnet wird.
80 4. Analyse des Sprachsignals
Initialisation:
i=0 E(0) = r(0)
Iteration:
i = i+1
i1
r(i) + a(ji1)r(ij)
ki = a(ii) = ki
j=1
E (i1)
a(ji) = a(ji1) + kia(iij1)
1 ≤ j ≤ i1
E(i) = (1 ki2)E(i1) .
(38)
Dabei werden mit (i) die Grössen der i-ten Iteration bezeichnet. Die Koeffizienten des Prädiktors K-ter Ordnung sind schliesslich die a(jK). Die Parameter ki,
i = 1, 2, . . . , K werden als Parcor- (engl. partial correlation) oder Reflexionsko-
effizienten bezeichnet (siehe auch Abschnitt 4.5.3).
4.5.1.2 Kovarianzmethode Bei der Kovarianzmethode werden im Gegensatz zur Autokorrelationsmethode die Signalwerte s¯n(mK), . . . , s¯n(m1) nicht gleich null angenommen. Die Normalgleichungen führen deshalb auf eine Matrixgleichung mit einer Autokovarianzmatrix, die zwar symmetrisch ist, aber keine Toeplitz-Form hat. Der Durbin-Algorithmus lässt sich somit nicht anwenden. Der Vorteil der Kovarianzmethode liegt darin, dass über das ganze Analyseintervall stets die entsprechenden K Signalabtastwerte für den Prädiktor verfügbar sind und die Prädiktion also genauer ist. Ein wesentlicher Nachteil der Kovarianzmethode liegt darin, dass sie instabile Lösungen produzieren kann. Sie liefert also unter gewissen Umständen für die a1, . . . , aK Werte, für welche H(z) = 1/A(z) nicht ein stabiles Filter ist, was bei der Anwendung in Abbildung 4.14 zu Problemen führt. In der Sprachverarbeitung wird für die Lösung der Normalgleichungen praktisch ausschliesslich die Autokorrelationsmethode verwendet. Deshalb wird hier auf eine weitere Diskussion der Kovarianzmethode verzichtet. Interessierte Leser werden auf die einschlägige Literatur verwiesen, z.B. [35].
4.5.2 Sprachmodellierung mittels linearer Prädiktion Aus der Gleichung (30) ergibt sich unter Anwendung der z-Transformation (siehe Anhang B.2) die folgende Beziehung zwischen dem Sprachsignal und dem Prädiktionsfehler:
K
K
E(z) = S(z) + akzkS(z) = akzkS(z) = A(z)S(z),
(39)
k=1
k=0
4.5 Lineare Prädiktion
81
s(n)
A(z)
e(n) Quanti-
sierung
&
Codie-
ak
rung
e˜ (n)
H˜ (z)
s˜(n)
Decodie-
rung a˜ k
LPCAnalyse
Abbildung 4.14. Effiziente Übertragung eines Sprachsignals mittels linearer Prädiktion
wobei a0 = 1 ist. Umgekehrt kann mit der inversen Übertragungsfunktion von A(z) aus dem Fehlersignal wieder das Sprachsignal erzeugt werden, also
1
S(z) = E(z) = H(z)E(z).
(40)
A(z)
Da in der Gleichung (40) das Sprachsignal mit dem Filter H(z) “resynthetisiert” wird, bezeichnet man dieses als Synthesefilter. A(z) wird als inverses Filter bezeichnet und die Operation in Gleichung (39) dementsprechend als inverse Filterung. Mit der Serienschaltung von inversem Filter und Synthesefilter in Abbildung 4.14 ist selbstverständlich hinsichtlich Codierung im Sinne von Datenreduktion noch nichts gewonnen. Im Gegenteil, zusätzlich zum Fehlersignal e(n) müssen nun noch für jedes Analyseintervall die ak übertragen werden. Erst bei genauerem Betrachten der zu übertragenden Grössen stellt man fest, dass bei der Codierung in Abbildung 4.14 die Datenmenge sehr stark reduziert werden kann. Insbesondere das Fehlersignal e(n) lässt sich sehr stark komprimieren. Aus den Abbildungen 4.15 und 4.16 ist ersichtlich, dass das LPC-Spektrum (Betrag der Übertragungsfunktion des Synthesefilters H(z)) mit zunehmender Prädiktorordnung die Enveloppe des DFT-Spektrums des gegebenen Sprachsignalabschnittes besser approximiert. Für das Fehlersignal, das aus der inversen Filterung in Gleichung (39) resultiert, bedeutet dies, dass bei genügend hoher Prädiktorordnung K das DFT-Spektrum des Fehlersignals eine ungefähr ebene Enveloppe erhält, wie dies Abbildung 4.17 zeigt. Weiter ist zu sehen, dass der Prädiktionsfehler für einen stimmhaften Sprachsignalabschnitt mit der Grundfrequenz F0 die gleiche Periodizität aufweist. Dies muss selbstverständlich so sein, weil e(n) durch eine lineare Filterung aus s(n) entstanden ist und deshalb dieselben harmonischen Frequenzkomponenten aufweisen muss wie das Sprachsignal selbst. Bloss Amplitude und Phase dieser Komponenten können sich ändern. Dementsprechend muss e(n) rauschartig sein, wenn der zugehörige Sprachsignalabschnitt stimmlos ist.
82 4. Analyse des Sprachsignals
20 [dB]
10
0
10
20 0
Betrag des Signalspektrums und der Übertragungsfunktion von H(z) Ordnung des Prädiktors: 4
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
20 [dB]
10
0
10
20 0
Ordnung des Prädiktors: 8
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
20 [dB]
10
0
10
20 0
Ordnung des Prädiktors: 12
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
20
[dB]
Ordnung des Prädiktors: 16
10
0
10
20 0
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
Abbildung 4.15. Mit zunehmender Ordnung K approximiert das LPC-Spektrum, also der Betrag der Übertragungsfunktion des Filters H(z) die Enveloppe des DFT-Spektrums des Vokals [a] besser.
4.5 Lineare Prädiktion
83
Betrag des Signalspektrums und der Übertragungsfunktion von H(z)
20
[dB]
Ordnung des Prädiktors: 4
10
0
10
20 0
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
20
[dB]
Ordnung des Prädiktors: 8
10
0
10
20 0
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
20
[dB]
Ordnung des Prädiktors: 12
10
0
10
20 0
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
20
[dB]
Ordnung des Prädiktors: 16
10
0
10
20 0
500
1000
1500
2000
2500
3000
3500 [Hz] 4000
Abbildung 4.16. Mit zunehmender Ordnung K approximiert das LPC-Spektrum, also der Betrag der Übertragungsfunktion des Filters H(z) die Enveloppe des DFT-Spektrums des Konsonanten [s] besser.
84 4. Analyse des Sprachsignals
a)
1
s(n)
0
stimmhaftes Signal
1 10
1
s(n)
0
1 1
e(n)
0
1
b)
0.5
s(n)
0
0
10
20
30 [ms] 40
0
10
20
30 [ms]
0
10
20
30 [ms]
stimmloses Signal
20 [dB] 40
60 0
20 [dB] 40
60 0
Spektrum
1
2
3 [kHz] 4
1
2
3 [kHz] 4
0.5
10
0
10
20
30 [ms] 40
0.5
20
s(n)
[dB]
0
40
Spektrum
0.5 0.5
e(n)
0
0
10
20
30 [ms]
60
0
1
2
3 [kHz] 4
20 [dB]
40
0.5
0
10
20
30 [ms]
60
0
1
2
3 [kHz] 4
Abbildung 4.17. Darstellung des Prädiktionsfehlers für einen stimmhaften (a) und einen stimmlosen (b) Signalabschnitt. Auf der linken Seite zeigen je drei Teilabbildungen das mit 8 kHz abgetastete Sprachsignal (oben), der mit einem 30 ms langen Hamming-Fenster multiplizierte Signalabschnitt (Mitte) und das Fehlersignal des Prädiktors 12. Ordnung (unten). Auf der rechten Seite ist jeweils das Spektrum des daneben stehenden Signalabschnittes gezeichnet. Daraus ist ersichtlich, dass das Fehlersignal eine ungefähr ebene Enveloppe aufweist. Diese wird umso ebener, je höher die Ordnung des Prädiktors ist.
4.5 Lineare Prädiktion
85
Prädiktionsfehlersignal 0.2
0
normierte AKF 1
Max = 0.55 @ 9.1ms 0.5
0
T = 0.3
VU
0.2 0
0.2
0
0.5
10
20 [ms] 30
0
10 [ms] 20
1 Max < T
VU
0.5
0
TVU = 0.3
0.2 0
0.5
10
20 [ms] 30
0
10 [ms] 20
Abbildung 4.18. Aus dem 30 ms langen Abschnitt des Prädiktionsfehlersignals e(n) lässt
sich anhand der Autokorrelationsfunktion (nur bis 20 ms gezeichnet) die Periodizität bestimmen. Das grösste relative Maximum der normierten AKF im Suchbereich zwischen T0min = 6.25 ms und T0max = 15 ms zeigt an, dass das obere Signal periodisch ist, weil das Maximum grösser als der Schwellwert TV U = 0.3 ist. Die Länge der Periode beträgt T0 = 9.1 ms, was einer Grundfrequenz von 109.9 Hz entspricht. Für das untere Signal wird aufgrund des Maximums auf nicht periodisch entschieden.
Das Fehlersignal e(n) eines Analyseabschnittes kann nun durch ein künstliches Signal ersetzt werden, welches für das Gehör genügend ähnlich tönt. Dabei wird insbesondere berücksichtigt, dass das Ohr für Phasenverschiebungen wenig empfindlich ist. Das angenäherte Signal e˜(n) muss somit eine ebene spektrale Enveloppe haben und die gleiche Periodizität und Signalleistung aufweisen wie e(n). Somit kann das Eingangssignal des Synthesefilters H(z) in Abbildung 4.14 spezifiziert werden mit:
e˜(n) = G u(n),
(41)
wobei das Signal u(n) die Leistung 1 hat, und G ein Verstärkungsfaktor ist.
⎨ T0/Ts δ(nmT0/Ts)
u(n) = ⎩ N0
m
G=
1
1
N 1
e2(n)
2
.
N
n=0
falls e(n) periodisch mit T0/Ts sonst (weisses Rauschen)
(42)
Die Periode T0 von e(n) kann, wie in Abbildung 4.18 dargestellt, mittels der normierten Autokorrelationsfunktion r(j) bestimmt werden. Das grösste relati-
86 4. Analyse des Sprachsignals
F0
Impulsgenerator
Rauschgenerator
a1 . . . aK G
Synthesefilter
~s(n)
H(z)
Abbildung 4.19. Das LPC-Sprachproduktionsmodell veranschaulicht, wie aus den LPCParametern das Sprachsignal erzeugt wird. Diese Anordnung kann bei entsprechender Steuerung der Grössen G, F0 und a1, . . . , aK in Funktion der Zeit beliebige Sprachsignale produzieren.
ve Maximum von r(j) im Bereich T0min /Ts ≤ j ≤ T0max /Ts wird dabei zweifach eingesetzt: 1. Aufgrund der Höhe des Maximums kann entschieden werden, ob e(n) und
damit auch s(n) als periodisch, also als stimmhaft zu betrachten ist, nämlich dann, wenn das Maximum die empirische Schwelle TV U übersteigt. 2. Der Index j des Maximums liefert die Periodendauer von e(n), nämlich T0 = jTs.
Das zu einem Analyseabschnitt gehörige Prädiktionsfehlersignal e(n) kann also näherungsweise durch zwei Werte beschrieben werden, nämlich G und F0 = 1/T0 (bzw. F0 = 0, falls e(n) nicht periodisch ist). Dementsprechend sind nur diese Werte zu übertragen. Auf der Seite der Decodierung wird aus F0 und G gemäss den Formeln (41) und (42) das Signal e˜(n) erzeugt. Durch Filterung mit dem Synthesefilter resultiert s˜(n), das rekonstruierte Sprachsignal. Diese Art der Sprachsignalrekonstruktion aus den Grössen G, F0 und ak, k = 1, . . . , K, die kurz als LPC-Parameter bezeichnet werden, ist in Abbildung 4.19 veranschaulicht. Mit dem Ersetzen von e(n) durch e˜(n) kann offensichtlich eine beträchtliche Datenreduktion (allerdings nicht eine verlustlose) erreicht werden. Wenn zudem die zu übertragenden Grössen (G, F0 und die a1, . . . , aK ) optimal quantisiert werden, dann benötigt das codierte Sprachsignal für die Übertragung in Abbildung 4.14 nur noch etwa 23 kBit/s.
4.5.3 Interpretation der linearen Prädiktion In Abschnitt 1.3.2 ist die Funktion des menschlichen Sprechapparates grob mit den beiden Komponenten Schallproduktion und Klangformung umschrieben worden. Insbesondere für die Vokale, bei denen die Stimmlippen den Schall
4.5 Lineare Prädiktion
87
produzieren und der Vokaltrakt als akustisches Filter den Lautklang formt, ist die Analogie mit dem LPC-Sprachproduktionsmodell in Abbildung 4.19 offensichtlich. Diese Analogie ist in Abbildung 4.20 dargestellt. Es fragt sich nun, ob von der Übertragungsfunktion H(z) des LPC-Synthesefilters auf die Form des Vokaltraktes bzw. auf die Stellung der Artikulatoren geschlossen werden kann.
Stimm-
e(n)
Vokaltrakt
s(n)
lippen
(akust. Filter)
Puls-
e~(n) LPC-Synthese- s~(n)
generator
filter H(z)
Abbildung 4.20. Analogie zwischen dem Modell des menschlichen Vokaltraktes (oben) und dem LPC-Sprachproduktionsmodell (unten)
Das Spektrum des Eingangssignals e˜(n) des LPC-Synthesefilters H(z) hat eine ebene Enveloppe. Im von den Stimmlippen erzeugten Signal e(n) sind jedoch die tiefen Frequenzkomponenten viel stärker vorhanden als die hohen. Weil die Spektren der Sprachsignale s(n) und s˜(n) im Wesentlichen gleich sind, müssen das Vokaltraktfilter und das LPC-Synthesefilter also klar verschiedene Übertragungsfunktionen haben. Aufgrund von H(z) ist somit keine Aussage über die Form des Vokaltraktes möglich. Man kann das Modell des menschlichen Vokaltraktes jedoch wie in Abbildung 4.21 gezeigt erweitern. Mit einem sogenannten Präemphase-Filter P (z) wird der Tiefpasscharakter des Signals e(n) von den Stimmlippen so kompensiert, dass das Spektrum des Signals e (n) eine ebene Enveloppe erhält. Als Präemphase-Filter kann ein Transversalfilter erster Ordnung eingesetzt werden:
P (z) = 1 + bz1 .
(43)
Dabei hängt der optimale Koeffizient b etwas vom Sprecher ab, muss aber ungefähr 0.98 sein.
Stimmlippen
e(n) P(z) e'(n)
Vokaltrakt (akust. Filter)
s'(n) 1 s(n) P(z)
Abbildung 4.21. Erweitertes Modell des menschlichen Vokaltraktes
Selbstverständlich entspricht dann das Spektrum des Ausgangssignals s (n) des Vokaltraktes nicht mehr dem Spektrum des Sprachsignals s(n). Um die Präemphase zu kompensieren muss noch ein Deemphase-Filter 1/P (z) eingesetzt werden. Aus der Abbildung 4.21 ist nun ersichtlich, dass wir das Signal s (n) verwenden können, um mittels der LPC-Analyse das Filter H (z) zu ermitteln, das dem Vokaltraktfilter entspricht.
88 4. Analyse des Sprachsignals
Wenn wir also mit der LPC-Analyse aus dem Sprachsignal die Form des Vokaltraktes schätzen wollen, dann müssen wir das Sprachsignal zuerst mit dem Präemphase-Filter filtern, weil s (z) = s(z)P (z). Aus dem Signal s (n) können sodann mit dem Durbin-Algorithmus (38) die Reflexionskoeffizienten ki, i = 1, . . . , K ermittelt werden. Aus den Reflexionskoeffizienten lässt sich ein äquivalentes akustisches Filter aus K+1 gleichlangen, verlustlosen Röhrenabschnitten bestimmen. Die Länge der Röhrenabschnitte beträgt L = c Ts/2 = c/(2fs), wobei c die Schallgeschwindigkeit ist. Das Verhältnis der Querschnittsflächen zweier aufeinander folgender Röhrenabschnitte ist gegeben durch die sogenannte Area Ratio:
Ai+1 = 1 ki ,
1≤i≤K
(44)
Ai 1 + ki
Damit ist das in Abbildung 4.22 dargestellte akustische Filter bis auf einen Skalierungsfaktor bestimmt. Der Radius der Segmente wird deshalb im Verhältnis zum ersten Segment (bei der Glottis) angegeben.
3
[a] 2
relativer Radius der Segmente
1
0 3
[e] 2
1
0
Röhrensegmente
3
[i] 2
1
0 3
[o] 2
1
0 3
[u] 2
1
0
0
5
Glottis
10 [cm] 15
Lippen
Abbildung 4.22. Röhrenmodell des Vokaltraktes und relativer Radius der Segmente für die Vokale [a], [e], [i], [o] und [u]. Die Länge der Segmente beträgt c/(2fs) = 2.144 cm.