Gegenstandsbereich und Gliederung der Phonetik

Der Gegenstand der Phonetik sind Sprachlaute. Die Phonetik untersucht und beschreibt, wie sie erzeugt, übertragen und wahrgenommen werden. Bei der Lautübertragung lassen sich drei Phasen unterscheiden:

Sprechen: der Weg von der Repräsentation im Hirn des Sprechers bis zu seinen Lippen
Übertragung: der Weg von den Lippen des Sprechers bis zum Ohr des Hörers
Hören: der Weg vom Ohr des Hörers bis zu seinem Hirn.

Die drei Phasen sind in folgendem Schaubild dargestellt:

Gegenstand und Disziplinen der Phonetik

Der Gegenstandsbereich der Phonetik unterteilt sich dadurch von selbst, und dem entsprechen drei Disziplinen dieser Wissenschaft.

Akustische und auditive Phonetik

Die akustische Phonetik untersucht die physikalischen Eigenschaften der Schallwellen, die den Sprachlaut transportieren. Schallwellen sind Schwingungen der Luftmoleküle, die von Schwingungen der Schallquelle – also bei der Lauterzeugung – ausgelöst werden und beim Empfänger diverse Bestandteile im Ohr in Schwingung versetzen. Dem Sprachlaut entspricht freilich keine reine Schwingung (die gibt es in der Natur nicht), sondern eine aus vielen Einzelschwingungen zusammengesetzte komplexe Schwingung. Der Schall wird aufgezeichnet und nach folgenden akustischen Parametern analysiert:

Mit phonetischer Analysesoftware, die diese Parameter getrennt visualisiert, kann man die akustischen Eigenschaften einer Äußerung darstellen. In dem Schaubild ist folgende Sequenz (von Homer Simpson) dargestellt:

‘To start, press any key.’ – Where's the any key?

Die Abbildung ist wie folgt zu verstehen:

Die waagerechte oder X-Achse ist für alle Darstellungen die Zeit. Die Äußerung dauert insgesamt dreeinhalb Sekunden.
Die letzte Zeile enthält eine relativ enge phonetische Transkription der Äußerung im Internationalen Phonetischen Alphabet (IPA).¹ Die Symbole stehen jeweils unter den akustischen Komponenten, die sie repräsentieren.
Die oberste Zeile enthält ein Oszillogramm der Äußerung, genauer: ihrer Grundfrequenz (s.u.). Es gibt Informationen auf beiden Achsen:

Die Stärke der Ausschläge der Schwingung auf der Y-Achse gibt ihre Amplitude wieder; m.a.W., man sieht, zu welchen Zeitpunkten die Stimme wie laut ist. Dieses Oszillogramm ist oben und unten abgeschnitten; sonst könnte man deutlicher sehen, daß die Vokale jeweils am lautesten sind. Die Frikative² – [ s h z ð ] – sind leiser. Bei den stimmlosen Verschlußlauten [ p t k ] gibt es praktisch keinen Ausschlag, woraus man schließen kann, daß sie nicht zu hören sind. Diese Laute kann man in der Tat nicht an ihrem eigenen Klang erkennen (da sie keinen haben), sondern stattdessen am Verlauf der benachbarten Vokale.
Auf der X-Achse folgen die Ausschläge des Oszillogramms – also die einzelnen Schwingungen – i.a. so dicht aufeinander, daß man in der Waagerechten durchgehende Schwärzung hat. An einigen Stellen, z.B. bei 0,75 sek, kann man jedoch an den Rändern des Oszillogramms – also bei relativ großer Amplitude – erkennen, wie einzelne Schwingungen auf der X-Achse aufeinanderfolgen. Daß die Ausschläge auf der X-Achse weniger dicht aufeinanderfolgen, bedeutet, daß es weniger Schwingungen pro Zeiteinheit sind, daß also die Stimme tiefer ist. Besonders tief ist sie bei 0,75 sek, also bei dem [ɽ].

Die mittlere Zeile enthält ein Sonagramm der Äußerung. Es ist wie folgt aufgebaut:

Die Y-Achse entspricht der Frequenz der Schwingung, genauer: der Frequenz der beteiligten Schwingungen. Die tiefste Schwingung liegt in diesem Sonagramm bei etwa 200 Hz, die höchste dargestellte Schwingung bei etwa 5.400 Hz. Die tiefste Schwingung entspricht der Stimmhöhe und ergibt die Grundfrequenz.
Der Schwärzungsgrad entspricht der Intensität der jeweiligen Frequenz. Am schwärzesten, also auditiv am prominentesten ist die Grundfrequenz. Dunkle quer oder schräg darüber verlaufende Balken sind die zu Komponenten des komplexen Schalls gehörigen Frequenzen. Sie heißen Formanten, weil die auf einer Senkrechten liegenden Balken gemeinsam einen Laut, und zwar insbesondere einen Vokal formen. Für Vokale interessieren vor allem die beiden niedrigsten Formanten. Z.B. sieht man bei allen [i]-Lauten mehrere Formanten, von denen bei Ende der Dauer des Vokals der unterste unmittelbar über der Grundfrequenz, also bei 250 Hz, der nächsthöhere dagegen bei etwa 2.200 Hz liegt. Am Ende des [e] dagegen liegen diese beiden Formanten etwa bei 400 und 2000 Hz, also dichter beieinander. Dieses sind die phonetischen (und zwar die akustischen) Merkmale, anhand deren wir die Vokale unterscheiden.
Die höchsten Frequenzen – bei gleichzeitigem Fehlen von niedrigen Frequenzen – sieht man beim [s]. Das entspricht dem auditiven Eindruck eines Zischens, der den Sibilanten ihren Namen gegeben hat.
Jeder Laut erstreckt sich über eine bestimmte Dauer. Z.B. beginnt das [ɛ] von press bei 1.050 ms und endet bei 1.200 ms. Das Sonagramm zeigt, daß dieser Laut – ebenso wie alle anderen – sich während seines Verlaufs ändert. Zwischen den meisten Lauten gibt es auch keine klaren Grenzen. Der Gegenstand der Phonetik ist kontinuierlich, nicht diskret.

Die Transkription verdeutlicht, daß in einer lautlichen Äußerung auch einige akustische Information enthalten ist, die im Lautsystem gar nicht gebraucht wird. Z.B. sind die stimmlosen Okklusive – außer nach [s] – aspiriert. Und vor dem Wort any ist deutlich der glottale Verschlußlaut zu sehen. Früher wurden Transkriptionen ausschließlich durch wiederholtes Abhören einer Audioaufnahme angefertigt. Die Visualisierung hilft dem Phonetiker noch besser, objektiv zu transkribieren.

Artikulatorische Phonetik

Die artikulatorische Phonetik untersucht die Funktionsweise der Sprechorgane. Diese dienen dazu, den Sprachlaut zu erzeugen und zu artikulieren:

Zur Schallerzeugung wird ein geeigneter Körper durch eine Kraft in Schwingung versetzt. Bei stimmhaften Lauten – z.B. [ i d l ] – schwingen die Stimmbänder. Bei Frikativen – z.B. [ s h ] – wird durch eine Verengung im Artikulationsraum Turbulenz erzeugt. In beiden Fällen gerät die Luft, zunächst mit einer Grundfrequenz und dem zugehörigen Obertonspektrum, in Schwingung.
Die Artikulation des einmal erzeugten Lautes wird dadurch erreicht, daß der Raum zwischen Kehlkopf und Lippen (einschließlich des Nasenraums) als Resonanzraum benutzt wird. Dadurch, daß einige Artikulatoren, vor allem die Zunge, beweglich sind, bekommt der Resonanzraum bei jedem Laut eine andere Konfiguration. Dadurch werden die an der Quelle erzeugten Frequenzen teils gedämpft, teils verstärkt, und der Laut erhält seine charakteristische Klangfarbe.

Die Bewegungen der Organe der Schallerzeugung und der Artikulation werden gleichsam über einen kontinuierlich aus der Luftröhre kommenden Luftstrom gelegt. Mehrere Organe können teilweise unabhängig voneinander bewegt werden. Zu jedem Augenblick ergibt ihre Konfiguration die Stellung für einen bestimmten Sprachlaut. In dem Moment, wo ein Organ eine entscheidend andere Operation ausführt, liegt die Grenze von einem phonetischen Segment zum nächsten. Das folgende Schaubild illustriert das, wenn auch grob und vortheoretisch, für die Artikulation des deutschen Wortes pennt.

Artikulationsbewegungen für pennt
Zeit		→
Stimmbänder	Schwingung	-		+		-
bilabial	Verschluß	+	-
alveolar	Verschluß	-			+		-
nasal	Öffnung	-			+	-
Mittelzunge	halbhoch	-	+				-
	vorn	-	+				-
Segment		p	ʰ	ɛ	n	t	ʰ

Das einzige, was zu Beginn des Wortes gemacht wird, ist der Verschluß an den Lippen. Die nächste Operation ist dann dessen Lösung; dabei ertönt das [p]. Gleichzeitig bewegt sich die Mittelzunge in die halbhohe vordere Position, die für das [ɛ] benötigt wird. Als nächstes beginnen die Stimmbänder zu schwingen; und dadurch ertönt nun auch das [ɛ]. Für das folgende ist die Stellung der Mittelzunge gleichgültig. Sie wird einfach mitgenommen, wenn die Zungenspitze einen Verschluß an den Alveolen bildet. Im selben Moment senkt sich das Zäpfchen, so daß der Luftstrom (der im Mund durch den alveolaren Verschluß gestoppt wird) durch die Nase entweichen kann. Die Stimmbänder schwingen weiter. Das ergibt das [n]. Am nächsten Punkt wird das Zäpfchen wieder an den weichen Gaumen gehoben, so daß die Artikulation wieder oral wird. Gleichzeitig hören die Stimmbänder auf zu schwingen. Der alveolare Verschluß bleibt jedoch erhalten. Das leitet nun über zum [t]. Dieses hört man freilich erst im letzten Schritt, wenn der alveolare Verschluß gelöst wird. Falls hier die Äußerung endet, geht auch die Zunge wieder in ihre Ruhelage; aber das ist nicht wesentlich.

Wenn sich – auf der waagerechten Achse – auch nur eine Stellung oder Operation ändert, beginnt ein neues Segment. Und jedes Segment wird geformt durch die Konfiguration der gleichzeitig – also auf der senkrechten Achse – statthabenden Stellungen bzw. Operationen. Das [n] ist z.B. dadurch charakterisiert, daß die Stimmbänder schwingen, an den Alveolen ein Verschluß gebildet ist und der Zugang zum Nasenraum geöffnet ist. Es ist hier bereits auf phonetischer Ebene die Idee des Segments als eines Bündels von Merkmalen angelegt, die im Abschnitt über Phonologie wieder aufgegriffen wird.

Besonderes Interesse verdient die Aspiration der beiden Verschlußlaute des Beispielwortes. Sie resultiert daraus, daß bei der Lösung des Verschlusses, also an der rechten Grenze des [p] und des [t], die Stimme nicht sofort einsetzt. (Man sieht das auch deutlich in obigem Sonagramm im Worte key bei 1,8 sek.) Dieser Verzug im Stimmeinsatz nach der Lösung stimmloser Verschlußlaute ist kennzeichnend für die deutsche, aber auch für die englische Aussprache. Erlernt ein deutscher Muttersprachler eine romanische Sprache, hat er sich das abzugewöhnen, wenn er nicht mit deutschem Akzent sprechen will. Im Französischen, Italienischen usw. fällt der Moment der Verschlußlösung exakt mit dem Moment des Stimmeinsatzes zusammen.

Die Attemporation dieser beiden Operationen begründet übrigens außerdem den Unterschied zwischen stimmhaften und stimmlosen Verschlußlauten. Zu Beginn eines Verschlußlautes wird jedenfalls ein Verschluß gebildet und angehalten.

Setzt nun die Stimme vor der Lösung desselben ein (oder schwingen die Stimmbänder sowieso seit dem vorangehenden Laut weiter), so resultiert ein stimmhafter Verschlußlaut, z.B. [b].
Setzt jedoch die Stimme nicht vor der Verschlußlösung ein, so resultiert ein stimmloser Verschlußlaut, z.B. [p]
Und setzt sie gar erst mit Verzug ein, so resultiert ein aspirierter stimmloser Verschlußlaut, z.B. [pʰ].

Stimmhafte, stimmlose und aspirierte Verschlußlaute unterscheiden sich also bloß durch den Zeitpunkt, zu welchem relativ zur Verschlußlösung die Stimme einsetzt. Das ist in folgendem Diagramm veranschaulicht.

Stimmeinsatzpunkt
Zeit	→
Verschlußlösung
Stimmeinsatz
Stimmhaftigkeit	voll stimmhaft	teilweise stimmhaft	stimmlos unaspiriert	stimmlos aspiriert
bilabiales Beispiel	b	b̥	p	pʰ
französische Opposition
deutsche Opposition

Im Französischen ist also der phonetische Unterschied zwischen einem [b] und einem [p] gerade der im IPA definierte, nämlich daß ersteres stimmhaft ist, letzteres nicht. Im Deutschen dagegen besteht der phonetische Unterschied zwischen den im Lautsystem entsprechenden beiden Lauten nicht darin. Vielmehr ist das deutsche /b/ überwiegend stimmlos, aber unaspiriert, während das /p/ aspiriert ist. Französisch und Deutsch nutzen zwar dasselbe Merkmal (Stimmhaftigkeit); aber die ganze Opposition ist im Deutschen gleichsam auf der Zeitachse nach rechts verschoben.

Die aus diesem Beispiel zu ziehenden Lehren werden im Abschnitt über Phonologie behandelt.

¹ Die Bedeutung der IPA-Symbole kann man z.B. auf den Seiten über Vokale und Konsonanten nachsehen.

² Die Bedeutung der Fachausdrücke geht ebenfalls aus den zuvor genannten Seiten hervor.