Motivation

Die Ursprache, von der die Schwestersprachen abstammen, ist meistens nicht selbst durch Dokumente überliefert und muß daher durch historischen Vergleich rekonstruiert werden. Die Rekonstruktion wird durch die Interferenz von Sprachkontakten erschwert. Sie gelingt nie vollständig. Mithin bringen rekonstruierte Sprachen als Input für weiteren Sprachvergleich eine erhebliche methodische Unsicherheit mit sich. Linguisten unterscheiden sich darin, wie weit sie in der Rekonstruktion zurückgehen. Die vorsichtigen rekonstruieren Ursprachen ausschließlich auf der Basis historisch belegter Sprachen. Die wagemutigen errichten Stammbäume über rekonstruierten Sprachen und fassen Sprachfamilien zu Stämmen und Phyla wie z.B. Nostratisch zusammen.

Die gewissenhafte Anwendung der historisch-vergleichenden Methode, so wie zuvor dargestellt, erfordert für jede verglichene Sprache mindestens das folgende:

Es sind die ältesten Dokumente ausfindig zu machen und auszuwerten.
Die synchrone Beschreibung der ältesten Sprachstufe ist mindestens so weit zu erstellen, daß man auch grammatische Formative vergleichen kann.
Von Tausenden von Wörtern ist die Etymologie zu machen.
Es sind die gültigen Lautgesetze aufzustellen.

Die Verfahren sind in den letzten zwei Jahrhunderten i.w. anhand der indogermanischen (aber auch der finno-ugrischen und der semitischen) Sprachen entwickelt und perfektioniert worden. Sie sind im Prinzip auf beliebige Sprachen anwendbar. Sie müßten auf die etwa 7.000 bekannten Sprachen angewandt werden, um deren Verwandtschaftsverhältnisse zu klären. Das wird z.T. auch gemacht; z.B. war Ende des 20. Jh. ein internationales Projekt mit ihrer Anwendung auf die Sprachen Südamerikas befaßt. Die Verfahren sind aber sehr aufwendig; und das Verhältnis zwischen Aufwand und Ertrag ist nicht sehr günstig:

Wenn man von den ganz wagemutigen Rekonstruktionen absieht, rechnet die Wissenschaft mit mehreren Hundert Sprachfamilien auf der Erde, darunter viele isolierte Sprachen. Niemand glaubt aber an hundertfache Polygenese der menschlichen Sprache.
Zahlreiche Sprachen sind areal benachbart und typologisch ähnlich, und die Wahrscheinlichkeit spricht für ihre genetische Verwandtschaft; aber die historisch-vergleichende Methode ist nicht in der Lage, diese zu erweisen. Ein bekanntes Beispiel sind Koreanisch und Japanisch.
Die rekonstruierbaren Ursprachen reichen nicht sehr weit in die Vergangenheit zurück. Urindogermanisch z.B. liegt etwa 500 – 1.000 Jahre vor den ältesten Dokumenten einer Einzelsprache (Althethitisch, ca. 1900 v. Ch.). Das ist nicht älter als die älteste historisch überlieferte Sprache, das Sumerische (frühestens ab -3.500), das seinerseits isoliert ist.
Die historisch-vergleichende Methode ist eng an das Stammbaummodell der Sprachverwandtschaft gebunden. Die Verwandtschaft zahlreicher Sprachen läßt sich aber mit diesem Modell nicht erfassen. Die Sprachen Australiens werden z.B. großenteils von Nomaden gesprochen, die eine Zeitlang Sprachkontakt mit einem Stamm und dann wieder intensiven Kontakt mit einem anderen Stamm haben, was ganz komplizierte Verwandtschaftsbeziehungen ergibt.

Mit dieser methodischen Situation sind zahlreiche Wissenschaftler ebenso unzufrieden wie die Laien, die mehr über die Herkunft unserer Sprachen wissen wollen. Man sucht also nach alternativen Methoden.

Lexikostatistik

Wir gehen noch einmal zurück auf die Unterscheidung von Kontiguitäts- und Similaritätsbeziehungen. Wenn man darauf verzichtet, in der Unterscheidung zwischen genetischer und Lehnverwandtschaft sicher zu gehen, und sich damit begnügt, historische Verwandtschaft von typologischer Ähnlichkeit zu unterscheiden, dann kann es genügen, den Grad zu messen, zu welchem zwei Sprachen sich in arbiträren Eigenschaften, und das bedeutet für die meisten: im Vokabular, ähneln. Man wendet also statistische Methoden auf den Wortschatz an. Das wird wie folgt gemacht:

Man erstellt eine geeichte Liste von fundamentalen Begriffen, von denen man annimmt, daß alle Sprachen ein Wort dafür haben. Dadurch, daß die Begriffe so elementar sind, sind die sie bezeichnenden Wörter – wie man hofft – weitgehend resistent gegen Entlehnung und werden auch nicht jeden Tag durch Neologismen ersetzt.
Die Liste übersetzt man in die zu vergleichenden Sprachen.
Für jedes übersetzungsäquivalente Wortpaar stellt man fest, ob die Significantia historisch verwandt, nämlich ähnlicher sind, als durch Zufall möglich wäre.
Die Verwandtschaft zwischen den beiden Sprachen ist dann der Prozentsatz an Wörtern der Liste, die verwandt sind: je größer der Prozentsatz, desto enger sind die Sprachen verwandt.

Zu Punkt 3 ist zu ergänzen, daß wenn zwei verglichene Wörter etymologisch dieselbe Wurzel haben, sie in diesem Sinne verwandt sind. Nachträgliche morphologische Modifikationen spielen keine Rolle. Daher gilt ital. fratello mit lat. frater und frz. frère, und frz. oreille gilt als mit lat. auris verwandt, obwohl die jeweils ersteren von den lateinischen Wörtern per Deminution abgeleitet sind.

Das Verfahren heißt Lexikostatistik und geht auf Morris Swadesh zurück, der es um die Mitte des 20. Jh. auf zahlreiche Sprachen Amerikas anwandte. Von der Liste gibt es mehrere Fassungen, darunter eine 100-Wort-Liste. Die Fassung mit 207 Begriffen ist hier.

Von diesem Verfahren existiert eine Variante, die nicht eine geeichte Begriffsliste, sondern einen geeichten Text verwendet, der in die zu vergleichenden Sprachen übersetzt wird. Die Methode wird von Sergej Starostin und Witold Mańczak angewandt.

Glottochronologie

Jede Sprache erneuert im Laufe der Zeit ihr Vokabular, sei es durch Neologie (i.w. Wortbildung), sei es durch Entlehnung. Das schließt auch fundamentale Begriffe der Basic Word List ein. Das Englische z.B. hat für Position 2 der Swadesh-Liste jahrtausendelang thou bzw. dessen historische Vorgänger verwendet; aber seit einigen Hundert Jahren verwendet es das – nicht etymologisch verwandte – you. Das Wort für Position 38, person, ist ein Lehnwort aus dem Französischen. Man kann annehmen, daß eine Sprache im Laufe einer langen Zeit alle Begriffe auf der Liste mit neuen Wörtern bezeichnen wird, und daß dieser Prozeß stetig ist. Das heißt, dieser Grundwortschatz hat eine Art Halbwertzeit, in der er verfällt. Diese ist meßbar, ganz ähnlich wie die Radiokarbonmethode C14 die Halbwertzeit von organischem Material mißt. Auf diese Weise ist es möglich, das Alter einer Sprache relativ zu einer als Fixpunkt angenommenen Ursprache zu bestimmen.

Angenommen, zwei Schwestersprachen haben je 80% ihres Vokabulars mit der Ursprache gemeinsam, dann haben sie miteinander mindestens 64% gemeinsam. Den Prozentsatz des beibehaltenen Wortschatzes einer Sprache erhält man also als das Zehnfache der Quadratwurzel des Prozentsatzes der Gemeinsamkeiten mit der Schwestersprache.

An Sprachen, die eine lange und gut untersuchte Geschichte haben, nämlich Spanisch und Englisch, hat Swadesh seinen “lexikalischen Chronometer” geeicht. Daraus resultiert eine “Retentionskonstante”, die glottochronologische Konstante r. Sie beträgt 0,86 für die 100-Wort-Liste und 0,81 für die 200-Wort-Liste und repräsentiert das Faktum, daß nach 1000 Jahren noch 86% bzw. 81% des Wortschatzes erhalten sind.

Somit ergibt sich für die Zeit, für welche zwei verglichene Sprachen getrennt sind, folgende Formel (nach Robert B. Lees):

Glottochronologische Formel
t	=	ln c
		ln r

t: Jahrtausende der Zeittiefe einer Sprache (Abstand von der Ursprache)
t/2: zwischen zwei Schwestersprachen aufgeteilte Zeittiefe (Abstand von dem nächsten ihnen gemeinsamen Knoten)
ln: Logarithmus naturalis, d.i. Logarithmus zur Basis e^*
c: Prozentsatz des gemeinsamen Basiswortschatzes (0 < c < 1)
r: glottochronologische Konstante.

^* e = 2.71828 18284 59045 23536 02874 . . .; wird als logarithmische Basis für exponentielles Wachstum verwendet.

Der Wert t wird berechnet, wenn die eine der verglichenen Sprachen von der anderen abstammt. t/2 wird berechnet, wenn zwei nicht voneinander abstammende Sprachen verglichen werden (was der Normalfall ist). So werden Zeittiefen der genetischen Verwandtschaft zwischen Sprachen angegeben, also z.B. 1.500 Jahre für die Beziehung zwischen Französisch und Italienisch.

Die folgende Tabelle gibt – nach Art einer Logarithmentafel – die Ergebnisse der Formel für eine Serie von Retentionswerten. Ein Beispiel für die Anwendung der Swadesh-Liste auf einige europäische Sprachen liegt auf dem Web.

Prozentsatz des gemeinsam bewahrten Grundwortschatzes nach Trennungszeit
(Ehret 2000:288)
Trennungszeit in Jahren	Bewahrungsrate in %
1000	74
2000	55
3000	40
4000	30
5000	22
6000	16
7000	12
8000	9
9000	7
10000	5

Die Methode hat eine Reihe unbestreitbarer Vorteile:

Sie ist auf beliebige Sprachen anwendbar, auch wenn über ihre Verwandtschaftsverhältnisse nichts bekannt ist.
Sie erfordert keinen hohen Analyseaufwand.
Sie gibt über beliebig entfernte Verwandtschaftsverhältnisse Auskunft.
Sie verortet Ursprachen sogar noch zeitlich.

Die meisten Linguisten haben dennoch erhebliche Vorbehalte gegen Glottochronologie. Diese beziehen sich auf verschiedene Punkte:

Historische Verwandtschaft läßt sich nicht auf einen lexikalischen Vergleich allein gründen; vor allem müssen grammatische Formen verglichen werden.
Die vorgelegte Liste von Begriffen ist nicht universal. Zahlreiche Sprachen haben kein Wort für Nummer 14 ‘when’, 26 ‘five’, 105 ‘smell’ usw. Es könnte überhaupt unmöglich sein, eine universale Liste aufzustellen.
Die Kriterien dafür, ob zwei Wörter verwandt sind (§2, #3), sind völlig unklar.
Die Retentionsrate (bzw. Geschwindigkeit des lexikalischen Wandels) einer Sprache ist überhaupt nicht konstant, sondern hängt von einer Reihe von Faktoren ab, darunter Sprachkontakt, Tabu, schriftliche Tradition, Nationalstolz.

Literatur

Lees, Robert B. 1953, "The basis of glottochronology." Language 29:113-127.

Sjoberg, Andree & Sjoberg, Gideon 1956, "Problems in glottochronology." American Anthropologist 58(2):296-308.

Weiteres über Lexikostatistik und Glottochronologie

Übungsaufgabe: Glottochronologie