Vergleichende Linguistik - statistische Verfahren

Augusto · 03. Okt. 2015

Ich sollte wohl noch mal erläutern, was mich u.a. auf das Thema gebracht hat: Im Phönizier-Faden hatte ich, bevor dieser endgültig in seichte Gewässer geriet, hier und hier "merkwürdige" interkontinentale Sprachverbindungen aus dem lexikostatistisch erstellen World Language Tree referiert. Da ich nicht sämtliche amerindische, afrikanische und neuguineische Sprachen auf Anhieb geographisch lokalisieren kann, habe ich mir die Mühe gemacht, diverse dieser Sprachverbindungen zu kartieren (Anlage). Nicht vollständig, dazu sind es zu viele, irgendwann gingen mir Lust und unterscheidbare Farben aus, aber wohl schon die meisten.
Das entstandene Muster ist zugegebenermaßen nicht nut auf den ersten Blick verwirrend. Klar wird jedoch, daß, wenn auch nur ein Teil der lexikostatistisch ermittelten Beziheungen eingehenderer Überprüfung standhält, deutlich mehr auf den Ozeanen los war als in den Geschichtsbüchern steht. Und zwar nicht nur transpazifisch, ondern auch und v.a. über Indischen Ozean und Atlantik. Ins Blickfeld rücken insbesondere Neuguinea mit seiner hohen linguistischen Diversität, dazu (Alt-)Guinea, weniger Guyana, dafür aber das ebenfalls linguistisch hoch diverse Amazonien. Angemerkt sei, daß die transpazifischen Beziehungen v.a. von Neuguinea, daneben Südostasien (Tai-Kadai, Taiwan) ausgehen, während lexikostatistisch die meisten der "üblichen Verdächtigen" für die Erstbesiedlung Amerikas (Tungusen, Japaner, Ainu etc.) ihren Weg dorthin über Indischen Ozean und Atlantik fanden.

Sepiola schrieb:
Zur Interpretation steht bereits im verlinkten Text:

If the two languages are geographically distant, their close lexical similarity is more likely explained by chance than by either inheritance or diffusion. Also, language isolates may join one another on a terminal branch because they have nowhere else to go in the tree, creating the illusion that exciting, new far-flung relations may be in evidence. One should be cautious in the interpretation of these cases.

Zum Vergrößern anklicken....

Um Verwandschaften zu behaupten oder gar noch weitreichendere Schlüsse zu ziehen, ist der Baum keine Grundlage.

Ich bin nicht in die Details des für die Erstellung des Baums verwendeten Algorithmus eingestiegen. Stattdessen habe ich stichprobenmäßig ein paar der dort aufgezeigten Beziehungen nachkontrolliert. Hierzu als Vorbemerkungen:

Die dem Baum zugrundeliegende Datenbank enthält idealerweise pro Sprache jeweils 40 Grundvokabeln. Nicht immer wurden die Vokabeln vollständig aufgnommen; teilweise lagen der lexikostatistischen Analyse nur 30 Vokabeln zu Grunde.
Als "Faustregel" sind bis 5% lexikostatistische Übereinstimmung als zufälig anzusehen, bei über 10% wird von Sprachverwandschaft ausgegangen. Die kleine Grundgesamtheit der analysierten Vokabeln gibt Anlaß, diese Grenzen etwas höher anzusetzen. 3-4 halbwegs plausible Kognate solten es also auf jeden Fall sein, ab 6 Kognaten (~15-20%) liegen starke Indizien für Sprachverwandschaft vor.

Zur Kalibrierung habe ich zunächst Spanisch-Hochdeutsch-Armenisch als gesicherte Sprachverwandschaft auf Basis der Datenbankeinträge geprüft. Dabei habe ich mich "dumm gestellt", d.h. dem lexikostatistischen Vergleich nur die entsprechenden Notationen zu Grunde gelegt, ohne weiteres Wissen einzubeziehen. Dadurch werden z.B. span. yo, hdt. ix, span. dos, hdt. cvai, oder span. yeno dt. fol mangels korrespondierender Laute als Kognate verworfen. Ebenso scheidet arm. cic, hdt. Brust aus, auch wenn Zitze, Titte deutsche Parallelen liefern. Mit diesem Ansatz kam ich für die 40 Grundvokabeln auf 25% spanisch-armenische, 30% deutsch-armenische und 38% spanisch-deutsche Korrespondenz.
In Erweiterung habe ich die spanische 100-Vokabel-Liste gegen Deutsch geprüft, wobei ich nun auch die o.g. Fälle als korrespondierend einbezog, und erhielt einem Wert von nur noch 31%. Dies zeigt, daß, trotz der geringen Grundgesamtheit, die verwendeten 40 Grundvokabeln tendenziell geeignet sind, einen zutreffenden Eindruck der lexikalischen Nähe zweier Sprachen zu vermitteln.

Nun zu den Stichproben:
A. Mande-Sprachen (Westafrika, Niger-Kongo) -- Mandi (Marienberg-Sprachen, Neuguinea), hellblau in der Karte: Die Namensähnlichkeit war verlockend, und die geograühische Relation interessant. Hier die mir plausibel bzw. spekulaitiv denkbar erscheinenden Kognate (Mandinka-Mandi, soweit nicht anders angegeben; Soninka ist eine weitere Mande-, Bungain eine weitere Marienberg-Sprache):

ich: n - nak
wir: n - nam
Laus: yitE (Soninka) - ph~it (Bungain)
Fisch: 5e - ungearra
Blatt: janba - kamgas
Haut: kulu - Ngulom
Blut: farE (Son.) - yawarr (Bun.)
Knochen: XotE (Son.) - niNgat (Bun.)
Ohr: toro (Soninke) - tomba
Auge: yaXE (Son.) - yai (Bun.)
trinken: min - wyanal (aber men "Brust")
Wasser: ji -wiya
Feuer: yinbE (Son.) - yi (Bun.)
Pfad: silia -supwe; kilE (Son.) - kh~at (Bun.)
Nacht: wuro (Son.) - nuNgarap (Bun.)
voll: fa - pay si
neu: kuta - saketa

Für 33 erfaßte Vokabeln 10 (30%) - 17 (52%) Korrespondenzen. Das ist definitiv Sprachverwandschaft, und zwar eine ziemlich enge. Trennung vor 1.500 - 2.500 Jahren?

B. Nihali (Indien)- Wolof (Senegal), grünblau in der Karte: Nihali enthält etwa 25-30% vor-indoaryanisches, vor-dravidisches und vor-austrosiatisches Substrat, und gilt damit als bester Repräsentant frühneolithischer südasiatischer Sprachen (Indus-Kultur). Über mögliche Verbindung zum Sumerischen wird spekuliert. Linguistische Verbindung nach Westafrika (hier ohne transatlantische Fortsetzung) wäre somit im Hinblick auf frühe Neolithisierungsprozesse, vielleicht sogar epi-paläolithische Wanderungen, relevant. Hier die Stichprobenergebnisse Nihali-Wolof:

Du: nye - ya (jeweils Anglizierung?)
Eins: beida - benna
Zwei: ir(-ar) - nj~ar
Fisch: tsan - (d)jan
Hund: sita - xaT
Blatt: tsokob - xob
Blut: tsorto - dereb
Zunge: lai5 - lami5
Hand: bokko - loxo (mit nicht notiertem, initialem Schnalzlaut)
hören: tsekini - deg'n
Stern: ipih~ilta - biddew
Stein: kurup - xar (idg? vgl. dt. "hart")
Pfad: day - mb~edda
voll: bh~erya - baax "gut"
neu: nava - ndaw "jung"

Ebenfalls wohl nicht mehr zufällig zustandegekommen. Korrespondierende idg. Entlehnung kann in den meisten Fällen ausgeschlossen werden, (Proto-)Dravidisch wäre jedoch noch zu prüfen. Auf die Theorie eines sudanesischen Ursprungs der dravidischen Sprache und Kultur, die u.a. auf L.Senghor zurückgeht, gehe ich in einem speraten Post ein. Wer sich dazu schon mal einlesen möchte, findet einen Überblick mit Literaturliste hier:
http://maxwellsci.com/print/crjbs/v2-229-231.pdf

C. Griechisch - Mascoy - Guato - Wiyot, dunkelblau in der Karte: Mysteriöse transatlantische Verbindung, die transpazifisch als Tingit (Na Dene) - Ket (jenisseisch) - nordkaukasische Kette fast wieder an den Ausgangspunkt zurückkehrt. Der transpazifische Teil wird in der Dené-kaukasischen Theorie abgehandelt, die durch den World Language Tree offenbar teilweise Stützung erfährt (beachte aber, daß sich athabaskische Sprachen im World Language Tree auf einem separaten, weit entfernten Ast [dunkelgrün] finden). Transatlantische Kognate, in der obigen Sprachreihenfolge (fehlende Korrespondenz in Rot):

Ich: exo - ko7o - oyo -(fehlt)
Du: esi - Leya7 - ohe - kh-il
Wir: emis - neNko7o - goko - hinod
Eins: ena - Lama - Cene - nakuc
Zwei: 8y~o - a7net - duni -dit
Mensch: an8~ropos - enLet -(fehlt) - (fehlt)
Hund: sTilos - semh~eN - we - woyic
Laus: psira - petem - pagu - (fehlt)
Baum: 8end~ro - yarnet - ada - botih
Haut: petsi - eNy~empehek - fE - wonokw~
Blut: ema - ema -- ogw~a - kawik
Knochen: kolkalo - eNeLkapok - olku - watkadot
Horn: Teras - aNkepetek - ta - badod
Zunge: xlosa - eNaLkok - CaZa - bit
Hand: xeri - eNmek - ra - ehs
Leber: ipar - eNh~ekh~ek - pE - (fehlt)
hören: aku - neNleNay7~ - ku* - puSukiL, kanimiL
sterben: ap - apak - Coga - dakw~
Feuer: foty~a - taLa - ta - bas
Nacht: nita - aLta7a -- afi - dacawal
voll: plinis - aklaney7~o - pelno - esw, kurow
neu: neos - aLnaNkok - binEg3 - (fehlt)

Über 30% Korrespondenz zwischen Griechisch und Guato - benerkenswert! Warum der World Language Tree Mascoy noch etwas näher an Griechisch rückt als Guato, kann ich nicht nachvollziehen. Vielleicht ist der Algorithmus in der Lage, die offenbar recht komplexe Morphologie der Mascoy- Sprachen (neN/eN als Posessivpräfix?) besser zu entzerren, als ich es vermag. Immerhin, mit vier plausiblen (ich, Blut, sterben, Feuer) und diversen denkbaren Korrespondenzen gerät man auch bei Griechisch vs. Mascoy in einen Bereich, der weiteres Nachforschen lohnt. Der Verdacht, die Ethnonyme Guato* und Wiyot ähnelten sich nicht zufällig, wird durch mindestens fünf Wortkorrespondenzen aus hier lediglich 30 gemeinsam erfassten Vokabeln gestützt.
Fazit: Alle Stichproben liefern zumindest begründeten Verdacht auf lexikalische Nähe, in mehreren Fällen klare Anzeichen für intensivere Sprachbeziehung. Nicht alle Zweige kann und will ich erklären, aber einige, die mit pflanzen- und humangenetischen Befunden korrespondieren, werde ich in der Folge weiter beleuchten.

* http://pib.socioambiental.org/en/povo/guato/1973

It may well be (..) that guató is a derivation of guatá, a verb that in Guarani signifies walk, wander, travel and traverse, annotated (..) in order to indicate a canoe people with a high degree of spatial mobility.

El Quijote · 03. Okt. 2015

Ich weiß echt nicht, wo du da Sprachverwandtschaften geschweige denn "lexikalische Nähe" auszumachen gedenkst. :nono:

Sepiola · 04. Okt. 2015

El Quijote schrieb:
Ich weiß echt nicht, wo du da Sprachverwandtschaften geschweige denn "lexikalische Nähe" auszumachen gedenkst. :nono:

Na ja, es reicht doch, wenn zwei Wörter einen gemeinsamen Buchstaben haben.
Alle anderen Buchstaben sind dann beliebig austauschbar.

Augusto schrieb:
Pfad: silia -supwe

Der Anfangsbuchstabe ist gleich. Dann gilt:
i = u
l = p
i = w
a = e

Augusto schrieb:
Blatt: janba - kamgas

Hier gilt nicht a = e, sondern a = a. Dafür gilt dann:
j = k
n = m
b = g
s (zählt nicht)

Oder, eins der "plausibel erscheinenden" Beispiele:

stein: kurup - xar

Da stimmt das "r" überein, ansonsten gilt:
k = x
u = a
up (zählt nicht)

Aber genau das war ja zu erwarten... :rofl:

Sepiola schrieb:
Das gilt auch für Wörter aus verschiedenen Sprachen.

Diese Erkenntnis hätte Augusto aus Threads wie http://www.geschichtsforum.de/f32/veneter-veneter-alles-das-selbe-48678/index26.html oder http://www.geschichtsforum.de/f83/wie-die-welt-auf-den-hund-kam-51066/ eigentlich längst gewinnen können (ich greif mal diesen oder jenen Beitrag heraus), bislang hat er sich da aber bemerkenswert resistent gezeigt.

Also können wir "gespannt" sein, mit was für "Erkenntnissen zur Linguistik" wir da auch weiterhin kübelweise überschüttet werden. =)

Sepiola · 04. Okt. 2015

Augusto schrieb:
Zur Kalibrierung habe ich zunächst Spanisch-Hochdeutsch-Armenisch als gesicherte Sprachverwandschaft auf Basis der Datenbankeinträge geprüft.
...
Mit diesem Ansatz kam ich für die 40 Grundvokabeln auf 25% spanisch-armenische, 30% deutsch-armenische und 38% spanisch-deutsche Korrespondenz.

"Kalibrieren" tust Du also, indem Du jeweils genau zwei Sprachen nebeneinanderstellst.
Deine Stichprobe erhälst Du aber, indem Du vier Sprachen abklopfst: Mandinka, Soninke, Mandi und Bungai.

Nun zu den Stichproben:
A. Mande-Sprachen (Westafrika, Niger-Kongo) -- Mandi (Marienberg-Sprachen, Neuguinea), hellblau in der Karte: Die Namensähnlichkeit war verlockend, und die geograühische Relation interessant. Hier die mir plausibel bzw. spekulaitiv denkbar erscheinenden Kognate (Mandinka-Mandi, soweit nicht anders angegeben; Soninka ist eine weitere Mande-, Bungain eine weitere Marienberg-Sprache):

Augusto schrieb:
Für 33 erfaßte Vokabeln 10 (30%) - 17 (52%) Korrespondenzen.

Wenn Du zur "Kalibrierung" zwei Sprachpaare vergleichst, also z. B. Armenisch/Deutsch auf der einen Seite und Spanisch/Griechisch auf der anderen Seite, wirst Du auf schätzungsweise 80-90% "Korrespondenzen" stoßen.

Das ist definitiv Sprachverwandschaft, und zwar eine ziemlich enge.

Abgesehen von dem schweren Denkfehler, mit dem Du auf die Zahlen gekommen bist, hast Du Dich immer noch nicht erkundigt, wie "definitive Sprachverwandtschaft" ermittelt wird.

Schau doch mal hier rein:

Grundbegriffe der Sprachwissenschaft

Sepiola · 04. Okt. 2015

Sepiola schrieb:
Wenn Du zur "Kalibrierung" zwei Sprachpaare vergleichst, also z. B. Armenisch/Deutsch auf der einen Seite und Spanisch/Griechisch auf der anderen Seite, wirst Du auf schätzungsweise 80-90% "Korrespondenzen" stoßen.http://www.christianlehmann.eu/ling...stianlehmann.eu/ling/elements/hist_vgl_sw.php

Habs mal gerade spaßeshalber getestet. Wenn man nach der Augusto-Methode schon bei Übereinstimmung einzelner Buchstaben für "spekulativ denkbare Kognate" plädiert, sind es sogar glatte 100% "Korrespondenzen":

ich = griech. exo
du = span. tu
wir (armen. menk) = griech. emis
ins = griech. enas
wei = griech. 8y~o
Person (armen. anc) = griech. an8~ropos
Fisch = span. pes
Hund (armen. Sun) = griech. sTili
Laus (armen. voCil = span. pioho
Baum = span. arbol
Blatt = griech. filo
Haut (armen. gaSi) = griech. petsi
Blut (armen. ary~un) = span. sangre
Knochen (armen. vosgor) = span. weso
Horn = span. kw~erno
Ohr = span. oreha
Auge = span. oho
Nase = span. naris
Zahn = span. diente
Zunge (armen. lezu) = griech. xlosa
Knie = griech. xonato
Hand (armen. cerk) = griech. xeri
Brust = griech. mastos
Leber = griech. ipar
trinken (arm. x3me) = span. toma
sehen = span. ve
hören = span. oir
sterben (armen. merni/merac) = span. mori
Kommen = griech. erxo
Sonne = span. sol
Stern (armen. ast3x) = griech. asteri
Wasser (armen. Cur) = griech. nero
Stein (armen. Zar) = span. piedra
Feuer = span. fuego
Pfad (armen. jampa) = span. senda
Berg = span. sero
Nacht = griech. nita
voll = griech. pliris
neu = griech. neos
Name = span. nombre

(Mehrfachentsprechungen - z. B. Name = span. nombre, griech. onoma - habe ich der Einfachheit halber weggelassen.)

Augusto · 04. Okt. 2015

Sepiola schrieb:
Na ja, es reicht doch, wenn zwei Wörter einen gemeinsamen Buchstaben haben.
Alle anderen Buchstaben sind dann beliebig austauschbar.
Aber genau das war ja zu erwarten...

Stimmt. Ich habe nämlich noch mal die Methode, die dem Tree zugrunde liegt, nachgelesen.

The tree is generated through use of the neighbour-joining computer algorithm originally designed to depict phylogenetic relationships in biology (Saitou & Nei 1987). This is implemented in MEGA 4 (Kumar et al. 2008),

the software that we use. The algorithm is applied to a matrix of lexical similarity scores based on Levenshtein (or edit) distances.

Zur Levenshtein-Distanz Näheres unter

https://en.wikipedia.org/wiki/Automated_Similarity_Judgment_Program

In papers published since 2008, ASJP has employed a similarity judgment program based on Levenshtein distance (LD). This approach was found to produce better classificatory results measured against expert opinion than the method used initially. LD is defined as the minimum number of successive changes necessary to convert one word into another, where each change is the insertion, deletion, or substitution of a symbol. Within the Levenshtein approach, differences in word length can be corrected for by dividing LD by the number of symbols of the longer of the two compared words. This produces normalized LD (LDN).

Zur Verdeutlichung als Beispiele:

Sepiola schrieb:
Pfad: silia -supwe

Zum Vergrößern anklicken....

Der Anfangsbuchstabe ist gleich. Dann gilt:
i = u
l = p
i = w
a = e

Dies ergibt eine Levenshtein-Distanz von 4, und eine normalisierte LD von 0,8.

Sepiola schrieb:
Oder, eins der "plausibel erscheinenden" Beispiele:

stein: kurup - xar

Zum Vergrößern anklicken....

Da stimmt das "r" überein, ansonsten gilt:
k = x
u = a
up (zählt nicht)

"up" zählt natürlich schon, als zwei "deletions". Ergibt eine LD von 4, normalisiert (durch 5 Zeichen geteilt) ebenfalls 0,8.
Oder arm. car, span. arbol "Baum": Füge ein "c", streiche "bol", ergibt eine LD von 4, normalisiert (5 Zeichen in arbol) wiederum 0,8.

Sepiola schrieb:
...hast Du Dich immer noch nicht erkundigt, wie "definitive Sprachverwandtschaft" ermittelt wird.
Schau doch mal hier rein:
Grundbegriffe der Sprachwissenschaft

Na, na. Bei der Erkundigung, wie das ASJP, ein Zusammenschluß 25 führender Linguisten, geleitet von Søren Wichmann vom MPI für kulturelle Anthropologie, Sprachverwandschaften ermittelt, habe ich anfangs etwas geschlunzt, was ich aber nun nachgeholt habe. Du hättest anhand der von mir bereits offengelegten Quellen, aus denen Du ja auch zitiertest, solch Erkundigung natürlich ebenfalls unternehmen können, bevor Du in wissenschaftlich und methodisch unfundierte Selbstversuche einsteigst. Wer im Glashaus sitzt...
Dies dürfte Dir bekannt sein

hyokkose schrieb:
Zum Nachweis einer Sprachverwandtschaft genügt es nicht, eine gewisse Anzahl von vergleichbaren Wörtern zu finden. Vielmehr müssen folgende Bedingungen erfüllt sein:

1. Es ist notwendig, genügend vergleichbare Wörter zu finden, um Lautgesetze aufstellen zu können.

Die Voraussetzung ist in den hier diskutierten Fällen, mit häufig nur 30-40 belegten Wörtern, meist nicht gegeben. Insofern sprach ich ja auch von

Augusto schrieb:
Fazit: Alle Stichproben liefern zumindest begründeten Verdacht auf lexikalische Nähe, in mehreren Fällen klare Anzeichen für intensivere Sprachbeziehung.

Allerdings gibt es hier Ausnahmen. Zum einen kennen wir in den indogermanischen Sprachen viele Lautgesetze. Darüber hinaus sind einzelne weitere Lautgesetze, z.B. Mandinka "s"<> Soninke "k"* aus den Wortlisten ableitbar bzw. gut erforscht. Drittens zeigen sich in vielen Sprachfamilien Vokale, auch einzelne Konsonantengruppen wie z.B. die Nasale m/n/nj, die Dentale s/t/d, oder die Velare ch/k/g untereinander leichter austauschbar als mit anderen Lauten.
Insofern erschien mir ein reiner Levenshtein-Sprachvergleich zu mechanisch. Das obige Beispiel von arm. car, span. arbol (dazu engl. herb, lat. herba etc.), zeigt sehr schön, wie die normalisierte LD fallweise Sprachverwandschaft unterschätzen kann. Deshalb habe ich - zugegebenermaßen mehr aus dem Bauch als mit System - die o.g. Aspekte bei meiner Zuordnung zu "plausiblen" und spekulativ denkbaren Kognaten mit in Betracht gezogen.
Dein folgender Einwand ist berechtigt, betrifft jedoch nur eine der drei (bzw. 6, wenn Grch.-Mascoy, Grch.-Guato, Mascoy-Guato und Guato-Wiyot jeweils separat betrachtet werden) Stichproben.

Sepiola schrieb:
"Kalibrieren" tust Du also, indem Du jeweils genau zwei Sprachen nebeneinanderstellst.
Deine Stichprobe erhälst Du aber, indem Du vier Sprachen abklopfst: Mandinka, Soninke, Mandi und Bungai.

Langer Rede, kurzer Sinn: Ich habe das Experiment noch mal wiederholt, diesmal in besser systematierter Form. Dazu mehr in den folgenden Posts.

*"Brust": sunju - kombo, "Pfad" sila - kilE, "sterben" sa - kara. Vgl. im übrigen https://en.wikipedia.org/wiki/Mande_languages#Cognates

Sepiola · 04. Okt. 2015

Augusto schrieb:
Na, na. Bei der Erkundigung, wie das ASJP, ein Zusammenschluß 25 führender Linguisten, geleitet von Søren Wichmann vom MPI für kulturelle Anthropologie, Sprachverwandschaften ermittelt, habe ich anfangs etwas geschlunzt, was ich aber nun nachgeholt habe.

Na, dann zitier doch bitte einfach mal, was Du gefunden hast, bevor Du in den Beleidigungs-Modus umschaltest.

Den Link http://asjp.clld.org/static/WorldLanguageTree-002.pdf hatten wir schon, daraus habe ich zitiert.
Der Link

Augusto schrieb:
World Language Tree

funktioniert nicht.

Augusto · 05. Okt. 2015

Hier jetzt meine Ansätze für das "Wiederholungsexperiment". Zum einen berechne ich für jedes Wortpaar die normalisierte Levenshtein-Distanz (LDN), sowie dann für den Sprachvergleich die durchschnittliche LDN über alle verglichenen Wortpaare. Enthält die Datenbank mehrere Einträge für die gleiche Vokabel, wird das Paar mit der niedrigsten LD zu Grunde gelegt.
Zum zweiten wird die Berechnung unter folgenden Modifikationen wiederholt:

Umlaute und vergleichbare Notierungen (z.B. [ai], [oi], [oe] für das "u" in frz. un) zählen als nur ein Zeichen. Gleiches gilt für [nj], [ng] und [pf].
Als identische Laute werden betrachtet:
y/i,
5/nj (hier scheint uneinheitliche Notation in der Datenbank vorzuliegen),
N/ng (dito.),
sowie e/E/3.
Komplette Silben (idealerweise Morpheme, aber die lassen sich in unbekannten Sprachen nicht immer sauber bestimmen) werden für Streichung und Normalisierung als lediglich ein Zeichen betrachtet. Hierdurch soll u.a von agglutinierenden Sprachen vorgenommene Prä-, In- und Suffixbildung z.T. neutralisiert werden (wobei sie an sich natürlich schon sprachunterscheidendes Merkmal ist und daher nicht ganz unberücksichtig bleiben soll).
Eingefügtes [h~], etwa zu finden in dt. ch~an "Zahn", gilt als nur halbes Zeichen, und wird bei Streichung mit lediglich 0,25 bewertet.
(a) Vokale gehen nur als 0,5 Laute in die Normalisierung ein; (b) Wechsel sowie Streichung/ Hinzufügung von Vokalen (einschl. [w~] wie in frz. etw~ol [etoile "Stern"], [y~] etc.) gehen jeweils nur mit dem Wert 0,25 in die Berechnung der LD ein, (c) letzteres jedoch nur dann, wenn auch Konsonantenpaare eine LD<1 aufweisen (vermeidet Artefakte, siehe Beispiele unten).
Ebenso wird der Austausch innerhalb der folgenden Konsonantengruppen nur mit 0,5 bewertet:

Velare: k,x(=dt. "ch" nach hellem Vokal),X(=dt. "ch" nach dunklem Vokal), h, ggfs. g (Lautwert der Notation noch zu prüfen)
Nasale: m,n, [nj]/5, [ng]/N, * ("Verschluckung" wie in frz. un)
Dentale: d,t,8 (Datenbanknotation des "th"), c (=dt. "Z")
Plosive: b,p,f,v
sowie (b)
l,r (mit Gluß nach Kina)
c, s (wie in span. sol), z (wie in Sonne),
C (tsch), S (sch), x, X
u,v,w, [gu],[qu] vor Vokal oder -r
y, j (wie in frz. je), [nj], 5 vor Vokal
finales a/3, r (saXt de3 Hol~Ctain3)
und (c)
spezifische, für einzelne Sprachfamilien bekannte Lautverschiebungen wie etwa roman. k <> indo-irano-balto-slawisch s/S (=dt. "sch").

Hierzu als Beispiel 1: "Blut", span. sangre arm. ary~un (in der Klammer jeweils die LD/ modifizierte LD)

s gestrichen (1/1)
ng gestrichen (2/1)
e = y (1/0,25)
~un gestrichen (2/1)
LDN 6/6 = 1, mod. LDN 3,25/4 = 0,81

Span. sangre- dt. Blut ergibt eine LDN von 1. 5c oben stellt auch eine mod. LDN von 1 sicher. Der Vergleich arm. ary~un dt. Blut ist durch das geteilte "u" problematisch:

a gestrichen (1/1)
r = b (1/1)
y~ = l (1/1)
n = t (1/1)
LDN 4/5 = 0,8, mod. LDN 4/4 = 1

Die Modifizierung zeigt, wegen der nur halben Zählung der Vokale (5a), beide Vokabeln nun unverwandt. Ähnlicher Effekt zeigt sich bei anderen, v.a. durch gleiche Vokale verbundenen Paaren wie dt. Horn, arm. boz

Beispiel 2: Dt. "du" span. "tu" arm. "tun". Geht im Kopf, daher hier nur die Ergebnisse:

Dt.-span: LDN 0,5, mod. LDN 0,33 (d<>t-Wechsel nur mit 0,5 bewertet "u" nur halb gezählt)
Dt.-arm: LDN 0,67, mod. LDN 0,6
Span.-arm.: LDN 0,33, mod. LDN 0,4

Hier produziert die Modifikation, genauer gesagt die "Abwertung" der deutschen t>d-Lautverschiebung, ein realistischeres Bild der tatsächlichen Sprachverwandschaft.

Beispiel 3: Dt. "ains", span. "uno", arm. "meg"

Dt.-Span:
ai = u (2/0,25)
s = o (1/1)
LDN 3/4 = 0,75, mod. LDN 1,25/2,5 = 0,5

Dt.-arm.
ai gestrichen (2/0,25)
n = m (1/0,5)
s = e (1) bzw. e eingefügt (0,25)
g hinzugefügt (1) bzw. g =s (1)
LDN 5/4 ~ 1 (Maximalwert), mod. LDN 2/2,5 = 0,8

Span-arm:
u = m (1) bzw. u gestrichen (0,25)
n = e (1) bzw. n = m (0,5)
o = g (1) bzw. o= e (0,25)
---------- bzw. g gestrichen (1)
LDN 3/3 = 1, mod. LDN 2/2,5 = 0,8

Auch hier verbessert die Modifikation das Bild. Wäre die dt. "1" mit Schwa als ain3s notiert worden, hätte sich übrigens ggü. Armenisch ein noch besseres Resultat (mod. LDN = 0,58) ergeben.

Beispiel 4: Dt. "ch~an" (Zahn), span. "diente", arm. "adam"

Dt.-Span:
c = d (1/0,5)
h~ = i (1/0,5)
a = e (1/0,25)
te entfällte (2/1)
LDN 5/6 = 0,83, mod. LDN 2,25/4 = 0,56

Arm.-dt
a gestrichen (1/0,25)
d = c (1/0,5)
h~ eingefügt (1/0,25)
m = n (1/0,5)
LDN 4/4 = 1, mod. LDN 1,5/3,5 = 0,43

Arm.-span.
a gestrichen (1/0,25)
i eingefügt (1/0,25)
a = e (1/0,25)
m = n (1/0,5)
-te angefügt (2/1)
LDN 6/6 = 1, mod. LDN 2,25/4 = 0,56

Wiederum Verbesserung durch die Modifikation; arm. "adam" steht nicht mehr unverwandt neben Zahn, span. diente.

Beispiel 5: Span.agw~a arm. Cur (Wasser)

a entfällt (1/0,25)
g = C (1/1)
w~ = u (1/0,25)
a = r (1/0,5)
LDN 4/4 = 1, mod. LDN 2/2,5 = 0,8

Beispiel 6: Span. pes, dt. fiS (Fisch). Geht im Kopf: LDN 1 (nicht verwandt), mod. LDN 0,5 (mit s>sch als Sonderregel gem. 6c).

Die von mir vorgeschlagenen Modifikationen sind sicherlich nicht der Weisheit letzter Schluß, aber scheinen mir grundsätzlich tragfähig. Verbesserungsvorschläge werden gerne entgegengenommen.

Sepiola · 05. Okt. 2015

Sepiola schrieb:
Na, dann zitier doch bitte einfach mal, was Du gefunden hast, bevor Du in den Beleidigungs-Modus umschaltest.

Den Link http://asjp.clld.org/static/WorldLanguageTree-002.pdf hatten wir schon, daraus habe ich zitiert.
Der Link

Augusto schrieb:

World Language Tree

Zum Vergrößern anklicken....

funktioniert nicht.

Wie sieht es denn nun aus mit der Ermittlung "definitiver Sprachverwandtschaft"?

silesia · 05. Okt. 2015

Es geht hier um die Frühzeit des Menschen. Bezugnehmend auf die globalen Grafiken etwas weiter oben, da mir der Sinn nicht klar ist:

Welche Forschungsliteratur leitet aus statistischen Sprachverwandtschaften nach der Levensthein Distance prähistorische Wanderungsbewegungen ab?

Welche anthropologischen Enzyklopädien übernehmen diesen linguistisch-statistischen Ansatz?

Ich finde dazu bislang nur Verwendungen wie etwa Rechtschreibprüfungen, Sprachdistanzen und Integrationsmöglichkeiten, etc.

Augusto · 05. Okt. 2015

silesia schrieb:
Es geht hier um die Frühzeit des Menschen. Bezugnehmend auf die globalen Grafiken etwas weiter oben, da mir der Sinn nicht klar ist:

Welche Forschungsliteratur leitet aus statistischen Sprachverwandtschaften nach der Levensthein Distance prähistorische Wanderungsbewegungen ab?

Die Arbeit mit dem AJSP ist noch verhältnismäßig neu. Mein Eindruck ist, daß sich die Forschung zunächst der "klaren" Zweige angenommen hat. U.a. basieren mehrere der kürzlichen Publikationen zur indogermanischen "Urheimat" auf der Nutzung des AJSP. Daneben scheinen mir die Ergebnisse, in Kombination mit humangenetischen Analysen, in die Erforschung afrikanischer Wanderungsbewegungen, v.a. zur Bantu-Expansion, einzufließen.
Das AJSP dürfte helfen, die südafrikanischen Khoisansprachen ("Klick-Sprachen") besser zu klassifizieren. Die schon länger kritisch betrachte Einheit der Familie wird vom AJSP in vier klar getrennte Gruppen zerlegt, nämlich Khoe-!Xoon (Taa) [dunkelblau in meiner Kartierung], Ju-Hoan [hellblau], Sandawe (isoliert, Anbindung an den beige-braunen Ast) und Hazda (isoliert, Anbindung an den dunkelgrünen Ast). Eine kürzliche Studie, die humangenetische, linguistische (nicht AJSP-basierte) und prähistorische Forschung für Klick-Sprecher kombinierte, zeigte entsprechenden Revisionsbedarf ebenfalls klar auf. Ich denke, da ist in naher Zukunft einiges Neues zu erwarten (wobei ich vermute, daß Klick-Sprachen die Arbeit mit Levenshtein-Distanzen vor spezifische Herausforderungen stellen).
History of Click-Speaking Populations of Africa Inferred from mtDNA and Y Chromosome Genetic Variation
Der WP-Artikel zum AJSP listet zudem folgende aus ihm hervorgegangene Studien auf, die ich noch nicht auf online-Verfügbarkeit geprüft und eingesehen habe (wer dort einsteigen mag, ist mir herzlich willkommen):

Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, and Dmitry Egorov. 2011. Automated dating of the world’s language families based on lexical similarity. Current Anthropology 52.6: 841-875.
Wichmann, Søren, André Müller, and Viveka Velupillai. 2010. Homelands of the world’s language families: A quantitative approach. Diachronica 27.2: 247-276.
Wichmann, Søren, Holman, Eric W., and Cecil H. Brown. 2010. Sound symbolism in basic vocabulary. Entropy 12.4: 844-858.
Pompei, Simone, Vittorio Loreto, and Francesca Tria. 2011. On the accuracy of language trees. PLoS ONE 6: e20109

Nachdem ich mich selbst und andere hier über die Aussagekräftigkeit der im World Language Tree (sorry für den zerschossenen Link, der in sepiolas Post weiter oben genannte stimmt) aufgezeigten Beziehungen ins Klare gesetzt habe, beabsichtige ich, Sprach-, humangenetische (Posts 4,5) und pflanzensoziologische (Flaschenkürbis, Banane, Yam etc.) Verbindungen zusammenzuführen. Erst und v.a. in ihrer Kombination werden diese Ergebnisse relevant und beweiskräftig. Da liegt noch einige Arbeit vor mir - wäre schön, wenn "Störfeuer" von gewissen Seiten (das meint nicht Dich!) bis dahin etwas zurückgefahren werden könnte...

Sepiola · 05. Okt. 2015

Augusto schrieb:
wäre schön, wenn "Störfeuer" von gewissen Seiten (das meint nicht Dich!) bis dahin etwas zurückgefahren werden könnte...

Gehört meine Rückfrage, woher Du das mit der "definitiven Sprachverwandtschaft" hast, auch zum "Störfeuer"?

Soll ich später noch ein viertes Mal nachhaken?

Augusto · 06. Okt. 2015

Sepiola schrieb:
Gehört meine Rückfrage, woher Du das mit der "definitiven Sprachverwandtschaft" hast, auch zum "Störfeuer"?

Irgendwie schon. Das Berechnen von (modifizierten) Levenshtein-Distanzen ist nämlich durchaus zeitaufwendig, wie Du aus eigener Erfahrung wissen dürftest. Vielleicht sollte ich den Algorithmus in Excel programmieren, aber vermutlich dauert das, bis er fehlerfrei auch bei Mehrfachnennungen läuft, ebensolange wie ein Vergleich "per Hand".
Solltest Du Dich langweilen, setz Dich doch selbst an eine Sprachkette (z.B. Griechisch-Guato-Wiyot) ran, und schau, was rauskommt. Ich möchte zwar nicht meine ganze Kartierungsarbeit in die Tonne treten müssen, bin aber im Prinzip ergebnisoffen: Wenn die - ohnehin mysteriöse - Griechenverbindung einer Nachprüfung nicht standhält, o.k. Falls doch, haben wir ein interessantes Phänomen zur weiteren Nachforschung oder zumindest zum Notieren im Hinterkopf. Die im World Language Tree aufgezeigte Nähe zwischen Cherokee- und indonesischen Yawa-Sprachen lohnt z.B. auch Prüfung, die ich aus Zeitgründen wohl kaum leisten werden könne.
Zum Thema "Sprachverwandschaft" allgemein: Da haben wir (mindestens) zwei Dimensionen, eine lexikalische und eine grammatikalisch-strukturelle. Letztere ist vielfach noch schlecht erforscht, aber ein paar strukturelle Aspekte, z.B. die Verbreitung von Ergativsprachen, beabsichtige ich in die Darstellung einzubeziehen.
Hier habe ich Dir und anderen das Thema schon mal etwas aussführlicher erläutert, u.a. mit Verweis auf The shape and tempo of language evolution | Proceedings of the Royal Society of London B: Biological Sciences. Daraus kommt auch noch mehr - wer es nicht abwarten kann, sehe sich die dortige Fig. 1 an.

Sepiola schrieb:
Soll ich später noch ein viertes Mal nachhaken?

Bloß nicht! Warte ab, was kommt, oder mach Dich selber nützlich.

Sepiola · 06. Okt. 2015

Augusto schrieb:
Verbesserungsvorschläge werden gerne entgegengenommen.

Gern, aber kannst Du mal verraten, was genau Du methodisch bezweckst?

Sprachverwandtschaften zwischen zwei Einzelsprachen lassen sich mit dieser Methode nicht beweisen, egal wie sehr man sie "verfeinert".

Was also hast Du konkret vor?

Komplette Silben (idealerweise Morpheme, aber die lassen sich in unbekannten Sprachen nicht immer sauber bestimmen) werden für Streichung und Normalisierung als lediglich ein Zeichen betrachtet. Hierdurch soll u.a von agglutinierenden Sprachen vorgenommene Prä-, In- und Suffixbildung z.T. neutralisiert werden

Gerade bei den agglutinierenden Sprachen würde ich mir wenig Sorgen machen. Da sind ja die Suffixe in der Regel gut erkennbar und die Wörterlisten weitgehend bereinigt.
Wenn man etwas nicht sauber bestimmen kann, soll man die Finger davon lassen, sonst ist schon der nächste methodische Grundfehler eingebaut.

Beispiel:

Beispiel 6: Span. pes, dt. fiS (Fisch). Geht im Kopf:

Klar, aber was passiert beim Vergleich Spanisch / Eastern Katu?

Da würde der pes unter den Tisch fallen, stattdessen käme der pescado zum Einsatz. Dabei würde die entscheidende erste Silbe des pescado "neutralisiert" und das Wort zu cado "normalisiert", weil es besser zu "kadoN" passt.

Wenn alles Unpassende weniger ins Gewicht fällt, wird das Ergebnis grundsätzlich in Richtung einer Schein-Verwandtschaft verzerrt.

Auf der anderen Seite bleiben echte Kognaten unerkannt:

Hierzu als Beispiel 1: "Blut", span. sangre arm. ary~un(in der Klammer jeweils die LD/ modifizierte LD)
s gestrichen (1/1)
ng gestrichen (2/1)
e = y (1/0,25)
~un gestrichen (2/1)
LDN 6/6 = 1, mod. LDN 3,25/4 = 0,81
Span. sangre- dt. Blut ergibt eine LDN von 1. 5c oben stellt auch eine mod. LDN von 1 sicher. Der Vergleich arm. ary~un dt. Blut ist durch das geteilte "u" problematisch:
a gestrichen (1/1)
r = b (1/1)
y~ = l (1/1)
n = t (1/1)
LDN 4/5 = 0,8, mod. LDN 4/4 = 1
Die Modifizierung zeigt, wegen der nur halben Zählung der Vokale (5a), beide Vokabeln nun unverwandt.

Tatsächlich sind die beiden Wörter aber durchaus nicht "unverwandt". Sie gehen zurück auf *h₁ḗsh₂r̥, Casus obliquus*h₁sh₂-én-.

Ersteres ergibt im Alt-Armenischen (über *ehar- > *ar-) ariwn, arm. ary~un, im Lateinischen sanguis, davon wiederum spanisch sangre.

Sepiola · 06. Okt. 2015

Augusto schrieb:
Solltest Du Dich langweilen, setz Dich doch selbst an eine Sprachkette (z.B. Griechisch-Guato-Wiyot) ran, und schau, was rauskommt. Ich möchte zwar nicht meine ganze Kartierungsarbeit in die Tonne treten müssen, bin aber im Prinzip ergebnisoffen: Wenn die - ohnehin mysteriöse - Griechenverbindung einer Nachprüfung nicht standhält, o.k.

Da habe ich tatsächlich hochinteressante, solide und wissenschaftlich abgesicherte Informationen für Dich:

Griechisch, lieber Augusto, ist eine indogermanische Sprache.

Sogar eine der ältest bezeugten indogermanischen Sprachen.

Man kann sie übers Altgriechische bis ins Mykenische zurückverfolgen.

Dass Griechisch mit Latein und Sanskrit verwandt ist, ist schon seit sehr langer Zeit nachgewiesen.

Dass das System die indogermanische Verwandtschaft des Griechischen nicht erkannt hat, sondern Griechisch in eine Schublade mit anderen, relativ isolierten Sprachen geworfen hat, zeigt die systembedingten "Mängel" deutlich: Wenn die Sprachverwandtschaft einige Tausend Jahre zurückreicht - oder auch überhaupt keine Sprachverwandtschaft besteht -, werden eben zufallsbedingte Verknüpfungen produziert.

Auf gut Deutsch: Illusionen.

Den Autoren ist das vollkommen bewusst, deshalb schreiben sie ja auch (ich habe es bereits zitiert):

"If the two languages are geographically distant, their close lexical similarity is more likely explained by chance than by either inheritance or diffusion. Also, language isolates may join one another on a terminal branch because they have nowhere else to go in the tree, creating the illusion that exciting, new far-flung relations may be in evidence. One should be cautious in the interpretation of these cases."

silesia · 06. Okt. 2015

Augusto schrieb:
Die Arbeit mit dem AJSP ist noch verhältnismäßig neu. Mein Eindruck ist, daß sich die Forschung zunächst der "klaren" Zweige angenommen hat. U.a. basieren mehrere der kürzlichen Publikationen zur indogermanischen "Urheimat" auf der Nutzung des AJSP. Daneben scheinen mir die Ergebnisse, in Kombination mit humangenetischen Analysen, in die Erforschung afrikanischer Wanderungsbewegungen, v.a. zur Bantu-Expansion, einzufließen. ...
Nachdem ich mich selbst und andere hier über die Aussagekräftigkeit der im World Language Tree (sorry für den zerschossenen Link, der in sepiolas Post weiter oben genannte stimmt) aufgezeigten Beziehungen ins Klare gesetzt habe, beabsichtige ich, Sprach-, humangenetische (Posts 4,5) und pflanzensoziologische (Flaschenkürbis, Banane, Yam etc.) Verbindungen zusammenzuführen.

Die Aussagefähigkeiten sind eben völlig unklar, was die Literatur auch dazu so hergibt. Die Fragen, die gestellt waren, sind offen geblieben.

Wenn ich das bislang richtig verstanden habe, dann unternimmst Du ohne Abstützung auf die Fachliteratur den Interpretationsversuch, solche linguistisch-statistischen Verfahren auf Kulturkontakte zu übertragen, für die es weder einen paläogenetischen noch paläo-kulturhistorischen Kontaktnachweis gibt.

Dagegen beschreibst Du Anwendungen als "klare Zweige", bei denen der Kontakt nicht rein hypothetisch, sondern nachgewiesen ist und hierauf basierend dann die linguistisch-statistischen Ähnlichkeiten abgeprüft und evaluiert werden. Gegen Letzteres ist nicht einzuwenden.

Mein Frage nach dem Stand der Fachwissenschaft richtete sich aber darauf, ob diese statistischen Verfahren zur Messung von "Ähnlichkeiten" in Lauten und Schreibweisen auf solche Fälle übertragen werden, für die weder genetische noch kulturhistorische Kontakte derzeit akzeptiert sind.

Der Beitrag beantwortet daher nicht meine Frage, und ich verweise auf (in denen u.a. die auch in der Wikipedia wiedergegebenen Literaturstellen fachwissenschaftlich anerkannt ausgewertet sind):

1. Bovern/Evans: The Routledge Handbook of Historical Linguistics, 2014
2. Gee/Warms: Theory in Social and Cultural Anthropology: An Encyclopedia, 2013

In beiden Werken wird sich äußerst vorsichtig geäußert, was die Verwendung angeht, und es wird überhaupt nur anwendungsweise unterstützend im Kontext bereits nachgewiesener Kontakte angeführt.

Im Übrigen ist dort - wie bei sepiola - ebenfalls angeführt, dass statische Nähe auf ihre Ursachen zu prüfen ist, die vielgestaltig sein können, wenn keine datierten Kontakte nachgewiesen sind. Das wird eben völlig offengelassen, und man überdehnt diese Interpretation nicht darauf, Wanderungen zu sehen, wo bislang keine nachgewiesen sind.

Wenn wir das hier im Forum besprechen, sollten wir diesen Stand der Forschung und der Expertise akzeptieren, und nicht fachfremd extrapolieren oder durch Vermutungen "auffüllen".

jchatt · 06. Okt. 2015

Die reine Levensthein Distanz ist zwar für den Vergleich von Zeichenketten gedacht, aber sie berücksichtigt dabei keine sprachwissenschaftlichen Erkenntnisse. Sie basiert einzig auf dem Zählen von Zeichenoperationen(Löschungen,Vertauschungen) beim Überführen der einen Zeichenkette in die Andere. Sie berücksichtigt dabei nicht einmal die phonetische Ähnlichkeit der Zeichenketten.

Zum Beispiel:

die Levensthein Distanz des Wortpaares Wisurgis-Bisurgis ist 1.
Dieser Wert steht bei der Levensthein Distanz für die größte Ähnlichkeit zwischen zwei ungleichen Zeichenketten, weil durch eine einzige Stringoperation (Ersetzen W durch B) Wisurgis in Bisurgis verwandelt werden kann. In diesem Fall stimmt die durch die LD ermittelte Ähnlichkeit mit der sprachwissenschaftlichen Verwandschaft dieser Worte überein. Dumm ist nur, daß die LD für die Wortpaare:
Qisurgis-Bisurgis
Bisukgis-Bisurgis
Ibsurgis-Bisurgis
ebenfalls 1 ist. Sie sind nach der LD also genauso ähnlich wie Wisurgis-Bisurgis.

Die ermittelte Ähnlichkeit nach LD zwischen Worten aus unterschiedlichen Sprachbereichen hängt damit auch an deren Darstellung in unserer Schrift.
Die möglichen Darstellungen eines arabischen Namens ergeben dann auch völlig unterschiedliche LD-Ähnlichkeiten:

Abraham-Abrahim=1
Abraham-Ibrahim=2
Abraham-Ibraim =3

Eine sprachwissenschaftliche Verwandschaft ist damit aus meiner Sicht nicht zu erhärten.

Gruß
jchatt

Sepiola · 06. Okt. 2015

jchatt schrieb:
Eine sprachwissenschaftliche Verwandschaft ist damit aus meiner Sicht nicht zu erhärten.

Natürlich nicht.

Sie kann höchstens Hinweise geben, wo es sich eventuell noch lohnen könnte, nach Verwandtschaften zu suchen. (Das hat Augusto möglicherweise inzwischen begriffen.)

Die Idee, Wörterlisten mittels Computerprogrammen zu vergleichen, ist nicht so neu. Damit wurde schon in der Computer-Steinzeit vor vielen Jahrzehnten begonnen. (Das dürfte Augusto bis jetzt nicht bekannt sein, sonst würde er nicht so viel Zeit in seine dilettantischen, methodisch unfundierten Selbstversuche stecken, um das Rad noch einmal zu erfinden.)

Das ASJP ist in mancher Hinsicht "primitiver" als manche Vorgänger, dahinter steckt aber die Erkenntnis, dass manche "Verfeinerungen" unterm Strich nichts bringen. (Das wird Augusto in einigen Jahrzehnten dann vielleicht auch bemerken, oder er liest sich mal in die bisherigen Forschungen ein.)

Die statistische Methode kann also Hinweise liefern. Den Beweis für eine Sprachverwandtschaft kann aber nur die Methodik der Historisch-vergleichenden Sprachwissenschaft bringen.
(Das hat Augusto leider noch nicht verinnerlicht, sonst würde er nicht immer wieder in denselben Denkfehler verfallen und versuchen, Lexikostatistik durch Lexikostatistik zu "überprüfen". )

Nun liefert die statistische Methode im Großversuch (derzeit 3384 Sprachen) im großen und ganzen recht gute Ergebnisse, daneben produziert sie aber auch hier und da Müll - wie man am Beispiel des Griechischen sieht. (Dass die Einordnung des Griechischen schon seit langer Zeit definitiv geklärt ist, wusste Augusto bis heute 0:19 Uhr noch nicht, vielleicht ist inzwischen der Groschen gefallen.)

Offenkundig ist es aber gerade dieser Müll, für den sich Augusto besonders interessiert, da sich dort das geeignetste Material zum Auspolstern seiner wirren Thesen findet.
(Dass Augusto hier eines Tages zur Einsicht kommt, wage ich angesichts der immer weiter anwachsenden Müllberge zu bezweifeln.)

Sepiola · 07. Okt. 2015

Augusto schrieb:
Verbesserungsvorschläge werden gerne entgegengenommen.

Sepiola schrieb:
Gern, aber kannst Du mal verraten, was genau Du methodisch bezweckst?

Auf diese Frage kam leider keine Reaktion, aber zwei weitere Punkte kann ich ja trotzdem mal ansprechen:

(a) Vokale gehen nur als 0,5 Laute in die Normalisierung ein

Beim Vergleich zwischen indogermanischen Sprachen haben die Vokale sicher weniger Gewicht, da sind die Vokale sehr beweglich (Stichwort Ablaut).
Z. B. singen, gesungen, Gesang, Gesänge (englisch song).
Das kann man aber nicht auf alle Sprachen der Welt übertragen.
In den polynesischen Sprachen sind die Vokale ziemlich stabil, oft stabiler als die Konsonanten.
Z. B. Havai‘i - Hawaiki - ‘Avaiki - Hawai‘i - Savai‘i

One basic language prevails throughout Polynesia. The vowels are consistently the same—a, e, i, o, and u, pronounced as in French or German—and the consonants are always followed by a vowel. Dialects have developed in various island groups by changes in consonant sounds. R and v are used in central and eastern Polynesia where l and v are used in western Polynesia. In some dialects certain consonants are not fully sounded but are represented or should be represented by an inverted comma over its place in the word. In the Society Islands, k and ng were dropped; so the name for the ancestral homeland, pronounced Havaiki in other dialects of central Polynesia, is here pronounced Havai‘i. In New Zealand, where w is used instead of v, the ancient home is Hawaiki. In the Cook Islands, where h is dropped, it is ‘Avaiki. In the Hawaiian islands, where w is used and k is dropped, the largest island of the group is named Hawai‘i. In Samoa, where s replaces h, v is preferred to w, and k is dropped, the largest island is called Savai‘i.

7. The Centre of the Triangle | NZETC

Plosive: b,p,f,v

f und v sind keine Plosive.

In vielen Sprach(grupp)en wäre es sinnvoll, das "h" hier einzusortieren. Was ist richtig. "Nippon" oder "Nihon"?
Botschaft von Japan in Deutschland : Japan Informationen : Feature - Nihon oder auch Nippon
Das ist auch aus den indoeuropäischen Sprachen bekannt, siehe Pedersen
Weshalb ist p- ein unstabiler Laut? - Springer

... daß der Laut p- eine Neigung hat, aus dem Verschlußlautsystem herauszufallen und entweder zu f- oder zu h- und Null zu werden.

Bzw. wäre das ein Fall für (c):

Augusto schrieb:
spezifische, für einzelne Sprachfamilien bekannte Lautverschiebungen wie etwa roman. k <> indo-irano-balto-slawisch s/S (=dt. "sch").

Das grundsätzliche Problem ist aber:
Je mehr "Verbesserungen" wir einbauen, um mehr Signale für verwandte Wörter einzufangen, desto mehr "Müll" fangen wir auf.

Bauen wir die Möglichkeit "p > h" ein, erhöhen wir die Chance, dass die Verwandtschaft von griechisch "pente" mit armenisch "hing" erkannt wird. Gleichzeitig wird das System aber auch griechisch "petsi" mit deutsch "Haut" verknüpfen - was nun gar nichts miteinander zu tun hat.

Ich sehe nicht, was die Modifikationen bringen sollen und was daran "grundsätzlich tragfähig" sein soll.

Augusto · 07. Okt. 2015

Weiter im Wiederholungsexperiment zum World Language Tree bzw. der Aussagekraft modifizierter normalisierter Levenshtein-Distanzen (LDN) im Sprachvergleich.
Zur Kalibrierung habe ich mir zunächst interessehalber Hochdeutsch vs. "Low Saxon" (Bremer Platt) angesehen: Durchschnittliche LDN 0,37, mit den o.g. Modifizierungen sinkt sie auf 0,18. Hierbei ist u.a. Zusammenfassung von Diphtongen (hdt. "au", "ai"), zu einem Laut wirksam, daneben auch die "Abwertung" hochdeutscher Lautverschiebung sowie der Streichung finaler Vokale. Z.B. sinkt für "Aug3" vs. "ok" die LDN von 1 (unverwandt) auf eine mod. LDN von 0,5. Daneben reduziert auch die Zusammenfassung von Endungen, konkret der dem Platt fehlende hdt. Infinitiv "-3n", zu nur einem "Laut" die mod. LDN.
Alle 40 Vokabeln sind paarweise miteinander verwandt (nicht selbstverständlich, die Datenbank hätte z.B. auch Platt "kieken" für "sehen" enthalten können). Sie zeigen eine maximale mod. LDN von 0,5 (ains-an, aug3-ok), 90% (36/40) liegen unter oder bei 0,33. Die durchschn. LDN von 0,37, mod. LDN von 0,18 kann als Orientierungswert für sehr enge lexikalische Verwandschaft und maximal ca. 1.500 Jahre divergierende (und danach im Sprachkontakt wieder konvergierende) Lautentwicklung angesehen werden. Für Niederländisch vs. Westfriesisch wurde eine (unmodifizierte) LDN von 0,34, für Niederländisch vs. Afrikaans von 0,21 ermittelt. Platt-Hochdeutsch paßt zur ersten Größenordnung.
https://en.wikipedia.org/wiki/Linguistic_distance

Nun zu Spanisch - Hochdeutsch - Armenisch:

Spanisch - Hochdeutsch: LDN 0,86, mod. LDN 0,70. Relevanter divergierender Substratanteil in beiden Sprachen. Letzter intensiverer direkter Sprachkontakt vor knapp 1.500 Jahren (Zerfall Westgoten-, Langobardenreiche). Scheint ein geeigneter Kalibrierungspunkt für relativ rezenten Kontakt von zwei teilweise unterschiedliche Substrate beinhaltenden Sprachen zu sein.
Hochdeutsch - Armenisch: LDN 0,88, mod. LDN 0,77. Geteiltes frühneolithisches Substrat (LBK stammte genetisch aus Ostanatolien/ Kaukasus) denkbar; Groß-Armenien (Sprachraum vor 1917) einer der Kandidaten für idg. "Urheimat". Letzter intensiverer direkter Sprachkontakt wohl vor ca. 3.500 Jahren (archäogen. belegte Verdrängung armenisch/ ostanatol. durch mitteleurop. Hausschweine, "rheinische" yDNA I2c in armenischem/ georgischen Adel)*, danach sporadische Vermittlung u.a. über Goten, Alanen, Waräger und Slawen (Kirchenslawisch) vorstellbar.
Spanisch-Armenisch: LDN 0,86, mod. LDN 0,75. Geteilte indogerm. Basis, sonst wohl nur sporadische, mittelbare Verbindung (antike Griechen, mittelalterliche Juden). Insofern ein guter Kalibrierungspunkt für genetische lexikalische Verwandschaft ohne nachfolgenden intensiveren direkten Sprachkontakt.
Die - trotz geringerer (prä-)historischer Interaktion - etwas nähere lexikalische Beziehung von Armenisch zu Spanisch als zu Hochdeutsch rührt v.a. aus fünf Begriffen, konkret "Knochen" (vs. span. weso, arm. vosgor), "Zunge" (vs. span. lengw~a, arm. lezu), "Brust" (vs. span. peCo, arm. cic - dazu aber dt. Zitze, Titte), "trinken" (vs. span. toma, arm. x3me - letzteres bei span comer ["essen"] noch besser aufgehoben), und "sterben" (vs. span. mori, arm. merac). Wie weit hier voridg. germanisches Substrat im Spiel ist, wäre eine interessante Frage.

Sepiola schrieb:
Wenn alles Unpassende weniger ins Gewicht fällt, wird das Ergebnis grundsätzlich in Richtung einer Schein-Verwandtschaft verzerrt.
Auf der anderen Seite bleiben echte Kognaten unerkannt:

Dies ist teilweise zutreffend, jedoch mit starken Einschränkungen:
A: Spanisch-Deutsch:

95% (19/ 20) der Kognate werden klar erkannt, 11 (55%) mit einer mod. LDN von maximal 0,5, weitere 4 (20%) mit einer mod. LDN von max. 0,6.
4 Kognate (20%) erweisen sich als "grenzwertig" (mod. LDN 0,6-0,7). Hierzu gehören, nach der Modifikation, nun auch yo-ix (LDN 1, mod. LDN 0,67) und dos-cvai (LDN 1, mod. LDN 0,7). Dazu treten oir-her3n (mod. LDN 0,64; hier schlägt der hdt. Infinitiv -3n durch), und ag~wa - vas3r (mod. LDN 0,7, [g~w]<>v als "halber" Wechsel bewertet).
Nicht auflösbar (mod. LDN 1) verbleibt yeno-fol.
45% der Nicht-Kognate (9/20) werden voll abgewiesen (mod. LDN 1).
Weitere 25% (5/20) haben eine mod. LDN größer/gleich 0,8. Hier handelt es sich v.a. um Vokalgleichheit in kurzen, ein- bis zweisilbigen Wörtern, z.B. "Pfad" senda-vek, "sehen" ve - ze3n, "Blatt" oha-blat. Artefakte, mit denen wohl zu leben ist, bzw. die man positiv als Übereinstimmung gewisser Prinzipien der Wortbildung zwischen beiden Sprachen betrachten nag.
Als "falsche" oder zumindest klärungsbedürftige Kognate zeigen sich: sero-bErk (mod. LDN 0,57), mano-hant (mod. LDN 0,57), arbol - baum (mod. LDN 0,64) und toma-trinken (mod. LDN 0,67 - vielleicht sollte der nasale Wechsel m<>N doch voll gewertet werden). Hiervon hat keines eine mod. LDN unter/bei 0,5, zwei (10%) liegen unter 0,6, zwei (10%) im "Grenzbereich 0,6-0,7. Wie dies abzufangen ist, weiß ich nicht.
Schließlich haben wir zwei Paare im Zwischenbereich einer mod. LDN von 0,75. persona-mEnS ist ärgerlich, weil persona als etruskisches Lehnwort gar nicht hätte aufgenommen werden dürfen. uomo stattdessen hätte seine mod. LDN von 0,78 vs. mEnS verdient. mori - Sterb3n (0,75) ist ein weiteres falsches Kognat, allerdings distanter als die vorgenannten bewertet.

B: Armenisch-Deutsch:

Hier werden 12 Kognate klar erkannt, 8 davon mit einer mod. LDN kleiner/gleich 0,5, 2 mit 0,6, die übrigen 2 mit einer mod. LDN unter 0,65.
Als falsches Kognat zeigt sich - erneut- bErk-ler (mod. LDN 0,57)
Abgewiesen (mod. LDN gößer 0,8) werden 18 Vokabeln, 11 davon eindeutig (mod. LDN 1).
Der hier ggü. Spanisch etwas höher einnsetzende "Grenzbereich" (0,66 - 0,8) beinhaltet 6 Paare, für die Verwandschaft denkbar oder zumindest diskutabel erscheint: ains-meg (0,8), haut-gaSi (0,67), aug3-aCk (0,8), ch~uN3 - lezu (0,75), kni - cung (0,75), desne - ze3n (0,8).
Weitere 3 Paare im Grenzbereich sind wohl falsche Kognate: brust-gurck (0,67), merni-Sterb3n (0,71), pf~at - arahed (0,67). Auch hier schlägt wiederum u.a. Vokalgleicheit durch.

Zu span.-arm gab es folgenden, nicht störenden sondern konstruktiven Kommentar:

Sepiola schrieb:
Tatsächlich sind die beiden Wörter aber durchaus nicht "unverwandt". Sie gehen zurück auf *h₁ḗsh₂r̥, Casus obliquus*h₁sh₂-én-.
Ersteres ergibt im Alt-Armenischen (über *ehar- > *ar-) ariwn, arm. ary~un, im Lateinischen sanguis, davon wiederum spanisch sangre.

Tatsächlich ergibt sich hier eine mod. LDN von 0,81 (unmodiiziert 1). Eben nicht un-, sondern über 4-5 Ecken verwandt. Dabei zeigt sich auch Dein Denkfehler, sepiola: Es geht hier nicht (nur) um verwandt oder nicht verwandt, sondern ganz wesentlich auch um die Enge der Verwandschaft. Da ist eben, für Spanisch und Armenisch, aufgrund der geographischen Entfernung und früher Trennung, häufig kein Superwert zu erwarten. Auf der anderen Seite schlagen, selbst bei teilweise fehlender lexikalischer Beziehung, morphologische Aspekte wie der beiden Sprachen gemeinsame Infinitiv auf einfachen Vokal (im Gegensatz zum hdt. -3n) "hinter dem Komma" durch.
Weil bei span.-arm. sowieso einiges in der "lohnt einen zweiten Blick"-Grauzone landet, fasse ich mich in der Zusammenfassung kurz:

11 Kognate (27,5%) klar erkannt (mod. LDN kleiner/gleich 0,6)
Zwei falsche/ fragwürdige Kognate: Wiederum persona -mart (0,6), und "Berg" sero - ler (0,42).
13 Beziehungen klar abgewiesen (mod. LDN >0,9)
Die übrigen 14 Paare liegen in der hier sehr weiten "Grauzone" von 0,6-0,9. Diese enthält plausibel erscheinende Beziehungen: "Brust" [pe-]Co - cic (0,67), "Fisch" [pes-]cado-cug (0,75), "Baum" ar[-bol]-car (0,8), "Auge" oho-aCk (0,9), einiges für einen "zweiten Blick":uno-meg (0,8), "Nase" [na-]ris - kit (0,71), "Feuer" fuego - grag (0,71), "Nacht" [no]ce - ki[Ser] (0,69), aber auch Artefakte wie "sehen" ve - desne (0,8), "Pfad" senda - jampa (0,69).

Fazit:

Die angewandten Modifizierungen verbessern hier die Auflösung deutlich. Allein bei den Nasalen (n,m,N, nj) mag, für idg. Sprachen, des Guten etwas zu viel gewesen sein.
Die "Grauzone" wird, gerade bei recht tief in die Vergangenheit reichenden Sprachbeziehungen wie Spanisch-Armenisch, relativ breit. Neben der durchschnittlichen mod. LDN sollte daher auch der Anteil der gesicherten Kognate in die Bewertung einbezogen werden.
Die diesbezügliche Grenze ist nicht exakt zu justieren. Zieht man sie bei einer mod. LDN von 0,6, fallen für die hier geprüften Sprachen mehr tatsächliche Kognate (dt.-span.5, dt.-arm. 2-4, span.-arm. 1-3) durchs Raster, als falsche Kognate "reinrutschen" (span.-dt. 2, dt.-arm. 1, span.-arm. 2).

Für einzelne Wortpaare ist die Methode also nur bedingt geeignet, in der Aggregation über ausführlichere Wortlisten jedoch schon. Für wenig erforschte/ dokumentierte Sprachen ohne länger zurückreichende Schriftlichkeit, wie dies für fast alle der über 1.100 melanesischen Sprachen, und die meisten afrikanischen und amerindischen Sprachen gilt, bleibt Lexicostatistics, mangels Alternativen, eh die Methode der Wahl und ist linguistisch gebräuchlicher und anerkannter Standard, vgl. u.a.
http://www.eva.mpg.de/lingua/confer...ryHolton_MarianKlamer_FrantisekKratochvil.pdf
Foley: "The Papuan Languages of New Guinea"
Dimmendaal: "Historical Linguistics and the Comparative Study of African Languages"
Crowley/Bovem:"An Introduction to Historical Linguistics"
Letzteres enthält (S. 139) eine Tabelle zur Bestimmung des Vewandschaftsgrads anhand des Kognatanteils, die ich für die weiteren Vergleiche zugrunde legen werde. Daraus, etwas zusammengefaßt:

0-12% "Phylum" (d.h. evtl Sprachkontakt, aber gen. unverwandt)
12-36% "Families of a Stock":-Hier wäre, vorbehaltlich vertiefender Analysen zu den jeweiligen Einzelpaaren, Armenisch im Verhältnis zu Deutsch (30%) und Spanisch (27,5%) einzuordnen.
36-80% "Languages of a Family": Spanisch-Deutsch (37,5% einschließlich der statistisch "grenzwertigen", etymologisch gesicherten Kognate) fällt hier knapp hinein.
81-100% "Dialects of a Language": Hochdeutsch-Platt (100%). [Hochdeutsch-Niederländisch wäre diesbezüglich interessant.]

Um weitere Grundsatzdiskussion zu vermeiden - lest doch bitte folgende Darstellung der Pro-und Contra-Diskussion der 1960er bis 90er, und des sich nach über 50 Jahren Debatte inzwischen herausbildenden Konsens:
https://en.wikipedia.org/wiki/Mass_comparison
Kernpunkte sind nach meinem Verständnis:

Lexikostatistik ist hilfreich, z.T sogar unabdingbar für die Identifikation lexikalischer Nähe von Sprachen,
Idealerweise, so entsprechende Dokumentation vorhanden ist, sollte sie im zweiten Schritt durch komparative Analyse (Rekonstruktion einer Proto-Sprache) ergänzt werden,
Zur Datierung (Glottochronologie) ist sie nur bedingt geeignet und erfordert zusätzliche archäologische (plus ggfs. archäogenetische) Befunde zur Absicherung/ Kalibrierung.

Schlußbemerkung: Der Vergleich hat mir mal wieder den hybriden Charakter vieler indogermanischer Wörter vor Augen geführt, ersichtlich an Clustern wie span. agw~a, arm. Cur, dt. vas3r; span. lengua, dt. Zunge, arm. lezu; dt. fis, span. pes-ca-do, arm. cug (zu letzterem später mehr, wenn ich auf den kadoN der an der vietnamesischen Küste fischenden Katu eingehe). Dieser hybride Charakter wird m.E. in der vergleichenden Indogermanistik vielfach noch zu wenig berücksichtigt, auch wenn es hier in den letzten Jahren einige Bewegung (u.a. Peter Schrijver) gibt.

Das, was sich in der Zwischenzeit hier so an Posts (teilweise Störfeuer, teilweise konstruktiv) angesammelt hat, werde ich gelegentlich abarbeiten. Wie gesagt, systematisches "Durcharbeiten" der Wortlisten ist zeitaufwendig. Bitte habt Geduld!

* Ein Faden hierzu steht auch noch auf der "to-do-"Liste, wann immer ich dazu komme. Die Schweine-Studien muß ich wieder raussuchen. Zum SW-kaukasischen Adel, einschl. vielleicht der Bagratiden gibts wohl einiges auf armenisch/ georgisch, die beste englischsprachige Sammlung ist Searching for famous I2 carriers - Page 7

Vergleichende Linguistik - statistische Verfahren

Aktives Mitglied

Anhänge

Moderator

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Moderator

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Moderator

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Wir schützen deine Privatsphäre