Unser Geschichtsforum ist in Gefahr!

Liebe Besucher,
leider müssen wir euch kurz unterbrechen:

Das EU-Parlament stimmt nächste Woche über eine Urheberrechtsreform ab,
die uns in unserer Existenz bedroht.

Offener Brief der Forenbetreiber

Wir bitten euch daher darum, dass ihr

Vielen Dank für eure Unterstützung!

Euer Geschichtsforum.de

Wir sind Teil des #321EUOfflineDay

Vergleichende Linguistik - statistische Verfahren

Dieses Thema im Forum "Historische Hilfswissenschaften mit Genealogie" wurde erstellt von Augusto, 3. Oktober 2015.

  1. El Quijote

    El Quijote Moderator Mitarbeiter



    Dabei lässt sich pez sehr sauber von piscis ableiten.
    Lateinisches -c- vor -e- und -i- (piscis!) wird regelmäßig von /k/ zu /ts/. Das setzt sich im Italienischen als /tʃ/, im Französischen als /s/ und im Spanischen als /θ/(graphische realisierung als -c- oder -z-) fort.
     
  2. Sepiola

    Sepiola Aktives Mitglied

    An Respekt gegenüber dem Gastgeber fehlt es mir nicht.

    Die Frage nach dem Respekt vor dem Gastgeber ist an den zu richten, der die Tische des Gastgebers dazu missbraucht, um tonnenweise unsortierten Müll abzuladen.


    Du hast doch schon bisher alle grundsätzlichen methodischen Hinweise ignoriert. Wir sind immer noch am selben Punkt wie schon Ende September 2014:

     
    Zuletzt bearbeitet: 13. Oktober 2015
  3. Sepiola

    Sepiola Aktives Mitglied


    Das Tool funktioniert sehr einfach:
    "Die LD ist die minimale Anzahl an Schritten, die nötig ist, um ein Wort in ein anderes zu transformieren; die drei möglichen Schritte sind Einfügung, Substitution und Löschung.
    ...
    Um Unterschiede in der Wortlänge zu korrigieren, wird die LD anschließend durch die Anzahl der Segmente des längeren Wortes dividiert."

    Als Segmente zählen in der Regel Buchstaben. Die Wörter werden nach einer einfachen phonetischen Schrift transkribiert.

    Das wäre im vorliegenden Beispiel:

    fw~a (das ~ signalisiert, dass f und w als ein Segment gezählt werden.)
    igado

    Also sind folgende Schritte nötig um von fw~a zu igado zu gelangen:
    1. Hinzufügung von i
    2. Substitution von fw durch g
    3. Hinzufügung von d
    4. Hinzufügung von o

    4 (Schritte) geteilt durch 6 (Segmente des längeren Worts) ergibt eine Distanz von 0,67.
     
  4. El Quijote

    El Quijote Moderator Mitarbeiter

    Und was bedeutet dieser Wert 0,67. Suggeriert der Nähe oder Entfernung?
     
  5. Sepiola

    Sepiola Aktives Mitglied

    Eher Entfernung als Nähe.

    0 bedeutet "identisch", 1 bedeutet größtmögliche Distanz.

    "ich" (yo - j3): 1 - keine Ähnlichkeit
    "kommen" (veni - v3ni): 0,25 - ziemlich ähnlich
    "neu" (nuevo - nuvo): 0,2 - noch ähnlicher

    Das Verfahren ist natürlich beim Vergleich einzelner Wortpaare völlig sinnlos; erst im größeren Maßstab können sich statistisch interessante Werte ergeben.


    Der Vergleich einer 40er-Wortliste zwischen Französisch und Spanisch ergibt einen Wert von 0,587351207281.
    http://strauss.sfs.uni-tuebingen.de:8080/lang/french/spanish/

    Was für sich genommen aber auch noch nicht viel besagt, außer vielleicht dass die Übereinstimmungen höher sind, als sie bei reinem Zufall zu erwarten wären.

    Erst im größeren Sprachvergleich fangen die Zahlen an, interessant zu werden.

    http://strauss.sfs.uni-tuebingen.de:8080/lang/french/

    0,3 bis 0,5: auf dem Französischen basierende Kreolsprachen und relativ benachbarte Dialekte/Sprachen
    0,5 bis 0,7: weitere romanische Sprachen, auf dem Romanischen basierende Kunstsprachen, mit Michif das seltene Paradebeispiel einer Mischsprache.
    0,7 bis 0,75: weitere indoeuropäische Sprachen
    ab 0,75 fängt es an, durcheinanderzugehen: Die Distanzen zu entfernten Verwandten der IE-Sprachfamilie sind nicht mehr von Distanzen zu Einzelsprachen fremder Sprachfamilien zu unterscheiden.

    Die einzelnen Distanzen sind aber sehr mit Vorsicht zu genießen, Rumänisch-Italienisch hat den sagenhaft niedrigen Wert von 0.194029415654!
     
  6. El Quijote

    El Quijote Moderator Mitarbeiter

    Du wirst wissen, dass der historische Entwicklungsprozess anders verlief. Von Hinzufügungen kann nicht die Rede sein, diese kann man nur ohne sprachgeschichtliche Kenntnis und bei rein synchronem Material postulieren:

    higado/foie (span./frz. 'Leber') ist wie pescado eigentlich ein Partizip: Ficatum. Dieses Partizip wurde zunächst adjektivisch verwendet, denn es bedeutet 'gefeigt' und war das Adjektiv zu iecur: Iecur ficatum = 'gefeigte Leber' - dahinter steckt eine strikte Feigendiät für Gänse -, iecur fiel irgendwann weg und ficatum blieb übrig, was mit der Substantivierung des Adjektivs gleichbedeutend war.
    Die Fortentwicklungen von ficatum bezeichnen im Übrigen alle Lebern, nicht nur Gänselebern oder Lebern, die auf dem Teller landen, auch die menschliche Leber.

    1.) Iberoromanische Sprachen
    Aragonesisch: figado
    Asturisch: fégadu
    Galicisch-Portugiesisch: fígado
    Spanisch: higado

    2.) Brückensprache Ibero- und Galloromanisch
    Okzitanisch-Katalanisch: fetge

    3.) Galloromanische Sprachen
    Französisch: foie
    Walonisch: foete

    4.) Italoromanische Sprachen
    Italienisch: fegato
    Lombardisch: fidegh
    Venezianisch: figà
    Sizilianisch: fìcatu

    5.) Balkanromanische Sprachen
    Rumänisch: ficat
    6.) Nichtromanische Sprachen, die das Wort entlehnten:Maltesisch- eine eigentlich arabische Sprache, mit starkem italienischenEinfluss: Fwied


    Im Französischen und den meisten anderen romanischen Sprachen ist der f-Anlaut von ficatum erhalten. Lediglich Spanisch hat - aber das ist typisch für's Spanische - das f zu h gewandelt, welches nicht mehr ausgesprochen aber eben noch geschrieben wird. Vgl. foeniculum > hinojo, forno > horno, fabulari > hablar etc.
    In den iberoromanischen Sprachen wurden die harten Okklusive p-t-k zu den weichen Okklusiven b-d-g sonorisiert/lenisiert, genau das findet sich in allen Beispielen wieder, außer evtl. im Katalanischen (fetge). Hier wäre zu klären, ob es sich um eine Metathese handelt (Vertauschung von t und g/k) oder um die graphische Realisierung eines bestimmten Lauts, das t also nichtetymologisch motiviert.
    Im Französischen ist die Lenisierung der Okklusive so weit gegangen, dass sie ganz verschwunden sind. Im Wallonischen dagegen wurde zwar das k lenisiert und verschwand dann ganz, das t aber blieb unsonorisiert erhalten (oder wurde nach Sonorisierung wieder entsonorisiert, das gibt das synchrone Material nicht her).

    In den norditalienischen Sprachen ist die Sonorisierung bzw. Lenisierung voll vollzogen (fidegh, figà) (mit eindeutiger Metathese im Lombardischen), im Italienischen selbst nur halbwegs (fegato) und im Sizilianischen (fìcatu) gar nicht, welches in dieser Beziehung mit dem Rumänischen (ficat) Ähnlichkeiten aufweist.

    Dagegen - unter der Voraussetzung einer nicht eigenständigen Entwicklung im Maltesischen - erinnert die maltesische Form fwied weniger an italienische Formen als vielmehr an iberoromanische.
     
    1 Person gefällt das.
  7. El Quijote

    El Quijote Moderator Mitarbeiter

    Laut dem englischen Wiktionary stammt das Malti-Wort fwied allerdings nicht, obwohl es 'Leber' bedeutet, vom romanischen Wort, sondern vom arabischen fuʾād, Pl. ifwda, was im Arabischen soviel wie 'Herz' bedeutet (ich kannte da bisher nur qalb). Vielleicht eine Interferenz aus dem Arabischen und dem Romanischen, immerhin trägt das Romanische ja zu 40 - 55 % (dazu gibt es unterschiedliche Erhebungen/Schätzungen) zum maltesischen Lexikon bei.
     
  8. Ingeborg

    Ingeborg Moderator Mitarbeiter

    Ich kannte auch nur /qalb/, aber das Malti ist ja sozus aus dem Sizilianisch-Arabischen entstanden, aufgrund sizilianischer Einwanderung nach Malta (ich meine, 10./11. Jhdt). Ab dem 13./14. Jhdt war Malti dann vom Kontakt zu anderen arabischen Sprachen ziemlich abgeschnitten. Daher kann sich im Malti ein älterer Wortschatz erhalten und einzelne Worte in anderen arabischen Sprachen/Dialekten eine Bedeutungsänderung erfahren haben, die das Malti somit nicht mitgemacht hat.
     
  9. Lafayette II.

    Lafayette II. Aktives Mitglied


    Leider kann ich dir gerade keinen Grünen geben, vielen Dank für den sehr interessanten Post! ich finde es fazinierend, wie sich der Entwicklungsprozess des Worts "Leber" vollzogen hat. Aber ist es erklärbar, warum diese doch nicht gerade offensichtliche Entwicklung des Wortes sich in allen romanischen Sprachen vollzogen hat?
     
  10. El Quijote

    El Quijote Moderator Mitarbeiter

    Ich hab natürlich, nachdem ich Wiktionary konsultiert habe, gleich auch Lessan konsultiert, das bringt für Herz neben qalb eben auch fuʾād.


    Offensichtlich war das Wort ficatum so sehr an iecur gebunden, dass es schon im Vulgärlateinischen iecur ersetzte und daher die Leber bereits vor der Trennung der romanischen Sprachen exklusiv bezeichnete.

    Es ist ja nicht die Hoch- oder Gelehrtensprache, die sich fortsetzt, sondern die Volkssprache. Beispiel: Lateinisch 'Pferd' ist equus. Das setzt sich aber in vielen romanischen Sprache nicht fort, sondern der 'Klepper': caballus > cheval, caballo, cavallo.
     
  11. silesia

    silesia Moderator Mitarbeiter

  12. Sepiola

    Sepiola Aktives Mitglied

    Muss natürlich heißen: 4 geteilt durch 5.
    Ich hatte ursprünglich mit "higado" gerechnet, bin dann aber auf die ASJP-Transkription "igado" umgestiegen.

    Die Distanz ist also 0,8.


    Schon klar.

    Das Tool misst die Ähnlichkeit zweier Wörter, sonst nichts.

    Es werden auch nicht eigentlich Hinzufügungen postuliert - man kann die Schritte ja auch von igado zu fw~a beschreiben, dann sind es 3 Löschungen statt 3 Hinzufügungen.

    Ob das Material synchron ist oder nicht, ist dem Tool egal.

    Hab mal spaßeshalber ein paar Leber-Wörter verglichen, gleichfarbige Wörter sind echte Kognaten:

    Spanisch igado - Neugriechisch ipar (0,6)
    Althochdeutsch lebara - Latein yekur (0,67)
    Neugriechisch ipar - Althochdeutsch lebara (0,67)
    Neugriechisch ipar - Französisch fw~a (0,75)
    Neugriechisch ipar - Latein yekur (0,8)
    Spanisch igado - Französisch fw~a (0,8)
    Französisch fw~a - Althochdeutsch lebara (0,83)
    Spanisch igado - Althochdeutsch lebara (0,83)
    Französisch fw~a - Latein yekur (1)
    Spanisch igado - Latein yekur (1)
     
  13. Sepiola

    Sepiola Aktives Mitglied

    Pelle ? Digitales Wörterbuch der deutschen Sprache

    Pelz ? Digitales Wörterbuch der deutschen Sprache
     
  14. dekumatland

    dekumatland Aktives Mitglied

    ...hatte nicht schon Goethe die Lavater´sche Physiognomik zu Recht bespöttelt? ;)
     
  15. Augusto

    Augusto Neues Mitglied

    "ich mach hier nur noch meine Strophe fertig, pack meine sieben Sachen und dann werd ich .." (Fettes Brot: Jein)

    Frisch raus (13.10.) die erste lexikostatistisch auf Basis des ASJP erstellende sprachfamilienübergreifende Korrespondenzanalyse (G. Jaeger, Tübingen):
    Support for linguistic macrofamilies from weighted sequence alignment (Bald lesen, ist jetzt noch "open for comment")
    Jaeger hat an der Methode noch ziemlich gebastelt. Sie basiert zwar immer noch auf Levenshtien-Distanzen, jedoch wird auf die besten 1% Korrespondenzen ein statistisches Verfahren angewendet, daß die häufigsten Lautverschiebungen identifiziert. Ein auf dem Lautinventar der beiden jeweiligen Sprachen basierendes Meßverfahren soll dabei sicher stellen, daß keine "Zufälle" reinrutschen.
    Mit den als "unschädlich" ermittelten Lautverschiebungen geht es wieder an die Kognatensuche über alle Vergleichssprachen, der Zyklus wird insgesamt 10 mal wiederholt. Was dabei rauskommt, ist eine statistisch ermittelte Matrix von Lautverschiebungen, die natürlich feiner ist, sich aber im Endeffekt gar nicht so sehr von meinen "Modifikationen" unterscheidet: Vokalgleicheit und - austausch wird niedriger bewertet als solcher von Konsonanten, bei diesen gibt es "unschädliche" Wechsel wie etwa "d/t", "g/k/x/X/h" etc.
    Diese Methode bzw. die so ermittelte Matrix zur Bewertung von Lautverschiebungen liegt übrigens auch dem "Distance Mapping Tool" auf der EVOLAEMP-Homepage zu Grunde. Wer da selbst rechnen möchte - die Matrix gibt es in den Supp.Mat zum Downlaod (.csv).
    Jaeger hat die Methode auf alle eurasischen Sprachen mit Ausnahme der afro-asiatischen Sprachen angewandt (letzgenannte kommen vermutlich in der Afrika-Ausgabe, die auch schon gerechnet sein dürfte.) Der auf dieser Basis ermittlete phylogenetische Baum wurde mit der "expert opinion" in Form der Sprachklassifizierung bei Glottolog 2.6 - verglichen. Für 95% bestand Übereinstimmung, und alle "mismatches" traten innerhalb der jeweiligen Familen auf.
    Als Hauptursache für "mismatches" entpuppten sich "rogue taxa", d.h. Sprachen mit lexikalischer Inkonsistenz. Einen dieser Fälle, nämlich Englisch, diskutiert Jaeger ausführlich:
    Prinzipiell wäre dies Problem zwar durch Erstellen eines phylogenischen Netzes (also Zulassung späteren Sprachkontakts) ausschaltbar, aber der dafür erforderliche Rechenaufwand bei über 1.100 berücksichtigten Sprachen ("Ecken" im Netzwerk) hätte vermutlich die Rechner der Unit Tübingen längere Zeit lahmgelegt. Stattdessen verwendet Jaeger zur Identifikation von "rögue taxa" Cronbachs Alpha, eine ursprünglich von den Sozialwissenschaften entwicklete Methode zur Konsistenzprüfung von Antworten auf Meinungsumfragen. Dies führt zur Elimination von 58 "rogue taxa" (v.a. isolierte Sprachen, daneben u.a. Griechisch, Englisch nimmt trotz der vorbeschriebenen Probleme jedoch diese Hürde).
    Die familienübergreifenen Ergebnisse sind ein ziemlicher Hammer; sie zeigen die folgenden Makrofamilien:

    • Indoeuropäisch - Chukotko-Kamschatkisch (p=0,969 - zum Vergleich: Keltische Sprachen als Teil der indoeurop. Sprachen 0,967). Geht quer zu fast allen bisherigen Vorschlägen, einschl. "Nostratisch". Allerdings haben Pagel e.a. in der Analyse zu Ultraconserved Words diese Beziehung, sogar noch erweitert um von Jaeger nicht berücksichtigte Inuit-Sprachen, auch schon angerissen.
    • Kern-Eurasisch: Die beiden vorgenannten, plus Uralisch, Nivkh und Yukagir (p=0,999). Nicht ganz neu, zuletzt diskutiert von Kortland (2010).
    • Altaisch: Mongolisch plus Tungusisch sicher (p=1,00), Turksprachen dazu denkbar, aber schwächer gesichert (p=0,908).
    • Eurasisch: Alle vorgenannten zusammen (p=0,994). Enthält, im Gegensatz zur "nostratischen" Theorie, allerdings nicht Dravidisch.
    • Austroasiatisch -Japanisch - Ainu (p=0,968): Schon länger in der Diskussion. Wird motiviert durch die maritime "Südroute" der ostasiatischen Kolonisation, mag aber auch spätere Kulturkontakte (Jomon-Kultur) bzw. deren Substrat in Japanisch wiederspiegeln.
      Auf niedrigerem Niveau schließt sich Dravidisch (p=0,934) an, dessen austronesisches Substrat schon länger diskutiert wird, und daß darüber hinaus in direktem Sprachkontakt mit in Indien gesprochen austroas. Sprachen (Munda, Santali) steht.
    • Austronesisch - TaiKadai (p=1,000): Schon länger in der Diskussion.
    • Sino-tibetisch - Hmong-Mien: Hoch signifikant auf dem Makro-Level (p=1,000). Die interne Konsistenz der teilweise in Frage gestellten sino-tibetischen Familie scheint hier das größere Problem - für die öfter problematisierten Kuki-Naga-Sprachen (West-Myanmar/ östl. Himalaya) etwa ergibt sich nur p=0,882, für die Karen-Sprachen (SO-Myanmar, NW Thailand) p=0,928. Jaeger diskutiert relativ ausführlich mögliche, im ASJP nicht markierte Entlehnungen, und läßt letztendlich offen, wie weit hier genetische Beziehung oder ein Kontakt- (Sprachbund-)Phänomen vorliegt.
    Für eine "austrische" Makrofamilie, die die drei letztgennanten vereint, liefert die um "rogue taxa" bereigte Analyse keine Anzeichen (die Analyse mit ihnen jedoch schon).
    Jaeger faßt zusammen:
    Wo er Recht hat, hat er Recht. Allerdings braucht es, wo keine Anzeichen rezenten Sprachkontakts vorliegen, wie etwa im Fall Indoeuropäisch - Chukotko-Kamschatkisch (der Baum sortiert Keltisch, nicht etwa Russisch, an die Schnittstelle ein), keine (automatisierte) komparative Analyse, um den Befund als (prä-)historische Vertiefung lohnend zur Kenntnis zu nehmen.

    Der Baum einschließlich der "rogue taxa" hält noch diverse weitere Überraschungen bereit. Am Wochenende war er noch online (Supp. Dataset S01), heute aber nicht mehr. Da ging u.a. so einiges zwischen kaukasischen Sprachen und Dravidisch, mit Burushaki und anderen südasiatischen Isolaten als Brücke, hin und her, nur habe ich mir die Details leider nicht gemerkt. Was ich mir gemerkt habe, war, daß die "rogue taxa" Scotch Gaelic, Manx und Gheg-(Nord-)Albanisch ein Unterfamilie gemeinsam in Irisch und Tosk-Albanisch bildeten (p=1,000), während sich Bretonisch und Walisisch mit niedrieger Signifikanz bei den romanischen Sprachen neben Französisch einsortierten. "Rogue"? Oder war es doch voreilig, den Pan-Illyrismus völlig von der Tagesordnung zu nehmen.

    * Neben Englisch und Keltisch (s.o.) schwach unterstützt u.a. Elsässisch/ Berner Deutsch (Salü), Korsisch, Slovenisch, Ossetisch, Farsi, einige Pashtu-Varianten, Konkan, Maharati, Gujarati, und diverse Roma-Dialekte.
    ** Ausreißer v.a. Finnisch/Estnisch etc., und Mordwinisch.

    Das wars. Tschüß und machts gut!
     

    Anhänge:

  16. El Quijote

    El Quijote Moderator Mitarbeiter

    Und das Portugiesische, eine Gruppe sekundärer Dialekte des Galicischen, wird auf einem eigenen Ast gezeigt, wohingegen das Galicische als dem Aragonesischen am nächsten verwandt angezeigt werden soll.
     
  17. silesia

    silesia Moderator Mitarbeiter

    Ein neuer Aufsatz aus der PLOS-ONE:

    List/Greenhill/Gray: The Potential of Automatic Word Comparison for Historical Linguistics
    The Potential of Automatic Word Comparison for Historical Linguistics

    Abstract:

    The amount of data from languages spoken all over the world is rapidly increasing. Traditional manual methods in historical linguistics need to face the challenges brought by this influx of data. Automatic approaches to word comparison could provide invaluable help to pre-analyze data which can be later enhanced by experts. In this way, computational approaches can take care of the repetitive and schematic tasks leaving experts to concentrate on answering interesting questions. Here we test the potential of automatic methods to detect etymologically related words (cognates) in cross-linguistic data. Using a newly compiled database of expert cognate judgments across five different language families, we compare how well different automatic approaches distinguish related from unrelated words. Our results show that automatic methods can identify cognates with a very high degree of accuracy, reaching 89% for the best-performing method Infomap. We identify the specific strengths and weaknesses of these different methods and point to major challenges for future approaches. Current automatic approaches for cognate detection—although not perfect—could become an important component of future research in historical linguistics.
     
  18. silesia

    silesia Moderator Mitarbeiter

Diese Seite empfehlen