Построение филогенетического древа славянских языков методами многомерного статистического анализа
Рассмотрение специфики различных методов построения филогенетического древа славянских языков и оценки близости языков. Оценка родства славянских языков и построение генетической классификации с помощью методов многомерного статистического анализа.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 26.04.2019 |
Размер файла | 160,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Построение филогенетического древа славянских языков методами многомерного статистического анализа
С.В. Русаков, Д. М. Нурбакова
Рассмотрены различные методы построения филогенетического древа славянских языков и оценки близости языков. Произведено сравнение с традиционной классификацией.
Ключевые слова: эволюция языков; филогенетика; моделирование эволюции; типология; многомерный статистический анализ.
Введение© С. В. Русаков, Д. М. Нурбакова, 2011
Язык - это отражение человеческой истории, без языка общение и понимание людей было бы невозможным. Благодаря языку мы обнаруживаем связь с людьми, жившими задолго до нас, соединяя прошлое и настоящее. Некоторые языки умирают, и порой расшифровать письмо представляется достаточно сложной, а иногда и непосильной задачей.
Почему люди, не знающие того или иного языка, способны понимать друг друга? Насколько близкими являются языки, и как они развивались на протяжении истории? На эти вопросы старается ответить сравнительно-историческое языкознание. филогенетический славянский язык генетический
Вопрос филогенетических отношений языков волновал многих ученых. Существует ряд гипотез о существовании праязыка (праязыков), положившего начало языковым семьям. Таковой является, например, теория родословного дерева А. Шлейхера [1]. Открытие западноевропейскими учеными санскрита укрепило веру в существование единого языка-основы.
Для оценки родства языков разрабатываются многие методы. Развитие ЭВМ, математических методов, открытия в области молекулярной биологии, достижения в анализе ДНК способствовали проникновению и применению идей теории эволюции в лингвистику.
Цель данной работы - оценка родства славянских языков и построение генетической классификации с помощью методов многомерного статистического анализа.
Процесс языковой филогенетической реконструкции можно разбить на следующие этапы:
1) выбор данных, которые наилучшим образом отражают исследуемые процессы;
2) выбор метода филогенетической реконструкции;
3) выбор способа представления результатов (например, дендрограмма в случае иерархической кластеризации или консенсусное дерево при использовании метода максимальной экономии);
4) сравнение результатов, полученных различными методами;
5) интерпретация с лингвистической и экстралингвистической точек зрения.
В данной работе мы анализируем лингвистические данные математическими методами, разработанными первоначально для задач эволюционной биологии. Для визуализации филогенетических отношений используется филогенетическое дерево или дендрограмма, отражающие родственные связи между изучаемыми элементами. Мы строим филогенетическое древо славянских языков с помощью методов иерархической кластеризации на основе корреляционного расстояния, на основе расстояния Левенштейна и Дамерау-Левенштейна, байесовского метода - и филогенетическую сеть методом NeighbourNet. Однако не стоит забывать, что всякая модель - упрощенное видение объектов действительности, процессов и полученные деревья представляют собой гипотезы протекания настоящих процессов, являющихся крайне сложными и многогранными.
1. Данные
Материалом нашего исследования служат современные славянские языки. Славянские языки - группа родственных языков индоевропейской семьи. Распространены на территории Европы и Азии. Отличаются большой степенью близости друг к другу, которая объясняется как единством происхождения славянских языков, так и их длительными и интенсивными контактами на уровне литературных языков и диалектов. По степени близости друг к другу принято выделять 3 группы: восточно-славянскую (русский, украинский и белорусский), южно-славянскую (болгарский, македонский, сербохорватский и словенский) и западно-славянскую (чешский, словацкий, польский с кашубским диалектом, сохранившим определенную генетическую самостоятельность, верхне- и нижне-лужицкие) [2]. В данной работе мы исследуем генетические отношения между 13 современными языками: словенским, нижне- и верхнелужицкими, чешским, словацким, восточно-чешским, украинским, белорусским, польским, русским, македонским, болгарским и сербохорватским, - а также староцерковнославянским.
(a) Лексические данные
В качестве лексических данных используется список Сводеша из 200 значений, служащий инструментом для оценки родства между различными языками по признаку схожести наиболее устойчивого базового словаря [3]. Данные для 13 славянских языков взяты из базы, собранной Краскалом и др. [4], где словоформы классифицируются на когнаты (однокоренные слова, имеющие общее происхождение и похожее звучание в двух и более самостоятельных языках), сомнительные когнаты и "не когнаты". Эта база данных была дополнена нами 171 словоформой староцерковнославянского языка [5]. В качестве анализируемых последовательностей рассматриваются бинарные цепочки, каждый элемент которых соответствует признаку наличия или отсутствия соответствующей когнаты (элемент кодировался "1" или "0" соответственно) в конкретном языке. Таким образом, для списка Сводеша из 200 значений число когнат составило 476. В случае использования староцерковнославянского языка число когнат составило 411.
(b) Грамматические данные
Для 12 славянских языков (за исключением восточно-чешского) из WALS были выбраны следующие признаки: сохранение двойственного числа, наличие трех родов, наличие определенного артикля, суффиксация как наиболее частотная форма словообразования, использование супплетивных форм для выражения видовременных значений глагола. Наличие или отсутствие данных признаков также кодировалось "1" или "0" соответственно.
2. Методы
Выделяют две группы методов филогенетической реконструкции: дистанционно-матричные и статистические [6;7]. Первая группа методов построена на расчете матрицы расстояний, при этом расстояние понимается как мера различий. Далее к этой матрице применяются различные способы кластеризации. Так, наиболее близкие вершины группируются и объединяются далее в кластеры более высокого порядка. Результат представляется графически в виде дерева, концевые вершины которого представляют собой анализируемые явления (в нашем случае языки), а длины ветвей пропорциональны расстоянию между таксонами (группами в классификации, состоящими из дискретных объектов). Главным достоинством данной группы методов является построение филогенетического древа непосредственно из матрицы расстояний. Однако при работе с расстояниями иногда теряется связь классифицируемых явлений и дерева. Кроме того, мера расстояния может быть необъективной в случае сложных взаимосвязей изучаемых элементов. Примерами дистанционно-матричных методов могут служить: метод невзвешенного попарного среднего (UPGMA) [8], метод связывания ближайших соседей (Neighbour Joining, NJ) [9], метод построения филогенетической сети NeighbourNet [10]. Результаты во многом зависят от выбора меры расстояния.
Статистические (или дискретные) методы работают непосредственно с последовательностями данных, а не с коэффициентами их сходства. Большинство статистических методов решают задачу оптимальности, например метод максимальной экономии (Maximum Parsimony, MP) [11;12;13], максимального правдоподобия (Maximum Likelihood). В качестве примера можно назвать также метод Байеса [14]. Важно отметить, что в силу неабсолютной точности и однозначности самих данных филогенетическая неопределенность возрастает и различные методы и оценки приводят зачастую к разным результатам. Кроме того, большинство методов являются NP-сложными задачами.
В данной работе мы анализируем данные с помощью следующих методов:
· Иерархическая кластеризация методом взвешенного среднего (WGMA) на основе корреляционного расстояния, реализованная нами в пакете Wolfram Mathematica 7.0.
· Построение филогенетической сети методом NeighbourNet, реализованным в программе SplitsTree [15].
· Иерархическая кластеризация на основе расстояния Левенштейна [16] и Дамерау-Левенштейна [17], реализованная в пакете Wolfram Mathematica 7.0.
· Построение филогенетического древа методом Байеса с использованием программного продукта MrBayes [18].
Для первоначального анализа данных предлагается использовать корреляционное расстояние, которое может быть найдено по формуле
· - среднее значение компонентов вектора
· - норма вектора :
В качестве оценки различия строк предлагается использовать расстояние Дамерау-Левенштейна или Левенштейна как наиболее точную и информативную меру. В отличие от расстояния Хемминга, заключающегося в посимвольном сравнении строк и равняющегося числу различных символов, т.е. операций замены символа, расстояние Левенштейна определяется как минимальное число операций замены, вставки и удаления одного символа, необходимых для превращения одной строки в другую. Расстояние Дамерау-Левенштейна является модификацией расстояния Левенштейна и, помимо перечисленных операций, учитывает также транспозицию соседних символов.
Ниже приведен псевдокод вычисления расстояния Дамерау-Левенштейна (см. рис.1). Отличие от расстояния Левенштейна описывается строками 17-23.
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15) (16) (17) (18) (19) (20) (21) (22) (23) (24) |
for all from to // the distance of S2 in case of empty S1 for all from to // the distance of S1 in case of empty S2 for all from to // deletion // insertion // replacement // transposition if ( and ) then ) return |
Рис. 1. Псевдокод расчета расстояния Дамерау -Левенштейна между двумя строками. S1 - первая строка, S2 - вторая строка, N - длина первой строки, M - длина второй строки, w - весовые функции
3. Результаты
Используя корреляционное расстояние, было получено филогенетическое древо славянских языков, представленное на рис. 2. Как видно, наибольшей связью обладают лужицкие языки. Высокую степень близости также показывают чешский и словацкий языки, украинский и белорусский, македонский и болгарский.
Рис. 2. Дерево славянских языков, построенное на основе корреляционного расстояния. Идентификаторы языков: 1 - словенский, 2 - нижнелужицкий, 3 - верхнелужицкий, 4 - чешский, 5 - словацкий, 6 - украинский, 7 - белорусский, 8 - польский, 9 - русский, 10 - македонский, 11 - болгарский, 12 - сербохорватский
Также отмечается относительная близость русского и польского языков. В стороне стоит словенский язык, выделяемый в отдельную группу. Если рассмотреть структуру дерева, можно выявить четыре основные группы.
Первую составляют болгарский с македонским и примыкающий к ним сербохорватский, что перекликается с южной ветвью славянских языков.
Вторая группа соответствует восточной ветви и состоит из украинского и белорусского и соседствующих с ними русского и польского.
Лужицкие языки, чешский и словацкий образуют западную ветвь славянских языков.
Четвертую группу составляет словенский язык.
Рассмотрим теперь дерево, полученное на основе вычисления расстояния Левенштейна, примененное непосредственно к строкам словоформ, а не бинарным последовательностям (см. рис. 3).
Рис. 3. Дерево славянских языков, построенное на основе расстояния Левенштейна
Рис. 4. Дерево славянских языков, построенное на основе расстояния Дамерау-Левенштейна
Далее на рис. 3-12 используются следующие обозначения: 1 - словенский, 2 - нижнелужицкий, 3 - верхнелужицкий, 4 - чешский, 5 - словацкий, 6 - восточно-чешский, 7 - украинский, 8 - белорусский, 9 - польский, 10 - русский, 11 - македонский, 12 - болгарский, 13 - сербохорватский, 14 - староцерковнославянский, 15 - санскрит.
Сравнив данное дерево с деревом, полученным на основе расстояния Дамерау _Левенштейна (см. рис. 4), разницы в структуре не наблюдаем, поэтому ограничимся общим комментарием.
Структура данного дерева отличается от предыдущего. Однако, подобно рассмотренному выше случаю, наибольшая близость наблюдается между лужицкими языками (идентификаторы 2 и 3 на рисунке) и между чешским и словацким (обозначены 4 и 5). К чехословацкой группе примыкает восточно-чешский (номер 6). Болгарский и македонский также показывают свое тесное родство. К этой группе присоединяется сербохорватский (номер 13), формируя южную ветвь славянских языков. С лужицкими языками соседствует польский, а с украинским и русским - белорусский.
Рис. 5. Дерево славянских языков, построенное на основе расстояния Левенштейна
Рис. 6. Дерево славянских языков, построенное на основе расстояния Дамерау-Левенштейна. Словенский также отделяется от других языков, но, в отличие от предыдущей структуры, наблюдается объединение на более древнем этапе с южной и чехословацкой ветвями
Добавив к основному списку языков староцерковнославянский и санскрит, на основе расстояния Левенштейна и Дамерау-Левенштейна получаем деревья, изображенные на рис. 5 и 6 соответственно. Выбор расстояния в данном случае не влияет серьезно на структуры дерева. При сравнении с деревьями, представленными на рис. 3 и рис. 4, различия отмечаются в примыкании староцерковнославянского языка (номер 14) к южной ветви.
Это объясняется тем фактом, что староцерковнославянский язык является прямым предком македонского и болгарского, а также сербохорватского. Видно также, что санскрит (номер 15) сильно отличается от рассматриваемых славянских языков.
На рис.7-9 представлены филогенетические сети, построенные методом NeighbourNet с использованием программы SplitsTree. Заметим, что добавление грамматических признаков качественно не влияет на топологию сети.
Можно выделить четыре основные группы: (1) нижне- и верхнелужицкий языки, демонстрирующие, как и в предыдущих случаях, максимальное сходство; (2) чехословацкая группа, состоящая из чешского, словацкого и восточно-чешского; (3) болгарский, македонский, сербохорватский и словенский, формирующие южную ветвь, и (4) украинский и белорусский, русский и польский.
Староцерковнославянский язык (см. рис. 9) примыкает к южным языкам, что соответствует традиционной классификации и истории этих языков.
Рис. 7. Филогенетическая сеть славянских языков, построенная на основе анализа 476 лексических признаков
Рис. 8. Филогенетическая сеть славянских языков, построенная на основе анализа 476 лексических признаков и 5 грамматических признаков
Рис. 9. Филогенетическая сеть славянских языков, включая староцерковнославянский язык, построенная на основе анализа 411 лексических признаков
Рис. 10. Консенсусное дерево “из ветвей, поддерживаемых большинством” (majority-rule consensus), рассчитанное на основе метода Байеса для 476 лексических признаков
Рис. 11. Консенсусное дерево `из ветвей, поддерживаемых большинством” (majority-rule consensus), рассчитанное на основе метода Байеса для 476 лексических и 5 грамматических признаков
Рис. 12. Консенсусное дерево “из ветвей, поддерживаемых большинством” (majority-rule consensus), рассчитанное на основе метода Байеса с учётом староцерковнославянского языка для 411 лексических признаков
Обратимся теперь к деревьям, полученным методом Байеса, реализованным в MrBayes. Для расчета постериорной вероятности используется метод Монте-Карло с применением цепи Маркова (Markov Chain Monte Carlo - MCMC), состояния которой соответствуют различным филогенетическим деревьям [19]. В качестве априорного распределения задаем гамма-распределение. Пробегаются 1 500 000 поколений и создаются четыре Марковские цепи. Результаты представлены в виде консенсусных деревьев большинства, т.е. деревьев, состоящих из ветвей, поддерживаемых большинством (majority-rule consensus) [7; 9], построенных в SplitsTree (см. рис. 10_12).
На всех изображениях можно выделить три основные ветви. Первая соответствует южным славянским языкам и состоит из болгарского, македонского, сербохорватского и словенского. При этом наблюдается раннее ответвление словенского языка и, наоборот, более позднее разделение македонского и болгарского. На рис. 12 можно увидеть, что староцерковнославянский стоит у основы южной ветви. Вторая ветвь сформирована из западных языков: чешского, словацкого, восточно-чешского, а также пары тесно связанных лужицких языков. И наконец, третья ветвь состоит из русского, рано отделившегося от остальных, польского, украинского и белорусского.
В отличие от традиционной классификации, большинство методов классифицируют польский язык с белорусским, украинским и русским. Одним из возможных объяснений такого распределения может служить тот факт, что на протяжении Средних веков территория Украины, Белоруссии и Польши входили в состав одного государства, Речи Посполитой, что не могло не сказаться на языках. Можно также отметить, что русский язык, на котором говорили в Московском княжестве, с перемещением столицы из Новгорода в Москву отделился от украинского и белорусского языков и стал развиваться более самостоятельно, что и отражается на деревьях.
Заключение
В данной работе мы рассмотрели четыре метода построения филогенетического древа славянских языков. При этом не наблюдалось существенных различий в топологиях деревьев. Кроме того, полученные математическим моделированием классификации согласуются с традиционной. Главным отличием же является близость польского языка к белорусскому, украинскому и русскому на уровне базовой лексики, полученная при моделировании, в то время как, согласно лингвистической классификации, польский язык относится к западной ветви славянских языков. Интересным оказывается также тот факт, что словенский язык обнаруживает наименьшее сходство со славянскими языками, что может служить предметом отдельного исследования.
Однако наш анализ строился на основе базовой лексики языков и лишь с очень малым учетом грамматических признаков, а для более полной картины следует учитывать различные лингвистические признаки, в особенности грамматические, известные своей стабильностью.
Список литературы
1.Боронникова Н.В., Левицкий Ю.А. История лингвистических учений. М.: Высш. шк. 2005.
2.Лингвистический энциклопедический сло-варь, электронная версия. DVD: ООО "ДиректМедиа Паблишинг".
3.Swadesh M. Lexicostatistic dating of prehistoric ethnic contacts // Proceedings American Philosophical Society. 1952. Vol. 96. P. 452-463.
4.Kruskal J.B., Black P., Dyen I. An Indo-European classification: a lexicostatistical experiment // Transactions of the American Philosophical Society. 1992. Vol.82. №5. P. 1-132.
5.Dryer M., Gil D., Comrie B., Haspelmath M. The World Atlas of Language Structures. Oxford: Oxford University Press, 2005.
6.Warnow T., Evans S., Ringe D. et al. An experimental study comparing linguistic phy-logenetic reconstruction methods // Technical Report 732. Department of Statis-tics, Univer-sity of California, Berkeley. 2007.
7.Warnow T., Ringe D., Evans S., Nakhleh L. A Comparison of Phylogenetic Reconstruction Methods on an IE Dataset // The Transactions of the Philological Society. 2005. Vol. 3. № 2. P.171-192.
8. Michener C., Sokal R. A statistical method for evaluating systematic relationships // University of Kansas Science Bulletin. 1958. № 38. P.1409-1438.
9.Nei M., Saitou N. The neighbor-joining method: a new method for reconstructing phylogenetic trees // Molecular Biology and Evolution. 1987. Vol. 4. № 4. P.406-425.
10.Moulton V., Bryant D. NeighbourNet: An Agglomerative Method for the Reconstruction of Phylogenetic Network // Molecular Biology and Evolution. 2004. Vol. 2. № 21. P.255-65.
11.Tassy P., Darlu P. La Reconstruction Phylogйnй-tique. Concepts et Mйthodes. 1993. Pa-ris: Masson.
12. Forey P.L., Humphries C.J., Williams D.M. Kitching I.J. Cladistics: the Theory and Prac-tice of Parsimony Analysis. 2nd ed. 1998. Oxford: Oxford University Press.
13.Jin G., Zhao F., Mellor-Crummey J., Nakhleh L.. Reconstruction Phylogenetic Net-works Using Maximum Parsimony // Procee-dings of 2005 IEEE Computational Systems Bioinformatics Conference. 2005. P.93-102.
14.Meade A., Pagel M., Holden C.J. Compa-rison of maximum parsimony and Bayesian Bantu language trees // The Evolution of Cul-tural Diversity: a phylogenetic approach. 2005. May. P.53-65.
15.Bryant D., Huson D.H. Application of Phy-logenetic Networks in Evolutionary Studies // Molecular Biology and Evolution. 2006. Vol.23. №. 2. P.254-267.
16.Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и заме-щений символов // Доклады АН СССР. 1965. Вып. 163, № 4. С.845-848.
17.Chakrabarti S. Mining the Web: Discove-ring Knowledge from Hypertext Data. San Fran-cisco: Morgan Kaufmann Publishers, 2003.
18.Larget B., Mark P. van der, Ronquist F. et al. MrBayes: Bayesian Inference of Phylo-geny. URL: http://mrbayes.csit.fsu.edu/index.php
19.Meade A., Pagel M. Bayesian estimation of correlated evolution across cultures: A case study of marriage systems and wealth trans-fer at marriage // The Evolution of Cultural Diver-sity: a phylogenetic approach. London: Uni-versity College
Размещено на Allbest.ru
Подобные документы
Славянские языки в индоевропейской семье языков. Особенности формирования русского языка. Праславянский язык как предок славянских языков. Стандартизация устной речи в России. Появление отдельных славянских языков. Территория образования славян.
реферат [22,0 K], добавлен 29.01.2015Особенности генеалогической классификации. Общие черты родственных языков. Их разделение по признаку исторического родства. Основные языковые семьи. Типы языков по морфологической классификации (изолирующие, агглютинативные, флективные, инкорпорирующие).
статья [24,0 K], добавлен 21.12.2017Формирование национальных языков. Изучение отдельных германских языков. Общие характеристики германских языков. Сопоставление слов германских языков со словами других индоевропейских языков. Особенности морфологической системы древнегерманских языков.
реферат [53,5 K], добавлен 20.08.2011Сравнение различных древних и новых языков. Позиция общего языкознания. Подчинение элементов языка законам общей аналогии. Упрощение изучения иностранных языков как главная цель создания энциклопедии всех языков. Опыт анализа мексиканского языка.
реферат [28,7 K], добавлен 04.07.2009Понятие классификации языков. Генеалогическая, типологическая и ареальная классификация. Крупнейшие семьи языков мира. Поиск новых видов классификации. Индоевропейская семья языков. Семьи языков народов Юго-Востока Азии. Проблема вымирания языков мира.
реферат [1,8 M], добавлен 20.01.2016Взаимодействие языков и закономерности их развития. Племенные диалекты и образование родственных языков. Образование индоевропейской семьи языков. Образование языков и народностей. Образование народностей и их языков в прошлом, в настоящее время.
курсовая работа [34,2 K], добавлен 25.04.2006Классификация древнегерманских племён и их племенных языков. Происхождение и история рун. Свидетельства о германских языках в дописьменный период. Начало изучения германских языков. Понятие родства языка. Индоевропейские черты германских языков.
контрольная работа [27,8 K], добавлен 12.12.2009Типологическая классификация Гумбольдта-Шлегеля, стадиальная и квантитативная, их отличительные признаки. Основные уровневые классификации языков: фонологическая, морфологическая, синтаксическая. Разновидности языков согласно с данными классификациями.
курсовая работа [31,8 K], добавлен 14.06.2012Структура слова в языках мира как основа морфологической классификации. Контенсивная типология языков в трудах М. Мещанинова и Г. Мельникова. Классификация языков в учениях В. Гумбольдта, А. Шлейхера. Типологическая классификация по Дж. Гринбергу.
курсовая работа [52,9 K], добавлен 07.03.2012Классификации языков мира, их критерии и факторы. Сущность типологической и генеалогической классификации языков, их разновидности и отличительные характеристики. Языковые семьи, ветви и группы в современном мире. Возникновение индоевропейских языков.
контрольная работа [19,7 K], добавлен 03.02.2010