Поиск ключевых слов в корпусе Р.М. Рильке в условиях ограниченного доступа к референтному корпусу
Полуавтоматизированный способ нахождения ключевых слов в корпусе путем сравнения логарифмического правдоподобия их появления в двух корпусах в условиях ограниченного доступа к референтному корпусу. Подходы к определению репрезентативности корпуса.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 10.05.2018 |
Размер файла | 16,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ПОИСК КЛЮЧЕВЫХ СЛОВ В КОРПУСЕ Р.М. РИЛЬКЕ В УСЛОВИЯХ ОГРАНИЧЕННОГО ДОСТУПА К РЕФЕРЕНТНОМУ КОРПУСУ
Билык Е.А.
Аспирант, Киевский национальный университет
имени Тараса Шевченко
Аннотация. Задачей данной статьи является предложить полуавтоматизированный способ нахождения ключевых слов в корпусе путем сравнения логарифмического правдоподобия их появления в двух корпусах в условиях ограниченного доступа к референтному корпусу. Особый интерес этот метод будет представлять для тех, кто исследует корпус текстов на немецком языке начала-середины XX века, единственным референтным корпусом для которого может служить корпус DWDS.
Ключевые слова: корпусная лингвистика, сравнение корпусов, логарифмическое правдоподобие, нормативный корпус, референтный корпус, Р.М.Рильке.
Bilyk K.A. Search for keywords in r.m.rilke corpus under limited access conditions to the reference corpus
Abstract. The article discusses a semi-manual way of searching for keywords in a corpus through testing their frequencies in both corpora against their log-likelihood. It is necessary, as the only comparable corpus of German language contemporary to Rilke DWDS is accessed only through web-based user interface and not to the full extent.
Keywords: corpus linguistics, comparable corpora, log-likelihood, reference corpus, normative corpus, R.M.Rilke.
Большинство исследователей согласны с тем, что поиск ключевых слов -- надежный исходный пункт для исследования специализированного корпуса [1, 68], [2]. Простейший автоматический способ извлечения ключевых слов подразумевает подключение референтного корпуса, что позволяют большинство современных программ для работы с корпусами. Необходимые для этого условия: корпус, который может быть использован как референтный, то есть, репрезентативный относительно исследуемого, и инструмент для генерации списка ключевых слов.
Самые распространенные программы для автоматического определения ключевых слов -- Wordsmith Tools [3] и мощная бесплатная AntConc [4] -- при наличии файла референтного корпуса легко предоставляют список ключевых слов. Однако этот способ возможен только в том случае, если этот файл есть в наличии. В случае же работы с корпусом, который находится в полуоткрытом доступе, это становится невозможно. Не все найденные формы выводятся на экран, указывается только количество совпадений. Однако благодаря гибкой системе поиска по корпусу DWDS и количеству найденных словоформ, удовлетворяющих поисковому критерию, этого вполне достаточно для самостоятельного построения функции логарифмического правдоподобия (Log-Likelihood, LL) [5], которая используется программой. Для этого необходимы такие данные: количество слов в исследуемом корпусе (N1), количество слов в референтном корпусе (N), количество найденных слов в исследуемом (Т1) и референтном (Т) корпусах.
Программами список ключевых слов генерируется либо при помощи функции логарифмического правдоподобия, либо критерия хи-квадрата (Chi-Square test). Основное преимущество первого метода -- большая точность и универсальность применения (даже на малых количествах наблюдаемых данных) [6, 934]. Оба они (а также точный тест Фишера [7], используемый реже и для менее частотных слов) применяются для того, чтобы проверить результаты на значимость, то есть, насколько полученные результаты не являются случайностью. Общепринятым порогом для 95% уверенности считается показатель функции логарифмического правдоподобия LL=3,84 (одна степень свободы); для 99% уверенности он возрастает до LL=6,63; 99,99% уверенность появляется при значении LL=15,13.
Исследуемый корпус составлен нами из основных поэтических и прозовых текстов Р.М.Рильке на немецком языке (“Жертвы ларам” (“Larenopfer”, 1895), “Явления Христа (Одиннадцать явлений)” (“Christus elf Visionen”), “Увенчанный снами” (“Traumgekrцnt”), “Мне на праздник” (“Mir zur Feier”,1899), “Адвент” (“Advent”, 1897), “Часослов” (“Das Stundenbuch”, 1905), “Книга образов” (“Das Buch der Bilder, 1902, 1906), “Новые стихотворения” (“Neue Gedichte”, 1907, 1908), “Реквием” (“Requiem”, 1909), “Дуинские элегии” (“Duineser Elegien”, 1923), “Сонеты к Орфею” (“Die Sonette an Orpheus”, 1923), “Два пражских рассказа” (“Zwei Prager Geschichten”, 1899), “Истории о Господе Боге” (“Geschichten vom lieben Gott”, 1904), “Песнь о любви и смерти корнета Кристофа Рильке” (“Die Weise von Liebe und Tod des Cornets Christoph Rilke”, 1906), “Записки Мальте Лауридса Бригге” (“Die Aufzeichnungen des Malte Laurids Brigge”, (1910), “Белая княгиня” (“Die weiЯe Fьrstin”, 1904). Они представлены в виде хронологически упорядоченных (где это возможно) отдельных файлов, что исключает появление ложных результатов в конкордансере на стыке двух поэзий. Общее количество токенов -- 287 744 (N1).
Существует два основных подхода к определению репрезентативности корпуса: функциональный и конститутивный. Функциональный был определён Дж.Личем с позиций отражения в корпусе особенностей той языковой разновидности, которую он представляет [8, 27]. Первым теоретиком второго подхода считается Д.Байбер, который полагает, что корпус может считаться репрезентативным в том случае, если представленные в нём образцы языка отражают всю вариативность языка в целом [9, 243]. Электронный словарь немецкого языка DWDS (“Digitales Wцrterbuch der deutschen Sprache”) [10], в котором собраны тексты от начала XX в. разных жанров и стилей (художественная литература, специальная литература, научные тексты, газеты), находящиеся в полуоткрытом доступе через веб-интерфейс. Интерфейс DWDS позволяет задавать временное окно поиска, которое мы ограничили 1900-1926 годами (годом смерти Рильке). Итого референтный корпус насчитывает 27 244 013 (N) токенов, которые отражают язык, современный исследуемому, настолько полно, насколько это возможно (а значит, вероятность различий в частотности употребления, обусловленных эпохой [11, 6-10], сведена к минимуму), таким образом, он достаточно репрезентативен для нашх целей, и два корпуса подлежат сравнению.
Количество искомых слов мы продемонстрируем на примере слова “Бог” и его производных, т.к. этот концепт является константой творчества Р.М.Рильке до самой смерти, и в то же время -- самым частотным существительным в корпусе (без учета деривационной группы): оно встречается 479 раз (644 (Т1) раза -- с ней, однако в этом случае оно уже не лидирует, самым продуктивным словом корпуса является слово “рука” (Hand) -- 716 токенов).
Деривационная группа слова “Бог” в корпусе Рильке: Gott, Gotte, Gottes, Gotts, Gцtter, Gцtterbilder, gцtterbildermarmorweiЯe, Gцtterbildern, Gцtterhimmel, Gцttern, Gцtternacken, Gцttersitzen, Gцtterwort, gottesfrьh, Gotteshaus, Gottgebдrerin, Gottgedanke, Gotthaupt, Gottheit, Gцttin, gцttlich, Gцttlicherem, gцttlichem, Gцttlicherem, Gцttliches, gottseligen, Gottvater, Gottwerden, Herrgott, Krieger-Gott.
Для вычленения деривационной группы слова “Gott” в референтном корпусе DWDS мы используем следующие шаблоны поиска: l=*gott* и суммируем их (Т=20643). Шаблон “$1=” осуществляет поиск по всем формам заданной лексемы; “*” замещает любую букву либо группу букв (что позволяет искать среди композит); два отдельных шаблона необходимы, так как в этом режиме DWDS чувствителен к регистру, и первый шаблон поиска исключает композиты, начинающиеся со слова “Gott”.
Корпус DWDS содержит примерно в 25 раз большее количество тайпов в этой деривационной группе (можно учесть только отражающиеся при поиске), и они более разнообразны. Несмотря на значительную разницу в объеме, 1:100, в корпусе Рильке все равно содержатся уникальные токены: Gottgebдrerin, Gottgedanke, Gotthaupt, Gottwerden, Krieger-Gott.
Для подсчета точного значения логарифмического правдоподобия можно воспользоваться калькулятором, любезно выложенным на сайте Ланкастерского университета ucrel.lancs.ac.uk/llwizard.html, либо, при необходимости подсчета для многих слов, создать электронную таблицу. В последнем случае формула для вычислениия логарифмического правдоподобия будет выглядеть следующим образом: LL=2*((T1*LN(T1/((N1*(T1+T))/(N1+N))+(T*LN(T/(N*(T1+T))/(N1+N))), где T1 - количество найденных слов в первом корпусе, T - количество найденных слов в референтном корпусе, N1 - общее количество токенов в первом корпусе, N - общее количество токенов в референтном корпусе.
Согласно этим данным, слово “Бог” в корпусе Рильке действительно релевантно при LL=534,43, и это несмотря на участившееся употребление этого слова во взятом периоде: согласно данным DWDS, на исследуемое временное окно приходится около 40,8% всех употребелений слова за век.
Подобным образом можно определять слова-кооккуренты искомого слова (с возможным последующим построением концептуальной сети), с тем отличием, что референтным корпусом будет составленный нами корпус Рильке, а исследуемым -- конконданс исследуемого слова с оконом в 80 или 100 знаков справа и слева от него. Нами было установлено, что именно такое окно обеспечивает наилучшие результаты.
ключевой слово референтный корпус
Литература
1. Hunston S. Corpora in applied linguistics. - Cambridge University Press, 2002.
2. Tribble C. Practical uses for language corpora in ELT //A special interest in computers: Learning and teaching with information and communications technologies. - 2000.
3. Scott M. WordSmith tools version 6. - Liverpool: Lexical Analysis Software, 2011.
4. Anthony L. AntConc: A learner and classroom friendly, multi-platform corpus analysis toolkit //proceedings of IWLeL. - 2004. - С. 7-13.
5. Rayson Р., Garside Comparing corpora using frequency profiling //Proceedings of the workshop on Comparing Corpora. - Association for Computational Linguistics, 2000. - C. 1-6.
6. Rayson P., Berridge D., Francis B. Extending the Cochran rule for the comparison of word frequencies between corpora //7th International Conference on Statistical analysis of textual data (JADT 2004). - 2004. - C. 926-936.
7. Weeber M., Baayen R. H., Vos R. Extracting the lowest-frequency words: Pitfalls and possibilities //Computational Linguistics. - T. 26. - Ж 3. - C. 301-317.
8. Leech G., Garside R. Running a grammar factory: the production of syntactically analysed corpora or treebanks //Johansson and Stenstrцm. - 1991. - С. 15-32.
9. Biber D. Representativeness in corpus design // Literary and linguistic computing 8.4. - 1993. - С. 243-257.
10. Geyken The DWDS corpus: A reference corpus for the German language of the 20th century //Collocations and Idioms. - 2007. - С. 23-40.
11. Sperber H. Einfьhrung in die Bedeutungslehre. Bonn: Ferd. Dьmmlers Verlag, 1965. 96 c.
Размещено на Allbest.ru
Подобные документы
Газетнo-публицистический cтиль кaк система пропаганды и агитации. Осoбенность ключевых слов в немецком политическом языке. Использование политического дискурса в коммуникации. Пoлитический диcкурс как сфера функционирования ключевых слов политики.
дипломная работа [45,4 K], добавлен 06.08.2017Подходы к определению слов общеупотребительной сферы. Профессиональная лексика. Профессионализмы. Диалектизмы. Жаргонная и арготическая лексика. Терминологическая лексика. Средства для стилизации художественного повествования.
реферат [32,3 K], добавлен 15.09.2006Заимствования иностранных слов как один из способов развития современного русского языка. Стилистическая оценка групп заимствованных слов. Заимствованная лексика ограниченного употребления. Причины, признаки, классификация заимствований в русском языке.
реферат [36,4 K], добавлен 11.11.2010Понятие исконно русской лексики, причины заимствования из других языков. Появление слов–интернационализмов, слов-калек, слов-экзотизмов и варваризмов. Приспособление иностранных слов к русским графическим и языковым нормам, орфоэпические нормы.
реферат [27,6 K], добавлен 25.10.2010Происхождение, написание и значение в языке иностранных слов. Причины заимствования слов. Типы иноязычных слов: освоенные слова, интернационализмы, экзотизмы, варваризмы. Способы появления словообразовательных калек. Тематические группы заимствований.
презентация [13,9 K], добавлен 21.02.2014Основные аспекты, функции порядка слов в немецком языке. Средства и подходы к обучению. Учет возрастных и психолингвистических особенностей обучающихся на средней ступени. Анализ возможных трудностей и методические рекомендации по обучению порядку слов.
дипломная работа [3,1 M], добавлен 21.01.2017Сучасні слов'янські народи та їхня етнічна спорідненість. Етнічна близькість слов'ян. Класифікація слов'янських мов. Походження і розвиток мови. Мови класифікують за генеалогічними зв'язками, типом організації і суспільним статусом, поширеністю.
лекция [49,5 K], добавлен 17.12.2008Проблема правильного и уместного употребления слов. Единицы языка как ячейки семантики. Морфемы полнозначных слов. Типы семантических отношений. Возможность соединения слов по смыслу в зависимости от реальной сочетаемости соответствующих понятий.
курсовая работа [40,2 K], добавлен 02.01.2017Историческое влияние экономических, политических и культурных контактов с другими странами на внедрение в русский язык иноязычных слов. Заимствование и освоение новых слов благодаря средствам массовой информации. Примеры происхождения некоторых слов.
реферат [20,2 K], добавлен 02.04.2010Сочетаемость слов в лингвометодическом и методическом аспектах. Двуязычие как форма реализации языкового контакта и условие проявления интерференции. Экспериментальное исследование, направленное на выявление интерференции в аспекте сочетаемости слов.
дипломная работа [647,3 K], добавлен 01.01.2013