Национальный корпус испанского языка: corde и crea

Характеристика двум корпусам испанского языка, созданным Испанской королевской академией (современному корпусу CREA и историческому корпусу CORDE). Анализ данных хронологического, географического, жанрово-тематического и статистического характера.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 21.12.2018
Размер файла 18,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Казанский (Приволжский) федеральный университет

Национальный корпус испанского языка: corde и crea

Жолобова Анна Олеговна, к. филол. н.

Аннотация

В данной статье дается характеристика двум корпусам испанского языка, созданным Испанской королевской академией: современному корпусу CREA и историческому корпусу CORDE. По каждому корпусу приводятся данные хронологического, географического, жанрово-тематического и статистического характера. Описывается принцип работы, анализируются возможности и недостатки системы поиска данных корпусов.

Ключевые слова и фразы: национальный корпус испанского языка; исторический корпус; современный корпус; текстовый массив; Испанская королевская академия.

The article characterizes two corpuses of the Spanish language created by the Royal Spanish Academy: the modern corpus CREA and the historical corpus CORDE. On each corpus the author presents the data of chronological, geographical, genre and subject and statistical nature. The researcher describes the principle of work, and analyzes the possibilities and shortcomings of the data retrieval system of the corpuses.

Key words and phrases: National Corpus of the Spanish Language; historical corpus; modern corpus; text corpus; the Royal Spanish Academy.

национальный корпус испанский язык corde crea

Основное содержание исследования

Корпус того или иного языка представляет собой собрание текстов с лингвистической разметкой в электронной форме. Доступность, быстрота обработки информации и выдачи результатов, представительность, разные типы лингвистической аннотации делают национальный корпус языка важнейшим источником эмпирических данных для проведения лингвистического исследования [1].

Бурное развитие новых компьютерных технологий в конце XX в. позволило Испанской королевской академии в 1995 году приступить к грандиозной работе по составлению двух национальных корпусов испанского языка: исторического корпуса CORDE (Corpus diacr nico del espaсol) [3] и современного корпуса CREA (Corpus de referencia del espaсol actual) [5]. Недостатки данных корпусов, о которых мы поговорим в нашей статье, и необходимость развития послужили толчком к созданию двух новых корпусов, работа над которыми ведется в последние годы: "Корпус Нового исторического словаря" Corpus del Nuevo diccionario hist rico (CDH) [2] и "Корпус испанского языка XXI века" Corpus del espaсol del siglo XXI (CORPES) [4].

Начнем наш обзор с первого исторического корпуса испанского языка CORDE. Объем корпуса составляет 250 млн словоупотреблений. С хронологической точки зрения, в соответствии с историко-лингвистической ситуацией в CORDE представлена следующая периодизация с прогрессивным увеличением текстового наполнения [8]:

Средние века (16,5%): а) до 1250 года; б) 1251-1491.

Золотой век (30,5%): а) 1492-1598; б) 1599-1712.

Современная эпоха (53%): а) 1713-1812; б) 1813-1898; в) 1899-1939; г) 1940-1974.

Жанровое и тематическое распределение всего массива текстов выглядит так [Ibidem]:

художественные тексты (44%): поэзия (10%), проза (27%), драма (7%);

нехудожественные тексты (56%): дидактика (10%), наука и техника (14%), религия (6%), общество (8%), история (9%), юриспруденция (6%), пресса (3%).

Что касается географических характеристик, то 74% всех текстов были созданы в Испании и лишь 25% принадлежат латиноамериканским авторам, что связано с объективными историческими предпосылками (напомним, что испанская колонизация Америки началась в 1492 году). Оставшийся 1% текстов написан на сефардском языке.

Современный корпус CREA (последняя версия 3.2., июнь 2008 года) включает 140 тыс. документов и более 160 млн словоупотреблений. В хронологическом плане корпус охватывает период с 1975 года до 2004 года. В корпусе выделены два блока: письменный корпус (90%) и устный корпус (10%).49% письменного корпуса составляют книги, 49% представлены периодическими изданиями, остальные 2%, включенные в категорию miscelбnea "разное", отобраны из брошюр, блогов, электронной почты и т.п. Тексты блока "книги и периодические издания" распределены по двум группам:

Художественные тексты: роман, рассказы и театр.

Нехудожественные тексты представлены 6 гиперполями, каждое из которых содержит до 20 подтем: наука и техника; социальные науки, убеждения и мышление; политика, экономика, торговля и финансы; искусство; досуг и быт; здоровье.

Устный корпус включает 9 млн словоупотреблений и более 1600 документов. Устные тексты делятся на две группы:

1) транскрибированные и кодифицированные записи радио - и телевизионных передач;

2) транскрипции выступлений политиков, телефонных разговоров, сообщений на автоответчике, бытовые диалоги и т.п.

С географической точки зрения, корпус CREA охватывает США и 6 зон Латинской Америки:

Андская (Перу, Эквадор, Боливия).

Антильская (Пуэрто Рико, Доминиканская республика, Куба).

Континентальные страны Карибского бассейна (Колумбия, Венесуэла).

Чилийская (Чили).

Мексика и Центральная Америка (Мексика, Сальвадор, Гватемала, Коста Рика, Панама, Никарагуа, Гондурас).

Рио де ла Плата (Аргентина, Уругвай, Парагвай).

Самой значительной по объему представленных текстов является пятая группа: ей принадлежит более 40% от общего количества латиноамериканских текстов [7].

Перейдем к описанию системы поиска в CREA и CORDE. На странице поиска кроме окна Consulta

"запрос" представлены следующие критерии поиска: Autor "автор", Obra "произведение", Cronol gico "хронология" (позволяет задать определенный период времени), Medio "средство коммуникации" (позволяет выбрать из списка одну из 6 категорий: todos "все", libros "книги", peri dicos "газеты", revistas "журналы", miscelбnea "разное", orales "устное"), Geogrбfico "география" (позволяет выбрать из списка одну из 22 стран), Tema "тема" (позволяет при желании выбрать из списка определенный жанр или тему).

Система запроса рассматриваемого корпуса хорошо подходит для поиска точных форм слов и фраз, однако трудности возникают при более сложном запросе. Главная проблема корпусов CREA и CORDE заключается в отсутствии лемматизации, что не позволяет получить все словоформы запрашиваемого слова, значительно ограничивая таким образом поисковые и, следовательно, исследовательские возможности. Так, если нас интересует вся парадигма определенного глагола, нам придется в окне поиска вводить последовательно все его формы, что существенно затруднит нашу задачу. Рассмотрим подробнее параметры формулировки запроса:

Система запроса разграничивает прописные и строчные буквы (например, слово в начале предложения и в середине), а также знаки с графическим ударением и без него (например, sн "да" и si "если").

С помощью вопросительного знака "?" можно заменить один другой знак в запросе, что позволит найти в корпусе все возможные варианты с подстановкой данного знака. Так, запрос в форме p? so даст следующие варианты ответов: peso "вес", paso "шаг", piso "квартира", puso "положил", poso "осадок".

Звездочка "*" позволяет заменить сразу несколько знаков. Так, запрос в форме abuel* даст следующие результаты: abuelo "дедушка", abuela "бабушка", abuelos "бабушка с дедушкой", abuelito "дедуля" и т.д. Однако если мы зададим короткую основу слова из распространенной комбинации букв (например, sal*), то появится сообщение: "La consulta introducida es demasiado compleja, por favor simplifнquela" ("Запрос слишком сложный, пожалуйста, упростите его"). Такая же ситуация обстоит с суффиксами, окончаниями: невозможно получить результаты по таким запросам как: *azo, *ieran, *нsim* и т.д. [6].

При помощи команды dist/ можно задать максимальное расстояние, на котором должны находиться друг от друга два запрашиваемых слова: команда бrbol "дерево" dist/4 cereza "черешня" будет означать, что в тексте между данными словами должно быть максимум четыре слова.

Команда Y "и" позволит найти контекст с двумя заданными словами: бrbol Y cereza "дерево И черешня". Команда O "или" позволит найти контекст с одним из заданных слов: бrbol O cereza "дерево ИЛИ черешня". Команда NO "не" исключает из поиска второе слово: бrbol Y NO cereza "дерево И НЕ черешня".

После введения критериев запроса и команды "поиск" открывается окно Resultado de la consulta al banco de datos "результат запроса в банке данных". В нем высвечивается количество случаев, а также количество документов, и дается ссылка Ver estadнstica "посмотреть статистику". Статистика приводится по годам, странам и темам в процентном и количественном соотношении.

Для просмотра примеров имеется окошко Obtenci n de ejemplos "получение примеров", в котором можно задать параметры представления полученных результатов. Из выпадающего списка можно выбрать форму представления: Documentos "документы" (результаты приводятся в виде таблицы, в которой указывается количество случаев, год, автор, произведение, страна, тема, издательство), Concordancias "конкордансы" (результаты выдаются с минимальным контекстом со всеми выходными данными), Pбrrafos "абзацы" (в качестве результата выводится расширенный контекст со всеми выходными данными), Agrupaciones "группирование" (результаты по умолчанию сведены в таблицы в зависимости от сочетания в два, три или пять слов с указанием процентного и количественного соотношения, однако есть возможность в дополнительной графе указать другое интересующее число сочетаний данного слова). Кроме того, все полученные результаты можно упорядочить, выбрав из выпадающего списка один из критериев: casos "случаи" (по количеству случаев в документе), autor "автор" (по алфавиту), aсo "год" (по возрастанию), paнs "страна" (по алфавиту), tema "тема" (по алфавиту), tнtulo "название" (по алфавиту).

Итак, несмотря на достоинства корпусов Испанской королевской академии CREA и CORDE, которые выражаются в значительном объеме текстового массива, обширной географической и хронологической представленности, разнообразии тематики, возможности классификации результатов, имеется весомый недостаток, а именно отсутствие лемматизации, что значительно затрудняет осуществление запроса и получение необходимой лингвистической информации.

Список литературы

1. Жолобова А.О. Фразеологические единицы библейского происхождения в английском, испанском и русском языках: дисс. к. филол. н. Казань, 2005.267 с.

2. CDH [Электронный ресурс]. URL: http://www.rae. es/recursos/banco-de-datos/cdh (дата обращения: 20.05.2014).

3. CORDE [Электронный ресурс]. URL: http://www.rae. es/recursos/banco-de-datos/corde (дата обращения: 20.05.2014).

4. CORPES [Электронный ресурс]. URL: http://www.rae. es/recursos/banco-de-datos/corpes-xxi (дата обращения: 20.05.2014).58 Издательство "Грамота" www.gramota.net

5. CREA [Электронный ресурс]. URL: http://www.rae. es/recursos/banco-de-datos/crea (дата обращения: 20.05.2014).

6. Davies M. Un corpus anotado de 100.000.000 palabras del espaсol histуrico y moderno // Procesamiento del Lenguaje Natural. 2002. № 29. P.21-27.

7. Manual de consulta [Электронный ресурс]. URL: http://corpus. rae. es/ayuda_c. htm (дата обращения: 20.05.2014).

8. Sбnchez Sбnchez M., Domнnguez Cintas C. El banco de datos de la Real Academia Espaсola: CREA y CORDE // Per Abbat. 2007. № 2. P.137-146.

Размещено на Allbest.ru


Подобные документы

  • Место испанского языка среди языков мира. Образование испанского литературного языка, периоды вестготского, арабского и франко-провансальского влияния. Особенности лексики, словообразования, фонетики и грамматики испанского языка в Латинской Америке.

    курсовая работа [47,3 K], добавлен 20.04.2011

  • Понятие вариативности и латиноамериканского варианта языка, принципы его классификации и основные лексические черты. Проведение сортировки по семантическим блокам лексики мексиканского варианта, ее наличие в словаре Королевской Академии испанского языка.

    курсовая работа [1004,5 K], добавлен 23.10.2011

  • Предпосылки к расширению лексического состава испанского языка в ХХ веке. Неологизмы испанского и иностранного происхождения. Реалия, как одно из основных понятий лингвострановедения. Характеристика наиболее значимых испанских реалий и персоналий ХХ в.

    дипломная работа [74,2 K], добавлен 26.01.2013

  • Признаки, значимые для социолингвистической характеристики языков: коммуникационный ранг, степень стандартизированности, правовой и учебно-педагогический статус. Социолингвистическая характеристика современного испанского языка, история его развития.

    курсовая работа [50,0 K], добавлен 07.06.2014

  • Лексикология как раздел науки о языке, ее предмет и место среди других лингвистических наук, особенности лексики современного испанского языка. Анализ лексической системы современного газетно-публицистического стиля текстов современной испанской прессы.

    курсовая работа [42,3 K], добавлен 19.07.2010

  • История происхождения русского языка, который относится к крупнейшим языкам мира, так как по числу говорящих на нем он занимает пятое место после китайского, английского, хинди и испанского. Современный русский литературный язык, суть и этапы его реформ.

    презентация [172,3 K], добавлен 03.05.2011

  • Знаменитый испанский филолог и гуманист Антонио Небриха. Лингвистические критерии эпохи Возрождения. Поиск основ лингвистики кастильского языка на базе латинского языка. Латинская грамматика. Преподавание риторики в университетах Севильи, Саламанки.

    статья [23,8 K], добавлен 19.06.2007

  • Семантика американских ойконимов. Особенности семантики американских наименований. Использование антропонимов для названий населенных пунктов. Проблема вариантности ойконимов. Влияние испанского языка. Зоны распространения французского влияния.

    курсовая работа [74,7 K], добавлен 12.01.2012

  • Рассмотрение роли языка в формировании личности. Определение национального характера. Влияние лексики и грамматики на формирование психологического склада нации. Проявление основных черт национального характера в процессе вербальной коммуникации.

    презентация [41,6 K], добавлен 26.07.2015

  • Языковые реалии как вербальные выражения черт национальных культур. Определение и способы перевода. Способы перевода на материале новелл Вашингтона Ирвинга. Классификация реалий испанского языка, их передача в переводе и лексикографическое описание.

    курсовая работа [79,1 K], добавлен 24.07.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.