Современная лексикография, "дополненная лингвистическая реальность" и проблемы терминографии
Особое внимание в статье уделяется самой актуальной проблеме в области лингвистической поддержки межъязыковой научной коммуникации – лексикографическому представлению современной терминологии. Выявлены новые активные тенденции в эволюции лексикографии.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 23.04.2023 |
Размер файла | 67,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Современная лексикография, "дополненная лингвистическая реальность" и проблемы терминографии
Н.К. Рябцева
Аннотация
В статье показано, что под воздействием стремительно развивающихся цифровых технологий современная лексикография переживает кардинальные преобразования лексикографических принципов представления лингвистической информации в различных информационных и интеллектуальных системах и приложениях. Выявлены новые активные тенденции в эволюции как самой лексикографии, так и в формировании и функционировании различных инновационных лексикографических ресурсов. Особое внимание в статье уделяется самой актуальной проблеме в области лингвистической поддержки межъязыковой научной коммуникации - лексикографическому представлению современной терминологии, которая под воздействием цифровых технологий приобретает принципиально новые свойства: динамичность, многокомпонентность, контекстуальность, междисциплинарность и др. лексикография лингвистический терминология
Ключевые слова
Цифровые технологии, развитие лексикографических ресурсов, автоматическое лексикографирование, терминологические кластеры, межъязыковая асимметрия
Contemporary lexicography, "augmented linguistic reality" and terminographic challenges
N.K. Riabtseva (Institute of Linguistics, Russian Academy of Sciences)
The paper shows that rapidly developing digital technologies radically transform modern lexicography and its principles in representing linguistic information, particularly for various intellectual systems and applications. New active trends in the evolution of lexicography and in the compiling and functioning of innovative lexicographic resources are revealed. Particular attention is paid to a most urgent problem within contemporary cross-linguistic scientific communication - the lexicographic representation of modern terminology, which is stimulated by digital technologies, acquires fundamentally new properties and becomes more dynamic, multiword, compositional, context-aware, cross-disciplinary, etc.
Key words: Digital technologies, lexicographic resources augmentation, Artificial Lexicographer, terminological clusters, cross-linguistic asymmetry
Вводные замечания
С начала двухтысячных годов и по настоящее время лексикография как главный способ представления лингвистических знаний (наравне с грамматикой), претерпевает кардинальные изменения. Они вызваны стремительно развивающимися цифровыми технологиями, которые все более активно используются в лексикографии и порождают в ней принципиально новое направление - электронная лексикография, electronic lexicography, e-lexicography [Abel, Bracco 2006; Granger, Paquot 2010; Tarp 2021] (здесь и далее курсивом даны составные лингвистические термины -- Н. Р.). Последняя, в свою очередь, занимается созданием не только обычных и электронных словарей (e-dictionaries), но и играет все более заметную роль в создании и совершенствовании различных систем класса "искусственный интеллект" (ИИ), в их лингвистическом обеспечении, расширении их применения и взаимодействия со смежными ресурсами и мн. др. [Kilgarriff 2009; Abel 2010; Fuertes-Olivera et al. 2018; Tarp 2022].
Важнейшим направлением стремительной эволюции самой лексикографии выступает создание лексикографических ресурсов принципиально нового "активного" типа: электронных словарей, лексикографических баз данных, предметных лексиконов, онтологий и мн. др., отличительной чертой которых выступает многофункциональность, "многоканальность" доступа (multiple access routes), интеграция общих, специальных и фразеологических словарей (efficient integration of phraseology and specialised dictionaries) и мн. др. Основой вызов здесь связан с необходимостью разработки принципиально нового формата представления лексикографических данных, обусловленного инновационными возможностями цифровых технологий (innovative changes to the dictionary structure afforded by the electronic medium), которые призваны расширять принципы обращения к электронным лингвистическим ресурсам, учитывать различные интересы, цели и задачи различных пользователей, автоматизировать доступ к ресурсам и настройку на конкретного пользователя, "кастомизацию" (automating customisation of dictionaries in function of users' needs) и мн. др. [Tarp 2019].
Так, традиционный лексикографический принцип представления лингвистической информации - словарная статья, по целому ряду причин не может быть использована в неизменном виде при формировании электронных лексикографических ресурсов и лингвистического обеспечения в системах класса ИИ [Huang, Tarp 2021]. При этом центральным направлением развития электронной лексикографии выступает ее интеграция в инновационные лингвистические ресурсы: в автоматизированные системы обучения чтению, письму, родному и иностранному языку, переводу, коммуникации и т. п. (language learning and teaching tools) [Granger, Paquot 2010; Wachter et al. 2014; Fuertes-Olivera, Tarp 2020].
В настоящее время лексикография с уверенностью вошла в эпоху интернета, значительно обогатив лексикографические описания за счет использования интернет-приложений и получив возможность интеграции с ними в новые эффективные ресурсы класса "Augmented Writing" (AW) и др., обеспечивающие помощь в чтении, переводе и написании текстов разного типа, вида и содержания [Abel 2010, 3; Abel, Bracco 2006; Simonsen 2020; Tarp 2020; Huang, Tarp 2021]. Происходящие сдвиги в новой лексикографической практике по сути позволяют говорить о новом содержании понятия "словарь", который становится "электронным ассистентом", (electronic) "е-Assistant", ("e-Ассистент"). ("Lexicography has definitively entered the internet age. Applying web database applications in a context of enriched lexicographic descriptions has opened new perspectives for the integration of resources and the development of new and efficient reading, translation and writing assistants and has in fact reshaped the very definition of `dictionary'") [Verlinde 2010, 341].
Лексикография и e-Ассистенты "Дополненное письмо": Augmented Writing Assistants
В процессе развития цифровых технологий и систем искусственного интеллекта, наравне с ресурсами "дополненная реальность", развиваются процессоры класса "дополненная лингвистическая реальность". Они воплощаются в настоящее время в целом ряде инновационных программ и приложений, которые объединяются уже устоявшимся в английском языке понятием Augmented Writing (AW), образованным по образу и подобию хорошо известного термина Augmented Reality (AR), которому в русском языке соответствует название "дополненная реальность". "Дополненная" в том смысле, что обычные (исходно - перцептивные) возможности пользователя с их помощью "дополняются" возможностями цифровых технологий [Riabtseva 2016; 2017]. "Дополненная лингвистическая реальность" основана на приложениях / ресурсах типа Writing Assistants (WA, "Текстовый ассистент") и способна обеспечивать значительное расширение лингвистических возможностей пользователя в процессе порождения (написания, перевода, редактирования и т. д.) текста на естественном языке, родном или иностранном. Главной задачей развития систем класса "дополненная лингвистическая реальность" - Writing Assistants (WA) и Augmented Writing (AW) выступает дальнейшее совершенствование их лингвистического обеспечения, которое, несмотря на его постоянную эволюцию, все еще оставляет желать лучшего в связи с тем, что автоматическая обработка естественного языка, ввиду чрезвычайной сложности его устройства, пока еще значительно ограничена всего несколькими возможностями, которые, правда, постепенно и постоянно расширяются, в первую очередь, благодаря совершенствованию технологий Text Production Technologies (TPT) ("Lexicography has an important role to play in the development of new advanced Text Production Technologies and the lexicographic augmentation of AW could be an important step in the right direction") [Simonsen 2020, 513].
В настоящее время приложения класса WA и AW развиваются в следующих направлениях:1) Приложения по проверке правописания и грамматики: Spellcheckers и Grammar checkers, например, Grammarly и WhiteSmoke. 2) Текстопорождающие приложения типа TalktoTransformer или Articoolo, позволяющие пользователю порождать текст на основе ключевых слов. 3) Приложения типа "L2 writing assistants", оказывающие помощь в порождении текста на иностранном языке, например, Text Assistant [Tarp et al. 2017]. 4) Приложения по проверке тональности типа Persado и MessagePath, интегрированные в рабочее место специалиста по редактированию рекламных и маркетинговых текстов. 5) Приложения по анализу специальных текстов типа Textio [Marconi], помогающие анализировать тексты конкурсных заявлений о приеме на работу, составлять тексты объявлений о вакансиях [Simonsen 2020, 509-514] и др. Первостепенную роль в развитии технологий WA и AW сыграли образовательные системы класса Computer-Assisted Language Learning (CALL). Их центральным компонентом являются технологии искусственного интеллекта (ИИ), которые заимствуются в AW-технологии в виде алгоритмов порождения текста и автоматического исправления грамматических ошибок. В настоящее время CALL-applications развиваются в нескольких направлениях: CELL (Computer-Enhanced Language Learning), TELL (Technology-Enhanced Language Learning), ICALL (Intelligent Computer-Assisted Instruction), NCALL (Network based CALL) [Abel 2010: 3], Web Assisted Language Learning [WALL] и др.
В более широком контексте активно разрабатываются разнообразные "экспертные" приложения типа Expert writing support и соответствующие ресурсы общего, специального и узкого назначения. По способу обращения и по удобству использования они значительно превосходят традиционные "бумажные" словари и справочники. К ним относятся также такие приложения как Word Combinatory assistant, Automatic Lexical Error Detection, Lexical Error Correction assistant, Translation Memory tools (TMT), Context-aware dictionaries, Web-based dictionaries, Process-oriented Writing support, Writing Aid, Text Assistant, Write Assistant, [Write Assistant], Wordfast [Wordfast], Computer-based Writing Instructions for text producers and learners, Augmented Writing Platform, Collaborative Writing, Common Business Writing Mistakes и мн. др. [Banks 2019; Simonsen 2021]. Особые приложения класса Augmented Writing и Writing Assistants (AW и WA) разрабатываются также для различных "специалистов-текстовиков" (text producers): репортеров, обозревателей, журналистов, переводчиков и т. п., особенно работающих в коллективе или в команде (Computer-supported Collaborative Writing). Важное место они занимают в приложениях по обучению, развитию и практике научной речи на (иностранном) английском языке - L2 Academic Writing Assistants. Так, ресурсы типа ColloCaid оказывают поддержку в написании научных текстов на иностранном английском языке: "ColloCaid is Writing Assistant designed to help English for Academic Purposes (EAP) writers with collocations" [Frankenberg-Garcia et al. 2021].
Создаваемая таким образом "Дополненная лингвистическая реальность" класса Augmented Writing и Writing Assistants (AW и WA) позволяет пользователям более активно и свободно порождать тексты, используя автоматические подсказки самого разного типа - от правописания и грамматики до сочетаемости и терминологии. Так что современные приложения типа (L2) Writing Assistants (WA), Context-aware Dictionaries и др. становятся все более популярными среди специалистов [Tarp et al. 2017; 2019], особенно благодаря своей способности не просто предоставлять имеющуюся информацию, но еще и подсказывать, предсказывать или корректировать варианты развертывания текста. В связи с этим специалисты считают, что в настоящее время возможны кардинальные преобразования в области лексикографии вообще и двуязычной лексикографии в частности в виде их "переворачивания с ног на голову", "turning lexicography upside down" [Simonsen 2020, 512] и "turning bilingual lexicography upside down" [Tarp 2022, 67], благодаря созданию систем, способных выполнять "автоматическое лексикографирование", "Artificial lexicographer", а также разделять выполнение лексикографических задач между человеком и машиной и создавать лексикографические продукты нового типа - лексикографические базы данных.
Создаваемые до настоящего времени лексикографические продукты исходили из традиционных лексикографических представлений о структуре словарной статьи, на основе которой строятся лингвистические приложения и процессоры первого и второго поколения, предоставляющие лингвистические данные и информацию. Главной отличительной чертой лингвистических процессоров третьего поколения является разработка и использование мощных поисковых алгоритмов, не требующих обращения к автономным словарям, а позволяющих пользователю получать необходимую информацию, не выходя из текста благодаря инкорпорированным в них е-словарям и все более активно использующейся технологии ИИ по оперированию знаниями [Schryver 2012, 130]. Тем самым они все более активно продвигаются в направлении DIKIW: Data, Information, Knowledge, Intelligence, Wisdom [Liew 2013].
Для их дальнейшего совершенствования необходимы сведения принципиально нового типа: знания о мире (world knowledge), "реляционные знания" (relational knowledge) и "контекстуально связанная лексикографическая информация" (curated lexicographic data) [Simonsen 2020, 512]. Поскольку современные технологии AW и WA пока недостаточно учитывают контекст, то именно новые лексикографические данные способны предоставить необходимую для этого информацию в виде знаний о мире и "реляционных знаний". Они размещаются в специальном лексикографическом корпусе, обращение к которому осуществляется при автоматическом поиске текстовых ресурсов, содержащих нужную информацию и соответствующий ей контекст. Для получения более качественного результата по использованию контекстуальным и лексикографическим образом представленных знаний о мире, в системы AW и WA вводится специальное вспомогательное окно для пост-редактирования выходного текста ("an auxiliary post-editing window providing help in post-editing the output text") [Simonsen 2020, 513].
Получаемая таким образом лексикографическая "аугментация" технологий AW и WA достигается путем разделения труда между машиной и редактором, разграничения понятий данные - информация - знания - интеллект ("data, information, knowledge and intelligence"), а также использования "Открытой ИИ-модели понимания естественного языка" (OpenAI's Natural Language Understanding (NLU) model) [OpenAi 2019], которая была разработана на большом массиве текстов и хорошо зарекомендовала себя в алгоритмах предсказания развертывания текста [Simonsen 2020]. На данный момент важнейшим средством повышения качества лексикографических баз данных является их пополнение за счет обработки интернет-текстов WebText большого объема (a dataset of millions of webpages). Отмечается также, что лексикография может способствовать повышению качества приложений AW и WA за счет концентрированного лексикографического "контекстуального" представления знаний о мире. При этом предлагается часть работы переложить на автоматическое получение и представление информации [Colson 2019]. Построение таким образом алгоритмов лексикографического "продвижения" технологий класса AW и WA и создание систем "автоматическое (искусственное) лексикографирование" (е-Lexicographer, Artificial Lexicographer) может значительно повысить их качество [Simonsen 2020, 513; Tarp 2022, 66].
Быстро развивающиеся технологии AW и WA стимулируют таким образом дальнейшее совершенствование лексикографических принципов представления лингвистической и экстралингвистической информации и знаний. Возникающие при этом "сильные" системы ИИ (strong AI) вызывают симбиоз цифровых технологий и лингвистики, стимулируя развитие лексикографических способов совершенствования систем класса "Text Production Technologies" в целом, особенно благодаря использованию лексикографических ресурсов нового типа - лексикографических баз данных, а также интегральных и инкорпорированных словарей [Simonsen 2021; Tarp 2022].
Отличие словаря от лексикографической базы данных. Интегральные и инкорпорированные словари
Основным средством представления лексикографической информации в традиционном, "бумажном" словаре является словарная статья, которая имеет свою организацию, последовательность и логику представления информации, особо структурированное содержание, дополнительный аппарат: ссылки, сокращения, обозначения и т.п. Основным способом обращения к словарной статье выступает знакомство с ее содержанием и (сплошной) поиск в ней нужной (запрашиваемой) лингвистической информации: значение слова, производные, сочетаемость, устойчивые словосочетания, перевод на другой язык, способы написания и т.п. Основным средством предоставления лексикографической информации в цифровых информационных ресурсах - в лексикографических базах данных, в частности, инкорпорированных в приложения типа CALL, AW, WA и т.п., - является всплывающее окно, которое появляется, когда пользователь выделил элемент текста, который, например, ему нужно перевести на другой (родной или иностранный) язык.
Всплывающее окно не может содержать всю лексикографическую информацию, относящуюся к выделенному слову. Есть несколько вариантов ее "сокращения": давать только самую главную, основную и наиболее часто требующуюся, т. е. первостепенную по значимости информацию; дать сокращенный вариант каждого пункта словарной статьи; т.е. представить "реферат" словарной статьи и т. п. Так, известный лексикограф С. Тарп в свое время подчеркивал, что современный высоко операциональный лексикографический онлайн-справочник должен представлять собой поисковый инструмент, обеспечивающий онлайн-поиск по лексической базе данных и интернету - leximat. Его задачей является предоставление лексикографической информации в зависимости от запроса пользователя ("high-performance lexicographic reference tool should be a kind of search engine enabling queries on a lexical database or on the web. This tool, called leximat, should allow any user with a particular communicative or cognitive need to access lexicographic data") [Tarp 2008, 123].
В результате современные лексикографы создают не только и не столько словари, сколько лексикографические базы данных, которые контекстно, коммуникативно (стилистически) и когнитивно связаны, и могут быть использованы для создания и совершенствования как традиционных и электронных словарей, так и высокотехнологичных лингвистических приложений. В результате влияние современных цифровых технологий на лексикографическую практику носит кардинальный характер и преобразует ее всю "до основания": бумажные словари преобразуются в цифровые интерактивные многофункциональные базы данных [Pajzs 2009], обращение к словарной информации проходит без "выхода" из основного рода коммуникативной деятельности, а предъявление лексикографической информации все более ориентируется на "контекстуально-связанное" и "когнитивно-ориентированное" представление. В результате происходящие в лексикографии фундаментальные преобразования ставят перед разработчиками лексикографического лингвистического обеспечения различных лингвистических процессоров принципиально новые научные, лингвистические, лексикографические, коммуникативные и когнитивные задачи. Главные из них - обеспечить наличие в системе как можно более полного, можно сказать, максимального объема лингвистической информации - с одной стороны, и обеспечить ее организацию таким образом, чтобы на любой запрос пользователя выдавался максимально сокращенный, минимальный вариант, причем максимально релевантной для данного случая информации.
В настоящее время электронные словари и лексикографические базы данных разбиваются на ориентированные на человека или машину (human-oriented vs. machine-oriented), ориентированные на тип использующего его приложения: предназначенные преимущественно или опосредованно для приложений класса CALL, AW и WA, а также "лексикографически ориентированные" (primarily vs secondarily CALL-, AW-, WA-oriented or lexicography-oriented applications). Кроме того, все типы словарей могут совмещать в себе содержание и функции друг друга и тем самым становится многофункциональными ("This can be interpreted as a new facet of the multifunctionality of a dictionary") (Abel 2010, 6; Kilgarriff 2009; Simonsen 2021) и интегральными [Huang, Tarp 2021, 69]. Современные цифровые технологии развиваются стремительно и предъявляют все новые требования к лингвистическому обеспечению, в первую очередь, лексикографического типа. В настоящий момент соответствующая тенденция может быть охарактеризована как "тройственное преобразование" автономных словарей, печатных и онлайн, в "интегральные", стандартизованных - в более "персонифицированные", а собственно словари преобразуются в лексикографические базы данных для различных целей" ("the overall transition can be further specified as a triple transformation from the traditional stand-alone dictionary, either printed or online, to the integrated dictionary; from the standardized dictionary to a more personalized dictionary; and from the dictionary as such to lexicographic data for different uses") [Huang, Tarp 2021, 69]. Так, интеграция словарей в цифровые продукты типа E-readers, Writing Assistants, Translation Tools, Learning Apps описана в [Tarp et al. 2017; Loewen et al. 2019].
В зависимости от режима обращения словари могут быть встроенными (embedded), обращение к которым требует выхода из программы, и инкорпорированными / интегрированными (integrated), не требующими выхода (that are activated by clicking on a word in the course text). Последние более перспективны, поскольку способны реагировать на текущие индивидуальные (personalized) потребности пользователя. Если встроенные словари не "понимают", какую именно информацию пользователь запрашивает, то инкорпорированные, напротив, обладают свойством контекстуальности (context-aware), т. е. "понимают", какое значение слова из запрашиваемых является релевантным в данном контексте [Huang, Tarp 2021, 71--74]. Таким образом, преимущества инкорпорированных словарей заключаются в их персонифицированности, эффективности и оперативности, а их качество зависит от объема содержащейся в них лексикографической базы данных, а также от дизайна пользовательского интерфейса.
Лексикографическая база данных и интерфейс тесно между собой связаны. Если один из них работает плохо, то пользователь в любом случае останется недоволен работой приложения. Так, наибольшие проблемы вызывает подача информации по следующим вопросам: выбор словарной единицы (lemma selection): слово, словосочетание, сложное слово (single words, multiword units, compound words), подача многозначных слов (treatment of polysemous words), описание грамматических категорий; переводные эквиваленты (translation equivalents); наличие избыточной информации (data overload) или отсутствие необходимой (data underload); позиция всплывающего окна (position of the pop-up window). Самым сложным вопросом для современных приложений является подача словосочетаний, для которых пока еще не выработан последовательный и дружественный алгоритм предъявления [Huang, Tarp 2021, 77]. При этом часто неудовлетворительная работа лексикографической базы данных объясняется низким качеством лексикографического описания именно словосочетаний разных типов и видов и способов обращения к ним ("a low database quality originating from a poor compilation or storage of the lexicographic data that are presented in the pop-up window on demand") [Huang, Tarp 2021, 78]. Лексикографическая база данных может содержать излишнюю информацию, но может и не содержать необходимую ("data overload and data underload" [Huang, Tarp 2021, 88], давать устаревшие или неточные дефиниции (inadequate definitions and old-fashioned features), неточные или неправильные переводы и др. В результате компьютерные словари могут не только способствовать усвоению материала, но и препятствовать этому разными "способами" (All these problems show that the dictionaries not only assist the learners with lexicographic data. They also create all sorts of obstacles) [Huang, Tarp 2021, 86]. Так, инкорпорированные словари часто оказываются или недостаточно полными, или содержащими излишне подробную информацию. Не все лексические единицы, которые встречаются в текстах обучающего приложения, в нем содержатся, также, как и не все необходимые словосочетания. Значения многозначного слова могут быть представлены не в полном объеме, или доступ к ним затруднен из-за перегрузки системы избыточной информацией. Соответствующие недостатки должны быть устранены в рабочем порядке, поэтому основным требованием к инкорпорированным словарям является их динамичный характер - постоянное обновление и улучшение.
Популярность цифровых приложений по обучению иностранному языку активно растет во всем мире. Обычно они содержат инкорпорированные одноязычные и двуязычные словари. Их основным недостатком пока является недостаточно полное описание лексики вообще и многозначных слов и устойчивых словосочетаний в частности. Их совершенствование, как считают специалисты, может быть основано на "контекстуальном подходе" к лексикографическому представлению соответствующих явлений (context-adapted approach), точнее, содержания всплывающих в процессе чтения или написания текста окон. Как уже отмечалось, в настоящее время они или содержат избыточную информацию, или недостаточную. И в том, и в другом случае пользователь ставится в затруднительное положение. Выход из него заключается в том, что всплывающее в процессе работы пользователя окно с подсказкой должно содержать перечень вариантов для дальнейшего поиска, а не всю соответствующую запросу, часто избыточную, информацию. [Fuertes-Olivera, Tarp 2014, 64; 2020]. ("The ideal online dictionary should contain "as much data as possible in terms of all possible consultations", whereas its individual articles "should include as little data as possible" to avoid information overload. From this perspective, a personalized service requires that the dictionary only presents the exact "types and amount of data", which the individual user needs in each consultation, "neither more nor less"" [Fuertes-Olivera, Tarp 2014, 64]. Эти и смежные задачи специалисты пытаются решить с помощью принципиально новых лингвистических технологий обработки естественного языка - создания лингвистических процессоров класса e-Lexicographer (Artificial Lexicographer).
"Электронный лексикограф" Artificial Lexicographer: задачи и перспективы
Технологическая революция в индустрии производства и использования знаний, вызванная стремительным развитием цифровых технологий и их применением в системах класса "искусственный интеллект", особенно связанных с обработкой естественного языка, вызывает, в свою очередь, кардинальные изменения почти во всех областях знаний и обработки информации, а такая область, как лексикография преобразуется в "производящую" информацию благодаря развитию интеллектуальных систем под названием "Artificial Lexicographer" (e-Lexicographer).
Современные цифровые лингвистические технологии класса "искусственный интеллект", типа машинного перевода (МП), Machine-aided Translation, Write Assistant (WA), Augmented Writing (AW) и т. п., развиваются ускоренными темпами и воздействуют на принципы функционирования лингвистического обеспечения: требуют его постоянного обновления и развития, причем сразу в нескольких направлениях [Tarp 2019]. При этом наиболее активные трансформации в принципах и способах представления лингвистической информации происходят в лексикографии. Так, традиционная, "бумажная" лексикография представляет свои результаты в виде традиционных словарей, в которых, как правило, словарная статья одного слова, последовательно описывающая все его, скажем, 10 или 15 значений, может занимать четыре печатных страницы и более. "Компьютерная" лексикография, напротив, вынуждена подавать свою информацию не последовательно и полно, а так, чтобы она отвечала на стоящий в данный момент перед пользователем вопрос. Например, при последовательном переводе на английский язык (с любого другого языка) фразы "Он попросил меня закрыть (дверь)" автоматическая система может предложить в качестве эквивалента "закрыть" следующие варианты (в специальном окне - in the suggestion window): close, shut, lock, seal и др. Если пользователь не знает последнего слова, то он обращается за консультацией - "кликает" на это слово и тем самым активирует консультативное окно (activates the consultation window). Принципы организации информации в данном окне представляют собой наибольшую сложность при моделировании потребностей пользователя, который не будет читать словарную статью в несколько десятков строк, как в "бумажном" словаре. Поэтому здесь должен действовать принцип "первой выдается наиболее релевантная информация в данной ситуации" ("The most relevant data are provided first"). Для ее определения необходимы специальные исследования потребностей пользователей конкретными лингвистическими ресурсами.
В результате происходящих в компьютерной лексикографии кардинальных преобразований в формулировке задач и проблем в ней развивается "капитальная революция лексикографических основ" ("a total revolution of the lexicographic discipline in all its major dimensions") [Tarp 2019, 229]. Она проявляется, в том числе, и в экономическом отношении: если спрос на традиционные бумажные словари значительно снизился, вызвав нерентабельность их выпуска и обновления, то спрос на (бесплатные) цифровые лексикографические ресурсы резко увеличился, вызвав потребность в их коренной перестройке, особенно для стремительно развивающихся приложений класса "искусственный интеллект". На данном этапе возникла, как уже указывалось, самая революционная "цифровая" идея в области лингвистического лексикографического обеспечения подобных интеллектуальных ресурсов - создание процессора под названием "Artificial Lexicographer", по образу и подобию систем "искусственный интеллект" ("Artificial Intelligence"). В отличие от человека-лексикографа (human lexicographer), "искусственный лексикограф" ("artificial lexicographer") не предлагает прочитать всю словарную статью к данному слову, а выбирает наиболее вероятный и нужный в данный момент вариант лексикографической информации и помещает его в окно "подсказка".
Инновации в лексикографии: цифровизация лексикографических подсказок и разработка процессоров "Lexicographic Assistants"
Использование современных технологий в лексикографической практике позволило значительно повысить качество, объем, содержание, возможности и даже цели современных электронных словарей. В настоящее время происходит их переориентация из "лексикографических продуктов" в "лексикографические службы", "платформы", "инструменты" и т. д. ("developing lexicographic services instead of lexicographic products" [Fuertes-Olivera 2019, 25], "as well as platforms, tools, etc." [Tarp 2019, 231]. Их дальнейшее качественное развитие требует взаимодействия специалистов разных направлений, как гуманитарных, так и технических. Основными направлениями развития онлайн-лексикографии становятся качественная с профессиональной точки зрения интеграция различных лексикографических источников в единое целое и как можно более точная ориентация на пользователя. "Время доморощенных баз данных закончилось" ("The days with homemade databases are long over") [Tarp 2019, 232], нужны конкурентоспособные услуги и службы, а также их "индустриализация" [Fuertes-Olivera 2019].
Со стороны собственно лексикографии осуществляется переход от "статики" традиционных словарей к "динамике" словарей электронных, от "неопределенного" пользователя к "ориентации на пользователя" и "адаптации к его задачам", от "неизменного" вида лексикографической информации к "изменяемому". Плюс еще введение гиперссылок, различных режимов просмотра содержания, его визуализации и т. п. ("The former static lexicographic structure has increasingly been replaced by a dynamic structure that adapts to different user needs in different types of consultation. This implies that the amount and organisation of the displayed lexicographic data are fluctuating. And to this should be added that many dictionary articles have been broken up and require clicks, scrolling down and other techniques to be visualized in their totality" [Tarp 2019, 233]. Создаваемые таким образом "лексикографические ассистенты" (Lexicographic Assistants) становятся доступными на любых электронных устройствах и в различных лингвистических приложениях. Главное, что принципы организации лексикографической информации в них значительно отличаются от традиционных. Так, лексикографическое обеспечение систем типа Write Assistant (WA) и Augmented Writing (AW) значительно отличается от обычного, "словарного" оформления, в котором, с одной стороны, много лишнего (на данном шаге его использования), а с другой - нет принципиально важного, того, что нужно онлайн-пользователю в данный момент времени. И несмотря на то, что электронные словари чаще всего составляются с использованием лингвистической информации, импортированной из нескольких разных словарей - обычно от двух до шести - их все равно оказывается недостаточно для выполнения текущей задачи [Fuertes-Olivera et al. 2018]. Поэтому, несмотря на возможность интеграции в одном онлайн-словаре информации из различных источников, необходимы сведения о том, какую именно информацию хочет получить пользователь на конкретном шаге использования "умной" системы.
Важнейшей задачей в создании интеллектуальных систем класса "дополненное письмо", типа WA и AW, выступает выбор способа подачи материала: как выбрать из четырех страниц текста словарной статьи, содержащей описание одной лексикографической единицы, именно ту информацию, которая нужна пользователю сейчас и которую следует поместить первой в окно "подсказка" на данном этапе? Как определить ее релевантность в данном контексте? Первым шагом на данном пути выступает максимальное редуцирование лексикографической информации, выдаваемой на первом шаге поддержки, до подсказки "в одну строку" (short one-line definitions), и ее расширение, если необходима дальнейшая помощь, на втором шаге и тем самым разделение "обязанностей" между окном-подсказкой (suggestion window) и окном-"консультантом" (consultation window) [Bothma, Tarp 2014; Tarp 2019, 242]. Следующим этапом является "контекстуализация" и "персонализация" лексикографической информации [Tarp, Gouws 2019]. Она производится посредством установления отношения пользователей к принципам представления информации в окне-подсказке и окне-консультанте и (a test-driven development of the lexicographic product).
Новые задачи, которые ставят перед лексикографией новые технологии, в частности, в виде систем "дополненного письма", не могут быть решены традиционными "лексикографическими" методами анализа потребностей пользователя. Основным способом их решения выступают сами цифровые технологии, которые способны фиксировать действия пользователя и его информационные потребности. В результате лексикографы, всегда занимавшиеся составлением словарей, в настоящее время поняли, что теперь, в связи с развитием цифровых технологий, их практическая деятельность принципиально изменяется [Tarp 2019, 231]. Если на заре своего рождения лексикография создала два принципиально новых аппарата описания языка - словарную статью и словарный формат - алфавитную организацию словарных статей, то в настоящее время возникли принципиально новые цифровые формы презентации лексикографических продуктов (new digital forms of presentation of the lexicographic products). Словарь перестал быть последовательностью словарных статей, а словарные статьи предъявляются пользователю не в обычном "последовательном", "статичном" и полном виде, а "динамично" и "направленно", в зависимости от запроса пользователя. Происходит естественная и необходимая адаптация лексикографических данных к новому цифровому пространству (a natural and necessary lexicographic adaptation to the new digital environment) [Tarp 2019, 231].
Главные особенности этого пространства заключаются в том, что пользователи, активно используя различные гаджеты для личной, профессиональной и др. коммуникативной деятельности (переписки, составления документов и др. текстов, их перевода и т. д.), нуждаются в "орфографической", межъязыковой и др. поддержке, желательно в виде онлайн-подсказок. Они обычно размещаются в специальном окне и автоматически генерируются встроенной в ресурс моделью языка и соответствующим лингвистическим обеспечением (suggestions, generated automatically by the language model). Кроме того, соответствующий ресурс, типа WA и AW, может подсказывать иноязычные эквиваленты, которые извлекаются из лексикографической базы данных (lexicographic database) или веб-словарей (web-based dictionaries). Возможны еще и другие виды лингвистических подсказок, рекомендаций и контекстуальных предложений. Заполнение соответствующих окон, подразумевающих различные виды лингвистической/ лексикографической информации, частично может быть генерировано автоматически/ алгоритмически, особенно относительно лексических и грамматических контекстов. Так, задача по упорядочению приоритетов в очередности подачи рекомендованных вариантов продолжения текста или его перевода в зависимости от контекста (words listed in a prioritized, context-aware order) вполне может оказаться под силу лингвистическому процессору класса "Artificial Lexicographer" и "Lexicographic Assistant" [Tarp 2019, 236].
Исходный вопрос при этом заключается в том, чтобы точно определить, какого рода лингвистическую информацию "Artificial Lexicographer" и "Lexicographic Assistant" может дать "по умолчанию" и "по запросу", и каким образом ее лучше представить количественно и качественно в соответствующем пользовательском окне (without data overload and in no user-unfriendly way) и в каком порядке [Tarp 2019, 238]. Важным операциональным принципом при этом выступает возможность предоставления последующей информации (additional lexicographic data) посредством метатекстовых комментариев / гиперссылок типа "синонимы", "словосочетания" и т.п. (with metatexts for further access: synonyms, collocations, etc.). Такая контекстуализация лексикографической информации происходит в процессе апробирования различных итеративных форматов представления данных пользователю (the use of iterative processes with test-driven development (TDD)). Автоматическое отслеживание обращений пользователя к различным видам лексикографической информации (lexicographic user research) позволяет определить пользовательские приоритеты и оперативно вносить коррективы в порядок предоставления различных подсказок в соответствующий процессор "Artificial Lexicographer" и "Lexicographic Assistant" [Tarp 2019, 240-244].
Опыт функционирования приложений WA, AW и т. п. в целом показывает, что трансформация лексикографических принципов представления информации за счет разработки процедур "искусственного (автоматического) лексикографирования" "Artificial Lexicographer" и "Lexicographic Assistant" требует от лексикографов решения принципиально новых лексикографических задач: создание новых подходов к выявлению релевантной лингвистической информации в зависимости от текущих задач использующего данное приложение пользователя. Это, в свою очередь, предполагает совершенствование (и сжатие) традиционных словарных толкований у значений многозначных слов, их эксплицитную контекстуализацию, а также ориентацию на "кластерное" порождение текста на родном и иностранном языке, использование при этом принципов машинного перевода и мн. др. [Tarp et al. 2017, 494-521; Fuertes-Olivera et al. 2018, 152-176; Tarp et al. 2019, 250-268; Tarp 2019, 224-249; Huang, Tarp 2021, 68-92; Tarp 2022, 66-87].
Кластеризация дискурса и проблемы идиоматики
Проблеме кластеризации дискурса и выделению устойчивых оборотов и словосочетаний, их переводу и т.п., посвящена огромная специальная лингвистическая литература (включая словари, онлайн ресурсы и учебники): в связи с преподаванием английского как иностранного, в связи с ярко выраженной идиоматичностью иноязычных оборотов и словосочетаний, а также по причине невозможности их пословного перевода с одного языка на другой и т.д. (подробнее см. [Рябцева 2019; 2021а; 2021б; Riabtseva 2020]).
В статье [Chen 2022], посвященной обучению поиска словосочетаний в словаре английского языка и их переводу на родной язык (и наоборот), подчеркивается, что обучение использованию устойчивых словосочетаний на иностранном, английском, языке - это сложный и долгий процесс, что использование устойчивых словосочетаний на иностранном языке вызывает большие трудности у учащихся, а изучение эффективности различных способов обучения идиоматике: словарный, "текстовый" и др., показывает необходимость их сочетания, при том что словари словосочетаний должны постоянно обновляться, размещаться онлайн и совершенствовать аппарат обращения к ним и расширятся за счет корпусных материалов и примеров [Chen 2022, 1-30]. В самой статье [Chen 2022] используется множество специальных устойчивых словосочетаний: dictionary lookup behaviour, dictionary use instruction, trained dictionary users, task-based dictionary training, a product-based approach, a multiple case study approach, а five-step dictionary training session, collocation dictionary skills development, Japanese learners' Collocation Dictionary retrieval performance, user-friendly search routes, а special-purpose Dictionary of Collocations, an increasing number of dictionary-based collocation studies, overshadowing the non-reportable perceptual and memory processes и т. п. При этом также отмечается, что "Онлайн словари имеют свои недостатки: "высвечивают" слишком много (дополнительной) информации ("Long entries pose problems for many dictionary users"), которая отвлекает пользователя и затрудняет поиск нужных слов и выражений ("The design of search routes should be more user-friendly")" [Chen 2022, 26]. Тем не менее, онлайн-словари оказываются самыми удобными в использовании, особенно если учащиеся получают навыки обращения к ним ("With e-dictionaries gaining popularity, the dictionary use instruction should be based on the consultation habits and reference needs of e-dictionary users" [Chen 2022, 2-27].
В межъязыковом отношении наиболее актуальной задачей повышения качества научной коммуникации за счет передовых цифровых технологий выступает создание лексикографических ресурсов по переводу с родного языка на английский и с английского языка на родной язык терминологических словосочетаний, отражающих современное стремительное технологическое развитие почти всех научных дисциплин, включая саму лингвистику, лексикографию и научную коммуникацию в целом.
Словари терминологических словосочетаний: терминологическая кластеризация научного дискурса в межъязыковом аспекте
Современная лингвистическая терминология развивается стремительно под воздействием, в первую очередь, цифровых технологий, позволяющих активно и в бесконечно большом объеме обрабатывать значительное количество разнообразной лингвистической и экстралингвистической информации и тем самым не только развиваться самой, но и развивать сами эти технологии. Результаты этих процессов ярко проявляются в терминологии, которая становится "многокомпонентной", развернутой и в то же время компактной, "компрессированной" (compressed), динамичной, активной, "контекстуальной", междисциплинарной и инновационной по форме и содержанию. При этом ведущие специалисты подчеркивают, что в настоящее время двуязычная лексикография, особенно в области терминологии, и особенно в области инноваций в терминологии, и даже в форме онлайн, значительно отстает от постоянно растущих потребностей, особенно в качественных терминологических ресурсах, как со стороны "живых" переводчиков, так и "искусственных", типа машинного перевода, приложений класса CALL, WA и AW и др. ("Contemporary terminological resources… have considerable importance for translators and should meet their requirements as far as possible. Unfortunately, these resources are frequently of poor quality and do not adequately satisfy their needs") [Durбn-Muсoz 2010, 55-66; Fuertes-Olivera, Esandi-Baztan 2020].
В настоящее время важнейшей задачей в области терминографии выступает также интеграция терминологических ресурсов в лексикографические порталы (ср. "Integrating Terminological Resources in Dictionary Portals") [Fuertes-Olivera, Esandi-Baztan 2020]. В этом отношении необходима унификация представления терминографической информации, ее систематизация и интеграция, а также конвергенция с лексикографией (convergence of terminology and lexicography). Необходима также типология лексикографического описания словарных единиц, которая позволит сделать процесс формирования лексикографического портала более легким, простым, унифицированным, системным и автоматизированным (to make the process of compilation easier, more uniform, and more readily systematized) [Fuertes-Olivera, Esandi-Baztan 2020, 93].
Одной из важнейших лингвистических задач в области цифровой терминографии в настоящее время выступает разносторонняя терминологическая поддержка межъязыковой научной коммуникации: разработка двуязычных терминологических "динамических" ресурсов, порталов и т. д., а также унификация лексикографического представления терминографической информации в них в связи с тем, что современная научная терминология носит "многокомпонентный" характер и включает в свой состав преимущественно развернутые терминологические словосочетания-кластеры. Их перевод с родного языка на английский и с английского языка на родной составляет большую коммуникативную и лексикографическую проблему по целому ряду причин. Главная из них - это активное появление и использование терминов-"неологизмов" - новых специальных понятий уточняющего и потому многокомпонентного характера, которых пока нет даже в онлайн словарях, и перевод которых с английского языка на родной и обратно представляет большие трудности [Gouws 2016; Riabtseva 2022]. Так, "Яндекс Переводчик" перевел с английского языка на русский довольно простое словосочетание - название статьи "Collocation, Colligation and Encoding Dictionaries" [Siepmann 2006] следующим образом: *"Словари коллокации, Сопоставления и кодирования". В данном переводе курсивом выделены ошибки: сущ. коллокации должно стоять во мн. ч., сущ. Сопоставления переведено некорректно и стоит в грамматически и орфографически неправильной форме. Подобные квази-переводы с разного рода стилистическими, грамматическими, орфографическими и др. погрешностями и ошибками порождают "квази-научный" текст, засоренный языковыми аномалиями. Большинство автоматических онлайн-переводчиков делают подобные малые и "большие" ошибки в переводе именно самых важных в научной коммуникации компонентов речи - развернутых терминологических словосочетаний, поскольку действуют преимущественно на основе пословного перевода, без учета контекста, тематики, грамматической нормы, лингвоспецифических синтаксических правил и т.д.
Активные модели и структуры терминологических словосочетаний-кластеров в английском языке и проблемы перевода
Наиболее активными, продуктивными, частотными и аутентичными моделями построения многокомпонентных терминологических словосочетаний-кластеров (multi-word terminological expressions / collocations / clusters) в современных лингвистических исследованиях на английском языке являются следующие, каждая из которых допускает дальнейшее расширение дополнительными атрибутивными (Adj), номинативными (N), глагольными (V), адвербиальными (Adv), нумеративными (Num) и др. компонентами (в частности, сокращениями):
1) N-Ved (N):
N-based (N): usage-based (technology), games-based (grammar teaching), IT-based (grammar learning), a product-based approach, web-based dictionaries, web-based error interface, web-based management, (customizable) web-based (lexicographic) tool, web-based (dictionary management) system for bilingual dictionaries; a (free) web-based learning environment for French vocabulary, an intelligent server-based tutoring system (for mobile devices), (to provide) a concordance-based viewing perspective, (an increasing number of) dictionary-based collocation studies;
N/Adv-driven (N): technology-driven (approach), innovation-driven growth, in a (basically) technology-driven way, corpus-driven lexicography, AI-driven decision making, a pedagogically-driven search tool (for querying corpora), a test-driven development of lexicographic products, (the use of iterative processes with) test-driven development, a pedagogy-driven design for online language teaching and learning, commercially driven integrated dictionary portals, commercially-driven language tools constructing;
N-assisted (N): computer assisted (pronunciation training); a lexicography-assisted writing;
N-oriented (N): goal-oriented (language courseware design), meaning-oriented classification of collocations; process-oriented writing support with the digital Writing Aid;
N-supported (N): web-supported (language learning), computer-supported collaborative writing;
N-adapted (N): context-adapted (approach);
N-challenged (N): auditory challenged (learners);
N-delivered (N): (a suite of) internet-delivered (diagnostic) tests;
N-derived (N): corpus-derived (evidence);
N-directed (N): self-directed (L2 vocabulary) learning;
N-enhanced (N): technology-enhanced (language learning);
N-generated (N): user-generated (activity);
N-informed (N): corpus-informed research;
N/Adv-interested (N): (cooperation between) technology-interested linguists and pedagogically-interested linguists;
N-mediated (N): computer-mediated (communication);
N-tagged (N): error-tagged (learner corpora);
N-ed N: networked (intercultural) language study;
2) N-Adj (N):
N-specific (N): subject-specific (terminology), discipline-specific corpora;
Подобные документы
Место лексикографии среди лингвистических дисциплин. Статус терминологической лексикографии, пути описания языка профессиональной коммуникации. Лексикографические термины как объект описания специальных словарей. Основные критерии отбора терминов.
курсовая работа [35,6 K], добавлен 30.10.2014Лингвистическая терминология как объект исследования. Теоретические основы описания терминов. Этапы развития лингвистической терминологии, ее формирование посредством описательных грамматик. Словари лингвистических терминов и лингвистические энциклопедии.
дипломная работа [87,1 K], добавлен 25.02.2016Лексикография как научная дисциплина. Аспекты лексикографии. Термин "лексикография". Парономазия. Парономазию называют бинарной фигурой стилистики. Современные словари паронимов. Паронимия – частичное звуковое сходство слов при их семантическом различии.
реферат [21,8 K], добавлен 31.07.2007Проблемы межязыковой коммуникации в сфере науки. Межязыковая коммуникации и теория текста. Межязыковая коммуникации и проблемы перевода. Лексико-грамматические особенности английских научных текстов. Проблемы исследования научной терминологии.
дипломная работа [81,0 K], добавлен 14.10.2008Термин в современной лингвистике, его специфика как лексической единицы профессиональных подъязыков. Понятийный аппарат терминоведения. Проблемы лексикографирования лингвистической терминологии. Принципы создания двуязычного лингвистического словаря.
дипломная работа [84,6 K], добавлен 22.05.2012Основные тенденции в развитии лексикографии английского языка. Анализ британских, американских и отечественных словарей, особенностей их композиции и способов представления лексических единиц. Классификация, типы и структура словарей и словарных статей.
методичка [642,4 K], добавлен 26.04.2011Изучение предмета лексикографии или раздела языкознания, занимающегося теорией и практикой составления словарей. Проблема семантической структуры слова. Принципы словарного описания языка. Лексикографический параметр и пометы. Требования к толкованиям.
презентация [281,9 K], добавлен 17.03.2015Современный этап развития терминологии. Социальные факторы, определяющие изменения в сфере современной экономической терминологии. Активные процессы в современной экономической терминологии. Сферы функционирования экономической лексики.
дипломная работа [89,2 K], добавлен 22.02.2007Характеристика термина как единицы языка и речи; их классификация. Рассмотрение общих и частных явлений, свойственные русской лингвистической терминологии, экстралингвистических факторов. Описание деривационных и прагматических особенностей терминов.
дипломная работа [80,3 K], добавлен 03.02.2015Внутренние факторы развития лингвистической науки как предпосылки становления младограмматизма. Развитие младограмматического направления, его основные черты. История Московской лингвистической школы. Шахматов как один из ведущих представителей МЛШ.
реферат [19,0 K], добавлен 21.06.2010