Компьютерная проверка орфографии и причины невыявления ошибок

Рассмотрение проблематики компьютерных систем проверки правописания. Работа автокорректоров и ее разбор на примере ОРФО, встроенного в текстовый редактор Microsoft Word. Рекомендации для разработчиков новых версий спеллеров с программами-"подсказками".

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 28.01.2019
Размер файла 17,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Компьютерная проверка орфографии и причины невыявления ошибок

Лавошникова Элина Константиновна

Аннотация

Рассматривается проблематика компьютерных систем проверки правописания. Работа автокорректоров разбирается на примере ОРФО, встроенного в текстовый редактор MICROSOFT WORD. На конкретных примерах показано, что перегруженность системных словарей устаревшей лексикой приводит к пропуску ошибок. Даются рекомендации для разработчиков новых версий спеллеров с программами-"подсказками".

Ключевые слова: проверка правописания; орфографические ошибки; орфографический словарь; спеллер; MS Word.

Одна из самых распространенных в настоящее время компьютерных систем проверки правописания - автокорректор ОРФО, встроенный в текстовый редактор Microsoft Word.

При компьютерной проверке слова из текста сравниваются со словоформами, уже имеющимися или порождаемыми из списков специальным образом сконструированных квазиоснов и квазиокончаний [3] в системных словарях. Если слово не найдено - это значит, что оно по каким-то причинам не включено в словари текстового редактора (например, в некоторых последних версиях ОРФО уже не узнает слова "голубой" и "розовый"), либо содержит ошибку. В обоих случаях спеллер предлагает пользователю обратить на такое "новое" слово свое внимание (например, подчеркивает красной волнистой линией).

В основном системном словаре автокорректора ОРФО имеются следующие лексемы, пропускаемые без замечаний:

- достигать и достегать (`закончить шитье стеганого одеяла', от глагола стегать),

- кортеж и картеж (картёж - игра в карты),

- наживаться и нажеваться (от глагола жевать),

- пародировать и парадировать (от существительного парад),

- подражать и подрожать (от глагола дрожать).

Этот список может быть продолжен. В текстах пользователей такие, как вторые члены этих пар, низкочастотные слова с большей вероятностью могут возникнуть в результате ошибки. Однако при проверке текстов спеллером ОРФО они пропускаются без замечаний (никак не подчеркиваются), так как без каких-либо специальных помет имеются в его основном системном словаре. компьютерный правописание автокорректор

В основном словаре автокорректора ОРФО представлены слова из профессиональной терминологии, которые могут получиться в текстах пользователя также и в результате опечаток, разбивки или "склеивания" двух слов: контроллер (аппарат), морской термин протрактор, ботанические термины перилла и ость, термин севр (фарфор), геологический термин трапп, астрономический вертикал, математический комплемент, музыкальные термины затакт, нона и нонет. Никаких предупреждений к узкоспециальным терминам, "похожим" на более употребительные словоформы и конструкции, системная подсказка ОРФО не выдает.

Приведем еще несколько примеров слов, включенных в основной словарь автокорректора ОРФО, которые с большей вероятностью могут быть получены в результате распространенной ошибки - пропуска буквы: иступленный (карандаш), корец (обл., ковш), надежа (надёжа, просторечное), поветь ("помещение в крестьянском дворе, обл." [6]).

В лексической базе Word'овского текстового редактора представлены и никак не обособляются низкочастотные глаголы, например: взмутиться, вскальзывать, вымесить, вымешать, живать, избабиться, повестить, прашивать, пригашать, примститься, прообразовывать, ссунуть ссунуться) и др. Пример предложения, где между местоимением "вы" и глагольной формой отсутствует пробел: Выбросаете слова на ветер. Автокорректор пропускает эту фразу без замечаний.

Такие глаголы и образуемые от них причастия в реальных текстах пользователя могут появиться из-за опечаток в более употребительных словах, но спеллер ОРФО их пропускает и никак не отмечает.

Так ли уж необходимы устаревшие, просторечные, областные и диалектные слова в основном словаре системы проверки правописания? Подобные почти никогда не употребляемые в современных текстах слова можно было бы изымать из основного системного словаря, поскольку компьютерный корректор желательно ориентировать на обнаружение ошибок в текстах массового пользователя. При этом ничего катастрофического не произойдет. Низкочастотные слова будут подчеркиваться - либо как не найденные в словарях спеллера, либо (в случае их перевода с пометами в особые словари) как имеющие ограниченную область употребления с выдачей по желанию пользователя толкований и разъяснений.

Если низкочастотную лексику можно вывести за пределы основного словаря, то более употребительные слова, "слишком похожие" на другие, желательно было бы на этапе создания компьютерных словарей снабжать особыми предупреждающими пометами. Представим себе такую ситуацию. В тексте несколько раз встретилось слово страница, но только один раз - странница или станица. Эти слова могут появиться также и в результате опечатки в слове страница. Для подобных случаев (контингент и континент, контракт и контакт, смещение и смешение) желательно было бы предусмотреть особое сообщение, например: "Это ли слово имелось в виду?".

В "Грамматическом словаре" академика РАН Андрея Анатольевича Зализняка [1] особыми символами отмечены прилагательные, краткие формы от которых почти никогда не употребляются (предположительны или затруднительны). Однако в системе MS Word такие краткие формы образуются и пропускаются без замечаний: дальне, дочерня, зелененьки, легонька, осторожненька, прежни, свеженьки, тихонька и т.п. Очевидно, что эти слова в современных текстах с большей вероятностью могут быть получены в результате обрезания "по техническим причинам" последней буквы (например, при недостаточно сильном нажатии клавиши или при сканировании со сгиба книги). Порождение в системных словарях текстового редактора сомнительных в стилистическом плане грамматических форм не только засоряет подсказку, но может приводить и к пропуску опечаток.

Следует отметить, что в большинстве издаваемых словарей не приводится полного набора дериватов - однокоренных слов [2]. Эти словари рассчитаны на человека, а человек, если он достаточно хорошо знает язык, сам может образовать слова (не порождаемые в словарях Word'овского текстового редактора): гусарство, детективчик, зарабатывание, защитничек, переозвучить, подредактировать, подыгрывание, поприсутствовать, приемчик, псевдорадикальный, рокировочка, телефончик, экстремал (подсказка предлагает экстремаль) и т.п. Но в словарях спеллера желательно эти слова иметь или каким-то образом порождать.

Для автокорректора текстового редактора MS Word некоторые слова с отрицательным префиксом "не-" оказываются "неизвестными". Примеры: невыездной, негуманность, нетипичность.

Конечно, "Москва не сразу строилась", но хотелось бы высказать пожелание, чтобы в следующих версиях автокорректоров системная подсказка была бы более полезной и осмысленной. Например, для таких стилистически не очень приемлемых и отсутствующих в словарях отглагольных существительных, как "реализовывание", "загружение", "раздавание", подсказка могла бы предлагать замену: реализация, загрузка, раздача.

Подсказка в текстовом редакторе должна учитывать технические и психологические причины возникновения опечаток и ошибок. Наиболее вероятные варианты исправления должны выдаваться пользователю в начале списка. Это особенно актуально для коротких слов, когда число предлагаемых подсказкой словоформ доходит до нескольких десятков.

Из всего вышеизложенного главные выводы таковы.

Чем "богаче" основной системный словарь автокорректора, тем больше ошибок пропускается; чем он беднее, тем больше "ложных тревог". С одной стороны, желательно, чтобы в каждой очередной версии системные словари текстовых редакторов как можно больше пополнялись новыми словами. При этом могли бы использоваться и механизмы словообразования, создания "словарных гнезд".

С другой стороны, в основном словаре должны быть выявлены малоупотребительные слова и словоформы, которые могут совпасть с искажениями (в результате наиболее вероятных ошибок и опечаток) достаточно употребительных словоформ. Такие "подводные камни", которые неожиданно "вылезают" в списках рекомендуемых вариантов исправления, могли бы снабжаться особыми пометами или выноситься в дополнительные компьютерные словари [4, 5].

Желательно, чтобы сервисная подсказка наиболее вероятные варианты исправления предлагала в начале списка. Ранжирование вариантов - задача для разработчиков новых версий автокорректоров. Для этого нужно выявлять и учитывать наиболее частые причины возникновения ошибок и опечаток.

Мы предлагаем дополнять компьютерные системные словари спеллера списками наиболее вероятных искажений (для некоторых слов). Такие сведения о типичных ошибках будут способствовать более эффективной работе текстового редактора и минимизации числа отказов в выдаче вариантов исправления при компьютерной коррекции текстов.

Список использованных источников

1. Зализняк А.А. Грамматический словарь русского языка: Словоизменение. Ок. 110 000 слов. - 4-е изд., испр. и доп. - М.: "Русские словари", 2003. - 800 с.

2. Лавошникова Э.К. Компьютерная коррекция орфографии и разночтения в словарях: Возможны варианты? // Филоlogos. - 2015. - № 24 (1). - С. 49-54.

3. Лавошникова Э.К. Компьютерная проверка орфографии: вчера, сегодня, завтра // Вестник Московского ун-та. Серия 9: "Филология". - 2003. - № 5. - С. 53-68.

4. Лавошникова Э.К. О компьютерной коррекции "популярных" ошибок в текстах на русском языке // Научно-техническая информация. Серия 2. "Информационные процессы и системы". - 2003. - № 9. - С. 28-34.

5. Лавошникова Э.К. О "подводных камнях" в компьютерных системах проверки правописания // Вестник Московского ун-та. Серия 9: Филология. - 2002. - № 6. - С. 151-163.

6. Русский орфографический словарь (РОС): ок. 200 000 слов / под ред. В.В. Лопатина, О.Е. Ивановой. - Ин-т русского языка им. В.В. Виноградова РАН. - М.: АСТ-ПРЕСС КНИГА, 2013. - 896 с.

Размещено на Allbest.ru


Подобные документы

  • Общие сведения о текстовом редакторе Microsoft Word. Основные операции редактора по работе с документами. Запуск программы, средства редактирования. Ввод и исправление текста, использование буфера обмена, форматирование абзацев, работа со шрифтами.

    контрольная работа [25,5 K], добавлен 12.03.2011

  • Общие сведения о текстовом редакторе Microsoft Word. Форматирование текста, настройка параметров абзаца, ввод символов. Средство создания списков, копирование и перемещение участков текста, работа со стилями, таблицами, вставка графических объектов.

    реферат [60,5 K], добавлен 15.09.2009

  • Применение текстового редактора Microsoft Word для обработки текстовой информации на компьютере. Создание документа, его редактирование и форматирование. Инструмент редактирования текста. Границы и заливка, выделение фрагментов. Стиль написания документа.

    реферат [1,4 M], добавлен 28.12.2010

  • Текстовый редактор как средство создания, обработки и хранения документов равной степени сложности. Интерфейс текстового редактора MS Word, редактирование и форматирование текста. Работа с таблицами, рисунками и диаграммами. Распечатывание документа.

    дипломная работа [283,4 K], добавлен 03.05.2009

  • Классификация и возможности текстовых редакторов. Среда текстового редактора Microsoft Word 2003. Процесс редактирования текста, его копирование и перемещение. Проверка орфографии и синтаксиса, автотекст и автозамена. Пример гипертекстового документа.

    курсовая работа [2,4 M], добавлен 25.04.2013

  • Если в документе Word есть вставленный объект, то Word называют приложением-клиентом. В приложения Microsoft Office можно вставлять растровые и векторные рисунки, а встроенный в Word графический редактор позволяет создавать графические объекты.

    реферат [190,9 K], добавлен 08.01.2009

  • Создание, сохранение документа MS Word, форматирование его по заданным требованиям, выполнение основных действий с файлами. Редактирование текста. Работа с объектами в MS Word: с формулами, рисунками, таблицами. Работа с несколькими открытыми документами.

    лабораторная работа [25,6 K], добавлен 16.11.2008

  • Общее описание редакторов Microsoft Word и Excel, их сравнительная характеристика и назначение. Возможности текстового и табличного редакторов, преимущества их использования и выполняемые функции, варианты загрузки и реализация основных операций.

    отчет по практике [41,6 K], добавлен 29.10.2009

  • Работа с текстом в Microsoft Word 2007. Набор и редактирование текста. Поиск и замена. Проверка орфографии, использование тезауруса. Форматирование символов и абзацев. Вставка элемента списка автотекста. Microsoft Excel: сохранение и печать документа.

    курсовая работа [2,2 M], добавлен 22.06.2013

  • Методика создания приложений передающих данные в Microsoft Word. Технология взаимодействия приложений с текстовым редактором Microsoft Word. Создание и использование экземпляров серверов автоматизации. Взаимодействие с сервером на уровне документа.

    курсовая работа [120,7 K], добавлен 26.03.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.