Корпусная лінгвістыка
Асноўныя паняцці корпуснай лінгвістыкі. Гісторыя стварэння лінгвістычных корпусаў. Тыпалогія корпусаў. Рашэння розных лінгвістычных задач. Сінтаксічная, семантычная, анафарычная, прасадычная разметка. Гісторыя развіцця камп’ютарнай лінгвістыкі ў Беларусі.
Рубрика | Иностранные языки и языкознание |
Вид | курсовая работа |
Язык | белорусский |
Дата добавления | 29.04.2013 |
Размер файла | 33,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Корпусная лінгвістыка
корпусный лінгвістыка камп'ютарный
Корпусная лінгвістыка - раздзел камп'ютарнай лінгвістыкі, які займаецца распрацоўкай агульных прынцыпаў будавання і выкарыстання лінгвістычных корпусаў (корпусаў тэкстаў) з выкарыстаннем камп'ютарных тэхналогій. Пад назвай лінгвістычны, ці моўны, корпус тэкстаў разумеецца вялікі, прадстаўлены ў электронным выглядзе, уніфікаваны, структураваны, размечаны, філалагічна кампетэнтны масіў моўных дадзеных, які выкарыстоўваецца для рашэння канкрэтных лінгвістычных задач. У паняцце «корпус тэкстаў» таксама ўваходзіць сістэма кіравання тэкставымі і лінгвістычнымі дадзенымі, якую называюць корпусным менеджэрам (ці корпус-менеджэрам) (англ. corpus manager). Гэта спецыялізаваная пошукавая сістэма, у склад якой уваходзяць праграмныя сродкі для пошуку дадзеных у корпусе, атрымання статыстычнай інфармацыі і вынікаў для карыстальніка ў зручнай форме.
Корпусная лінгвістыка дала магчымасць удакладніць вынікі праведзеных раней даследаванняў мовы і правесці новы, больш шырокі і сістэмны па аб'ёме моўнага матэрыялу лінгвістычны аналіз. У цэнтры ўвагі корпуснай лінгвістыкі - моўная асоба з маўленчай дзейнасцю, масавай камунікацыяй, праблемамі яе апісання. Галоўныя мэты - лінгвістычнае апісанне моўнай сістэмы, а таксама адлюстраванне моўнага матэрыялу ў выглядзе корпуса тэкстаў, які ў сваю чаргу можа выкарыстоўвацца іншымі лінгвістычнымі дысцыплінамі.
Пошук у корпусе дадзеных дазваляе па любым слове пабудаваць канкарданс - спіс усіх ужыванняў дадзенага слова ў кантэксце са спасылкамі на крыніцу. Корпусы могуць выкарыстоўвацца для атрымання разнастайных даведак і статыстычных дадзеных аб моўных і маўленчых адзінках. У прыватнасці, на аснове корпусаў можна атрымаць дадзеныя аб частаце словаформ, лексем, граматычных катэгорый, прасачыць змены частот і кантэкстаў у розныя перыяды часу, атрымаць дадзеныя сумеснага ўжывання лексічных адзінак і да т.п. Значны масіў моўных дадзеных за пэўны перыяд дазваляе вывучыць дынаміку працэсаў змянення лексічнага складу мовы, праводзіць аналіз лексіка-граматычных характарыстык у розных жанрах і ў розных аўтараў, і г.д. Корпусы прызваны таксама служыць крыніцай і інструментам шматаспектных лексікаграфічных работ па падрыхтоўцы разнастайных гістарычных і сучасных слоўнікаў. Дадзеныя корпусаў могуць быць выкарыстаны для стварэння і ўдакладнення граматык і з мэтай навучання мове.
Задача стваральнікаў корпуса - сабраць як мага большую колькасць тэкстаў, але галоўнае не толькі і не столькі ў колькасці матэрыялу, колькі ў яго прапарцыянальнасці. Можна сказаць, што корпус - гэта паменшаная мадэль мовы ці падмовы. Адным з важнейшых паняццяў корпуснай лінгвістыкі з'яўляецца рэпрэзентатыўнасцьь. Пад рэпрэзентатыўнасцю разумеюць неабходна-дастатковае і прапарцыянальнае прадстаўленне ў корпусе тэкстаў розных перыядаў, жанраў, стыляў, аўтараў і да т.п.
Тэрмін «корпус» звычайна абазначае збор тэкстаў канечнага фіксаванага памеру. З цягам часу аб'ём і склад корпуса можа змяняцца, аднак гэтыя змены не павінны змяняць яго рэпрэзентатыўнасць. Аб'ём першых корпусаў складаў 1 млн словаўжыванняў. Зараз лічыцца, што аб'ём агульнамоўнага корпуса павінен быць не менш за 100 млн словаўжыванняў.
Для рашэння розных лінгвістычных задач аднаго масіва тэкстаў мала. Неабходна, каб тэксты змяшчалі рознага роду дадатковую лінгвістычную і экстралінгвістычную інфармацыю. Так у корпуснай лінгвістыцы ўзнікла ідэя размечанага корпуса. Разметка (tagging, annotation) заключаецца ў прыпісванні тэкстам і іх кампанентам спецыяльных метак (tag, tags): вонкавых, экстралінгвістычных (звесткі аб аўтары і звесткі аб тэксце: аўтар, назва, год і месца выдання, жанр, тэматыка; звесткі аб аўтары могуць уключаць не толькі яго імя, але таксама ўзрост, пол, гады жыцця і інш. Гэта кадзіраванне інфармацыі мае назву метаразметка), структурных (глава, абзац, сказ, словаформа) і ўласна лінгвістычных, якія апісваюць лексічныя, граматычныя і іншыя характарыстыкі элементаў тэксту. Сярод лінгвістычных тыпаў разметкі выдзяляюцца:
· марфалагічная разметка, якая ўключае не толькі прыкмету часціны мовы, але і прыкметы граматычных катэгорый, уласцівых гэтай часціне мовы. Гэта асноўны тып разметкі: па-першае, большасць вялікіх корпусаў з'яўляюцца марфалагічна размечанымі корпусамі, па-другое, марфалагічны аналіз разглядаецца як аснова для далейшых форм аналізу - сінтаксічнага і семантычнага, па-трэцяе, поспехі ў камп'ютарнай марфалогіі дазваляюць аўтаматычна размячаць корпусы вялікіх памераў. У выніку работы праграм аўтаматычнага марфалагічнага аналізу кожнай лексічнай адзінцы прыпісваюцца граматычныя характарыстыкі, у якія ўваходзяць часціна мовы, лема (нармальная форма) і набор грамем (напрыклад, род, лік, склон, адушаўлёнасць /неадушаўлёнасць, пераходнасць і да т.п.);
· сінтаксічная разметка, якая з'яўляецца вынікам сінтаксічнага аналізу, ці парсінга (англ. parsing), які выконваецца на аснове марфалагічнага аналізу. Гэты від разметкі апісвае сінтаксічныя сувязі паміж лексічнымі адзінкамі і разнастайнымі сінтаксічнымі канструкцыямі (напрыклад, даданы сказ, дзеяслоўнае словазлучэнне і да т.п.). У выніку работы праграм аўтаматычнага сінтаксічнага аналізу фіксуюцца сінтаксічныя сувязі паміж словамі і словазлучэннямі, а сінтаксічным адзінкам прыпісваюцца суадносныя характарыстыкі (тып сказа, сінтаксічная функцыя і да т.п.);
· семантычная разметка, якая абазначае семантычныя катэгорыі, да якіх адносіцца данае слова ці словазлучэнне, і больш вузкія падкатэгорыі, якія спецыфікуюць яго значэнне;
· анафарычная разметка, якая фіксуе рэферэнцкія сувязі, напрыклад, займеннікавыя;
· прасадычная разметка. У прасадычных корпусах выкарыстоўваюць меткі, якія апісваюць націск і інтанацыю. У корпусах вуснага размоўнага маўлення прасадычная разметка часта суправаджаецца так званай дыскурснай разметкой, якая служыць для абазначэння паўз, паўтораў, агаворак, і г.д.
Існуюць і іншыя тыпы разметкі.
Можна сказаць, што прадметам корпуснай лінгвістыкі з'яўляюцца тэарэтычныя асновы і практычныя механізмы стварэння і выкарыстання вялікіх масіваў моўных дадзеных, прызначаных для лінгвістычных даследаванняў у інтарэсах шырокага кола карыстальнікаў.
Любы камп'ютарны корпус тэкстаў як мінімум павінен ажыццяўляць пошук па наступных параметрах:
1) канкрэтная словаформа (напр. шчаслівага);
2) лексема (напр., шчаслівы - выдае шчасліваму, шчаслівых…);
3) марфалагічныя параметры (напр., “усе назоўнікі pluralia tantum”);
4) лінейная пазіцыя адносна іншай лексемы/словаформы, абсалютная ці адносная (напр. “усе кантэксты са словамі, якія пачынаюцца з рас-, непасрэдна пасля лексемы крыху”);
5) лінейная пазіцыя ў сказе (напр. “усе ўваходжанні і на пачатку сказа”);
6) колькасць уваходжанняў у сказе/абзацы;
7) дата і тып тэксту;
а таксама па камбінацыях дадзеных параметраў.
Першыя лінгвістычныя корпусы тэкстаў з'явіліся ў 60-я гады ХХ ст. У 1963 г. у Браўнаўскім універсітэце (ЗША) упершыню быў створаны вялікі корпус тэкстаў на машынным носьбіце (Brown Corpus). Аўтары корпуса У. Фрэнсіс (W. Francis) і Г. Кучэра (H. Kucera) спраектавалі яго як набор празаічных друкаваных тэкстаў амерыканскага варыянта англійскай мовы (усяго такіх тэкстаў 500, аб'ём кожнага 2000 слоў). Тэксты належалі да пятнаццаці найбольш масавых жанраў англамоўнай друкаванай прозы ЗША. Браўнаўскі корпус суправаджаўся не толькі пашыраным апісаннем, але і вялікай колькасцю матэрыялаў яго першаснай статыстычнай апрацоўкі - частотны і алфавітна-частотны слоўнік, разнастайныя статыстычныя дадзеныя. З'яўленне Браўнаўскага корпуса выклікала агульную зацікаўленасць і гарачыя дыскусіі. Перш за ўсё яны закранулі прынцыпы адбору тэкстаў і шэраг задач, якія патэнцыяльна вырашаюцца з дапамогай такога корпуса.
Неўзабаве з'явіўся брытанскі аналаг Браўнаўскага корпуса Ланкастэрскі корпус англійскай мовы (Lancaster-Oslo-Bergen Corpus, LOB), названы, як і Браўнаўскі, паводле месца яго стваэння. Сярод сучасных корпусаў англійскай мовы найбольш вядомы Брытанскі нацыянальны корпус (British National Corpus, BNC, адрас: www.sara.natcorp.ox.ac.uk), які з'яўляецца ўзорам нацыянальнага моўнага корпуса. Агульны аб'ём корпуса 100 млн словаўжыванняў. Корпус адлюстроўвае стан англійскай мовы (яго брытанскага варыянта) 2-ой паловы XX ст. Апошняя на сённяшні дзень рэдакцыя корпуса выйшла ў свет у 2007 г. 90% тэкставай базы корпуса складаюць узоры літаратурнай пісьмовай мовы, 10% - транскрыпты гутарковага маўлення.
Сярод мноства праектаў амерыканскіх корпусаў адзіным праектам з адкрытым доступам да базы дадзеных з'яўляецца Корпус сучаснай амерыканскай англійскай мовы (Corpus of Contemporary American English, COCA, адрес: www.americancorpus.org), агульны аб'ём якога 410 млн словаўжыванняў са 160 тыс. тэкстаў. Стваральнікам корпуса з'яўляецца Марк Дэйвіс (Mark Davies), прафесар корпуснай лінгвістыкі Універсітэта Брыгама Янга. Апошняе абнаўленне корпуса праводзілася летам 2010 г. 85 млн. токенаў складаюць транскрыпты вуснага маўлення, узятыя з электронных мас-медыа; 81 млн. - мастацкая літаратура; 86 млн. - папулярныя часопісы; 81 млн. - газеты і 81 млн. - акадэмічныя выданні.
Калекцыя COSMAS (адрас: www.corpora.ids-mannheim.de/ccdb) уяўляе самы вялікі ў свеце электронны збор сучасных нямецкамоўных тэкстаў. Агульны аб'ём корпуснай базы - каля 2 млрд. слоў.
Корпус французскіх тэкстаў Bibliothиque Universelle (www.abu.cnam.fr) уключае творы французскай літаратуры, а таксама некаторыя перакладныя тэксты на французскай мове.
Прадстаўнічы корпус іспанскай мовы (Corpus de Referencia del Espaсol Actual, CREA, адрас: www.corpus.rae.es/creanet.html) адлюстроўвае мову за перыяд з 1975 па 1999 гг. 50% корпуса складаюць еўрапейскія тэксты, 50% - лацінаамерыканскія. 90% аб'ёма корпуса займаюць пісьмовыя тэксты, 10% запісы вуснага маўлення.
Самай поўнай крыніцай для вывучэння рускай мовы сёння з'яўляецца Нацыянальны корпус рускай мовы (адрас: www.ruscorpora.ru) - 120 млн словаўжыванняў.
У стане станаўлення і стварэння знаходзяцца нацыянальныя корпусы некаторых заходнееўрапейскіх моў:
Нацыянальны Корпус Польскай Мовы (Narodowy Korpus Jкzyka Polskiego, адрес: http://www.nkjp.pl). 450 млн. слоў на сённяшні дзень.
Чэшскі нацыянальны корпус (Иeskэ nбrodnн korpus, ИNK, адрес: www.korpus.cz). Структура корпуса: 1) падкорпус газет і часопісаў 1995 - 2007 гг. (2009 г., 700 млн.); 2) падкорпус газет і часопісаў 1990 - 2004 гг. (2006 г., 300 млн.); 3) сбалансаваны падкорпус тэкстаў 2000 - 2004 гг. (2005 г., 100 млн.); 4) сбалансаваны падкорпус тэкстаў 1990 - 1994 гг. (2000 г., 100 млн.); 5) сацыялінгвістычна сбалансаваны падкорпус гутарковай чэшскай мовы (2008 г., 1 млн.), дыяхранічны падкорпус DIAKORP (1,6 млн.) і інш.
Славацкі нацыянальны корпус (Slovenskэ nбrodnэ korpus, SNK, адрес: www.korpus.juls.savba.sk). Налічвае больш за 520 млн токенов. 65% корпуснай базы складаюць публіцыстычныя тэксты, 17% - мастацкая літаратура, 16% - спецыялізаваныя тэксты і 2% - іншыя.
Харвацкі нацыянальны корпус (Hrvatski nacionalni korpus, HNK, адрес: www.hnk.ffzg.hr). Будучая структура корпуса, аб'ёмам 100 млн словаўзжыванняў, будзе выглядаць наступным чынам: 74 % - інфармацыйныя тэксты (у т.л. 37% - газеты, 16% - часопісы, 21% - публіцыстыка), 23% - мастацкая проза і 3% - іншыя тэксты.
Часткай ідэі стварэння нацыянальнага корпуса славенскай мовы з'яўляецца праект “Nova Beseda” (адрес: www.bos.zrc-sazu.si/a_about_si.html) - славенскі моўны корпус, база якога налічвае на сённяшні дзень 162 млн словаўжыванняў, 4158 тэкстаў.
Нацыянальны корпус балгарскай мовы (адрес: www.search.dcl.bas.bg), база якога налічвае на сённяшні дзень 320 млн словаўжыванняў, 10 тыс. тэкстаў.
Беларускі корпус тэкстаў і беларуская корпусная лінгвістыка яшчэ ў самым пачатку станаўлення. Інстытутам мовазнаўства АНБ і Нацыянальным навуковым асветніцкім цэнтрам тія Ф.Скарыны распрацаваны праект “Праблемы рэпрэзентатыўнасці і стварэння корпуса беларускай мовы”. Гэты праект быў разлічаны на 5 гадоў (да 2005 г.); прадугледжвалася выпрацоўка агульнай канцэпцыі корпуса, яго стандартаў, а таксама збор і перанос на электронныя носьбіты тэкстаў для так званага дэманстрацыйнага варыянта на 500 тыс словаўжыванняў.
Па заказе Міністэрства інфармацыі Беларусі ў навукова-даследчай лабараторыі інтэлектуальных інфармацыйных сістэм на факультэце прыкладной матэматыкі БДУ (загадчык лабараторыі д.ф.-м.н. прафесар І.В.Соўпель) створаны Машынны фонд беларускай мовы. У межах праекта распрацаваны генеральны слоўнік беларускай мовы, які ўключае:
· універсальны слоўнік (140240 парадыгм, што складае 1259720 словаформаў, у тым ліку дзеясловаў - 45654 парадыгмы, назоўнікаў - 54461 парадыгма, прыметнікаў - 41895 парадыгм);
· слоўнік уласных імёнаў. У які ўваходзяць і геаграфічныя назвы (15772 словы);
· слоўнік скарачэнняў і абрэвіятур (250 слоў);
· слоўнік сінонімаў (5927 сінанімічных радоў);
· слоўнік амонімаў (50 562 групы);
· слоўнік антонімаў (188 груп);
· частотны слоўнік (16 480 слоў);
· зваротны слоўнік (125 682 словы);
· слоўнік націскаў (112 227 парадыгм);
· слоўнік ідыём (5075 беларускіх ідыём);
· тэрміналагічныя слоўнікі (біялогія, ваенная справа, матэматыка, фізіка, кібернэтыка, юрыспрудэнцыя, літаратуразнаўства, лінгвістыка; агульная колькасць тэрмінаў - 32 795);
· двухмоўныя машынныя слоўнікі: беларуска-рускі (219 601 парадыгма) і руска-беларускі (219 617 парадыгм);
· зыходны корпус тэкстаў для рускай і беларускай моў (агульны аб'ём - 10 млн словаўжыванняў);
· анатаваны корпус тэкстаў вышэйназваных моў, элементамі якога з'яўляюцца: 1) паралельны беларуска-рускі корпус тэкстаў (агульны аб'ём - 2 млн словаўжванняў); 2) табліцы дзеяслоўнага кіравання (з прыназоўнікам і без прыназоўніка); 3) сістэма арфаграфічнага карэктара; 4) сістэма беларуска-рускага і руска-беларускага машыннага перакладу; 5) сістэма аўтаматычнага рэферыравання беларускіх тэкстаў.
МФБМ дазваляе ствараць спецыяльныя падкорпусы. Слоўнікі і базы дадзеных, напрыклад, слоўнік адзінак, не зафіксаваных ў ТСБМ (Мінск, 1977-1984), - 17 тыс. лексем.
На сённяшні дзень у Беларусі няма корпусаў, якія б адпавядалі патрэбам будучага тлумачальнага слоўніка. Існуе некалькі корпусных праектаў, якія могуць стаць асновай для будучага Нацыянальнага корпусу: Вялікі корпус беларускай мовы (Мінскі дзяржаўны лінгвістычны ўніверсітэт) і корпус навуковых тэкстаў беларускай мовы Corpus Albaruthenicum (Беларускі нацыянальны тэхнічны ўніверсітэт). Абодва корпусы ствараюцца пры ўдзеле спецыялістаў з Інстытута мовы і літаратуры НАН.
У першай палове 90-х гг. ХХ ст. корпусная лінгвістыка канчаткова сфарміравалася як асобны раздзел навукі аб мове. Пры гэтым яна цесна ўзаемадзейнічае з камп'ютарнай лінгвістыкай, выкарыстоўвае яе дасягненні і ў сваю чаргу абагашчае яе. У гэты час былі зроблены першыя крокі па аб'яднанні і каардынацыі намаганняў лінгвістаў розных краін, якія працуюць над стварэннем корпусаў тэкстаў. У 1992 г. створана Еўрапейская корпусная ініцыятыва (ЕСІ). У актыве арганізацыі каля 40-50 корпусаў тэкстаў на еўрапейскіх мовах, кожны аб'ёмам ад 12 тыс. да 5 млн слоў. Мэта арганізацыі - стварэнне прадстаўнічых корпусаў тэкстаў на максімальнай колькасці еўрапейскіх моў, а таксама стварэнне паралельных корпусаў тэкстаў, спачатку на англійскай, французскай, нямецкай, іспанскай мовах. Распрацаваны стандарты стварэння камп'ютарных корпусаў тэкстаў, выходзяць перыядычныя выданні, прысвечаныя корпуснай лінгвістыцы, рэгулярна адбываюцца канферэнцыі і форумы.
Нягледзячы на разнастайнасць корпусаў, можна выдзеліць два асноўныя спосабы дзялення корпусаў на класы: 1) гэта супрацьпастаўленне корпусаў, якія адносяцца да ўсёй мовы (часта да мовы пэўнага перыяда), корпусам, якія адносяцца да якой-небудзь падмовы (жанр, стыль, мова пэўнай узроставай ці сацыяльнай групы, мова пісьменніка ці вучонага і да т.п.); 2) падзел корпусаў па тыпу лінгвістычнай разметкі, паколькі большасць існых корпусаў адносіцца да корпусаў марфалагічнага або сінтаксічнага тыпа (апошнія ў англамоўнай літаратуры называюць treebanks, што можна перакласці як «банкі сінтаксічных структур»). Пры гэтым трэба адзначыць, што корпус з сінтаксічнай разметкай наяўна ці не ўключае ў сябе і марфалагічныя характарыстыкі лексічных адзінак.
Увогуле існуе вялікая колькасць розных тыпаў корпусаў. Іх разнастайнасць вызначаецца шматаспектнасцю даследчых і прыкладных задач, для рашэння якіх яны ствараюцца, і рознымі крытэрыямі класіфікацыі. У залежнасці ад пастаўленых мэтаў і класіфікацыйных прыкмет, можна вызначыць розныя тыпы корпусаў (гл. табліцу).
Класіфікацыя корпусаў
Прыкмета |
Тыпы корпусаў |
|
Тып дадзеных |
Пісьмовыя Маўленчыя Змешаныя |
|
Мова тэкстаў |
Беларуская Руская Англійская і г.д. |
|
«Паралельнасць» |
Аднамоўныя Двухмоўныя Шматмоўныя |
|
«Мастацкасць», спецыфічнасць |
Мастацкія Дыялектныя Размоўныя Тэрміналагічныя Змешаныя |
|
Жанр |
Мастацкія Фальклорныя Драматычныя Публіцыстычныя |
|
Даступнасць |
Свабодна даступныя Камерцыйныя Закрытыя |
|
Прызначэнне |
Даследчыя Ілюстрацыйныя |
|
Дынамічнасць |
Дынамічныя (маніторныя) Статычныя |
|
Разметка |
Размечаныя Неразмечаныя |
|
Характар разметкі |
Марфалагічныя Сінтаксічныя Семантычныя Прасадычныя і да т.д. |
|
Аб'ём тэкстаў |
Поўнатэкставыя «Фрагментнатэкставыя» |
|
Храналагічны аспект |
Сінхранічныя Дыяхранічныя |
|
«Супольнасць» |
Агульныя Аднаго пісьменніка |
|
Структура |
Цэнтральныя і архіўныя Ядзерныя і перыферыйныя |
Гісторыя развіцця камп'ютарнай лінгвістыкі ў Беларусі
У Беларусі пачаткам работ па камп'ютарнай лінгвістыцы можна лічыць 1965 год. Менавіта тады на падставе рашэння Прэзідыума Акадэміі Навук СССР быў накіраваны на кафедру агульнага мовазнаўства Мінскага дзяржаўнага педагагічнага інстытута замежных моў (МДПІЗМ) «для чытання лекцый, аказання дапамогі ў правядзенні навуковых работ і падрыхтоўкі навуковых кадраў» доктар філалагічных навук з Ленінграда Р.Г. Піатроўскі. У гэты жа годзе аспірантамі на гэтую ж кафедру па спецыяльнасці “структурная, прыкладная і матэматычная лінгвістыка» былі рэкамендаваны два матэматыкі-праграмісты, якія закончылі МДУ імя М.В. Ламаносава і МДПІ імя М. Горкага. Яны разам з выкладчыкамі-лінгвістамі МДПІЗМ і іншымі вопытнымі праграмістамі г. Мінска сталі праводзіць на камп'ютары «Мінск-22», першыя работы па аўтаматычнаму складанню частотных слоўнікаў па тэкстах розных падмоў і частотных спісаў словаспалучэнняў. Ужо ў 1969 г. в МДПІЗМ быў выпушчаны зборнік навуковых работ «Статистика текста. Том 1», дзе апублікаваны 15 артыкулаў па выніках аўтаматычнага складання частотных спісаў слоў і словаспалучэнняў розных моў.
У наступных навуковых зборніках, якія выйшлі ў МДЛУ [6; 7; 8; 9; 10; 11; 12; 13; 14; 15], задачы выкарыстання камп'ютара ў лінгвістычных даледаваннях усё больш ускладняліся. Так, паслядоўна вырашаліся наступныя задачы:
1970-ы год: аўтаматычны пераклад; аўтаматычная сегментацыя англійскіх і нямецкіх сказаў; сінтэз відавых фомаў рускага дзеяслова;
1972-і год: аўтаматычны сінтаксічны аналіз; аўтаматычнае ліквідаванне лексічнай неадназначнасці;
1977-ы год: фармалізацыя зместу англамоўных тэкстаў тэхнічных апісанняў; фармалізацыя структуры рэкламнага тэксту і яго стварэнне.
Аналагічныя даследаванні праводзіліся кафедрай інфарматыкі і прыкладной лінгвістыкі МДПІЗМ (и на хоздоговорных условиях по заказу различных городов Советского Союза (Минска, Ленинграда, Свердловска и др.). Например, такие [16; 17; 18; 19; 20]).
У гэтыя ж гады на кафедры эксперыментальнай фанетыкі МДПІЗМ (зараз МДЛУ) паспяхова працавала над праблемамі камп'ютарнай лінгвістыкі, звязанымі з сінтэзам вуснага маўлення, к.ф.н., прафесар Алена Барысаўна Карнеўская. Яе праца ў сааўтарстве з супрацоўнікам Інстытута тэхнічнай кібернэтыкі АНБ, д.т.н. Барысам Мяфодзьевічам Лабанавым, дазволіла стварыць сінтэзатар «ФАНЕМАФОН-4», а ў будучым - рад іншых сістэм сінтэзу маўлення [21].
З 1966 года актыўна працавала ў Мінску навукова-даследчая група па праблемам штучнага інтэлекту. Узначальваў яе д.ф.н., прафесар Віктар Уладзіміравіч Мартынаў, які паспяхова займаўся праблемамі фармалізацыі семантыкт тэкстаў з мэтай іх аўтаматычнай апрацоўкі.
Рашаючы розныя задачы, звязаныя з выкарыстаннем метадаў камп'ютарнай лінгвістыкі, кафедра інфарматыкі і прыкладной лінгвістыкі МДЛУ актыўна супрацоўнічала з прафесарам кафедры прыкладной лінгвістыкі БДУ Уладзімірам Аляксандравічам Карпавым і к.ф.н., дацэнтам гэтай жа кафедры Анастасіяй Іванаўнай Галаўня.
Па праблемах стварэння машыннага фонду беларускай мовы і корпуса тэкстаў беларускай мовы кафедра інфарматыкі і прыкладной лінгвістыкі МДЛУ супрацоўнічае з к.ф.н., дацэнтам, загадчыкам кафедры агульнага і славянскага мовазнаўства ГрДУ Людмілай Васільеўнай Рычковай.
Адзін з асноўных накірункаў навуковых работ кафедры ў апошні час звязаны з праблемамі корпуснай лінгвістыкі. Створаны два паралельныя (англа-рускі і франка-рускі) тэгіраваныя корпусы тэкстаў, якія ўключаюць тэксты па лінгвістыцы (аўтаматычная апрцоўка тэкстаў), паэзіі і справавой дакументацыі. Да размяшчэння на сайце НКРМ рыхтуюцца пад кіраўніцтвам д.ф.н. прафесара Аляксандра Васільевіча Зубава руска-беларускі і беларуска-рускі паралельныя корпусы. (см. Зубов, А. В. Лингво-методические возможности русско-белорусского параллельного корпуса текстов / А. В. Зубов // Русский язык: Исторические судьбы и современность. IV Международный конгресс исследователей русского языка. Труды и материалы. - М.: МГУ, 2010. - С. 516-517.)
Сумесна з Інстытутам мовы і літаратуры імя Якуба Коласа і Янкі Купалы Нацыянальнай Акадэміі навук РБ вядзецца праца па стварэнні вялікага корпуса тэкстаў беларускай мовы, які ўключае 1 млн. словавыкарыстанняў беларускіх тэкстаў і па 200 000 словавыкарыстанняў руска-беларускіх, англа-беларускіх і нямецка-беларускіх тэкстаў.
Corpus Albaruthenicum як частка міжнароднага праекта «BalticGrid-II»
http://www.russian.slavica.org/printout15324.html
У 2005 г. пачаўся міжнародны праект «BalticGrid» (www.baltiсgrid.org), мэтай якога была распрацоўка грыд-сеткі для краін Балтыі і ўсталяванне ўстойлівай е-інфраструктуры з мэтай выкарыстання ў розных навуковых даследаваннях Еўропы і далучэння яе да агульнаеўрапейскай е-інфраструктуры. З 2008 г. у межах 7-й Рамкавай праграмы Еўрапейскага саюзу ажыццяўлялася другая фаза гэтага праекта. Яго мэтай было пашырэнне і развіццё існай інфраструктуры і пераўтварэнне яе ў штодзённы інструмент працы для вучоных рэгіёна і па-за яго межамі.
Адным з кірункаў у праекце «ВаlticGrid-II» была распрацоўка лінгвістычных рэсурсаў для краін Балтыі і Беларусі. У прыватнасці, Літва (Вільнюскі універсітэт) і Беларусь (Беларускі нацыянальны тэхнічны ўніверсітэт пры ўдзеле спецыялістаў з Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі) распрацоўвалі тэкставыя корпусы навуковай мовы, адпаведна літоўскай і беларускай.
Корпус беларускамоўных навуковых тэкстаў (Corpus Albaruthenicum) -- першая спроба стварэння публічнага вузкаспецыяльнага корпуса, які мае на мэце распрацоўку даведачнай базы звестак для карыстання лінгвістамі, выкладчыкамі, студэнтамі і інш. Мэта праекта -- прадастаўленне шырокай аўдыторыі беларускамоўных навуковых рэсурсаў.
Корпус адыгрывае важную ролю ў апрацоўцы натуральнай мовы і з'яўляецца значным рэсурсам для розных тыпаў адукацыйных праграм, праграм машыннага перакладу для правядзення лінгвістычных даследаванняў у галіне лексікаграфіі, а таксама для распрацоўкі тэрміналагічнай базы беларускай мовы. Параметры, адлюстраваныя ў корпусе, дадуць магчымасць выкарыстоўваць яго ў якасці анлайн-даведніка па лексіцы і граматыцы.
У практычным плане анатаваны пры дапамозе лексіка-граматычнай базы корпус дазволіць не толькі атрымаць інфармацыю пра ўласна тэкст (структуру, аўтара і г.д.), але і праводзіць рознаўзроўневы моўны аналіз (статыстычны, марфалагічны, стылістычны, семантычны і г.д.). У сферы лексікаграфіі пры стварэнні традыцыйных слоўнікаў рознага тыпу будзе забяспечана большая ступень аб'ектыўнасці ў падачы інфармацыі, што з'яўляецца праблемным для беларускай лексікаграфіі.
Корпус размечаны адпаведна сістэме кадзіравання тэкстаў TEI P5, у аснове якой ляжыць мова XML (www.tei-c.org). Схема разметкі корпуса ўтрымлівае наступныя характарыстыкі:
* агульная інфармацыя пра тэкст;
* базавая структурная анатацыя тэксту: главы, загалоўкі, змест тэксту да ўзроўню асобных слоў;
* граматычная інфармацыя.
Агульная інфармацыя пра тэкст складаецца з апісання структуры дакумента (апісанне файла, заяўленне загалоўка, выдання і аб'ёму, апісанне крыніцы і інш.), параметраў (паходжанне тэксту, мова, раскладка знакаў і інш.). Такім чынам, агульная інфармацыя змяшчае ўсе параметры тэксту, якому яна папярэднічае, а таксама выконвае шэраг важных функцый: фарміруе архітэктуру корпуса; дапамагае кантраляваць працэс яго інфармацыйнага напаўнення, ацэньваць прадстаўнічасць і збалансаванасць; забяспечвае магчымасць пошуку і адбору карыстальнікам для складання падкорпусаў з зададзенымі ўласцівасцямі.
Базавая структурная анатацыя ўключае выдзяленне структурных элементаў тэксту і падзяляецца на тры ўзроўні: узровень тэксту, узровень абзаца, узровень падабзаца. Першы ахоплівае пазначэнне змесціва тэксту, глаў, раздзелаў і абзацаў. У другім пазначаюцца загалоўкі, трэці ўключае пазначэнне сказаў, слоў, пунктуацыйных знакаў.
Для граматычнай разметкі корпуса выкарыстоўваецца лексіка-граматычная база беларускай мовы, створаная ў Інстытуце мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі. Яна налічвае прыблізна 130 тыс. парадыгм, больш за 2 млн словаформаў.
На падставе лексіка-граматычнай базы вядзецца распрацоўка і ўдасканаленне аўтаматычнага аналізатара (парсэра), які дазволіць аўтаматызаваць, наколькі гэта магчыма, марфалагічны аналіз у тэкстах корпуса.
Марфалагічная разметка складаецца з некалькіх частак: пачатковай формы словаформы (пазначаецца як lemma) і граматычных прыкмет лексемы (часціна мовы, адушаўлёнасць і род для назоўнікаў, пераходнасць, трыванне для дзеяслова і г.д.), граматычныя прыкметы словаформы (напрыклад, склон, род, лік для назоўнікаў) ігнаруюцца.
На сённяшні дзень аб'ём корпуса складае каля 400 тыс. слоў са знятай аманіміяй і ўключае тэксты з розных галін мовазнаўства, літаратуразнаўства, эканомікі, фізікі, хіміі, генетыкі, медыцыны і г.д. Для яго быў распрацаваны анлайнавы сэрвіс, які прадастаўляе выбаркі інфармацыі з Корпуса. У тым ліку дазваляе шукаць словы ў іх зыходнай форме (у друкаванай карыстальнікам), словы з іх словаформамі і камбінацыі слоў (уключна з іх словаформамі), выкарыстоўваючы лагічны аператар AND і ўлічваючы адлегласць паміж словамі. Пошук дазваляецца ў межах сказа, абзаца і ўсяго тэксту. Сэрвіс даступны па адрасе http://grid.bntu.by/corpus/.
У дадзены момант вядзецца праца па ўдасканаленні сэрвіса, будуць уключаны новыя магчымасці пошуку:
* інфармацыі пра тэкст, у якім слова было знойдзена (аўтар, назва і г.д.);
* слоў паводле граматычных характарыстык;
* слоў з улікам аманіміі;
* па асобных тэкстах (з улікам іх жанравай прыналежнасці), аўтарах і г.д.;
* з улікам рэгістру (што важна пры аналізе ўласных імёнаў і абрэвіятур);
* з дапамогай лагічных аператараў OR, XOR, NOT;
* па рэгулярным выразе;
* у загалоўку () альбо ў звычайным абзацы ();
* у першым/апошнім сказе абзаца;
* у пачатку сказа;
* слоў у вызначаным парадку альбо ў адвольным.
У перспектыве анатаваныя корпусы будуць мець шырокае прымяненне ў сферы лексікаграфіі: выкарыстанне анатаваных корпусаў пры стварэнні традыцыйных слоўнікаў рознага тыпу (тлумачальных, граматычных, частотных і інш.) дасць магчымасць дасягнуць большай ступені аб'ектыўнасці ў падачы інфармацыі. Асабліва востра адсутнасць корпуса адчуваецца ў сувязі з патрэбай стварэння новага фундаментальнага тлумачальнага слоўніка беларускай мовы, працу над якім Інстытут мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі пачаў з 2011 г. у рамках дзяржаўнай падпраграмы навуковых даследаванняў «Беларуская мова і літаратура ў кантэксце цывілізацыйнага развіцця Рэспублікі Беларусь: гісторыя, сучасны стан, тэндэнцыі». Базай для слоўніка паслужаць Корпус і Электронная лексіка-граматычная база беларускай мовы. Параметры новага слоўніка вымагаюць выпрацоўкі новых навукова абгрунтаваных прынцыпаў (пры фарміраванні рэестра, адборы ілюстрацый, распрацоўцы сістэмы памет і дэфініцый і г.д.).
Такім чынам, на сённяшні дзень у Беларусі існуе некалькі корпусных праектаў: Вялікі корпус беларускай мовы, створаны выкладчыкамі Мінскага дзяржаўнага лінгвістычнага ўніверсітэта сумесна з навуковымі супрацоўнікамі Інстытута мовы і літаратуры імя Якуба Коласа і Янкі Купалы НАН Беларусі, і корпус навуковых тэкстаў беларускай мовы Corpus Albaruthenicum, падрыхтаваны спецыялістамі Беларускага нацыянальнага тэхнічнага ўніверсітэта разам з навукоўцамі гэтай жа акадэмічнай установы. У бліжэйшай перспектыве дадзеныя корпусы павінны быць аб'яднаны ў адзін, што стане асновай для будучага Нацыянальнага корпуса беларускай мовы. Яго стварэнне з'яўляецца ўнікальным інавацыйным праектам беларускага мовазнаўства, ажыццяўленне якога дазволіць выйсці беларускім вучоным на новы ўзровень лінгвістычных даследаванняў.
Слоўнік
Корпус тэкстаў - вялікі, прадстаўлены ў электронным выглядзе, уніфікаваны, структураваны, размечаны, філалагічна кампетэнтны масіў моўных дадзеных, які выкарыстоўваецца для рашэння канкрэтных лінгвістычных задач.
Корпусны менеджэр (ці корпус-менеджэр) (англ. corpus manager) - спецыялізаваная пошукавая сістэма, у склад якой уваходзяць праграмныя сродкі для пошуку дадзеных у корпусе, атрымання статыстычнай інфармацыі і вынікаў для карыстальніка ў зручнай форме.
Канкарданс - спіс усіх ужыванняў дадзенага слова ў кантэксце са спасылкамі на крыніцу.
Паралельны корпус - гэта корпус, у якім тексту на одной мове супастаўляецца пераклад гэтага тэксту на іншай мове.
Рэпрэзентатыўнасць - гэта неабходна-дастатковае і прапарцыянальнае прадстаўленне ў корпусе тэкстаў розных перыядаў, жанраў, стыляў, аўтараў і да т.п.
Разметка (tagging, annotation) заключаецца ў прыпісванні тэкстам і іх кампанентам спецыяльных метак (tag, tags).
Метаразметка - прыпісванне тэксту атрыбутаў, якія характарызуюць умовы яго стварэння, аўтара, тэматыку, жанравыя асаблівасці і інш.
Лематызамцыя -- працэс прывядзення словаформы да лемы -- яе нармальнай (слоўнікавай) формы.
Treebank - корпус сінтаксічнага тыпу.
Спіс літаратуры
1. Барковіч, А. А. Корпусная лінгвістыка: яе гісторыя, магчымасці, развіццё ў Беларусі / А.А. Барковіч // Роднае слова. - 2009. - № 2. - С. 32 - 37.
2. Захаров, В.П. Корпусная лингвистика: учебно-методическое пособие / В.П. Захаров. - СПб., 2005. - 48 с.
3. Городецкий, Б.Ю. Компьютерная лингвистика и моделирование языкового общения / Б.Ю. Городецкий // Новое в зарубежной лингвистике. Вып. XXIV. Компьютерная лингвистика. - М., 1989.
4. Белоногов, Г.Г. Компьютерная лингвистика в системе НТИ / Г.Г. Белоногов, Ю.Г. Зеленков // Вопросы информационной теории и практики. Сб. научных статей. - М., 1989. - № 58.
5. Марчук, Ю.Н. Основы компьютерной лингвистики / Ю.Н. Марчук. - М.: МПИ, 2000. - 226 с.
6. Коваль, С.А. Лингвистические проблемы компьютерной морфологии / С.А. Коваль. - Санкт-Петербург: СПбГУ, 2005. - 147 с.
7. Пиотровский, Р.Г. Инженерная лингвистика и теория языка. / Р.Г. Пиотровский. - Л.: Наука, 1979. - 112 с.
8. Статистика текста. Том II. Автоматическая переработка текста: сб. науч. ст. / МГПИИЯ; редкол.: А.И. Киселевский (отв. ред.) [и др.]. - Минск, 1970. - 652 с.
9. Частные вопросы автоматического анализа текстов: сб. науч. ст. / МГПИИЯ; редкол.: А.В. Зубов (отв. ред.) [и др.]. - Минск, 1972. - 395 с.
10. Лингвостатистика и автоматический анализ текстов: сб. науч. ст. / МГПИИЯ; редкол.: А.В. Зубов (отв. ред.) [и др.]. - Минск, 1973. - 458 с.
11. Вопросы общей и прикладной лингвистики: сб. науч. ст. / МГПИИЯ; редкол.: А.В. Зубов (отв. ред.) [и др.]. - Минск, 1975. - 297 с.
12. Методы анализа текстов: сб. науч. ст. / МГПИИЯ; редкол.: А.В. Зубов (отв. ред.) [и др.]. - Минск, 1975. - 226 с.
13. Автоматический анализ текстов: сб. науч. ст. / МГПИИЯ; редкол.: А.В. Зубов (отв. ред.) [и др.]. - Минск, 1976. - 198 с.
14. Лингвистическое моделирование коммуникативных систем: сб. науч. ст. / МГПИИЯ; редкол.: А.В. Зубов (отв. ред.) [и др.]. - Минск, 1983. - 263 с.
15. Проблемы компьютерной лингвистики: сб. науч. ст. / МГЛУ; редкол.: Р.Г. Пиотровский (отв. ред.) [и др.]. - Минск, 1997. - 178 с.
16. Компьютерная лингвистика и обучение языку: сб. науч. ст. / МГЛУ; редкол.: А.В. Зубов (отв. ред.) [и др.]. - Минск, 2000. - 219 с.
17. Актуальные проблемы компьютерной лингвистики: сб. науч. ст. / МГЛУ; редкол.: А.В. Зубов (отв. ред.) [и др.]. - Минск, 2005. - 318 с.
18. Автоматический семантико-синтаксический анализ специальных текстов: отчет о НИР (закл.) / Минск. гос. пед. инст. ин. языков; рук. темы Л.Е. Машкина. - Минск., 1977. - 52 с.
19. Разработка лингвистического обеспечения закрытых естественных языков («земля-воздух») и построение модели функционирования такого языка в условиях ч/м диалога: отчет о НИР / Минск. гос. пед. инст. ин. языков; рук. темы О.А. Нехай. - Минск., 1978. - 102 с.
20. Лингвистическое обеспечение информационно-поисковых систем: отчет о НИР / Минск. гос. пед. инст. ин. языков; рук. темы А.В. Зубов. - Минск., 1980. - 30 с.
21. Создание алгоритмов и программ функционирования русско-английского, англо-русского, русско-французского, французско-русского словарей в памяти ЭВМ малого объема: отчет о НИР / Минск. гос. пед. инст. ин. языков; рук. темы В.Н. Билан. - Минск., 1981. - 442 с.
22. Алгоритмизация процедуры перевода немецких, французских, итальянских, испанских, английских и русских реплик разговорно-бытового характера: отчет о НИР / Минск. гос. пед. инст. ин. языков; рук. темы О.А. Нехай. - Минск., 1983. - 228 с.
23. Корневская, Е.Б. Модели синтеза мелодического контура русских и английских фраз / Е.Б. Корневская, Б.М. Лобанов // Автоматическое распознавание слуховых образов. - Киев, 1982.
24. Мартынов, В.В. Кибернетика. Семиотика. Лингвистика / В.В. Мартынов. - Минск: Наука и техника, 1966. - 146 с.
Размещено на Allbest.ru
Подобные документы
Характарыстыка і гісторыя развіцця папулярных алкагольных напояў у Беларусі: піва, віно, гарэлка, розныя наліўкі і настойкі. Уздзеянне алкаголю на псiхiчны і фiзiчны стан чалавека праз фразеалагiзмы. Асуджэнне п’янiцы i п’янства праз фразеалагiзмы.
курсовая работа [44,7 K], добавлен 02.01.2013Тэкст з 10-15 звышфразавых адзінствау (абзацау, складаных сінтаксічных цэлых). Узаемадзеянне стылістычна нейтральных і афарбаваных моуных сродкау у падабраным тэксце, экстралінгвістычных (пазамоуных) і лінгвістычных фактарау.
контрольная работа [17,7 K], добавлен 21.03.2009Прадмет, задачы і значэнне курса "Гісторыя беларускага мовазнаўства". Развіццё граматычнай думкі ва ўсходніх славян старажытнай пары, перадумовы кнігадрукавання. Старажытныя ўсходнеславянскія лексікаграфічныя дапаможнікі. Развіццё мовазнаўства ў ХІХ ст.
курс лекций [44,9 K], добавлен 08.06.2009Феномен мовы і паняцце соцыуму. Гісторыя двухмоўя на Беларусі. Этапы фарміравання беларускай мовы. Лексікалогія і лексікаграфія беларускай мовы. Стылістыка і функцыянальныя стылі. Навуковы стыль і яго разнавіднасці. Групы афіцыйна-справавой дакументацыі.
курс лекций [208,8 K], добавлен 30.03.2015Лексіка-семантычная характарыстыка айконімаўтваральных асноў. Структурна-словаўтваральны аналіз айконімаў па словаўтваральных тыпах, прадуктыўнасць розных спосабаў утварэння. Алфавітны слоўнік айконімаў Ганцавіцкага раёна з гістарычнымі каментарыямі.
дипломная работа [81,8 K], добавлен 01.11.2013Гістарычныя вытокі фарміравання беларускай тэрміналогіі, асноўныя сацыялінгвістычныя фактары развіцця. Развіццё мовы беларускай народнасці адбывалася ў межах Вялікага княства Літоўскага. Грамадска-палітычная, юрыдычная, гандлёвая, сельская тэрміналогія.
реферат [34,7 K], добавлен 25.01.2011Распрацоўка агульных пытанняў беларускага мовазнаўства, вывучэння вусна-гутарковай мовы. Праблемы ўпарадкавання літаратурнай лексікі ў 20-х гг. ХХ стагоддзя, пачатак спецыяльнай работы па збіранню скарбаў народнай мовы розных рэгіёнаў Беларусі.
курс лекций [29,2 K], добавлен 08.06.2009Кампаратыўныя фразеалагізмы ў мове твораў Я. Коласа. Адносіны ўстойлівых параўнанняў да фразеалагічных адзінак. Семантычная класіфікацыя ўстойлівых параўнанняў мовы твораў Я. Коласа. Кампаратыўныя фразеалагізмы, якія характарызуць чалавека і яго якасці.
курсовая работа [86,3 K], добавлен 11.07.2014Антрапонімы як частка лексічнага фонду беларускай мовы, іх паходжанне, заканамернасці развіцця, адметнасць будовы і пашырэння на тэрыторыі Беларусі. Роль імёнаў і прозвішчаў у антрапанімічнай сістэме твора "Каласы пад сярпом тваім" У. Караткевіча.
курсовая работа [32,9 K], добавлен 24.06.2009Гісторыя ўзнікнення азбукі. Агульная характарыстыка сучасных беларускіх азбук, асаблівасці фанетычнай сістэмы. Методыка выкарыстання азбук у навучальным працэсе на 1-й ступені агульнай сярэдняй адукацыі. Распрацоўка ўрока з прымяненем "Буквара" А. Клышкі.
дипломная работа [248,9 K], добавлен 31.10.2015