Способи мінімізації впливу рейтерів на валідність та надійність оцінювання мовних масштабних стандартизованих тестів

Вплив рейтерів на валідність та надійність результатів суб’єктивного оцінювання продуктивних видів іншомовної комунікативної компетентності. Тестування як найпоширеніший засіб визначення рівня володіння мовою. Аналіз ефективності навчальних програм.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 26.08.2018
Размер файла 28,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 37.091.279.2:005.963.1

Тернопільський національний педагогічний університет

імені В. Гнатюка

СПОСОБИ МІНІМІЗАЦІЇ ВПЛИВУ РЕЙТЕРІВ НА ВАЛІДНІСТЬ ТА НАДІЙНІСТЬ ОЦІНЮВАННЯ МОВНИХ МАСШТАБНИХ СТАНДАРТИЗОВАНИХ ТЕСТІВ

Бурак Мар'яна Ігорівна

Дослідження шляхів оптимізації мето-дів та засобів мовного оцінювання останнім часом привертають увагу науковців не лише за кордоном, але й у вітчизняній прикладній лінгвістиці та педа-гогіці. Це зумовлено, зокрема, інтенсивними про-цесами глобалізації, академічної та робочої міграції українців, розширенням міжнародних суспільно- економічних зв'язків нашої країни та науково-до-слідної співпраці українських вчених з колегами чи навчальними закладами за кордоном. Такі тенденції у суспільному житті вимагають від українців певно-го рівня володіння іноземними мовами та часто його підтвердження сертифікатом про складання відпо-відного іспиту. Так існує низка популярних нині за-собів визначення рівня сформованості іншомовної компетентності з англійської мови, на зразок між-народних іспитів TOEFL, TOEIC, iELTS, Cambridge English Test, CaMLA, OPI тощо, проте, об'єктивність їхніх результатів усе ще викликає питання.

Аналіз останніх досліджень і публікацій. Уже більше як століття науковці світу ведуть дискусії про найефективніші засоби перевірки досягнень іншомовної компетентності (Л.Бахман, Д.Барвелл, Р.Вуд, Ч.Гандшін, М.Канейл, Ф.Келлі, Ч.Олдерсон, А.Палмер, Ч.Старч, М.Свейн, Ґ.Фулхер тощо). Проте одним із оптимальних засобів такого оцінювання на сьогодні все ще залишається мовне тестування. Роз-робка та використання тетсів з метою оцінювання мовної компетентності - сфера досліджень лігводи- дактики, яка виникла та вже широко розвинулася за кордоном. Перші наукові дослідження з педагогічної тестології (науки про тести) з'явилися на початку ХХ століття у США і стосувалися розробки та ви-користання тестів як засобу об'єктивного контролю рівня знань. Відтак за минулі сто років американська та західна тестологія кілька разів кардинально змі-щувала акценти, перебувала у постійному розвитку та пошуку оптимальних методів оцінювання, розро-била систему понять, виробила методологію і стала однією з провідних сфер прикладної лінгвістики та галузі педагогічних вимірювань. Тимчасом в Україні, як зазначав у 2009 р. директор Центру оцінювання освіти І.Лікарчук в одному із своїх інтерв'ю, “немає власної школи тестування. Взагалі, в Україні немає такої науки як тестологія, немає такої науки як пе-дагогічні вимірювання. Те, що дуже давно є в бага-тьох країнах світу, у нас тільки починає розвиватися” [1, с.88]. Однак потрібно взяти до уваги, що науко-ві дослідження вітчизняних вчених останніх років свідчать про певні зрушенння у цій сфері (І.Булах, Л.Морська, С.Ніколаєва, Л.Петращук, О.Петренко тощо), про зародження української тестології і її по-ступовий розвиток.

Огляд наукових досліджень українських авторів, втім, показав, що увага вітчизняних науковців зде-більшого зосереджена на дидактичних принципах контролю знань, які реалізуються у змісті, формі та методах його проведення. Втім один із аспектів пе-ревірки, який має суттєвий, а іноді і визначальний, вплив на результат контролю - професійні знання та вміння екзаменаторів (рейтерів), які власне оці-нюють відповіді тестованих, - залишається поза їхньою увагою, тоді як у закордонній тестології пи-тання професійної підготовки фахівців з оцінювання рівня сформованості іншомовної компетентності на-буває все більшого інтересу (С.Вейґл, А.Кемпбелл, Т.Макнамара, Д.Чарні тощо).

На нашу думку, сьогодні для України питання підготовки оцінювачів (рейтерів) рівня сформова- ності комунікативної компетентності є особливо актуальним. Сучасне масове використання стандар-тизованих масштабних тестів з високим статусом у вигляді Зовнішнього незалежного оцінювання, про-ведення атестації осіб, які претендують на вступ на державну службу, щодо вільного володіння держав-ною мовою (Постанова Кабінету міністрів України № 301 від 26.04.2017) та гостра потреба у розробці та проведенні стандартизованих тестів на визначен-ня рівня володіння українською мовою як іноземною вимагають негайного вивчення проблеми для ретель-ної професійної підготовки екзаменаторів/рейтерів, особливо при оцінюванні продуктивних (творчих) типів завдань з говоріння та/чи письма.

Метою статті є аналіз впливу рейтерів на оці-нювання мовного масштабного стандартизованого тесту та пошук способів його мінімізації. Завдання - визначити ефективність курсів підготовки/перепід-готовки рейтерів у підвищенні рівня валідності та надійності оцінювання, а відтак зменшенні впливу рейтера на результати тестування.

Виклад основного матеріалу. Найоптимальні- шим засобом перевірки сфорованості іншомовної компетентності вважають мовне або лінгводидак- тичне тестування. Проте науковці не досягли одно-стайності у визначенні поняття “тесту”/ “тестуван-ня”. Так, В.Коккота вважає, що тест - це “коротко-часне, технічно просто обставлене випробування, яке проводиться в рівних для всіх умовах і яке має вигляд такого завдання, вирішення якого піддаєть-ся кількісному обрахунку” [2, с.7] Власне лінгводи- дактичним тестом, який і є об'єктом нашого дослі-дження, Н.Гарматюк та В.Марценюк [3, с.19] влучно вважають “підготовлений до певних вимог комплекс завдань, які попередньо випробовувались з метою встановлення їх якості і які дозволяють виявити в учасників тестування їх рівень лінгвістичної або ко-мунікативної компетенції та оцінити результати тес-тування за заздалегідь виведеними критеріями”.

Оскільки предметом нашого дослідження є про-фесійна діяльність рейтера в оцінюванні результатів тесту, то, вважаємо, що “тестування” у цьому контек-сті слід розглядати не лише як процедуру проведення контролю у формі тесту, а у широкому значенні цьо-го терміна у трактуванні С.Ніколаєвої “як сукупності процедурних етапів планування, складання й випро-бування тестів, обробки та інтерпретації результатів проведення тесту” [2, с.4] включно з професійною підготовкою укладачів та оцінювачів самих тестів.

Стандартизовані тести з високим статусом (се-лективні тести з життєво важливими наслідками для тестованих, на зразок можливості навчання у певно-му закладі, визначення професійної придатності чи відповідності посаді, шансів на отримання грома-дянства тощо), які є об'єктом нашого дослідження, - це ті процедури оцінювання, результати яких можуть мати доленосне значення для кандидатів, а відтак мають бути якомога більше націлені на валідність як самих тестів, так і їхнього оцінювання.

Масштабне стандартизоване тестування - важке і комплексне. Його можна вважати видом комплексно-го контролю, проте, не в розумінні Ю.Головач [4, с.3], яка визначає такий вид перевірки як сукупність “по-операційного поточного та періодичного контролю” на різних етапах формування мовленнєвих навичок, а як формування цілісного уявлення про рівень сфор- мованості цих навичок на основі “тестів, які пройшли попереднє випробування на великій кількості учасни-ків і мають кількісні показники якості” [3, с.20].

Сучасні масштабні мовні тести з високим стату-сом є здебільшого багатокомпонентними та багато-рівневими. Вони передбачають перевірку усіх видів мовленнєвої діяльності на репродуктивному, кон-структивному та творчому рівнях. Часто такі тести поєднують репродуктивні (читання та аудіювання) та продуктивні (говоріння та письмо) види у межах одного завдання. Такі інтегровані завдання дозво-ляють занурити кандидата у мовленнєву ситуацію, максимально наближену до реального життя, де ко- муніканти сукупно оперують різними видами мов-лення. Саме такий тип завдань, на думку Кладкової [4, с.81], є оптимальним для перевірки загального рівня володіння мовою та “якнайкраще корелює з основними принципами компетентісного підходу” до викладання іноземних мов, який передбачає, на думку С.Ніколаєвої, “формування у студентів здат-ності застосовувати набуті знання, навички і вміння у конкретних ситуаціях” [4, с.81]. Проте процес ство-рення та валідації таких тестів важкий та дорогий, а завдання, хоч і наближені до реальних життєвих умов, все ж штучно створені або й опосередковані, у випадку парного оцінювання усного мовлення за участю інтерв'юера (інтерлокутора). І саме такі про-дуктивні, творчі або інтегровані типи завдань перед-бачають суб'єктивне оцінювання їхніх результатів, яке базується на судженні того, хто перевіряє, а отже вимагає від нього особливих знань та вмінь.

Цілком виправдано, що більшість рейтерів про-відних тестових компаній з англійської мови як іно-земної перед початком своєї професійної діяльності зобов'язані пройти короткий курс навчання під ке-рівництвом провідного фахівця або кваліфікованого працівника тестового центру для чіткого розуміння критеріїв, типів зразків та самої процедури оцінюван-ня. Згодом рейтер повинен представити на розгляд акредитаційної комісії певну кількість своїх влас-них пробних оцінювань. Лише після підтвердження того, що відповідний відсоток їхніх оцінювань був надійним та валідним рейтер може отримати серти-фікат про акредитацію та офіційно працювати. Про-те часто така акредитація є тимчасовою та вимагає від рейтера повторного підтвердження професійнос-ті: Впродовж усього терміну своєї роботи оцінювач зобов'язаний проходити систематичні вишколи з так званої рестандартизації або поточної стандартизації [5, с.91].

Рейтери, як звичайні люди, відрізняються мі-рою своєї строгості чи поблажливості в оцінюванні. Адже не існує бездоганних рейтерів і традиційно в дослідженнях розрізняють поняття ідеалізованого (ідеального) рейтера та фактичного (звичайного) рейтера. Дослідник категорії оцінки з точки зору ло-гіки О.Івін [6, с.9] вважає, що “не лише кожна людина по-різному оцінює одне й теж явище, але й ставлення однієї особи до певного об'єкта може змінюватися в діахронічному розвитку” (наприклад, при повторно-му оцінюванні того самого зразка через деякий час, рейтер може змінити свою думку щодо результату). Відтак, очевидно, що такий притаманний рейтерам певний особистий і ситуативний рівень строгості/ поблажливості чи упередженості до тих чи інших завдань або кандидатів має безпосередній вплив на об'єктивність результатів. До того ж оцінюван-ня продуктивних видів мовленнєвої діяльності як з рідної, так і з іноземної мови є цілісним, а тому не завжди точним. Аби мінімізувати вплив таких фак-торів на валідність результатів тестування і виникає необхідність у ретельній підготовці рейтерів та по-стійному відслідковуванні їхньої роботи. З іншо-го боку, строгість чи поблажливість рейтера є його постійною психологічною рисою, яку неможливо калібрувати відповідно до вимог надійного оціню-вання за допомогою будь-яких навчальних методів чи засобів. І хоч існують нечисельні докази того, що професійна підготовка може дещо зменшити суттєву різницю в строгості оцінювання рейтерів (С.Вейґл) [7, с.2], вони потребують ще додаткового вивчення та підтвердження. Водночас, оскільки дієвим способом мінімізувати вплив різного ступеня строгості оці-нювання є додатковий аналіз результатів тестуван-ня за допомогою метричної моделі Джорджа Раша, то зменшення відмінностей у строгості оцінювання може і не бути основною метою навчання рейтерів. Адже, як вважає ряд дослідників, ефект строгості рейтера, який полягає у послідовному оцінюванні кандидатів одним рейтером або надто строго, або надто поблажливо у порівнянні з іншими, - неєди- ний систематичний вплив оцінювачів на визначення рівня знань та вмінь (Т.Макнамара) [5, с.91]. Серед інших таких факторів впливу (Т.Макнамара) [8, с.4], зокрема, називає: непослідовність - схильність рей-тера до непослідовного застосування тієї чи іншої категорії шкали оцінювання у порівнянні з іншими рейтерами; ефект ореолу - неспроможність рейтера відділяти окремі концептуальні категорії при оціню-ванні, а відтак присуджувати подібні результати за різними категоріями шкали оцінювання, керуючись загальним враженням про кандидата; ефект доцен-тровості - тяжіння до виставлення середніх оцінок та уникання надто високих чи надто низьких резуль-татів; неточність (упередженість) - схильність до надто строгого чи поблажливого оцінювання одного з аспектів тестової ситуації (скажімо, певної катего-рії шкали оцінювання чи певного завдання).

Одним із способів уникнути ненадійність в оціню-ванні є його максимальна відповідність стандартам, описаним у рубриках оцінювання. «Стандартизуючи процес оцінювання, рубрики підвищують його надій-ність. Кожне завдання оцінюють за тими самими кри-теріями, а виконання інструкцій до рубрик мінімізує вплив неточностей» (О.Гітт і Е.Гельмс) [9, с.117] Інші дослідники теж говорять про важливість рубрик, які «зменшують неточність оцінювання” (А.Пауелл) [5, с.117], «підвищують рівень послідовності та надій-ності оцінювання» (А.Кемпбелл) [9, с.117] та «зосе-реджують на конкретних критеріях функціонування» (С.Райтмайер) [9, с.117]. Відтак, очевидним є те, що попереднє ознайомлення нових рейтерів з рубрика-ми та шкалою оцінювання, а також їх систематич-ний перегляд уже сертифікованими екзаменаторами, повинен бути і, зазвичай, є частиною навчальних програм для рейтерів. Доцільність таких повторень підтверджують і відгуки самих рейтерів на одну із навчальних програм [8, с.16]. Однак, як свідчать не-щодавні дослідження M.Ловорн та А.Резаї [9, с.118], лише використання рубрик під час вишколів рейтерів автоматично не підвищить міжрейтерську надійність чи точність результату. Для цього потрібно також тре-нувати екзаменаторів практично оцінювати відповіді (Дж.Макклеллан) [9, с.118].

Запорукою ефективного тестування є відповід-ність тестів якісним характеристикам, основними серед яких Грищук та Галкіна [10, с.112] вважають валідність (відповідність тесту меті оцінювання та його ефективність в її досягненні) та надійність (рі-вень співпадіння результатів двох чи більше тестів для оцінювання тих самих характеристик тестова-них (К.Ікеда) [11, с.4]. Обидві ці характеристики є “суто вимірювальними” (Овчарук) [12, с.67], тобто можуть статистично обчислюватися, а відтак є мак-симально репрезентативними. Впродовж останніх років із стрімким розвитком тестології все більше на-уковців говорять про важливість підготовки рейтерів власне задля підвищення надійності їхнього оціню-вання (П.Дідріх, С.Карлтон, Дж.Френч) [7, с.2], що передбачає послідовність в оцінюванні того самого продукту чи функції двома чи більше незалежними рейтерами. Точність такого оцінювання зазвичай об-числюється шляхом порівняння особистих резуль-татів окремих рейтерів з «правдивим» результатом експерта. С.Стемлер [9, с.118] запропонував термін «консенсусна оцінка» для позначення ступеня схо-жості оцінок того самого матеріалу різними екза-менаторами. Така величина обчислюється як відсо-ток загальної узгодженості та/чи відсоток суміжної узгодженості (в межах одного рівня) (А.Джонсон і Дж.Свінгбі) [9, с.118]. Надійність оцінювання забез-печується різними рівнями процесу стандартизації, який передує самій процедурі тестування - це і ви-значення шкали та процедури оцінювання, і намаган-ня досягти подібності в оцінюванні та узгодженості у результатах оцінювання рейтерів.

Однак, як стверджував Дж.Лінакр [7, с.2], «функ-ція підготовки рейтерів полягає не в примусі їх дійти згоди між собою (міжрейтерської надійності), а рад-ше у навчанні їх власній послідовності (внутрішньо- рейтерській надійності)». Адже доведено (П.Сток і Дж.Робінсон) [7, с.2], що незначні розбіжності в оцінюваннях між рейтерами, які існуюють навіть після навчання, є природними та невідворотними. Тому основною метою підготовки є «застерегти рей-терів від винесення власних вердиктів» (Д.Чарні) та «підвищити загальну послідовність шляхом під-вищення внутрішньорейтерської послідовності» (Т.Макнамара) [7, с.2] за рахунок зменшення індиві-дуальних неточностей рейтерів. З іншого боку, кіль-кісне напівекспериментальне дослідження іранських науковців M.Фахім та Г.Біджані довело ефективність навчальних програм для рейтерів у плані підвищен-ня рівня узгодженості їхнього оцінювання, а відтак у збільшенні міжрейтерської надійності. I. Шепес також вважає очевидним, що вишколи рейтерів є обов'язковою передумовою досягнення максималь-ної міжрейтерської та внутрішньорейтерської послі-довності [13, с.47].

Про доцільність навчання рейтерів говорили і С.Майер та Дж.Штульман [9, с.134]. Вони пропо-нували включити до курсу підготовки: 1. Зразки від-повідей кожного рівня з можливістю обговорення з експертами обґрунтування оцінок. Вивчення зразків потрібно починати з чітких та однозначних прикла-дів конкретного рівня виконання і лише згодом варто додавати на розгляд інші нетипові види відповідей (Дж. Макклеллан) [9, с.118]. 2. Можливість вправ-ляння в оцінюванні та в подальшому зіставлення результатів з оцінками експертів. 3. «Калібрування» рейтерів, яке полягає у продовженні практичного оцінювання з рецензією, допоки оцінювання рейте-ра не буде послідовно узгоджуватися з попердньою оцінкою експертів.

Першочерговим ж елементом навчання, як уже зазначалося, повинно стати все ж первинне/повторне вивчення критеріїв оцінювання [14, с.38; 8, с.16]. рейтер іншомовний комунікативний компетентність

Отож, як показали численні дослідження С.Вейгл [8, с.5], П.Макінтайер і Ґ.Вігглсворт [14, с.38], ви-шкіл рейтерів є ефективним, оскільки усуває суттєву відмінність у строгості оцінювання, підвищує вну- трішньорейтерну надійність за рахунок зменшення кількості випадкових помилок окремого рейтера та знижує рівень особистих неточностей стосовно різ-них критеріїв ситуації (наприклад, завдання, шкала чи кандидат). Для тестів високого статусу, зокрема,“й мінімально прийнятні показники надійності мають бути високими” [15, с.519].

Тим не менш, низка дослідників піддають сумні-ву ефективність вишколу рейтерів, а відтак і доціль-ність такого навчання. Побутує думка, що намаган-ня змусити рейтерів до узгодженості щодо того чи іншого оцінювання може призвести до нівелювання їхніх професійних знань та досвіду, а відповідно і ва- лідності їхніх суджень (зокрема, в оцінюванні пись-ма) (Л.Барріт) [14, с.38]. Водночас С.Вейгл заперечує вагомість цього фактора для проведення вишколів, пояснюючи це тим, що досягнення згоди не є пер-шочерговим завданням рейтера. Інше твердження про те, що у випадку оцінювання письма навчальні програми для рейтерів відволікають увагу останніх від змісту та загальної комунікативної ефективнос-ті зразків і змушують їх зосереджуватися на по-верхневих аспектах (Д.Чарні) [14, с.38], визначених у дескрипторах шкали оцінювання, С.Вейгл також спростовує, зазначаючи, що таке спрощення є пе-редумовою будь-якого вимірювання, а простота ви-значення необхідна для стандартизації використання шкали різними рейтерами.

Загалом вважається, що курси для рейтерів підви-щують рівень систематичності їхньої поведінки. Так, хоч і незначна на сьогодні, але все ж певна кількість дослідників спробували оцінити довготривалість по-зитивного ефекту навчання та зробили невтішні ви-сновки. Наприклад, М.Лунц і Дж.Шталь [14, с.39] виявили непостійність поведінки рейтерів вже за півдня після закінчення тренувань. Спостерігаючи за поведінкою екзаменаторів після вишколу з оціню-вання письма, Т.Лумні і Т.Макнамара [14, с.39] помі-тили суттєві розбіжності між оцінками рейтерів під час симулятивного оцінювання протягом навчальної сесії та під час робочого оцінювання місяць потому. На їхню думку, покращити ситуацію могли б регу-лярні навчання рейтерів безпосередньо перед прове-денням оцінювання та запровадження багаторейтер- ського оцінювання того самого зразка.

П.Конгдон і Дж.Макквін [14, с.39] аналогічно ви-словили занепокоєння відносними змінами у стро-гості рейтера при порівнянні одного дня навчання з наступним та їх абсолютними змінами при порів-нянні першого дня курсу з останнім, що, на думку вчених, свідчить про недоцільність акредитації рей-терів після одноразового калібрування та потребу їх постійних вишколів, особливо при оцінюванні тестів з високим статусом. На підтвердження мало- ефективності навчальних курсів для рейтерів письма Дж.Кейсон наводить цифру у 35% випадків неточно-го оцінювання рейтерами навіть після проходження спеціального вишколу. А це спонукає до залучення до процесу оцінювання двох чи більше незалежних рейтерів для забезпечення надійності результату. У випадку масштабних тестів з високим статусом С.Елдер радить також застосовувати статистичні програми на зразок FACETS та метричної системи Джорджа Раша, які дозволяють корегувати різницю між індивідуальними оцінюваннями різних рейте-рів, враховуючи особливості їхньої роботи [14, с.39]. Щопрада, такі корективи можливі лише у випадку особистої послідовності у строгості/поблажливості рейтерів.

Викладений матеріал дозволяє зробити наступні висновки. Попри виклики, пов'язані з проведенням тестування - інструменти (вибір та впровадження), середовище (програмне та матеріальне забезпечен-ня), час (обмеженість в часі для розробки, проведен-ня та аналізу) - воно залишається найпоширенішим засобом оцінювання іншомовної компетентності. У випадку масштабних тестів з високим статусом за-значені фактори мають особливе значення. Ефектив-ність такого оцінювання безпосередньо залежить не лише від валідності та надійності самого тесту, а й від валідності та надійності його оцінювання. Відтак попередній аналіз проведених досліджень довів, що професійна підготовка рейтерів може суттєво під-вищити ці показники, рівно ж як і внутрішньорей- терську послідовність та міжрейтерську надійність. Нечисельні думки щодо малоефективності таких навчань чи їх короткотривалої ефективності потре-бують подальшого емпіричного вивчення і підтвер-дження. Проте попередньо погоджуємося, що такі недоліки можна спробувати мінімізувати за рахунок полірейтерського оцінювання та систематичній рес- тандартизації самих рейтерів, особливо безпосеред-ньо перед оцінюванням тестів з високим статусом.

Список використаної літератури

1. Прісовська Г.Є. Типологія тестового оцінювання / Г.Є.Прісовська // Новітні тенденції навчання іноземної мови за професійним спрямуванням: Матеріали всеукраїнської науково-практичної конференції. - 2011. - С.88-89

2. Гарматюк Н.Д. Особливості застосування тестового контролю при вивченні іноземної мови у вищих навчальних закладах / Н.Д.Гарматюк, В.П.Марценюк. // Медична освіта. - 2013. - №3. - С.17-24

3. Knoch U. An evaluation of an online rater training program for the speaking and writing sub-tests of the Aptis test./ U. Knoch, J. Fairbairn & A. Huisman // Papers in Language Testing and Assessment. - 2016. - Vol. 5, Issue 1. - PP.90-106

4. Бобошко Т.М. Логічний підхід до аналізу категорії оцінки / Т.М.Бобошко. // Іноземні мови у вищому навчальному закладі: теоретичні засади та прикладні аспекти: Матеріали Всеукраїнської науково-теоретичної конференції. - 2013. - С.8-10

5. Fahim M. The Effects of Rater Training on Raters' Severity and Bias in Second Language Writing Assessment / M.Fahim, H.Bijani // Iranian Journal of Language Testing. - 2011. - Vol. 1, No. 1. - PP.1-16

6. Knoch U. An Evaluation of the Effectiveness of Training Aptis Raters Online. Final report / U.Knoch, J.Fairbairn, A.Huisman // Language Testing Research Centre. The University of Melbourne. British Council. - 2015. - 21p.

7. Pufpaff L. A. The Effects of Rater Training on Inter-Rater Agreement / L.A.Pufpaff, L.Clarke, R.E.Jones // Mid-Western Educational Researcher. - 2015. - Volume 27, Issue 2 117. - PP117-141

8. Грищук Ю.В. Забезпечення валідності та надійності мовних тестів згідно вимог стандартів НАТО «STANAG 6001» / Ю.В.Грищук, В.Д.Галкіна // Вісник НТУУ “КПІ”. Філософія. Психологія. Педагогіка. - 2015. - №1. - С.111-114

9. Kondo Y. Examination of rater training effect and rater eligibility in L2 performance assessment / Y.Kondo // Journal of Pan-Pacific Association of Applied Linguistics. - 2010. - №14(2). - Pp. 1-23

10. Пасічник М.В. Розробка ефективних тестів для контролю читання англомовних професійно орієнтованих текстів / М.В.Пасічник, С.Е.Жигалко // Молодий вчений. - 2015. - № 7 (22) Частина 2. - С.66-69

11. Csepes I. Measuring Oral Proficiency Through Paired-task Performance Language Testing and Evaluation (Book 14) / I.Csepes // Peter Lang GmbH. - 2009. - 240p.

Анотація

Стаття розглядає основні фактори впливу рейтерів на валідність та надійність результатів суб'єктивного оцінювання продуктивних видів іншомовної комунікативної компетентності, розглядає різні аспекти тестування як найпоширенішого засобу визначення рівня володіння мовою та аналізує дослідження ефективності навчальних програм для рейтерів з метою мінімізації неточності рейтерів та їхньої непослідовності в оцінюванні, особливо важливої у випадку масштабних стандартизованих тестів.

Ключові слова: тестування, валідність, надійність, послідовність, рейтер, іншомовна компетентність, оцінювання

Статья рассматривает основные факторы влияния рейтеров на валидность и надежность результатов субъективного оценивания продуктивных видов иноязычной коммуникативной компетентности, рассматривает разные аспекты тестирования как самого распространенного средства определения уровня владения языком и анализирует исследования эффективности учебных программ для рейтеров для минимизации рейтерской неточности и непоследованости в оценивании, что особенно важно в случаи масштабных стандартизированных тестов.

Ключевые слова: тестирование, валидность, надежность, последовательность, рейтер, иноязычная компетентность, оценивание

The article highlights the main rater effects on the validity and reliability of foreign language proficiency subjective scoring, describes different aspects of testing as one of the most wide-spread means of language assessment and provides analysis of the existing researches on the efficiency of rater training programs in terms of minimizing raters ' biases and consistency in the process of rating. The objectivity of the proficiency evaluation is of special importance in case of high-stakes examinations such as TOEFL, TOEIC, IELTS, Cambridge English Test, CaMLA, OPl, which demand extreme accuracy of their results. Training raters seems to be the most important way of achieving reliability of the assessment. However, there are few studies researching the exact affects of such sessions as well as the degree of their effectiveness in terms of reducing the raters' biasedness.

Key words: testing, validity, reliability, consistency, rater, L2 proficiency, assessment

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.