Шкалы процентильных рангов. Суммарной оценки Шкалы станайнов и стенов

1. Необходимость тестовых норм

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применить тест на широкой популяции, называется репрезентативностью тестовых норм. (Популяция – категория испытуемых определенной социальной, профессиональной или половозрастной принадлежности.) Норма теста – средний диапазон значений на шкале измеряемого свойства характерный для испытуемых определенной группы. Их меняют каждые 5 лет.

Репрезентативность (от фр. – показательный) тестовых норм – свойство выборочной совокупности представлять генеральную совокупность.

Репрезентативность означает, что с некоторой наперед заданной или определенной статистической погрешностью можно считать, что представление в выборочной совокупности распределение изучаемых признаков соответствует их реальному распределению. Ошибка репрезентативности – различие характеристик выборки и генеральной совокупности.

Выборка, на которой определяется статистические тестовые нормы, называется выборкой стандартизации. Ее численность, как правило, не меньше 200 человек.

2. Определение норм для теста

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений (см. рис. 1: зона средних значений – 43, 44, 45 баллов). Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации.

Правила формирования выборки стандартизации:

· выборка стандартизации должна состоять из респондентов, на которых в принципе ориентирован данный тест, то есть если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста;

· выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. Под популяцией понимается, например, группа дошкольников 6-7 лет, руководителей, подростков и т.д.

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика – кривой нормального распределения. Этот график показывает, какие значения первичных показателей входят в зону средних значений (в зону нормы), а какие выше и ниже нормы. Например, на рис.1 изображена кривая нормального распределения для теста "Прогрессивные матрицы Равена".



Чаще всего в руководствах к тому или иному тесту можно встретить выражения нормы не в виде сырых баллов, а в виде стандартных производных показателей. То есть нормы к данному тесту могут быть выражены в виде Т-баллов, децилей, процентилей, станайнов, стандартных IQ и др. Перевод сырых значений (первичных показателей) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнивать между собой.

Производные показатели получаются путем математической обработки первичных показателей.

Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов.

"Любая норма, в чем бы она ни выражалась, ограничивается конкретной совокупностью людей, для которых она вырабатывалась... Применительно к психологическим тестам они (нормы) никоим образом не абсолютны, не универсальны и не постоянны. Они просто выражают выполнение теста испытуемыми из выборки стандартизации"

А.Анастази

3. Проблемы репрезентативности тестовых норм

В репрезентативности тестовых норм рассматривают следующие проблемы:

1. Стандартизация шкалы.

2. Статистическая природа тестовых шкал. Как повысить долю постоянного компонента и сократить долю случайного в величине суммарного балла по шкале теста.



3. Проблема меры в психометрике. В дифференциальной психометрике отсутствуют физические эталоны: мы не располагаем индивидами, которые были бы постоянными носителями заданной величины измеряемого свойства. Роль косвенных эталонов в психометрике выполняют сами тесты.

4. Оценка типа распределения тестовых баллов и проверка устойчивости распределения. Используют следующие параметры: среднее арифметическое, среднее квадратическое (стандартное) отклонение, асимметрия, эксцесс, общее неравенство Чебышева, критерий Колмогорова. Общая логика проверки устойчивости распределения основывается на индуктивном рассуждении: если «половинное» (полученное на половине выборки) распределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет хорошо моделировать распределение генеральной совокупности.

Доказательство устойчивости распределения означает доказательство репрезентативности норм. Традиционный способ доказательства устойчивости сводится к выяснению хорошего приближения эмпирического распределения к какому-либо теоретическому (например, нормальному распределению, хотя может быть и любое другое).

5. Тестовые эталоны (или тестовые нормы).

5.1. Сама сырая шкала может иметь практический смысл.

5.2. Стандартизированные шкалы: Шкала IQ, Т-шкала, шкала стэнайнов (стандартная девятка), шкала стэнов.

5.З. Процентильная шкала. Процентиль – процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл, чем балл данного испытуемого. Процентили указывают на относительное положение индивида в выборке стандартизации. Их можно рассматривать как ранговые градации, общее число которых равно ста, только (в отличие от ранжирования) отсчет ведется снизу. Поэтому чем ниже процентиль, тем хуже позиция индивида. Процентили отличаются от процентных показателей. Процентные показатели фиксируют качество выполненных заданий. Процентиль – это производный показатель, указывающий на долю от общего числа членов группы.

5.4. Критериальные нормы. В качестве эталона используется целевой критерий. Высокую эффективность показывают узкоспециализированные диагностические методики, нацеленные на очень конкретные и узкие критерии. Хорошо зарекомендовали в сфере образования (тесты достижений и КОТ).

5.5. Социально-психологический норматив.

Независим от результатов испытаний и объективно задан. СПН реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Для анализа данных относительно их близости к СПН, рассматривается как 100% -ое выполнение теста, испытуемые делятся на 5 подгрупп. Для каждой из подгрупп подсчитывается средний процент правильно выполнивших задания.

10% – наиболее успешные, 20% – близкие к успешным, 40% – средние,

20% – мало успешные, 10% – наименее успешные.

4. Стандартизация теста.

Стандартизация – это единообразие процедуры проведения и оценки выполнения теста. Стандартизация как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний.

· В первом случае (см. письменную лекцию ), стандартизация процедуры эксперимента подразумевает регламентацию процедуры, унификацию инструкций, бланков обследованияспособов регистрации результатов, условий проведения обследования, характеристика контингентов испытуемых (указывается область применения теста). К числу требований, которые необходимо соблюдать при проведении эксперимента относятся такие: инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере; ни одному испытуемому не следует давать никаких преимуществ перед другими; в процессе эксперимента не давать отдельным испытуемым дополнительные пояснения; эксперимент с разными группами следует проводить в одинаковое, по возможности, время дня, в сходных условиях; временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми.

Обычно авторы методики в руководстве приводят точные и подробные указания по процедуре ее проведения. Формулирование таких указаний составляет основную часть стандартизации новой методики, т.к. только строгое и соблюдение дает возможность сравнить между собой показатели, полученные разными испытуемыми.

· Во втором случае под стандартизацией понимается преобразование нормальной (или искусственно нормализованной) шкалы оценок в новую шкалу, основанную уже не на количественных эмпирических значениях изучаемого показателя, а на оценке его относительного места в распределении результатов в выборке испытуемых.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют «сырым тестовым баллом». Для применения тестовых норм необходимо перевести тестовые баллы из «сырой» шкалы в «стандартную». Эта процедура называется «стандартизация тестового балла».

При простейшей линейной стандартизации сначала высчитывается –

Z-показатель (стандартный балл по стандартной шкале Z).

Z = ------------;

где Z (с центром 0 и отклонением 1), Х – сырой балл по тесту, X 1 – средний балл по выборке стандартизации, Sx (о) – стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике.

Например, перевод в шкалу IQ, производится по формуле:

IQ = 100 + 15* (X−X 1 / σ)

В шкале IQ центр равен 100, а отклонение равно 15.

Если перевод требуемся в шкалу «стенов» (от англ. «standart ten» – стандартная десятка), то формула пересчета из шкалы Z выглядит так:

S = 5,5 + (X−X 1 / σ)

В шкале стенов центр равен 5.5, а отклонение равно 2.

Т-шкала Маккола (MMPI) (центр равен 50, отклонение равно 10):

T = 50 + 10 * (X−X 1 / σ)

Для серьезных профессиональных тестов вместо простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению).

В результате этой, более точной процедуры разработчики снабжают пользователей теста конверсионной таблицей для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

Таким образом, благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых, появляется возможность выражения тестовых оценок в относительных к выборке стандартизации показателях, сопоставления таких оценок в разных тестовых методиках.

Производные показатели можно подразделить по своему назначению. Одни из них служат для определения достигнутого уровня подготовки в определенной шкале, а другие - для установления относительного положения испытуемого в некоторой нормативной группе. В частности, решению второй задачи служат процентили, позволяющие установить ранг первичного показателя испытуемого в нормативной группе . Ранг показателя в процентилях определяется процентной долей испытуемых из выборки стандартизации, результаты которых не выше данного первичного показателя. Процесс построения шкалы процентилей состоит в определении процентильных рангов первичных показателей нормативной группы.

Метод построения шкалы процентилей можно рассмотреть на небольшом примере результатов выполнения теста группой из 25 испытуемых, хотя, конечно, маловероятно встретить такую выборку в практике. Обычно построение этих шкал выполняется на больших массивах. Пусть, например, 25 тестируемых учащихся по одному из предметов получили первичные результаты, представленные в табл. 7.2:

Таблица 7.2. Результаты испытуемых

Первая строка в таблице 7.2 содержит наблюдаемые баллы испытуемых выборки, упорядоченные от меньшего значения к большему (слева направо). Обычно для больших групп простое упорядочение является малоэффективным и удобнее использовать сгруппированные данные, предполагающие введение разрядов оценок для отдельных групп (см. подробнее разд. 5.2).

Во второй строке представлены результаты подсчета числа испытуемых, имеющих один и тот же тестовый балл. Каждый элемент второй строки показывает число повторений балла и потому называется частотой наблюдаемых сырых баллов испытуемых. Если частоты просуммировать слева направо, то получатся значения накопленных (кумулированных) частот. Кумулированные частоты представляют собой суммарное количество частот, наблюдаемых на этом балле или ниже его. Например, существует 9 испытуемых, получивших балл 7 или ниже, так как Кумулированные частоты для балла 7 - число 9.



Вычисление процентильных рангов для заполнения четвертой строки таблицы осложняется необходимостью определения фактических границ доверительного интервала (см. разд. 5.5), содержащего истинный балл каждого испытуемого выборки. Фактическая длина интервала зависит от значения стандартной ошибки измерения. Однако обычно для определения границ интервала используют 0,5 единицы измерения сырых баллов. В этом случае, если испытуемый получил балл 5, истинное значение его балла лежит в интервале от 4,5 до5,5,т.е. (4,5; 5),ачисла4,5 и5,5 называются соответственно нижней и верхней границей единичного интервала оценок.

Понятия «верхняя» и «нижняя» границы используются для построения шкалы процентильных рангов в предположении равномерности распределения результатов испытуемых внутри доверительного интервала. Например, при вычислении процентного

Таблица 7.3. Построение шкалы процентильных рангов

ранга для тестового балла 5 принимают что результаты двух испытуемых располагаются на интервале (4,5; 5,5) равномерно (табл. 7.3).

Вероятнее всего, один результат будет ниже точки, соответствующей 5, а один - выше этой точки. Таким образом, к числу испытуемых, истинный балл которых меньше 5, можно отнести трех учащихся, из которых один имеет балл 3, второй - балл 4 и третий - один из двух, получивших балл 5, что в процентном отношении составит (3/25) 100% =12%. Это и есть процентильный ранг, соответствующий 5, который обеспечивает удобную интерпретацию результатов ученика: 12% учащихся из нормативной выборки сделали 5 или меньше заданий теста. В соответствии с введенным ранее определением 12-й процентиль в группе из 25 испытуемых равен 5. Обращаясь к полученным данным в третьем столбце табл. 7.2, можно определенно сказать, что первичный результат 5 баллов является плохим, так как он превосходит результаты только 12% испытуемых выборки стандартизации. Это конкретный и легко воспринимаемый результат, удобный в первую очередь для учеников при сравнении достижений по ряду тестов. Первичный результат, который ниже любого показателя выборки стандартизации, имеет нулевой процентильный ранг. Результат, превышающий любой другой в выборке, получит процентильный ранг 100. Конечно, ни нулевой ранг, ни ранг 100% не говорят о нулевом либо абсолютном знании контролируемого предмета.

Возможно решение обратной задачи, когда необходимо определить р-й процентиль, вернее, точку, ниже которой лежат р % результатов . Для определения р-го процентиля необходимо выполнить 5 шагов, которые получаются с помощью табл. 7.4 и приводятся в табл. 7.5.

Таблица 7.4. Связь между сырыми баллами и частотами

Таблица 7.5. Определение процентилей

Шаг Этап вычисления Пример вычисления
Вычисление (рл)/100%, где п - накопленная частота в группе оценок
Определение фактической нижней границы L разряда оценок, содержащего результат 1-го шага
Вычитание накопленной к L частоты (cum.f) из результата 1-го шага (определение частот, лежащих ниже (рп) /100%)
Определение доли интервала разрядов, лежащей под частотой (рп)/100%
Прибавление результатов 4-го шага к результатам 2-го шага. Итоговая формула

Процентили не следует смешивать с процентными показателями, представляющими процент правильно выполненных заданий испытуемым группы. В отличие от последнего - первичного-процентиль является производным показателем, указывающим на долю от общего числа испытуемых группы.

Помимо удобств, связанных с простотой интерпретации, процентильные ранги имеют два существенных недостатка. Первый заключается в том, что процентильные ранги являются значениями порядковой шкалы, так как показывают относительное положение каждого индивида в нормативной выборке, а не выявляют различие между результатами отдельных испытуемых группы. Второй недостаток в определенной степени усугубляет первый - процентили не только не отражают, а даже искажают реальные различия результата выполнения теста. Это связано с особенностями распределения процентилей, имеющего прямоугольный характер. Распределение первичных показателей существенно отличается от прямоугольного и для хороших нормативно-ориентированных тестов приближается к нормальной кривой. В этой связи небольшие отклонения от среднего в центре распределения наблюдаемых результатов значительно увеличиваются процентилями, в то время как относительно большие отклонения на краях кривой нормального распределения будут сжаты.

Упомянутые недостатки - главная причина того, что использование процентилей довольно ограничено. В силу удобства и простоты их применяют в основном в тестах для самооценки знаний учащихся.

Z-ШКАЛА

Наиболее простой метод выявления места результата i-го ученика (X) в сравнении с результатами других основан на подсчете отклонения балла Xi от среднего значения баллов X по группе тестируемых учащихся. Отклонение находят путем вычисления разности X- X f Если разность X- X t > О, то результат 1-го ученика выше среднего по группе. Отрицательное значение разности указывает на результат ниже среднего значения X.

Так как средние арифметические, полученные по различным тестам и в разных группах, существенно разнятся, возникает проблема сопоставимости отклонений. Один и тот же балл X t в слабой группе может оказаться выше среднего, в сильной - значительно ниже. К тому же шкала отклонений оказывается по-разному растянутой в зависимости от длины теста.

Удобным средством преодоления отмеченных трудностей является перевод индивидуальных результатов в стандартную Z-шкалу с общим средним баллом и общей мерой вариации баллов. Вообще построение стандартных шкал производится путем линейных либо нелинейных преобразований сырых баллов. При линейном преобразовании стандартные показатели выражают отклонение индивидуальных результатов от среднего значения сырых баллов в единицах, пропорциональных стандартному отклонению распределения. В последнем случае шкалированный результат i-го ученика находят по формуле

где X.- сырой балл i-го испытуемого; X- среднее значение индивидуальных баллов УУ испытуемых группы (i= 1,2,..., N); S x - стандартное отклонение по множеству сырых баллов, подсчитанное по формуле (см. разд. 5.2).

Благодаря тому, что из каждого исходного значения Х { вычитается X, этот же ^вычитается из среднего значения исходных баллов. Поэтому среднее арифметическое значений разности X- X i (/ = 1,2,..., N), полученных для группы тестируемых учеников, равно нулю. Это утверждение довольно убедительно иллюстрируется примером подсчета среднего значения разностей Х- Х i для матрицы тестовых результатов 10 испытуемых (разд. 5.2). Сумма разностей получается равной нулю:

Аналогично легко показать, что стандартное отклонение по множеству значений равно 1. Таким образом, Z-шкала является стандартной с нулевым средним значением и единичным стандартным отклонением. С ее помощью можно привести баллы учеников, полученные по различным тестам, к одному удобному для сравнения виду путем нормирования индивидуальных результатов.

Для приведенного выше примера оценки 10 испытуемых в Z-шкале получаются путем деления вычисленных разностей на стандартное отклонение 2,6:

Полученные шкалированные результаты интересно сопоставить со значениями сырых баллов 10 испытуемых (табл. 7.6).

Таблица 7.6. Сравнительные результаты

Номер испытуемого i Номер задания X i X i -X Z i
0,38
-0 -1,14
-4" -1,52
-1,52
-1 -0,38
-1 -0,38
-1 -0,38
-1,52
0,38
Х=5 S x =2,6 Сумма = 0 Z=0 S z =\

При использовании тестов, прошедших многолетний этап стандартизации и обладающих устойчивыми оценками генеральных параметров, перевод сырых баллов в Z-шкалу осуществляется по формуле

где М и а х - генеральное среднее арифметическое и генеральная дисперсия соответственно.

Очевидно, что для сырого балла, в точности равного среднему значению, Z-показатель обращается в нуль. Отрицательные значения Z указывают на результаты ниже среднего, а положительные - на хорошие результаты, выше среднего значения сырых баллов по группе.

Особенно удобны Z-показатели в случае нормального распределения первичных баллов, когда все значения Z в основном варьируют в пределах от -3 до +3. Иногда интервал вариации стараются расширить и учитывать все баллы в пределах от -5 до +5, что, без сомнения, лишено смысла, так как значения на концах интервала определены с очень большой ошибкой измерения.

Несомненным достоинством Z-шкалы является общая средняя арифметическая и общая мера вариации данных, позволяющие достичь сравнимости результатов по разным тестам. Однако, помимо явных достоинств, есть и недостатки. Будучи удобной для научного анализа в процессе разработки новых тестов, Z-шкала является неудобной для практического использования при оценке знаний испытуемых группы. Прежде всего это связано с тем, что значения Z часто приходится вычислять с несколькими десятичными знаками, так как среднее значение индивидуальных баллов редко бывает целым числом. Поскольку выявление различий в подготовке испытуемых составляет основную цель создания тестов, легко понять, что округление Z-оценок не всегда допустимо, так как оно может свести на нет первоначальные различия индивидуальных баллов и снизить тем самым дифференцирующий эффект теста.

Эффект снижения дифференцирующей способности теста в результате округления Z-оценок можно проиллюстрировать примером данных табл. 7.6. Отличающиеся до округления результаты второго и третьего испытуемых Z 2 = -1,14 и Z 3 = -1,52 превращаются после него в одинаковые баллы Z 2 = Z 3 = - 1.

Определенные неудобства вызывают отрицательные значения Z-показателя, указывающие на результаты ниже среднего по группе тестируемых учеников. Понятно, что в практике контроля отрицательные значения Z-баллов вызовут явное неприятие у получивших их учеников. В целом все это делает Z-показатель неудобным для сообщения результатов испытуемым группы и вынуждает применять специальные методы преобразования для выставления оценок ученикам.

Вскоре после создания новой методики ее распространяют только для исследовательских целей. Это условие должно быть ясно указано в руководстве, и, соответственно, применение этой методики должно быть ограничено только кругом лиц, участвующих в накоплении банка данных по этой методике и не использующих ее для вынесения отдельных выводов без параллельного использования других надежных методик.

Обязанностью автора и издателя диагностических методов является их проверка и повторная стандартизация, проводимые так часто, как это требуется, чтобы предотвратить их старение. Быстрота, с которой методика устаревает, очень различна и зависит от ее содержания. Сертифицированные психодиагностические методики и их основные части нельзя печатать в газете, журнале или популярной брошюре ни в целях описания, ни для использования их при самооценке. Исключение составляют устаревшие тесты достижений, задания этих тестов можно публиковать в специальных брошюрах для тренировки учащихся в выполнении подобных тестов.

Исключения , касающиеся тестов достижений и методов экспертной оценки, формулируются следующим образом.

1. Сертифицированные тесты достижений, разработанные в центрах, аккредитованных органами народного образования, могут использоваться педагогами как для оперативного, так и для аттестационного контроля уровня знаний. Любой педагог может самостоятельно разработать тест достижений, но использовать его он может только для оперативного контроля за уровнем знаний своих учеников.

2. Методы экспертной оценки личностных качеств учащихся могут использоваться любым педагогом, но их результаты могут иметь применение только в оперативной педагогической работе с данными учащимися и не могут иметь аттестационного значения, т. е. передаваться другим лицам и организациям.

4. Принцип обеспечения суверенных прав личности

Вопрос, возникающий в особенности в связи с использованием личностных тестов, касается посягательства на тайну личности. Это сложный вопрос, поскольку о сущности некоторых тестов, раскрывающих эмоциональные и мотивационные особенности, а также установки личности, человеку не сообщается и он может проявить такие черты в ходе тестирования, которые для него самого нежелательны, не осознавая, что он это делает.

Основной этический принцип в данном случае гласит, что человек не должен подвергаться какому-либо обследованию обманным путем. Это значит, что человек перед обследованием должен быть предупрежден о том, кто будет иметь доступ к результатам обследования и какие решения могут быть им приняты. В том случае, если обследованию подвергаются несовершеннолетние дети, такое предупреждение должны совершенно официально получить родители.

Поясним здесь, что проинформированный о целях и общем смысле обследования (но, конечно, не о содержании тестовых заданий) испытуемый получает следующие возможности :

1) психологически мобилизоваться для его наилучшего выполнения;

2) отказаться от обследования, осознавая при этом, от каких возможностей он отказывается в случае положительных результатов обследования;

3) не формулировать своего отказа в явной форме, но применить собственную тактику выполнения методики, которая, с его точки зрения, позволяет ему скрыть истинную информацию о себе.

Данный этический принцип, который охраняет право индивида отказываться от участия в обследовании и, следовательно, защищает тайну его личности, осложняет работу психолога и повышает требования к его квалификации. При правильных взаимоотношениях и взаимном уважении психолога и обследуемого число отказов от участия в диагностировании может быть сведено к незначительному числу.

5. Принцип объективности

Обследование должно быть абсолютно беспристрастным. На его исполнителя не должны оказывать влияние общие впечатления о личности обследуемого: симпатии или, наоборот, антипатии, равно как и собственное состояние или настроение.

К сожалению, этот принцип слишком часто нарушается лицами, не имеющими специальной подготовки для проведения психодиагностических обследований и не обладающими необходимыми элементами самоуважения в своем профессиональном самосознании и практическими навыками корректного, доброжелательно-нейтрального общения с испытуемым. Например, доброжелательное отношение к испытуемому ни в коем случае не может выразиться в появлении подсказок и других форм прямой помощи, искажающей результаты. Кроме того, любые ошибки испытуемого, которые говорят о том, что испытуемый просто не понял инструкции к тесту, должны быть тут же скорректированы.

6. Принцип конфиденциальности

Вся информация, получаемая в процессе обследования, должна быть строго конфиденциальной: она должна быть доступна только для тех, для кого она предназначена.

В отличие от предыдущей проблемы в данном случае вопрос состоит о том, кому и в какой форме психолог может сообщать информацию по результатам обследования. Один из ответов на этот вопрос вытекает из принципа 5: можно сообщать информацию тем лицам, о которых был предупрежден испытуемый. Ну, а что же это все-таки за люди? Имеет ли право сам испытуемый получать эти сведения? Или это должны делать родители обследованного ребенка? Если сообщать родителям ученика результаты тестирования, то как это делать?

Психолог должен обеспечить такое преподнесение информации, чтобы родители осознавали свою личную ответственность за возможные невысокие результаты их ребенка по тестам, а не видели в этом лишь вину ребенка, которого за это можно и нужно наказывать. Но если ребенок не был предупрежден о том, что результаты по тесту узнают учителя и родители, то психолог вообще не имеет права сообщать их ни тем ни другим.

Особые ситуации возникают, когда диагностические результаты запрашиваются новыми людьми, как, например, в тех случаях, когда будущий наниматель или колледж просят представить им данные тестового обследования индивида, проведенного в школе. В таких случаях требуется получить согласие индивида на передачу данных. Это же относится и к обследованию в клинике или консультации, а также к тестированию, осуществленному с исследовательскими целями.

Другая проблема относится к сохранению диагностических данных в учреждениях. В случаях, когда данные получены либо для длительного использования в интересах индивида, либо для научных целей, для предотвращения неправильного их применения от психолога категорически требуется обеспечить строгий контроль за доступом любых лиц к этим данным, в том числе учителей и школьной администрации. Психолог обязан сообщать информацию по этим тестам по специальному запросу, отвечая на те вопросы, которые ему задает при этом педагог или директор школы. Требование конфиденциальности психологической информации может нарушаться только в тех случаях, когда нераскрытие диагностических данных представляет опасность для обследуемого индивида или для общества.

Применительно к обследованию детей на психолого-педагогических консультациях (комиссиях) в целях выявления недостатков развития следует отметить, что школа получает общее заключение об итогах исследования, но официальные данные о результатах выполнения примененных тестов могут быть переданы только с согласия самого обследованного, его родителей или представляющих его лиц (например, опекунов). Положение о конфиденциальности диагностической информации введено, в частности, в проект Закона Российской Федерации «Об образовании лиц с ограниченными возможностями здоровья».

7. Принцип психопрофилактического изложения результатов

В последнее время все шире во многих странах распространяется следующий этический норматив: испытуемый также должен иметь возможность комментировать содержание своих результатов и в случае необходимости разъяснять или исправлять фактическую информацию. Очевидно, что в этом случае мы получаем как минимум, два серьезных производных требования :

1) при сообщении результатов самому испытуемому должны быть соблюдены соответствующие меры предосторожности, направленные против их неправильного использования, неверной интерпретации или возможного появления невротически-депрессивных реакций или обострения депрессивного состояния (т. е. результат должен быть преподнесен по возможности в ободряющем, не травмирующем психику и самооценку контексте);

2) если испытуемый настаивает на том, чтобы переделать тестовое задание, психолог должен иметь наготове запасной вариант практически эквивалентной методики (ряд профессиональных методик специально имеют так называемые параллельные формы), чтобы убедить самого испытуемого, что ему предоставлен дополнительный шанс, с одной стороны, и что результаты первого тестирования были достаточно достоверны, с другой стороны.

В тех случаях, когда школьному психологу заведомо известно, что данные тестирования могут быть использованы родителями или учителями школьника как дополнительный инструмент в конфронтации с ним, которая носит психотравмирующий характер для ребенка, он должен преподносить свою информацию в форме, снижающей риск обострения подобной конфронтации.

Если учитель не запрашивает какой-то информации о ребенке, а психолог владеет этой информацией, но опасается, что эта информация приведет к ухудшению положения ребенка в классе, то психолог имеет право вообще не сообщать эту информацию учителю. Во всех своих профессиональных действиях психолог следует главному императиву своего этического кодекса «Не повреди!». И знание об этом должно сделать понятным для всех, почему психолог ограничивает распространение психодиагностической информации: он делает так не ради сохранения этой информации в тайне, а ради благополучия, психического и физического здоровья всех людей, а в школе – прежде всего ради детей. Но поскольку вся деятельность педагога также должна быть подчинена этому высшему этическому приоритету, то для продуктивного сотрудничества психолога и педагога в школе существуют все необходимые объективные предпосылки.

ЛЕКЦИЯ № 18. Психологический диагноз

Психологический диагноз (от греч. – «распознание») (ПД) – конечный результат деятельности психолога, направленный на выяснение сущности индивидуально-психологических особенностей личности с целью оценки их актуального состояния, прогноза дальнейшего развития и разработки рекомендаций, определяемых задачей психодиагностического обследования.

Предмет психологического диагноза (ПД) – установление индивидуально-психологических различий в норме и в патологии. Важнейшим элементом психологического диагноза является выяснение в каждом отдельном случае того, почему данные проявления обнаруживаются в поведении обследуемого, каковы их причины и следствия. По мере обогащения психологического знания этиологический элемент в ПД, вероятно, не будет иметь столь существенного значения, как в настоящее время, во всяком случае в текущей, практической работе. Сегодня, как правило, установив средствами психодиагностики те или иные индивидуально-психологические особенности, исследователь лишен возможности указать на их причины, место в структуре личности.

Такой уровень диагностики Л. С. Выготский назвал симптоматическим (или эмпирическим). Этот диагноз ограничивается констатацией определенных особенностей или симптомов, на основании которых непосредственно строятся практические выводы. Л. С. Выготский отмечает, что данный диагноз не является собственно научным, ибо установление симптомов никогда автоматически не приводит к диагнозу. Здесь работу психолога вполне можно заменить машинной обработкой данных.

Второй ступенью в развитии психологического диагноза является тиологический диагноз , учитывающий не только наличие определенных особенностей (симптомов), но и причины их возникновения.

Высший уровень – типологический диагноз , заключающийся в определении места и значения полученных данных в целостной, динамической картине личности. По словам Л. С. Выготского, диагноз всегда должен иметь в виду сложную структуру личности.

Диагноз неразрывно связан с прогнозом. По Л. С. Выготскому содержание прогноза и диагноза совпадает, но прогноз строится на умении настолько понять внутреннюю логику самодвижения процесса развития, что на основе прошлого и настоящего намечает путь развития. Рекомендуется разбивать прогноз на отдельные периоды и прибегать к длительным повторным наблюдениям. Развитие теории психологического диагноза в настоящее время является одной из наиболее важных задач психодиагностики.

1. Кодирование тестовых оценок

Кодирование тестовых оценок – элемент процедуры обработки данных психодиагностического обследования. Применяется в многопараметровых тестовых батареях , личностных опросниках, других методиках, предусматривающих представление результата в виде профильных оценок .

Кодирование тестовых оценок дает возможность более экономного и краткого описания совокупности шкальных оценок, профиля шкал, а также более четкой и быстрой разбивки материала на клинически (или характерологически) сходные группы. Кодирование тестовых оценок способствует выявлению в изучаемой группе наиболее общих характеристик и закономерностей. Формализация комплексных тестовых оценок является важным элементом создания банка данных и автоматизированной обработки данных обследования (см. компьютерная психодиагностика).

Примером кодирования тестовых оценок может служить процедура шифровки данных Миннесотского многоаспектного личностного опросника (MMPI). Код ММРI представляет собой обозначение профиля с последовательным перечислением шкал (начиная с самых высоких) с использованием их порядкового обозначения для шкал клинических и буквенного – для контрольных шкал. Существует несколько вариантов кодирования тестовых оценок профиля MMPI. Наиболее детальным является метод Г. Уэлша. Определение кода осуществляется в несколько этапов.

1. Все клинические шкалы перечисляются с использованием их цифрового обозначения слева направо в таком порядке, чтобы на первом месте находилась шкала, которая является в данном профиле ведущим пиком, а затем – остальные по мере снижения.

2. Обозначается высота шкал профиля в зависимости от выраженности результата в Т-баллах (табл. 13).

Таблица 13

Выражение результата по отдельным шкалам

Используя эти обозначения, можно отделить шкалы, расположенные в различных сигмах графика (сигмы разделяют на профиле десятки стандартных делений Т). Если между шкалами 2 и более сигм, то следует перечислить пропущенные сигмы. Например, если 2-я шкала находится выше 90 Т, а следующая 3-я – между 80 и 70, то следует записать 2"3" и т. д.

3. Шкалы, расположенные на одном уровне, записываются согласно порядковому номеру и подчеркиваются одной линией. Если разница показателей шкал в Т единицах не превышает 1 балла, то они также подчеркиваются, однако первой из них становится расположенная выше независимо от порядкового номера (21 – если 2-я имеет результат 68 Т, а 1-я – 67 Т).

4. Шкалы достоверности перечисляются начиная с наиболее высоко расположенной, между ними ставятся обозначения сигм.

Кроме описанного метода кодирования тестовых оценок, существует процедура, предложенная С. Хатуэем , при которой шкалы, расположенные между 46 и 54 Т, не записываются совсем, шкалы выше 70 Т отделяются знаком (С), а те, что расположены ниже 46 Т, – знаком (-). Контрольные шкалы (без шкалы «?») пишутся в порядке их расположения на графике в числовом выражении (в «сырых» баллах). При этом если результат по шкале превышает критические значения (см. контрольные шкалы), перед обозначением шкалы ставится косой крест, чтобы обратить внимание на недостоверность профиля.

Приведенные способы в соответствующей модификации могут быть перенесены на шифровку данных других методик, например тестов интеллекта. Приемы кодирования применимы в тех случаях, когда результаты отдельных субтестов выражаются в единых измерительных шкалах.

2. Шкальные оценки

Шкальные оценки – способ оценки результата теста путем установления его места на специальной шкале. Шкала содержит данные о внутригрупповых нормах выполнения данной методики в выборке стандартизации. Так, индивидуальные результаты выполнения заданий (первичные оценки испытуемых) сравниваются с данными в сопоставимой нормативной группе (например, результат, достигнутый учеником, сравнивается с показателями детей того же возраста или года обучения; результат исследования общих способностей взрослого сопоставляется со статистически обработанными показателями репрезентативной выборки лиц в заданных возрастных пределах).

Шкальные оценки в этом смысле имеют четко определенное количественное содержание и могут быть использованы при статистическом анализе. Одной из распространенных в психологической диагностике форм оценки результата теста путем соотнесения с групповыми данными является расчет процентилей .

Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций (см. ранговая корреляция) при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату; 50-й процентиль (PSQ) соответствует медиане (см. меры центральной тенденции) распределения результатов, Р›50 и Р‹50 соответственно представляют ранги результатов выше и ниже среднего уровня результата.

Процентили не следует смешивать с обычными процентными показателями. Последние представляют собой долю правильных решений из общего количества заданий теста в индивидуальном результате (см. первичные оценки). Ранги Р, и Р100 получают соответственно самый низкий и самый высокий результаты из наблюдавшихся в выборке, однако этим рангам могут соответствовать и далеко не нулевой (ни одного правильного решения) или абсолютный (все решения правильны) показатели (например, при общем количестве 120 заданий минимальный результат, соответствующий первому рангу, может составить 6 правильных решений, в то время как максимальный результат, соответствующий рангу Р100, будет составлять 95 правильно решенных заданий). Такая ситуация наблюдается, например, при оценке тестов скорости.

Основной недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении отдельные переменные тесно группируются в центре распределения и по мере удаления к краям рассеиваются. Поэтому равным частотам случаев вблизи центра соответствуют более короткие интервалы по оси абсцисс, расположенные по краям распределения оценок. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результатами. Это создает некоторые неудобства в интерпретации индивидуальных результатов. Так, разница в первичных показателях, соответствующая интервалу Р70-Р80, может составить 10 баллов, а различие в количестве правильных решений в интервале рангов Р50-Р60 – лишь 1–3 балла.

Вместе с тем процентильные оценки обладают и рядом достоинств. Они легкодоступны пониманию пользователей психодиагностической информацией, универсальны по отношению к различным типам методик и легко рассчитываются.

Процентильные оценки не относятся к типичным шкальным показателям. Более широкое распространение в психодиагностике получили стандартные показатели , рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится г-преобразование оценок (см. стандартизация, нормальное распределение). Чтобы определить 2-стандартный показатель, определяют разность между индивидуальным первичным результатом и средним значением для нормальной группы, а затем делят эту разность на а нормативной выборки. Полученная таким образом шкала z имеет среднюю точку М = 0, отрицательные значения обозначают результаты ниже среднего и убывают по мере удаления от нулевой точки; положительные значения обозначают, соответственно, результаты выше среднего. Единица измерения (масштаб) в шкале z равна 1а стандартного (единичного) нормального распределения.

Для преобразования полученного при стандартизации распределения первичных нормативных результатов в стандартную z-шкалу необходимо исследовать вопрос о характере эмпирического распределения и степени его согласованности с нормальным. Поскольку для большинства случаев значения показателей в распределении умещаются в пределах М ± 3σ, единицы измерения простой z-шкалы слишком велики. Для удобства оценивания применяется еще одно преобразование типа z = (x – ‹x›) / σ. Примером такой шкалы могут быть оценки тестовой батареи SAT(СЕЕВ) методики для оценки способности к обучению (см. тесты достижений). Эта r-шкала пересчитана таким образом, что средней точке соответствует значение 500, а σ = 100. Другим аналогичным примером является шкала Векслера для отдельных субтестов (см. шкала измерения интеллекта Векслера, где М = 10, σ = 3).

Наряду с определением места индивидуального результата в стандартном распределении групповых данных введение ШО направлено и на достижение другой важнейшей цели – обеспечение сопоставимости количественных результатов различных тестов, выраженных в стандартных шкалах, возможности их совместных интерпретаций, сведение оценок к единой системе.

В случае, если оба распределения оценок в сравниваемых методиках близки к нормальному, вопрос о сопоставимости оценок решается довольно просто (в любом нормальном распределении интервалам М ± nσ соответствует одинаковая частота случаев). Для обеспечения сопоставимости результатов, принадлежащих к рас-пределениям другой формы, применяются нелинейные преобразования , позволяющие придать распределению форму заданной теоретической кривой. В качестве такой кривой обычно используется нормальное распределение. Как и 160–150 в простом г-преобразовании, нормализованным стандартным показателям можно придать любую желаемую форму. К примеру, умножив такой нормализованный стандартный показатель на 10 и прибавив константу 50, получаем Т-показатель (см. стандартизация, миннесотский многоаспектный личностный опросник).

Примером нелинейно преобразованной в стандартную шкалу является и шкала станайнов (от англ. standart nine – «стандартная девятка»), где оценки принимают значения от 1 до 9, М = 5, σ=2.

Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов (табл. 14).

Таблица 14

Перевод первичных тестовых результатов в шкалу станайнов

При трансформации оценок в шкалу стэнов (от англ. standart ten – «стандартная десятка») проводится аналогичная процедура с той лишь разницей, что в основании этой шкалы лежат десять стандартных интервалов. Пусть в выборке стандартизации 200 человек, тогда по 8 (4 %) испытуемых, имеющих самые низкие и самые высокие оценки, будут отнесены к 1 и 9 станайнам соответственно. Процедура продолжается до заполнения всех интервалов шкалы. Соответствующие процентным градациям баллы по тесту, таким образом, будут упорядочены в шкалу, соответствующую стандартным частотам распределения результата.

Одной из наиболее распространенных форм шкальных оценок в тестах интеллекта является стандартный IQ-показатель (М = = 100, σ = 16). Эти параметры для стандартной шкалы оценок в психодиагностике выбраны в качестве эталонных. Существует довольно много шкал, опирающихся на стандартизацию; их оценки легко сводимы друг к другу. Шкалирование, в принципе, допустимо и желательно для широкого круга методик, применяемых в диагностических и исследовательских целях, в том числе и для методик, результаты которых выражены в качественных показателях. В этом случае для стандартизации можно использовать перевод номинативных шкал в ранговые (см. шкалы измерительные) или разработать дифференцированную систему количественных первичных оценок.

Следует отметить, что при всей простоте, наглядности шкальные показатели являются статистическими характеристиками, позволяющими лишь указать на место данного результата в выборке из множества аналогичных по характеру измерений. Шкальный показатель даже для традиционного психометрического инструмента является лишь одной из форм выражения показателей теста, используемых при интерпретации результатов обследования. Количественный анализ при этом должен всегда проводиться в комплексе с многосторонним качественным изучением причин возникновения данного тестового результата с учетом как комплекса сведений о личности испытуемого, так и данных о текущих условиях обследования, надежности и валидности методики. Гипертрофированные представления о возможности обоснованных заключений лишь по количественным оценкам приводили к многим ошибочным представлениям в теории и практике психологической диагностики.

3. Заключение

Заключение – документ о результатах тестирования, подготовленный психологом. 3аключение должно строиться на всех доступных для исследователя данных. Стандартной формы и правил написания заключения не существует, оно видоизменяется в зависимости от цели, ситуации, в которой проводится тестирование, адресата, теоретических установок и специализации психолога. Основное в подготовке заключения – его соответствие потребностям, интересам и уровню квалификации заказчика.

Заключение должно быть ориентировано на действия, которые необходимо предпринять в связи с тем или иным психологическим диагнозом (рекомендации по программам обучения, типа лечения или коррекции, выбора профессии и т. п.). В заключении должны быть показатели заметно низкие или высокие, а не близкие к средним. Основное содержание – это интерпретация и выводы, в отдельных случаях могут прилагаться протоколы обследования. Утверждения психолога должны отражать степень надежности каждого из приводимых фактов или выводов. Следует избегать специальной терминологии. Заключение эффективно лишь в том случае, когда применимо только к данному обследуемому, а не к людям этого возраста, пола, образования, страдающим тем же заболеванием и т. д. При подготовке заключения обязательно следует руководствоваться этическими нормами психодиагностики.

Психодиагностика . Конспект лекций / А.С. Лучинин. - Ростов н/Д.: Феникс, 2004 ... 3-х т. / Р.С. Немов. - М.: Владос, 1998. - Т.3: Психодиагностика . - 632 с. 24. Непомнящая Н.И. Психодиагностика личности: Теория и практика: учеб...

Что, несомненно, должен знать и уметь делать каждый грамотный пользователь теста – это понимать, что такое тестовые нормы и как ими пользоваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии “сырым тестовым баллом”. Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из “сырой” шкалы в “стандартную”. Эта процедура называется “стандартизацией тестового балла”.

Пусть мы провели тест из 20 заданий и испытуемый дал 12 правильных ответов. Можно ли при этом сказать, что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Для такого вывода нужно сравнить балл 12 со средним баллом по представительной выборке испытуемых.

Выборка, на которой определяются статистические тестовые нормы, называется выборкой стандартизации . Ее численность, как правило, не меньше 200 человек. Столько людей должно принять участие в психометрическом эксперименте по определению тестовых норм – в эксперименте по стандартизации теста.

Если после стандартизации теста выясняется, к примеру, что среднее арифметическое по сырой шкале теста равно 14, то оказывается балл 12 – это не лучше, а хуже среднего (хотя испытуемый и справился больше чем с половиной заданий). Просто в данном случае тест содержит слишком простые задания, несколько отклоняясь по этому параметру от оптимальной трудности.

Простейшая линейная стандартизация тестового балла производится по формуле

где Z – стандартный балл на так называемой стандартной шкале Z (с центром 0 и отклонением 1);

Х – сырой балл по тесту;

– средний балл по выборке стандартизации,

Sх – стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ производится по формуле

Напомним, что в шкале IQ центр равен 100, а отклонение – 15.

Если перевод требуется в так называемую шкалу “стенов” (от англ. “ standart ten” – стандартная десятка), то формула пересчета из шкалы Z выглядит так:

Sten = Z..2 +5,5,

так как в шкале стенов центр равен 5,5, а отклонение равно 2.

Обобщенная формула перевода сырого балла в заданную стандартную шкалу имеет вид:

Y = S s ×Z+M, (7)

где Y – стандартный балл, по произвольной шкале, с центром М и отклонением Ss.

Для серьезных профессиональных тестов вместо описанной здесь простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению). В результате этой, более точной процедуры разработчики снабжают пользователей теста так называемой конверсионной таблицей для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и стандартной.

Ниже приведен пример того, как может выглядеть конверсионная таблица для некоторого теста арифметических вычислений из 30 заданий. Простейшая процедура подсчета баллов (за правильный ответ – 1 очко, за ошибку –0) дает нам сырую шкалу от 0 до 30.

Таблица 1

Пример фрагмента конверсионной таблицы
для перевода сырых баллов в стены

Сырой балл

Как пользовались таблицей? Если испытуемый показал 5 сырых очков (решил только 5 заданий), то ему ставится минимальный стандартный балл 1. Если испытуемый решил 25 заданий, то получает балл 9.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл Y превышает единицу “верхней” (или “высокой”) группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе (или московской, или иркутской – в зависимости от того, на какой выборке стандартизации получены нормы). Если же стандартный балл Y ниже границы “нижней” (“низкой”) группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала (M-Ss, M+Ss), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени – как у большинства людей.

На шкале стенов граница “верхней” группы равна 7,5, а “нижней” – 3,5, то есть при получении 8 стенов и больше испытуемый зачисляется в “верхнюю” группу, а при получении 3 стенов и меньше – в “нижнюю”.

Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например, “гибкость – ригидность”, то для “высокой” группы формулируется заключение как для “гибких” людей, а для “низкой” группы – как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется репрезентативностью тестовых норм. Репрезентативность – третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере его применения.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести рестандартизацию , то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы, произведенные по неадекватным тестовым нормам, будут неточны и неверны.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если эти два распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.

Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста. О стандартизации теста в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической структурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто используются критериальные нормы . Они особенно важны для сферы образования. Действительно, что дает нам знание о том, что Петров выполнил тест лучше среднего испытуемого, если средний испытуемый тоже не справился с большинством заданий? Мы прогнозируем, что подавляюще большинство испытуемых без специального дополнительного обучения не смогут показать требуемого уровня эффективности в будущей деятельности.

При построении так называемого “теста по критерию” шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности). Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной “надежности оператора” (в данном случае “надеж­ность” – измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем “надеж­ности”. Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.

Лекция 16. Шкалирование результатов тестирования.

1.Задачи шкалирования.

2.Построение шкал.

3.Виды шкал в образовании.

4.Шкалирование результатов тестирования на основе теории IRT .

5.Шкалирование в критериально-ориентированном тестировании.

1. Задачи шкалирования.

Для чего и когда следует использовать процедуру шкалирования. Для обоснованного сопоставления результатов учащихся между собой тестовые баллы в соответствии с рядом критериев и норм (число правильно выпаженных заданий при дихотомической оцен­ке результатов выполнения каждого задания, сумма оценок по отдельным заданиям при политомической, или взвешенной, оцен­ке) переводятся в производные показатели при помощи процеду­ры, которая получила название шкалирования.

Таким образом, процесс шкалирования состоит в преобразо­вании сырых баллов в производные показатели, обеспечивающие адекватную интерпретацию и сравнение результатов выполнения педагогических тестов .

Современная трактовка процесса шкалирования. Процесс шка­лирования включает в себя различные процедуры. В простейшем случае под шкалированием понимается отображение сырых бал­лов на готовую шкалу, производимое по "определенным прави­лам.

Перевод сырых баллов в производные показатели и их разме­щение на готовой шкале не могут повысить надежность и валид ность данных по тесту.

В современной литературе по теории педагогических измере­ний встречается расширенное понимание процедуры шкалирова­ния, в которую включают конструирование шкалы по определен­ным правилам и последующее преобразование исходных эмпири­ческих данных для помещения их на данную шкалу. Таким обра­зом, согласно расширенной трактовке, шкалирование включает ряд последовательных этапов, охватывающих все компоненты пе­дагогических измерений, и имеет связь с качеством результатов.

2. Построения шкал для педагогических измерений

Этапы Шкалирования . При трактовке процесса шкалирования в расширенном варианте можно выделить четыре основных этапа построения измерительных шкал в образовании для ситуации блан­кового тестирования и обобщенного случая измерений:

Этап 1 - определение цели измерения, выбор конструкта, размерности и содержательной области, адекватно описывающей конструкт.

Этап 2- разработка заданий и экспертное обоснование их качества, экспертное оценивание адекватности содержания зада­ний конструкту, определение первоначальной длины теста.

Этап 3 - апробация, эмпирический анализ качества теста, чистка и коррекция измерителя для повышения надежности и валидности шкалы, проверка размерности пространства измерений или доказательство одномерности теста,

Этап 4 - подтверждение качества шкалы и анализ возможно­сти ее использования для представления результатов учащихся по тесту.

Последний этап начинается с построения устойчивой шкалы, выбранной в соответствии с целями измерения и подходом к со­зданию теста. При последующем использовании теста сырые бал­лы учеников отображаются на готовой шкале, Особую важность на данном этапе имеет процедура выравнивания результатов педаго­гических измерений, полученных учащимися по разным вариан­там теста.

Необходимость выравнивания может быть не совсем понятна педагогу-практику, поскольку е школе принято выдавать суще­ственно различающиеся но трудности варианты контрольных ра­бот, а затем присваивать одинаковые оценочные эквиваленты раз­ным, зачастую несопоставимым, результатам учащихся. В практи­ке педагогических измерений утвердилась другая норма сравне­ния и интерпретации результатов испытуемых, основанная на вы­равнивании, которое представляет собой статистический метод преобразования оценок испытуемых по различным вариантам для обеспечения их сопоставимости.

3. Виды шкал в образовании

Общие цели шкалирования. Процесс шкалирования реализует разные цели в зависимости от подхода, выбранного к разработке теста. При нормативно-ориентированном подходе шкалирован­ные показатели позволяют уточнить место, занимаемое резуль­татом испытуемого относительно норм, или сравнить результа­ты испытуемых, установив место результата каждого учащегося по отношению к результатам остальных учащихся, выполняв­ших этот тест

При критериально-ориентированном подходе шкалированный балл показывает процент освоенного содержания и место результата учащегося в сравнении с критериальным баллом. Перечис­ленным целям отвечают разные шкалы, которые можно постро­ить по результатам выполнения теста.

Шкала перцентильных рангов . Перцентильный (процентильный) ранг для каждого балла определяется процентом испытуемых, которые выполнили столько же или меньше заданий теста. На­пример, если 30 % учащихся выполнили верно по 20 заданий те­ста и получили за каждое из них по одному баллу, то сырой балл «20» соответствует 30-му перцентилю. Таким образом, перцентиль показывает относительное положение испытуемого в выборке уча­щихся, которая выполняла тест. Чем ниже перцентильный ранг результата испытуемого, тем хуже его результаты по сравнению с другими тестируемыми группы.

Перцентили выше 50-го представляют результаты выше сред­него по выборке, а перцентили ниже 50-го - ниже среднего, если в качестве средней нормы выступает медиана, которой соот­ветствует 50-й перцентиль. Для 25-го и 75-го перцентилей суще­ствуют специальные названия: 1-й и 3-й квартили соответственно. Они отсекают нижнюю и верхнюю четверть распределения тесто­вых баллов, поэтому их выделение удобно для сравнения резуль­татов данного тестировании с распределениями результатов по другим тестам.

Бели шкала перцентилей построена на выборке стандартиза­ции, то, используя ее, легко определить ранг каждого учащегося, выполнявшего в другое время тот же тест. Для этого достаточно подсчитать его сырой балл и по готовой таблице соответствия найти соответствующий перцентиль. Первичный балл, который ниже любого результата в выборке стандартизации, будет иметь нуле­вой перцентильный ранг. Результат, превышающий любой другой в выборке, получит перцентильный ранг 100. Конечно, оба эти результата не говорят о нулевом или абсолютном результате вы­полнения теста. Перцентили не следует путать с обычными про-< центными показателями, которые при дихотомическом оценива­нии результатов выполнения отдельных заданий представляют собой выраженную в процентах долю правильно выполненных заданий теста. В отличие от обычных процентов перцентиль явля­ется производным показателем, который оценивается в единицах процента испытуемых.

Перцентили имеют несомненные достоинства - они удобны в подсчете и просты в интерпретации. Помимо достоинств перцентильные ранги имеют два существенных недостатка. Во-первых, они являются значениями порядковой шкалы, так как показыва­ют относительное положение каждого индивида в нормативной выборке, а не определяют величину истинного различия между результатами отдельных испытуемых группы. Во-вторых, пер­центили не только не отражают, но даже искажают реальные различия в результатах выполнения теста. Это связано с особеннос­тями распределения перцентилей, имеющего прямоугольный ха­рактер. В этой связи небольшие отклонения от среднего в центре распределения наблюдаемых баллов будут значительно увеличены перцентилями, в то время как относительно большие отклонения на краях кривой нормального распределения будут сжаты.

Стандартные показатели. Z -шкала. При выборе метода шкали­рования часто обращаются к стандартным показателям, указыва­ющим отличие индивидуального результата испытуемого от сред­него балла повыборке в единицах стандартного отклонения. Эти показатели используются для установления места первичного бал­ла каждого испытуемого в сравнении с результатами других на основе подсчета нормированных отклонений и называются z -оценками. Результат отображения z -оценок на числовую ось образует Z -шкалу.

Для перевода в Z -шкалу сырой балл i -го испытуемого преобра­зуется по формуле

где X i - сырой балл i -го испытуемого; X - среднее значение индивидуальных баллов N испытуемых группы; S x - стандартное отклонение. Поскольку среднее значение X вычитается из каж­дого исходного значения X i , то новое среднее в Z -шкале - z - будет равно нулю, а стандартное отклонение благодаря нормиро­ванию будет равно единице.

Если величина разности X i - X , стоящей в числителе дроби, больше 0, то результат i -го испытуемого выше среднего по тесту. В противном случае индивидуальный балл i -го испытуемого ниже среднего. В силу линейного характера преобразований при получе­нии г-оценок все свойства исходного распределения сырых бал­лов переносятся на множество шкалированных баллов.

Использовать Z -шкалу можно для любого распределения ин­дивидуальных баллов. Особенно удобны z -оценки в случае близо­сти распределения первичных баллов к требованиям нормального закона, поскольку можно заранее предсказать процент результа­тов, лежащих в пределах одного и двух стандартных отклонений под кривой нормального распределения. Несомненным достоин­ством Z -шкалы является общая средняя арифметическая и общая мера вариации данных, позволяющие достичь сравнимости ре­зультатов по разным тестам.

Однако помимо явных достоинств есть и недостатки. Отрица­тельные и дробные оценки, которые нередко получаются при вычитаний среднего и деления на стандартное отклонение, мало­пригодны для сообщения результатов тестирования испытуемых группы. Поэтому применяются специальные, методы линейного преобразования z -оценок для перевода их на множество целых положительных чисел.

Шкалы стандартных оценок, полученных на основе линейных преобразований Z - шкалы. Для перевода - оценок в область поло­жительных целых чисел выбираются новые значения среднего арифметического (М) и стандартного отклонения (σ). Они сохраняют все различия между баллами испытуемых, выявленные в Z -шкале, но позволяют избавиться от отрицательных и дробных значений z благодаря умножению каждой z -оценки на одно и то же число, а также прибавлению общей константы и последующему округлению. Для преобразования z -оценок используется формула

z 1 =M + σ z (19)

где М - новое среднее арифметическое; σ - новое стандартное отклонение.

В качестве значений M и σ в формуле (19) можно использовать любые удобные числа. Например, для шкалы IQ эти значения равны 100 и 15. Поэтому z IQ =100+15 z . Другое линейное преобразование c M = 50+10 z переводит значения z в стобалльную T -шкалу по формуле Т = 50 + 1 0 z . Эта шкала позволяет избавиться от дроб­ных и отрицательных значений только в том случае, если значе­ния z лежат в интервале от -5 до +5 и имеют один знак после запя­той. В противном случае, если показатели подсчитаны с точнос­тью до сотых, необходимо последующее округление T -показателей, что может привести к снижению дифференцирующего эф­фекта теста.

Для шкалы СЕЕВ по тестам SAT (Scolastic Aptitude Test ), разра­ботанным Советом по приемным экзаменам в колледжи, z -оценки пересчитывают c я со средним М = 500 и σ = 100 по формуле z CEEB = 500 + 100 z . Значению z = -1 будет соответствовать значение z CEEB = 500 + 100 (-1) = 400. A при z = +1 т- z CEEB = 600. Таким образом, в шкале СЕЕВ все дробные z -оценки превращаются в целые и попадают в интервал (0; 1000) в тех случаях, когда Z лежит в интервале (-5; +5). Так же в тысячебалльную шкалу пере­водятся оценки результатов выполнения таких известных в мире тестов, как GRE (Graduate Record Examination ) и. др.

Сопоставимость и выравнивание. Поскольку обеспечение сопо­ставимости результатов педагогических измерений является од­ной из главных причин перехода от сырых баллов к производным показателям в процессе шкалирования, то возникает вопрос о возможности сравнения z -оценок, полученных на основе различ­ных вариантов тестя. Ответ на этот вопрос на теоретическом уров­не носит, несомненно, положительный характер в тех случаях, когда сравниваются z -оценки по параллельным вариантам одного и того же теста. Однако на практике из-за неизбежных отклоне­ний от требований параллельности и существования ошибок из­мерения для повышения сопоставимости оценок испытуемых обыч­но используют процедуру выравнивания.


Рис. 33. Сопоставление шкал

В отдельных случаях возникает необходимость сравнения отно­сительного положения испытуемых, полученного в различных шкалах и по различным тестам. Если результаты тестирования имеют нормальное распределение, а выстроенные шкалы основа­ны на идентичных выборках испытуемых, такое сравнение можно провести с помощью рис. 33.

Чтобы добиться сопоставимости результатов тестирования в ситуации отличия распределений баллов от нормального закона, необходимо преобразование, изменяющее вид кривой распреде­ления с целью приближения ее к виду нормальной кривой.

Нормализация данных тестирования. Для нормализации данных тестирования используется нелинейное преобразование, позво­ляющее придать эмпирическому распределению желаемую форму нормальной кривой. С этой целью вводятся нормализованные стандартные показатели, соответствующие распределению, преобра­зованному так, что оно аппроксимируется формой нормальной кривой. Их значения могут быть найдены с помощью таблиц, в которых приводится процент случаев различных отклонений в единицах от среднего значения для нормальной кривой.

Преобразование сырых баллов к нормальному распределению осуществляется способом, получившим название пробшп-преобразования . В рамках процедуры преобразования баллов сначала для каждого сырого показателя определяется кумулированная час­тота, которая представляет собой сумму всех частот, лежащих ниже данного сырого показателя. Затем к ней добавляется половина ко­личества испытуемых, имеющих этот сырой балл. По этим данным вычисляется кумулированная доля путем деления полученной сум­мы на общее число испытуемых выборки. Затем по статистическим таблицам, содержащим значения площади под кривой нормально­го распределения, находят значения нормализованных стандарт­ных Показателей для каждой кумулированной доли |63].

Нормализованный стандартный показатель, как и линейно пре­образованный стандартный показатель, имеет среднее значение «О», а стандартное отклонение - «1». Результат учащегося в «-1» балл можно интерпретировать как превосходящий приблизитель­но 16% результатов группы, а в «+1» балл - как превосходящий 84 % всех результатов.

Шкала станайнов, стенов и другие шкалы. Нормализованным стандартным показателям, так же как и линейно преобразован­ным, стараются придать удобную форму, пригодную для сообще­ния испытуемым. Для этого используют шкалы стандартных деся­ти или девяти единиц. Разбиение нормального распределения на девять интервалов приводит к шкале станайнов, имеющей девять стандартных единиц. Название «станайн» связано с тем, что оцен­ки в этой шкале принимают значения от «1» до «9». При оценке результатов испытуемых по тесту 4 % самых худших результатов присваивается станайн 1, а самых лучших - станайн 9. Следую­щим за худшими и лучшими 7 % результатов присваивают ста-найны 2 и 8 соответственно. Далее 12 % результатов - станайны 3 и 7. Следующим 17% присваивают станайны 4 и б и, наконец, 20% средних результатов - станайн 5 (табл. 16). .

Помимо описанной шкалы станайнов существуют еще две шка­лы, имеющие некоторое, преимущество перед девятибалльной в смысле различающей способности. Одна из них - шкала стандарт­ных десяти единиц, называемая также шкалой Кэтгелла, или шка­лой стенов ( sten ). Как следует из названия, весь массив результатов делится на десять частей с интервалом 0,5 стандартного отклоне­ния. В шкале стенов среднее арифметическое принимается равным 5,5, а расстояние между двумя соседними стандартными едини­цами равно 0,5 S x .

Таблица 16

Таблица соответствия процентов и станайнов

Процент

Станайн

Какие шкалы использовать в педагогических измерениях . Многие из шкал, приведенных выше, используются исключительно психо­логами, другие нашли свое применение в образовании. В практике деятельности зарубежных тестовых служб в образований чаще всего обращаются к стобалльной или тысячебалльной шкале, получен­ным на основе преобразования z -оценок. Хотя тысячебалльная шка­ла обладает высокими дифференцирующими возможностями, обычно ее концы оказываются не работающими в силу специаль­ного подбора по трудности заданий теста для приближения час­тотных распределений оценок трудности к виду нормальной кри­вой. Поэтому, как правило, оценки испытуемых распределяются в интервале от 200 до 800 баллов. Но даже использование менее протяженного диапазона оценок, чем тысячебалльная шкала, тре­бует специальных профессиональных навыков по интерпретации баллов учащихся.

Как осмыслить свой результат, если он, например, равен 570 или 650 баллам? Как отнести его к категории плохих или хо­роших результатов на столь широком диапазоне баллов? Другое дело, если результат испытуемого составляет 5 или 6 баллов по девятибалльной шкале. Поэтому к растянутым шкалам обычно обращаются профессиональные тестовые службы для массового тестирования в образовании, когда большое число испытуемых требует повышения дифференцирующей способности шкалы.

В России при шкалировании данных ЕГЭ была выбрана сто­балльная шкала, в которую переводятся оценки выпускников. Ко­нечно, стобалльная шкала - это своего рода компромисс между потребностью в хорошем дифференцирующем эффекте шкалы из-за значительного числа тестируемых во всех регионах и постепен­ным переходом от пятибалльной шкалы, существовавшей на про­тяжении многих лет в России, к более растянутым шкалам.

4. Шкалирование результатов тестирования на основе теории IRT

Построение шкалы с помощью современной теории тестов. Рас­смотренные в предыдущем разделе шкалы позволяют сопоставить результаты тестирования и служат удобной формой их интерпре­тации, но они не повышают уровень измерений в силу того, что используют статистический аппарат классической теории тестов. Порядковая шкала сырых баллов испытуемых переходит в поряд­ковую шкалу производных стандартизированных показателей, не позволяющих интерпретировать разность результатов двух испы­туемых, выполнявших один и тот же тест. Зарубежные исследова­ния конца 80-х гг. XX в. показали возможность построения интер­вальной шкалы результатов педагогических измерений в том слу­чае, если для создания теста и шкалирования результатов его вы­полнения используется теория IRT .

Условно процесс шкалирования в IRT можно подразделить на три этапа. Первый предполагает построение шкалы логитов для латентного параметра подготовленности испытуемых, второй - шкалы логитов для оценок латентного параметра трудности зада­ний. Третий этап позволяет свести две шкалы в общую шкалу стан­дартных оценок для обоих латентных параметров.

Связь шкалы логитов и шкалы Гуттмана. Процедура построения шкалы латентных переменных связана с так называемым шкали­рованием по Гуттману ( Guiiman - type scale ), в которой задания отбираются в порядке нарастания их трудности по определенным, тщательно структурированным элементам содержания дисципли­ны. Отличительной особенностью шкалы Гуттмана является су­ществование стойкого кумулятивного эффекта, означающего, что любой испытуемый с правильной структурой знаний, справив­шийся с j -м заданием, может наверняка успешно выполнить все предыдущие, более легкие задания теста. В понимании Гуттмана совершенная шкала существует в том случае, если по последнему правильному ответу испытуемого можно воспроизвести все его ответы на более легкие задания теста.

Конечно, стойкий кумулятивный эффект наблюдается далеко не всегда. В основном он характерен для заданий, довольно тесно связанных по содержанию. Для иллюстрации идей Гуттмана в ан­глоязычной методической литературе популярен следующий при­мер заданий на умножение:

Он вполне ясно, хотя и довольно упрощенно, показывает, как реализуется эффект кумулятивности на практике. Действительно, если испытуемый умеет умножать на четырехзначное число, то он тем более справится с умножением на трех-, двух- и однозначные числа.

Шкалирование на основе теории IRT в определенной степени преодолевает ограниченность предположении шкалы Гуттмана, поскольку является вероятностной версией и отражает сущность тестовых процессов, неизбежно связанных с ошибками. измерения. Согласно моделям IRT о правильном выполнении любого задания испытуемым, можно прогнозировать успешность лишь в том слунае, если эта вероятность близка к единице.

Преимущества и проблемы шкалирования по теории IRT . Инва­риантность оценок параметров испытуемых относительно трудно­сти заданий теста, достигаемая благодаря, возможностям IRT , позволяет реализовать эффект специфической объективности, который способствует Повышению точности оценок параметра под­готовленности учащихся. Благодаря единой шкале интервального типа в IRT разности оценок латентных параметров испытуемых приобретают вполне интерпретируемый смысл, поскольку их мож­но считать мерой отличия в подготовленности испытуемых по пред­мету. Таким образом, теория IRT повышает возможности педаго­гической интерпретации шкалированных баллов, учащихся. С ее помощью можно сопоставить приращения в обученности учащихся и повысить надежность их оценок по тесту.

Однако реализовать преимущества теории IRT довольно слож­но. Для этого необходимо обеспечить выполнение ряда условий ее применимости, без которых эффект инвариантности не имеет места. В частности нужно обеспечить конструирование теста на основе теории 1 RT , подтвердить соответствие эмпирических данных тес­тирования требованиям моделей измерения или удалить неподхо­дящие данные по результатам выполнения теста. Необходимо так­же обеспечить нормальный характер распределения сырых баллов учащихся, оценок трудности заданий теста, ошибок измерения и реализовать требование локальной независимости отдельных за­даний теста. Немало проблем вызывает расходимость итерацион­ных процессов, работающих в методе максимального правдопо­добия при переходе от начальных оценок к наиболее эффектив­ным оценкам параметров испытуемых и трудности заданий теста. Поэтому теория IRT в шкалировании используется далеко не все­гда, только в случаях массового тестирования для принятия адми­нистративно-управленческих решений в образовании, когда есть смысл тратить силы на разработку и применение теста.

Преобразования шкалы логитов. Поскольку оценки параметров подготовленности учащихся и трудности заданий теста в шкале логитов обычно лежат в интервале (-5; 5) и имеют несколько знаков после запятой, они малопригодны для сообщения испы­туемым без приведения к целому неотрицательному виду. Поэто­му необходимы линейные преобразования оценок в другую, бо­лее удобную для сообщения результатов шкалу подобно тому, как это происходит с z -оценками.

Сначала все значения параметров умножают на один и тот же множитель для перевода результатов в область целых чисел и округляют результат, до целых. Затем переносят все значения па­раметров на множество положительных чисел путем прибавления некоторой константы, определяющей новую точку отсчета на шкале, для того чтобы избавиться от отрицательных оценок пара­метра подготовленности θ. Примеры таких преобразований приве­дены в специальной литературе по шкалированию результатов пе­дагогических измерений.

5. Шкалирование в критериально-ориентированном тестировании

Виды шкал в критериально -ориентированном тестировании . Виды шкал в критериально-ориентированном тестировании выбирают­ся в зависимости от предназначения теста. Если тесты использу­ются для оценки степени освоения содержательной области (domain - referenced tests ), отображение которой в тесте условно можно принять за 100%, то каждый балл учащегося показывает процент освоенного содержания. Процесс шкалирования осуще­ствляется достаточно просто балл, набранный учащимся, делят на максимально возможный балл по тесту и полученную величи­ну умножают на 100 %. Упорядочение найденных результатов и их нанесение на ось позволяют построить шкалу, каждая точка кото­рой соответствует проценту усвоенного содержания для учащего­ся или группы учеников.

В другом случае, когда критериально-ориентированный тест применяется для деления тестируемых на две или несколько групп с помощью порогового (критериального) балла (mastery test ), стро­ится номинальная шкала. Например, подобное деление происхо­дит при аттестации: в одну группу попадают аттестованные, а в другую - не аттестованные учащиеся, как не выполнившие запланированный процент заданий теста. Основная трудность при таком шкалировании заключается в установлении порогового бапла для отсечения группы учащихся, не показавшей достаточного вла­дения содержанием теста.

Методы выбора критериального балла. Для установления поро­гового балла используются три метода. В первом случае балл устанавливается экспертным путем, априорно, на основе анализа целостного содержания теста. Во втором случае эксперты выбирают пороговый балл на основе анализа.содержания тесто­вых заданий и присвоения им априорных оценок трудности, с помощью которых выделяется критерий отбора в группу аттесто­ванных учащихся. В третьем случае для определения поро­гового балла анализируются эмпирические данные по результа­там апробации теста на репрезентативной выборке учащихся, и используется метод контрастных групп.

Для получения валидного значения критериального балла тре­тьим методом прежде всего необходимо Провести предварительное тестирование на близком по содержанию входном претесте или отобрать группу экспертов, хорошо представляющих, подго­товленность тестируемой выборки учащихся. По результатам претеста или экспертизы из группы учащихся выделяются две кон­трастные подгруппы: заведомо не готовых к тесту самых слабых - 27 % и 27 % самых сильных, хорошо подготовленных к тестирова­нию. В совокупности получаются две контрастные по подготов­ленности выборки учеников. Затем каждой подгруппе (слабой и сильной) выдается критериально-ориентированный тест, распре­деление баллов по которому строится на одном графике отдельно для слабых и сильных учащихся (сглаженные кривые - рис. 34, экспериментальные кривые - рис. 35).


Рис. .34. Сглаженные частотные распределения баллов по тесту для контра­стных подгрупп


Рис; 35. Эмпирические частотные распределения баллов по тесту для конт­растных подгрупп

После проведения тестирования на репрезентативной выборке учащихся и построения частотных распределений для контрастных групп устанавливается критериальный балл в точке, соответствую­щей на горизонтальной оси пересечению кривых распределения баллов. Эта точка пересечения, спроецированная на рис. 35 на гори­зонтальную ось, наиболее четко разделяет группы не аттестован­ных и аттестованных учащихся, поскольку в ней наблюдается наи­меньший процент ошибочных решений - одновременно миними­зируется число учащихся, обладающих достаточно высокой подго­товкой, но попавших в группу не аттестованных (часть кривой А слева от вертикальной прямой) и число неподготовленных учени­ков, ошибочно отнесенных к категории прошедших за пороговый балл (часть кривой В справа от вертикальной прямой). Полученный пороговый балл обладает наибольшей достоверностью по сравне­нию с его аналогами, определенными экспертными методами.

Уровневые шкалы, совмещающие нормативно-ориентированный и критериально-ориентированный подходы. Для получения надеж­ных и обоснованных результатов итоговой аттестации выпускни­ков учебных заведений тестовый балл иногда дополняют развер­нутой содержательной интерпретацией, описывающей характе­ристики уровня подготовки учащегося в терминах освоенных эле­ментов содержания.

Такие шкалы, позволяющие совмес­тить интерпретацию оценки испытуемо­го по отношению к результатам осталь­ных тестируемых и к уровням освоения содержания, выделенным по критериаль­ному принципу, получили название уровневых. Пример уровневой шкалы приве­ден на рис. 36, на котором диапазоны ты­сячеб a лльной шкалы, выбранные гипо­тетически, соотносятся с уровнями под­готовки.

рис. 36. пример уровневой шкалы

На рисунке выделен базовый и про­межуточный уровни вместе с уровнем высокой компетентности. Для построения уровневой шкалы обычно шкалируют результаты репрезентативной группы уча­щихся в рамках нормативно-ориентиро­ванного подхода и строят стандартизо­ванную шкалу тестовых баллов. Затем на шкале выделяют диапазоны и выявляют совокупности содержательных элементов, освоенных учащимися в каждом диапазоне, дополняя детальным описанием освоенных знаний и умений.

Упрошенная трактовка рейтинговой шкалы. В российской систе­ме высшего и среднего образования нет устоявшихся определе­ний, позволяющих однозначно определить рейтинговый, балл уча­щегося. В основном под ним понимают накопленный балл, полу­ченный в результате простого или взвешенного суммирования оценок в порядковых шкалах, которые строятся на основе субъек­тивного выставления и учета баллов учащегося в соответствии с различными уровнями учебной деятельности, временными про­межутками в обучении или уровнями усвоения. Нередко к сумативным оценкам, характеризующим успеваемость, прибавляют поощрительные баллы за своевременную: сдачу заданий, актив­ность на занятиях, хорошую посещаемость и т.д.

Такая упрощенная трактовка, далекая от педагогических изме­рений, таит в себе, по меньшей мере, две серьезные ошибки: во-первых, операция суммирования является недопустимой на порядковом уровне измерений и, во-вторых, происходит бессмыс­ленное объединение баллов по различным переменным, что ис­ключает возможность какой-либо корректной интерпретации ре­зультатов подобного объединения. Вполне возможна ситуация, когда в. сумме баллов, накопленной учащимся за определенный период обучения, будут доминировать оценки по второстепен­ным переменным, не имеющим заметного отношения к целям образования.

Таким образом, за видимой простотой операции получения рейтингового балла скрывается серьезная опасность: по результа­там обучения могут быть признаны лучшими те учащиеся, кото­рые не обладают творческим мышлением, но вовремя сдают до­машние задания, не пропускают уроков и не нарушают дисцип­лины в классе.

Обращение к рейтинговой шкале в связке с контрольными за­даниями для модулей, построенным на деятельностной основе в русле идей модульного обучения, немного повышает корректность приведенной выше упрощенной трактовки. По крайней мере вы­деление модулей происходит на содержательной основе и по­зволяет накапливать оценки уровней усвоения конкретных пред­метных знаний, что способствует обоснованной интерпретации суммарной оценки.

В целом рейтинговые баллы при корректном подходе к их под­счету и интерпретации могут оказать позитивное влияние на кон­трольно-оценочную систему в образовании. Они способствуют си­стематической работе учащихся, снижают роль случайности при сдаче экзаменов и снимают нервное напряжение во время экза­менов благодаря заблаговременному накоплению оценок резуль­татов обучения.

Корректный подход к построению рейтинговых шкал на основе теорий педагогических измерений. Для корректного построения рейтинговых шкал необходимо выполнять ряд условий. В зарубежной литературе к ним относят:

Концептуальное выделение переменных измерения;

Использование тестов с высокой содержательной и конструктной валидностью для получения баллов учащихся по каждой переменной;

Интеграцию результатов по отдельным шкалам (количествен­ного характера) в единую рейтинговую шкалу с использованием весовых коэффициентов, определенных с помощью регрессион­ного анализа и методов выравнивания шкал для тестов различной длины при последующем объединении взвешенных количествен­ных баллов по отдельным шкалам.

В целом необходимо отметить, что построение рейтинговых шкал требует от учителя определенной методической подготов­ки, наличия тестов и систематической работы по корректному построению отдельных шкал. При этом повышается нагрузка пе­дагога, поэтому обманчивая простота рейтингования на деле при правильном подходе оборачивается значительными трудозатрата­ми: Под вопросом остается общий эффект, поскольку пока неяс­но, оправданны ли такие затраты энергии со стороны педагогов или нет.

Просмотров