Надежность теста способы достижения надежности

Содержание

Надежность теста
Надежность теста способы достижения надежности
Надежность теста
Надежность теста
Надежность эксперимента
Этапы стандартизации

Надежность теста

Показатели надежности методик зависят от многих причин. Основные из них:

— нестабильность самого диагностируемого свойства

— небрежно составленная инструкция

— задания по своему характеру слишком разнородны

— нечетко сформулированы указания по предъявлению методики испытуемым

— иные несовершенства психодиагностической методики

— меняющаяся ситуация обследования (разное время дня, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.п.)

— различия в манере поведения психодиагноста

— колебания в функциональном состоянии испытуемого

— личностные изменения самих испытуемых (особенно характерно для школьных возрастов, когда даже за месяц у испытуемых может произойти значительный рывок в развитии)

— изменение отношения к психодиагностике со стороны испытуемых

— элементы субъективности в способах оценки и интерпретации результатов (человеческий фактор; особенно актуально для проективных методик)

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Следует учесть, что в реальной жизни методика используется в разных условиях, поэтому для повышения надежности ее необходимо очень тщательно и подробно излагать условия проведения в руководстве.

Повторное применение надежной методики должно давать сходные оценки. Как пишет известный теоретик психодиагностики А. Анастази (1982), вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу 80. Должны совпадать как сами результаты, так и порядковое место (ранг) испытуемого в группе. При повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными в пределах одной группы.

Надежность лучше определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Для вычисления показателей надежности обычно применяют коэффициенты корреляции. Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице.

К.М. Гуревич предлагает определять надежность по трем показателям:

— показатель, характеризующий измерительный инструмент (коэффициентом надежности)

— показатель, характеризующий стабильность измеряемого свойства (коэффициентом стабильности)

— показатель оценки влияния личности экспериментатора (коэффициентом константности)

Следует учитывать, что в погоне за надежностью методики можно потерять ее валидность. Под влиянием разных обстоятельств психические свойства человека могут довольно резко меняться. Психодиагностика практически не имеет дела с неизменяемыми на протяжении жизни качествами (т.е. врожденными). Для методик, диагностирующих психическое состояние, само понятие «надежность» практически неуместно.

Источник

Надежность теста способы достижения надежности

Надежность — это отношение дисперсии истинных баллов к дисперсии наблюдаемых баллов

Надежность — это отсутствие дисперсии ошибки

Корреляции

Надежность — это (квадратная) корреляция между наблюдаемыми и истинными баллами
Надежность — это отсутствие корреляции между наблюдаемыми баллами и ошибкой

Надежность теста — фундаментальная характеристика теста, которая показывает в какой степени стабильны результаты тестирования при неоднократном обследовании. Надежность теста может определяться путем повторного тестирования (через строго определенный отрезок времени) и вычисления коэффициента корреляции между результатами первого и повторного тестирования. Надежность теста может определяться и путем тестирования с помощью нескольких вариантов одного и того же теста, деления теста на две половины и т.д. Надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования (она должна быть абсолютно идентичной в первом и во втором случае), социально-психологической однородности выборки (н. т. будет различной для детей, мужчин, женщин, солдат первого года – службы, старослужащих солдат и т.д.). И может получиться, что будучи надежным для одной группы людей, тест окажется ненадежным для другой, результаты тестирования в последнем случае будут неверны.

Как можно описать надежный тест? Надежный тест измеряет некое качество, делает это устойчиво, относительно времени, позволяет сравнивать результаты испытуемых, протестированных в разное время, в разном месте, в разном состоянии.

Вариабельность измеряемого признака (вариативность как свойство психологического измерения) и многомерность, системность и сложность предмета психологии также ставят под сомнение любое измерение в психологии. Для повышения качества психологического измерения в психометрике используется такой показатель как валидность.

На результаты исследования действуют две группы факторов: (1)изменчивость, присущей самому измеряемому свойству, (2) нестабильность измерительной процедуры.

Свойства надежности могут изменяться при изменении:

1. условия проведения обследования,

2. характера заданий,

3. степени сложности заданий,

4. психологического состояния испытуемого.

Виды надежности (помним, что «вид» — это условное название, это скорее точка зрения на надежность).В отношении видов надежности у разных авторов можно встретить определенное единодушие. Наиболее широкое практическое применение находят несколько типов характеристик надежности: ретестовая, экспертная, параллельных форм, частей теста. Охарактеризуем каждый вид надежности.

Ретестовая надежность – характеристика надежности метода психодиагностики путем повторного обследования с помощью одного и того же теста. Надежность вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте.

Алгоритм вычисления ретестовой надежности:

1. первичное тестирование на выборке (при N ≥ 30);

2. повторное тестирование через 5 – 6 месяцев на той же самой выборке;

3. вычисление коэффициента корреляции между первичным и повторным тестированием.

Коэффициент надежности r_t соответствует коэффициенту корреляции между результатами первичного и повторного обследований.

Ретестовая надежность пригодна для ограниченного числа методик. Это: 1) Сенсомоторные пробы, 2) Тесты скорости, 3) Тесты, имеющие большое количество пунктов (ММ PI ). Одним из «минусов» процедуры определения ретестовой надежности является «эффект тренировки», который безусловно снижает достовенность надежности теста.

Для порядковых шкал в качестве меры устойчивости к повторному тестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.

Еще одним достаточно популярным видом надежности является надежность параллельных форм. Параллельные (или взаимозаменяемые, или сопоставимые) формы:

· параллельные или взаимозаменяемые (снабженные таблицами эквивалентности);

· уравненные (попарно уравненные по структуре и содержанию задания);

· эквивалентные (результаты с близкими статистическими характеристиками).

Надежность параллельных форм – характеристика надежности методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем – с применением аналогичных дополнительных. В практике встречается два алгоритма вычисления надежности параллельных форм.

Первый алгоритм определения надежности параллельных форм:

1. тестирование группы при помощи формы А теста;

2. тестирование группы при помощи формы Б теста (или сразу, или через определенное время);

3. вычисление коэффициента корреляции между результатами тестирования разными формами.

Второй алгоритм вычисления надежности параллельных форм:

1. разделение всех испытуемых на две группы (первая и вторая);

2. тестирование первой группы при помощи формы А теста;

3. тестирование второй группы при помощи формы Б теста;

4. тестирование первой группы при помощи формы Б теста (или сразу, или через определенное время);

5. тестирование второй группы при помощи формы А теста (или сразу, или через определенное время);

6. вычисление коэффициента корреляции между результатами первичного и вторичного исследований.

Надежность частей теста достаточно популярный и просто-просчитываемый вид надежности. Надежность частей теста – характеристика надежности методики путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.

Основным методом вычисления надежности частей теста является расщепление – выполнение испытуемым двух равноценных частей теста. Для оценки надежности методом расщепления выбираются две эквивалентные по характеру и степени трудности группы задач. Разделение объема заданий достигается одним из способов:

1) распределение заданий на четные и нечетные (в том случае, если задания строго ранжированы по степени субъективной трудности).

2) разделение пунктов по принципу близости или равенства значений индексов трудности (такой принцип пригоден для тестов достижений, в которых обязателен ответ на все пункты).

3) разделение задач по времени решения каждой из частей (для тестов скорости).

Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Расщепление возможно на 3, 4, 5 и более частей. В предельном случае число частей равно числу пунктов.

1. провести однократное тестирование на выборке (при N ≥ 30);

2. расщепить тест (используя один из вышеописанных способов), например на четные – нечетные задания;

3. посчитать коэффициент корреляции между выполнением первой и второй половины теста;

4. для перехода к целой форме вычислить надежность целого теста (или формула Спирмена-Брауна, или формулу Рюлона).

Надежность отдельных заданий теста — характеристика надежности методики путем анализа устойчивости результатов отдельных тестовых задач или единичных заданий теста.

Алгоритм вычисления надежности отдельных заданий теста:

1. провести однократное тестирование на выборке (при N ≥ 30);

2. используя результаты выполнения каждого задания, подсчитать коэффициент Кьюдера-Ричардсона (для заданий «1-0») или коэффициент Кронбаха (для более дифференцированных заданий);

Коэффициент Кьюдера-Ричардсона используется для заданий типа «да-нет», «решил – не решил», «верно-неверно».

Надежность субъективных оценок (или экспертная надежность) – характеристика надежности методики путем анализа устойчивости-согласованности экспертных оценок.

Алгоритм вычисления экспертной надежности:

однократное тестирование на выборке (при N ≥ 30);
обработка полученных результатов независимыми экспертами;
подсчет коэффициента корреляции между оценками разных экспертов;
при необходимости проведение программы по повышению согласованности экспертов.

Особый научный интерес представляют описания программ по повышению согласованности оценок экспертов (начиная от простого обсуждения критериев оценки протокола, заканчивая обсуждением видеозаписи и работы с эталонными протоколами и т.п.) Работа в группах по два — три эксперта (оценки которых согласованы) с одной стороны существенно облегчает деятельность психодиагноста на производстве, а с другой стороны влияет на объективность инструментария в целом.

Сравнительные методы установления надежности

Необходимость повторного тестирования

Достаточное число форм

Источники ошибки индекса надежности

Запоминание, тренировка, научение, длина интервала.

Запоминание, тренировка, научение, недостаточная эквивалентность форм

Частей теста (методом расщепления)

Неоднородность содержания, число заданий в тесте

Число заданий в тесте неоднородность содержания,

Источник

Надежность теста

Надежность теста один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Надежность теста, тем относительно свободнее он от погрешностей измерения. Надежность теста рассматривается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.

Надежность теста

Надежность эксперимента

устойчивость результатов эксперимента при его проведении второй, третий, четвертый и т.д. раз.

Добиться объективности психологического теста можно при выполнении следующих условий:

1) единообразие процедуры проведения теста для получения сравнимых с нормой (см. ниже) результатов;

2) единообразие оценки выполнения теста;

3) определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тестирования (см. здесь «третий этап стандартизации»).

Эти три условия называют этапами стандартизации психологического теста.

Этапы стандартизации

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

1) условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.

2) Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах.

3) Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные — с определенной цветовой гаммой и цветовыми оттенками.

4) Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5) Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.

6) Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7) Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «правильного ответа» и др.

8) Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.

Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Третий этап стандартизации психологического теста состоит в определении норм выполнения теста.

Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:

Школьные нормы — разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны.

Профессиональные нормы устанавливаются на основе тестов для разных профессиональных групп (например, механиков разного профиля, машинисток и др.).

Локальные нормы устанавливаются и применяются для узких категорий людей, отличающихся наличием общего- признака — возраста, пола, географического района, социо-экономического статуса и др. Например, для теста Векслера на интеллект нормы ограничены возрастными рамками.

Национальные нормы разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм определяется конкретной культурой, моральными требованиями и традициями каждой нации.

Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.

Источник