Надежность виды надежности способы ее измерения

Надежность — это отношение дисперсии истинных баллов к дисперсии наблюдаемых баллов

Надежность — это отсутствие дисперсии ошибки

Корреляции

Надежность — это (квадратная) корреляция между наблюдаемыми и истинными баллами
Надежность — это отсутствие корреляции между наблюдаемыми баллами и ошибкой

Надежность теста — фундаментальная характеристика теста, которая показывает в какой степени стабильны результаты тестирования при неоднократном обследовании. Надежность теста может определяться путем повторного тестирования (через строго определенный отрезок времени) и вычисления коэффициента корреляции между результатами первого и повторного тестирования. Надежность теста может определяться и путем тестирования с помощью нескольких вариантов одного и того же теста, деления теста на две половины и т.д. Надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования (она должна быть абсолютно идентичной в первом и во втором случае), социально-психологической однородности выборки (н. т. будет различной для детей, мужчин, женщин, солдат первого года – службы, старослужащих солдат и т.д.). И может получиться, что будучи надежным для одной группы людей, тест окажется ненадежным для другой, результаты тестирования в последнем случае будут неверны.

Как можно описать надежный тест? Надежный тест измеряет некое качество, делает это устойчиво, относительно времени, позволяет сравнивать результаты испытуемых, протестированных в разное время, в разном месте, в разном состоянии.

Вариабельность измеряемого признака (вариативность как свойство психологического измерения) и многомерность, системность и сложность предмета психологии также ставят под сомнение любое измерение в психологии. Для повышения качества психологического измерения в психометрике используется такой показатель как валидность.

На результаты исследования действуют две группы факторов: (1)изменчивость, присущей самому измеряемому свойству, (2) нестабильность измерительной процедуры.

Свойства надежности могут изменяться при изменении:

1. условия проведения обследования,

2. характера заданий,

3. степени сложности заданий,

4. психологического состояния испытуемого.

Виды надежности (помним, что «вид» — это условное название, это скорее точка зрения на надежность).В отношении видов надежности у разных авторов можно встретить определенное единодушие. Наиболее широкое практическое применение находят несколько типов характеристик надежности: ретестовая, экспертная, параллельных форм, частей теста. Охарактеризуем каждый вид надежности.

Ретестовая надежность – характеристика надежности метода психодиагностики путем повторного обследования с помощью одного и того же теста. Надежность вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте.

Алгоритм вычисления ретестовой надежности:

1. первичное тестирование на выборке (при N ≥ 30);

2. повторное тестирование через 5 – 6 месяцев на той же самой выборке;

3. вычисление коэффициента корреляции между первичным и повторным тестированием.

Коэффициент надежности r_t соответствует коэффициенту корреляции между результатами первичного и повторного обследований.

Ретестовая надежность пригодна для ограниченного числа методик. Это: 1) Сенсомоторные пробы, 2) Тесты скорости, 3) Тесты, имеющие большое количество пунктов (ММ PI ). Одним из «минусов» процедуры определения ретестовой надежности является «эффект тренировки», который безусловно снижает достовенность надежности теста.

Для порядковых шкал в качестве меры устойчивости к повторному тестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.

Еще одним достаточно популярным видом надежности является надежность параллельных форм. Параллельные (или взаимозаменяемые, или сопоставимые) формы:

· параллельные или взаимозаменяемые (снабженные таблицами эквивалентности);

· уравненные (попарно уравненные по структуре и содержанию задания);

· эквивалентные (результаты с близкими статистическими характеристиками).

Надежность параллельных форм – характеристика надежности методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем – с применением аналогичных дополнительных. В практике встречается два алгоритма вычисления надежности параллельных форм.

Первый алгоритм определения надежности параллельных форм:

1. тестирование группы при помощи формы А теста;

2. тестирование группы при помощи формы Б теста (или сразу, или через определенное время);

3. вычисление коэффициента корреляции между результатами тестирования разными формами.

Второй алгоритм вычисления надежности параллельных форм:

1. разделение всех испытуемых на две группы (первая и вторая);

2. тестирование первой группы при помощи формы А теста;

3. тестирование второй группы при помощи формы Б теста;

4. тестирование первой группы при помощи формы Б теста (или сразу, или через определенное время);

5. тестирование второй группы при помощи формы А теста (или сразу, или через определенное время);

6. вычисление коэффициента корреляции между результатами первичного и вторичного исследований.

Надежность частей теста достаточно популярный и просто-просчитываемый вид надежности. Надежность частей теста – характеристика надежности методики путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.

Основным методом вычисления надежности частей теста является расщепление – выполнение испытуемым двух равноценных частей теста. Для оценки надежности методом расщепления выбираются две эквивалентные по характеру и степени трудности группы задач. Разделение объема заданий достигается одним из способов:

1) распределение заданий на четные и нечетные (в том случае, если задания строго ранжированы по степени субъективной трудности).

2) разделение пунктов по принципу близости или равенства значений индексов трудности (такой принцип пригоден для тестов достижений, в которых обязателен ответ на все пункты).

3) разделение задач по времени решения каждой из частей (для тестов скорости).

Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Расщепление возможно на 3, 4, 5 и более частей. В предельном случае число частей равно числу пунктов.

1. провести однократное тестирование на выборке (при N ≥ 30);

2. расщепить тест (используя один из вышеописанных способов), например на четные – нечетные задания;

3. посчитать коэффициент корреляции между выполнением первой и второй половины теста;

4. для перехода к целой форме вычислить надежность целого теста (или формула Спирмена-Брауна, или формулу Рюлона).

Надежность отдельных заданий теста — характеристика надежности методики путем анализа устойчивости результатов отдельных тестовых задач или единичных заданий теста.

Алгоритм вычисления надежности отдельных заданий теста:

1. провести однократное тестирование на выборке (при N ≥ 30);

2. используя результаты выполнения каждого задания, подсчитать коэффициент Кьюдера-Ричардсона (для заданий «1-0») или коэффициент Кронбаха (для более дифференцированных заданий);

Коэффициент Кьюдера-Ричардсона используется для заданий типа «да-нет», «решил – не решил», «верно-неверно».

Надежность субъективных оценок (или экспертная надежность) – характеристика надежности методики путем анализа устойчивости-согласованности экспертных оценок.

Алгоритм вычисления экспертной надежности:

однократное тестирование на выборке (при N ≥ 30);
обработка полученных результатов независимыми экспертами;
подсчет коэффициента корреляции между оценками разных экспертов;
при необходимости проведение программы по повышению согласованности экспертов.

Особый научный интерес представляют описания программ по повышению согласованности оценок экспертов (начиная от простого обсуждения критериев оценки протокола, заканчивая обсуждением видеозаписи и работы с эталонными протоколами и т.п.) Работа в группах по два — три эксперта (оценки которых согласованы) с одной стороны существенно облегчает деятельность психодиагноста на производстве, а с другой стороны влияет на объективность инструментария в целом.

Сравнительные методы установления надежности

Необходимость повторного тестирования

Достаточное число форм

Источники ошибки индекса надежности

Запоминание, тренировка, научение, длина интервала.

Запоминание, тренировка, научение, недостаточная эквивалентность форм

Частей теста (методом расщепления)

Неоднородность содержания, число заданий в тесте

Число заданий в тесте неоднородность содержания,

Источник

Виды и способы определения надежности

· Виды надежности, для расчета которых необходимо два измерения

1. Ретестовая надежность(надежность-устойчивость) предполагает повторное предъявление теста тем же испытуемым через определенный промежуток времени, а затем установление корреляции между двумя рядами данных. Предполагается, что в перерыве между тестированиями измеряемое свойство осталось неизменным, следовательно, полученные изменения индивидуальных результатов будут связаны с недостатком теста. При определении ретестовой надежности существует проблема временного интервала (максимум — 6 месяцев). В случае небольшого интервала на результаты диагностики будут влиять экспериментальные эффекты тестирования, обучения. При увеличении временного интервала растет вероятность изменения в измеряемом свойстве.

2. Надежность взаимозаменяемых формпредусматривает создание параллельных форм методики и предъявление их одним и тем же испытуемым, после чего также рассчитывается коэффициент корреляции. Основной проблемой использования данного способа определения надежности является сложность создания абсолютно эквивалентных форм.

3. Надежность отдельных пунктов тестарассчитывается в дополнение к ретестовой надежности. Определяется устойчивость ответов по отдельным пунктам теста, то есть выявляются такие пункты теста, на которые испытуемые реагируют одинаково.

· Виды надежности, для расчета которых достаточно одного измерения

4. Надежность частей теста(надежность-согласованность; надежность-гомогенность) определяется путем деления методики на две части (чаще, на четные и нечетные пункты), после чего рассчитывается корреляция между показателями по отдельным частям. Для расчета коэффициента надежности используется формула Спирмена — Брауна.

Этот тип коэффициента надежности иногда называют коэффициентом внутренней согласованности, ибо для его определения требуется лишь единственное применение одной формы теста.

Определение коэффициента надежности вычисляется по формулам расчетов коэффициентов корреляций (в зависимости от шкалы, в которой измерены данные) между частями теста. Для определения общей надежности теста полученные коэффициенты корреляции вводятся в формулу Спирмена – Брауна:

Rxx= 2R / 1 + R, где

R – корреляция «половин» теста.

Адекватная основным целям тестирования процедура разбивает результаты по четным и нечетным заданиям теста. Если задания теста расположены в порядке возрастания трудности, то такое разбиение обеспечивает достаточную эквивалентность показателей обеих половин.

Если части теста являются отдельными дихотомическими заданиями, например вопросами, на которые может быть 2 ответа (да или нет), или заданиями с оценкой результата как правильного, так и неправильного, используется формула:

Rxx= (K / K – 1)(1 –  (piqi)/  x2),где

pi– доля 1-го варианта ответа на i-й вопрос

qi– доля 2-го варианта ответа на i-й вопрос

При прочих равных условиях, чем больше заданий содержит тест, тем выше его надежность.

5. Надежность по Къюдеру-Ричардсону(синхронная надежность, гомогенная надежность, внутренняя согласованность) основана на анализе согласованности ответов испытуемых по каждому пункту теста при однократном тестировании. Вычисляется для всех возможных разбиений теста на две части.

В случае если тестовые показатели для каждого пункта представлены балльной оценкой, используется формула Кронбаха (коэффициент а), если дихотомической — формула Кьюдера-Ричардсона.

Метод Кьюдера-Ричардсонаиспользует согласованность ответов по всем заданиям теста. На согласованность этого рода влияют два источника дисперсии ошибки: (1) выборка содержания на надежность взаимозаменяемых форм и расщепления и (2) неоднородность исследуемой области поведения. Чем однороднее эта область, тем выше согласованность результата. Увеличение числа заданий теста не повлияет, однако, на его временную стабильность, а лишь увеличит согласованность выборок содержания.

Надежность по этому методу рассчитывается по следующей формуле:

Rxx = (K / K – 1) * (1 –  (x i 2 )/ x2), где

К – количество равных частей теста,

xi2 – дисперсия i-й части теста

x2 — дисперсия целого теста

6. Надежность оценщикарассчитывается для тех тестов, в которых в качестве источника ошибок выступает личность диагноста (тесты креативности, проективные методики).Если результаты теста определяются на основе суждений экспериментатора, то в руководстве к тесту необходимо также привести и коэффициент надежности подсчета. Надежность субъективных оценок повышают проведением экспертных оценок, когда несколько экспертов (а не один) выставляют оценки по одной и той же системе баллов.

Так как надежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность методики — это корреляции(по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.

Общий разброс (дисперсия) результатов измерения можно представить как результат действия двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения.

Коэффициент надежностипоказывает, в какой степени индивидуальные различия в тестовых показателях могут быть отнесены на счет действительных отличий в изучаемых свойствах, позволяет судить о том, насколько внушают доверие результаты, полученные по тесту. Основной математико-статистический прием, с помощью которого устанавливается надежность методики, — коэффициент корреляции. Чем ближе значение коэффициента корреляции к 1, тем надежнее тест.

Ошибка измерения— величина, обратная надежности. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинного балла испытуемого. Надежность показывает, в какой степени индивидуальные различия окажутся истинными, а в какой могут быть, приписаны случайным ошибкам. Методика признается надежной при коэффициенте Надежности = +0,75 — +0,85, N≥ 0,8.

Источник