Надежность теста способы определения надежности

Содержание

Надежность теста: типы, критерии проверки
Надежность теста:типы и способы определения
Надежность теста: типы и способы определения.
Валидность теста: типы и способы определения.

Надежность теста: типы, критерии проверки

1 Понятие надежности

2 Типы, критерии проверки

К числу основных критериев оценки психодиагностических методик относится надежность и валидность. Большой вклад в разработку этих понятии внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.).

1 Надежность – это критерий качества теста, выражающий точность психологических изменений, а также устойчивость результатов к действию посторонних случайных факторов. Например, результат измерения такого лабильного признака как настроение, не может быть таким же надежным (точным) как результат измерения более стабильного признака, скажем знаний орфографии.

Точность измерений определяется с помощью корреляционных методов статистики. При этом используются формулы вычисления корреляции Пирсона, Спирмена и др. Например, одним из известных коэффициентов корреляции является коэффициент корреляции Спирмена (в случае порядковых шкал).

По математическому смыслу  меняется в пределах от –1 до 1. (–1≤ρ≤1).

Обычно в тестологической практике редко удается достичь  больше 0,7 или 0,8. Часто их называют коэффициентом надежности.

Что касается устойчивости результата психодиагностического исследования, то надо учитывать следующее. Результат обычно подвержен влиянию большого количества трудно учитываемых факторов (например, эмоциональное состояние и утомление, освещенность и температура в помещении, где проводится исследование, уровень мотивирования испытуемых на обследование и др.). Любое изменение ситуации исследования усиливает влияние одних и ослабляет воздействие других факторов на результат теста. Таким образом, может возникнуть ошибка измерения, обусловленная двумя источниками: лабильностью (изменчивостью) самого измеряемого свойства и нестабильностью измерительной процедуры. Вот почему важнейшим средством повышения надежности теста является стандартизация процедуры исследования (т.е. регламентация обстановки и условий работы испытуемого, характера инструкции, временных ограничений, способов и особенностей контактов с испытуемыми, порядка предъявления стимульного материала, получения сырых баллов).

Вообще же в процессе доказательства надежности теста точность и устойчивость рассматриваются взаимосвязано. Статистические процедуры (корреляционные методы) позволяют определить точность и согласованность результатов, получаемых как на уровне целого теста, так и на уровне отдельных его задач.

2 Вот почему в понятии «надежность теста» принято выделять 3 главных аспекта соответственно трем разным процедурам вычисления коэффициента надежности:

Надежность-устойчивость (ретестовая надежность);

Надежность-эквивалентность (надежность параллельных форм);

Надежность-согласованность (надежность частей теста).

Надежность-устойчивость измеряется путем повторного проведения теста на той же выборке испытуемых (выборке стандартизации). Отсюда его второе название – ретестовая надежность. Обычно временной разрыв между исследованиями составляет 2 недели. Замечено, что с увеличением показатели корреляции имеют тенденцию к снижению. Это связано с тем, что измеряемое свойство нестабильно, развивается, могут наступить и возрастные изменения, а также произойти события, влияющие на состояние исследуемых качеств. Однако в некоторых случаях повторный тест проводят и через более длинный временной промежуток, например, в целях оценки прогностической валидности.

К недостаткам тест-ретеста относится то, что при непродолжительном временном разрыве у испытуемых может формироваться навык работы с психодиагностической методикой, приводящий к улучшению индивидуальных результатов. Еще более заметное воздействие на проверку надежности может оказать запоминание испытуемыми отдельных решений. В этих случаях результаты двух предъявлений теста не будут независимыми, а коэффициент корреляции, характеризующий степень надежности, окажется завышенным. Надо также учитывать и то, что при конструировании теста для измерения эмоциональных состояний (например, тревоги) требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.

Надежность-эквивалентность определяется путем применения 2-х эквивалентных форм теста к одной и той же выборке. Эквивалентными формами теста принято называть два теста с тождественным психологическим содержанием, стимульные части которых, однако, отличаются друг от друга по внешнему оформлению. Поэтому этот вид надежности называется по-другому надежность параллельных форм. Понятно, что количество заданий в двух тестах при конструировании должно быть одинаковым; задания должны быть уравновешены по трудности; оба теста должны иметь примерно равные средние и стандартные отклонения; процедура применения тестов и техника оценивания результатов должны быть унифицированы (стандартизованность).

Применение параллельных форм теста помогает избежать недостатков ретестовой валидности. 1). Т.к. в параллельных формах используются разные, хоть и эквивалентные задачи, возможность тренировки и запоминания исключается. 2). Преимуществом процедуры является также и то, что можно значительно сократить временной интервал, практически применив оба теста друг за другом.

Получение высокого коэффициента корреляции между двумя формами является доказательством только как эквивалентности их психологического содержания (взаимозаменяемости), но так и одновременно высокой надежности теста в целом. Понятно, что получение низких корреляций между первым и вторым тестированиями свидетельствует о плохой надежности применявшихся вариантов.

Надежность-согласованность определяется путем «расщепления» теста на две части и вычисления коэффициента корреляции между оценками, полученными по каждой из этих частей. Поэтому этот показатель иногда называют надежностью частей теста.

Чаще всего метод «расщепления» теста на половины осуществляется путем объединения в одной половине всех четных, а в другой – всех нечетных заданий. Обоснованием такой процедуры является положение о том, что при нормальном распределении оценок по полному тесту выполнение случайного набора заданий из частей теста дает аналогичное распределение.

Высокий коэффициент корреляции между частями теста говорит о его гомогенности (однородности). И это является выражением надежности теста, внутренней согласованности тестовых задач.

Преимуществами надежности-согласованности по сравнению с ретестовой надежностью и надежностью параллельных форм является отсутствие необходимости в повторном обследовании, экономия времени, снятие эффекта упражнения, памяти и др.

Этот способ расчета надежности практически сливается с содержательной валидацией разрабатываемого теста.

Недостатком метода является невозможность установить устойчивость результатов теста спустя определенное время. Это требует комбинирования надежности-согласованности с другими процедурами определения надежности психодиагностической методики.

Для эффективного использования теста необходимо узнать, существуют ли данные о процедурах определения надежности, что собою представляет выборка стандартизации и в какой диагностической ситуации проводилась проверка. Если проверки не было, психологу придется провести ее в соответствии с описанными критериями.

Источник

Надежность теста:типы и способы определения

Надежность — Точность результатов измерения. Надежность – это помехоустойчивость теста, независимость его результата от действия всевозможных случайных факторов. К числу таких факторов относятся: 1) нестабильность измеряемого свойства; 2) несовершенство методики (нечеткость инструкции, формулировки заданий и т.п.); 3) меняющаяся ситуация обследования (время, освещенность, пр. условия); 4) поведение экспериментатора; 5) изменения функционального состояния испытуемого; 6) субъективность в способах оценки и интерпретации результатов. Это приводит к отклонению измеренного тестового балла от истинного тестового балла (который можно было бы, в принципе, получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как стандартная ошибка измерения. Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы.

Коэффициент надежности показывает, в какой степени индивидуальные различия в тестовых показателях могут быть отнесены на счет действительных отличий в изучаемых свойствах, позволяет судить о том, насколько внушают доверие результаты, полученные по тесту. Основной математико-статистический прием, с помощью которого устанавливается надежность методики, – коэффициент корреляции. Чем ближе значение коэффициента корреляции к 1, тем надежнее тест.

Виды и способы определения надежности

Виды надежности, для расчета которых необходимо два измерения

1. Ретестовая надежность (надежность-устойчивость) предполагает повторное предъявление теста тем же испытуемым через определенный промежуток времени, а затем установление корреляции между двумя рядами данных. Предполагается, что в перерыве между тестированиями измеряемое свойство осталось неизменным, следовательно, полученные изменения индивидуальных результатов будут связаны с недостатком теста. При определении ретестовой надежности существует проблема временного интервала (максимум – 6 месяцев). В случае небольшого интервала на результаты диагностики будут влиять экспериментальные эффекты тестирования, обучения. При увеличении временного интервала растет вероятность изменения в измеряемом свойстве.

2. Надежность взаимозаменяемых форм предусматривает создание параллельных форм методики и предъявление их одним и тем же испытуемым, после чего также рассчитывается коэффициент корреляции. Основной проблемой использования данного способа определения надежности является сложность создания абсолютно эквивалентных форм.

3. Надежность отдельных пунктов теста рассчитывается в дополнение к ретестовой надежности. Определяется устойчивость ответов по отдельным пунктам теста, то есть выявляются такие пункты теста, на которые испытуемые реагируют одинаково.

Виды надежности, для расчета которых достаточно одного измерения

4. Надежность частей теста (надежность-согласованность; надежность-гомогенность) определяется путем деления методики на две части (чаще, на четные и нечетные пункты), после чего рассчитывается корреляция между показателями по отдельным частям. Для расчета коэффициента надежности используется формула Спирмена – Брауна.

5. Надежность по Кьюдеру-Ричардсону (синхронная надежность, гомогенная надежность, внутренняя согласованность) основана на анализе согласованности ответов испытуемых по каждому пункту теста при однократном тестировании. Вычисляется для всех возможных разбиений теста на две части.

В случае если тестовые показатели для каждого пункта представлены балльной оценкой, используется формула Кронбаха (коэффициент α), если дихотомической – формула Кьюдера-Ричардсона

6. Надежность оценщика рассчитывается для тех тестов, в которых в качестве источника ошибок выступает личность диагноста (тесты креативности, проективные методики).

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Источник

Надежность теста: типы и способы определения.

Надежность – это точность, воспроизводимость и устойчивость результатов измерений, полученных с помощью определенной методики, во времени и по отношению к побочным переменным.

На точность измерения влияют следующие факторы: 1) нестабильность измеряемого свойства; 2) несовершенство методики (нечеткость инструкции, формулировки заданий и т.п.); 3) меняющаяся ситуация обследования (время, освещенность, пр. условия); 4) поведение экспериментатора; 5) изменения функционального состояния испытуемого; 6) субъективность в способах оценки и интерпретации результатов.

Виды надежности:1. для расчета которой необходимо 2 измерения; 1.1. Реестровая надежность – ретест спустя время, считается только для стабильных свойств; 1.2. надежность взаимозаменяемых норм – проведение разных вариантов одного и того же теста; 1.3.надежность отдельных пунктов теста – рассчитывается в дополнение реестровой надежности. 2.для расчета которой достаточно 1 измерения: 2.1. надежность частей теста – степень согласованности ответов по одной шкале считается по формуле Спирмена-Брауна; 2.2.надежность по Кьюджеру-Ричардсону(где ответы да/нет) и формуле Кронбаха(где ответы да/нет/не знаю); 2.3. надежность оценщика – оценивают разные оценщики и смотриться однородность.

Валидность теста: типы и способы определения.

Валидность теста – это соответствие теста предмету измерения. Проверка валидности называется валидизацией. Выделяют два способа получения валидности: прагматическая(или эмпирическая) и собственно психологическая(или теоретическая) валидизация. Эмпирическая В.- через исследование. Виды эмпирической в.: 1) Критериальная – существует внешний внятный критерий по отношению к св-ву показатель. Требования к внешним критериям: 1) релевантность – смысловое соответствие диагностического инструмента независимому жизненно важному критерию; 2) свобода от помех (контаминация); отбор испытуемых из одной среды для исключения влияния побочных переменных, «загрязняющих» критерий; 3) надежность – отражение постоянство и устойчивость исследуемого свойства.

4 типа критериев: 1) Критерии исполнения (количество выполняемой работы, время, затраченное на обучение, темп роста квалификации и пр.)

2) Субъективные критерии (по данным интервью, анкет; отношение человека к чему-либо).

3) Физиологические критерии (частота пульса, давление и пр.)

4) Критерии случайности.

В зависимости от временных отношений между критерием и тестом выделяют следующие виды критериальной валидности: 1. Текущая валидность. Данные по тесту и критерию относятся к одному временному интервалу. 2. Прогностическая валидность. Данные по тесту и критерию относятся к различным временным интервалам. В случае, если критерий находится в прошлом, речь идет о ретроспективной валидизации, если в будущем – проспективной.

2)Конвергентная – существование связи с родственными методиками. Дискриминативная валидность – отсутствие связи с методиками, имеющими другое основание (отсутствие корреляции с тестом, измеряющим концептуально независимое свойство).

3)Конкурентная – корреляция с аналогичным тестом, валидность которого уже установлена.

Теоретическая В. – теоретическим путем. Виды теоретической В.: 1)Концептуальная – доказательство того, что данное сво-во может быть измерено именно этим способом. 2)Содержательная – если предмет теста ясен, то задания теста подбираются в соответствии с ним. 3)Конструктная – доказательство соответствия теста исходному конструкту/модели. По-Анастази конструктная валидность включает в себя все виды валидности.

Очивидная валидность – со стороны испытуемых тест должен выглядеть серьезно и обоснованно.

Причины, влияющие на надежность и валидность теста. Способы повышения валидности и надежности различных групп тестовых методик.

Требования к профессиональной компетентности психолога- диагноста.

1. Диагностика как вид деятельности психолога.

2. Компетентность психолога-диагноста.

3. Нормативные требования к диагностической работе.

Уметь работать со своими проекциями. Четко видеть объективные показатели, симптомы.

Нормы профессиональной этики психолога-диагноста в России однозначно не определены и не зафиксированы в соответствующих нормативно-правовых актах. ). Центральной этической проблемой А.Анастази считает саму возможность вторжения во внутренний мир человека, нарушающую право на личную тайну. Введенный принцип осведомленного согласия несколько сглаживает, но полностью не снимает данного противоречия.

Разработка нормативных предписаний к практическому использованию диагностических методик – одна из наиболее острых проблем отечественной психодиагностики. Нормативное регулирование, система правил призваны опережать практику, задавая ей ориентиры и перспективы на будущее. Наиболее полно нормативные правила представлены в учебнике А.А.Бодалева и В.В.Столина. Авторы выделяют требования к психодиагностической литературе и методическим материалам, требования к психодиагностическим методикам, требования к пользователям методик. Предлагается сделать регулярной процедуру аттестации, как пользователей, так и собственно методик. Отдельно рассматриваются вопросы использования психодиагностических методик специалистами-смежниками. Специалисты-смежники могут использовать только хорошо обоснованные и не требующие специальных психологических знаний при интерпретации (открытые) методики после предварительной консультации с профессиональным диагностом (Общая психодиагностика, 2002). Выборка стандартизаций: 1) д.б. большой больше 100чел. 2)д.б. репрезентативна – должна представлять ту часть популяции на которую ориентирован тест.

Технология создания и адаптации тестовых методик.

Ситуация конструирования психологических тестов предполагает наличие только исходной концепции психического свойства наряду с отсутствием процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениями прочих ресурсов. Несмотря на то, что конструирование методик, относящихся к различным подходам, имеет определенную специфику, можно выделить обобщенный алгоритм деятельности по разработке теста.

1.Теоретическое обоснование методики.

2. Собственно конструирование.

2.1 Спецификация теста (определение числа заданий). Подробно процедура спецификации тестов на примере опросников приведена в учебнике Л.Ф.Бурлачука.

2.2. Разработка заданий.

2.4. Предварительное оформление.

3. Апробация методики.

На данном этапе проводится пилотажное исследование на сокращенной выборке стандартизации. Рассчитываются основные психометрические показатели. В первую очередь, проводится анализ заданий теста. Подробно данная процедура освещена А.Анастази. Анализ заданий теста (пунктов теста) осуществляется по двум параметрам: трудность заданий (доля испытуемых выборки, справившихся с заданием) и дискриминативность заданий (различительная способность заданий). На этапе апробации методики также производят предварительный расчет показателей надежности и валидности.

Расчет психометрических показателей на выборке стандартизации.

5. Стандартизация теста. Расчет тестовых норм.

6. Окончательное оформление методики.

7. Пересмотры методики с течением времени.

Ситуация адаптации предполагает перепроверку основных психометрических показателей методики в новых условиях. В первую очередь, адаптации подлежат переводные тесты. Адаптация зарубежных тестов по объему эмпирико-статистической работы практически не уступает созданию оригинальных диагностических методик.

А.А.Бодалев и В.В.Столин выделяют следующие этапы адаптации переводного теста:

1. Анализ внутренней согласованности пунктов теста.

2. Проверка устойчивости к перетестированию.

3. Анализ корреляций с релевантным внешним критерием.

4. Проверка или рестандартизация тестовых норм.

5. В случае адаптации многомерной методики – проверка воспроизводимости структуры отношений между шкалами.

Особые задачи ставит перед психологом ситуация «внутрикультурного переноса» теста на новую популяцию, отличающуюся от выборки стандартизации половозрастными или профессионально-культурными особенностями. В данном случае необходимо: 1) проверить валидность методики; 2) перепроверить тестовые нормы.

Принципы построения комплексного психологического портрета личности и комплектование психодиагностической батареи.

Алгоритм работы по созданию тестовой батареи принципиально не отличается от такового при конструировании отдельных методик. Различие заключается в том, что конструирование тестовой батареи не предполагает детального концептуального обоснования.

Формирование тестовой батареи начинается с постановки психодиагностической задачи. Например, при разработке батареи тестов в целях профотбора в качестве исходной выступает профессиологическая задача, сущность которой заключается в построении уравнения профпригодности (И.Н.Носс, 2003).

Тестовые батареи формируются для измерения комплексных психологических характеристик. Изначально необходимо определить содержательную валидность батареи, то есть составить схему-структуру измеряемого объекта. В частности, в профотборе, схема профессиональной пригодности специалиста разрабатывается на основе соответствующей профессиограммы (психограммы). Подбор методик осуществляется в соответствии с выделенными параметрами.

По результатам пилотажного исследования производится расчет основных психометрических характеристик батареи: надежности, валидности, трудности и дискриминативности пунктов, нормы. В роли пунктов батареи выступают показатели по отдельным методикам.

Источник