Надежность виды способы определения

Содержание

Мир психологии
Виды надежности.
Виды и способы определения надежности

Мир психологии

психология для всех и каждого

Виды надежности.

Надежность как устойчивость к побочным факторам.

В традиционной тестологии термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Надежность методики — это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка составить классификацию таких факторов:

нестабильность диагностируемого свойства;
несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания, как методику предъявлять испытуемым, и т. д.);
меняющаяся ситуация обследования;
различия в манере поведения экспериментатора;
колебания в функциональном состоянии испытуемого;
элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т. п.).

Виды. К. М. Гуревич предложил толковать надежность как комплексную характеристику, включающую:

надежность самого измерительного инструмента; коэффициентом надежности
стабильность изучаемого признака; коэффициентом стабильности
константность, т. е. относительную независимость результатов от личности экспериментатора; коэффициентом константности.

Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.

Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется так называемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.

Можно делить задания и другим путем. Например, можно сопоставить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечетные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр. Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Определение стабильности изучаемого признака. Определить надежность самой методики — это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленности измеряемого признака у такого испытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть использован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он заключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тестирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.

При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.

Трудно четко ответить на вопрос, какой срок можно считать оптимальным для повторного эксперимента. Только исследователь, исходя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В тестологической литературе наиболее часто называются временные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель. Коэффициент стабильности методики должен быть достаточно высоким (не ниже 0,80).

Определение константности (относительной независимости результатов от личности экспериментатора). Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, однако регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).

Хотя в тестологической практике критерием константности пользуются нечасто, однако это не может служить основанием для его недооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагностической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспериментаторе изменили свои порядковые места в выборке.

Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Так как надежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность методики — это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.

Источник

Виды и способы определения надежности

· Виды надежности, для расчета которых необходимо два измерения

1. Ретестовая надежность(надежность-устойчивость) предполагает повторное предъявление теста тем же испытуемым через определенный промежуток времени, а затем установление корреляции между двумя рядами данных. Предполагается, что в перерыве между тестированиями измеряемое свойство осталось неизменным, следовательно, полученные изменения индивидуальных результатов будут связаны с недостатком теста. При определении ретестовой надежности существует проблема временного интервала (максимум — 6 месяцев). В случае небольшого интервала на результаты диагностики будут влиять экспериментальные эффекты тестирования, обучения. При увеличении временного интервала растет вероятность изменения в измеряемом свойстве.

2. Надежность взаимозаменяемых формпредусматривает создание параллельных форм методики и предъявление их одним и тем же испытуемым, после чего также рассчитывается коэффициент корреляции. Основной проблемой использования данного способа определения надежности является сложность создания абсолютно эквивалентных форм.

3. Надежность отдельных пунктов тестарассчитывается в дополнение к ретестовой надежности. Определяется устойчивость ответов по отдельным пунктам теста, то есть выявляются такие пункты теста, на которые испытуемые реагируют одинаково.

· Виды надежности, для расчета которых достаточно одного измерения

4. Надежность частей теста(надежность-согласованность; надежность-гомогенность) определяется путем деления методики на две части (чаще, на четные и нечетные пункты), после чего рассчитывается корреляция между показателями по отдельным частям. Для расчета коэффициента надежности используется формула Спирмена — Брауна.

Этот тип коэффициента надежности иногда называют коэффициентом внутренней согласованности, ибо для его определения требуется лишь единственное применение одной формы теста.

Определение коэффициента надежности вычисляется по формулам расчетов коэффициентов корреляций (в зависимости от шкалы, в которой измерены данные) между частями теста. Для определения общей надежности теста полученные коэффициенты корреляции вводятся в формулу Спирмена – Брауна:

Rxx= 2R / 1 + R, где

R – корреляция «половин» теста.

Адекватная основным целям тестирования процедура разбивает результаты по четным и нечетным заданиям теста. Если задания теста расположены в порядке возрастания трудности, то такое разбиение обеспечивает достаточную эквивалентность показателей обеих половин.

Если части теста являются отдельными дихотомическими заданиями, например вопросами, на которые может быть 2 ответа (да или нет), или заданиями с оценкой результата как правильного, так и неправильного, используется формула:

Rxx= (K / K – 1)(1 –  (piqi)/  x2),где

pi– доля 1-го варианта ответа на i-й вопрос

qi– доля 2-го варианта ответа на i-й вопрос

При прочих равных условиях, чем больше заданий содержит тест, тем выше его надежность.

5. Надежность по Къюдеру-Ричардсону(синхронная надежность, гомогенная надежность, внутренняя согласованность) основана на анализе согласованности ответов испытуемых по каждому пункту теста при однократном тестировании. Вычисляется для всех возможных разбиений теста на две части.

В случае если тестовые показатели для каждого пункта представлены балльной оценкой, используется формула Кронбаха (коэффициент а), если дихотомической — формула Кьюдера-Ричардсона.

Метод Кьюдера-Ричардсонаиспользует согласованность ответов по всем заданиям теста. На согласованность этого рода влияют два источника дисперсии ошибки: (1) выборка содержания на надежность взаимозаменяемых форм и расщепления и (2) неоднородность исследуемой области поведения. Чем однороднее эта область, тем выше согласованность результата. Увеличение числа заданий теста не повлияет, однако, на его временную стабильность, а лишь увеличит согласованность выборок содержания.

Надежность по этому методу рассчитывается по следующей формуле:

Rxx = (K / K – 1) * (1 –  (x i 2 )/ x2), где

К – количество равных частей теста,

xi2 – дисперсия i-й части теста

x2 — дисперсия целого теста

6. Надежность оценщикарассчитывается для тех тестов, в которых в качестве источника ошибок выступает личность диагноста (тесты креативности, проективные методики).Если результаты теста определяются на основе суждений экспериментатора, то в руководстве к тесту необходимо также привести и коэффициент надежности подсчета. Надежность субъективных оценок повышают проведением экспертных оценок, когда несколько экспертов (а не один) выставляют оценки по одной и той же системе баллов.

Так как надежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность методики — это корреляции(по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.

Общий разброс (дисперсия) результатов измерения можно представить как результат действия двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения.

Коэффициент надежностипоказывает, в какой степени индивидуальные различия в тестовых показателях могут быть отнесены на счет действительных отличий в изучаемых свойствах, позволяет судить о том, насколько внушают доверие результаты, полученные по тесту. Основной математико-статистический прием, с помощью которого устанавливается надежность методики, — коэффициент корреляции. Чем ближе значение коэффициента корреляции к 1, тем надежнее тест.

Ошибка измерения— величина, обратная надежности. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинного балла испытуемого. Надежность показывает, в какой степени индивидуальные различия окажутся истинными, а в какой могут быть, приписаны случайным ошибкам. Методика признается надежной при коэффициенте Надежности = +0,75 — +0,85, N≥ 0,8.

Источник