Методы количественной обработки данных
3.1. Первичная и вторичная количественная обработка
Процесс количественной обработки данных имеет две фазы: первичную и вторичную.
Первичная количественная обработка нацелена на упорядочивание информации об объекте и предмете изучения, полученной на эмпирическом этапе исследования. К основным методам первичной обработки относятся: табулирование, построение диаграмм, гистограмм (ступенчатая диаграмма), полигонов распределения (соединяются прямыми отрезками верхние точки центральных осей всех участков гистограммы) и кривых распределения (полигон распределения, но плавные кривые линии). Диаграммы отражают дискретное распределение, остальные графические формы – непрерывное.
Вторичная количественная обработказаключается главным образом в статистическом анализе итогов первичной обработки. Здесь важно получить ответы на три главных вопроса.
1. Какое значение наиболее характерно для выборки?
Для решения этого вопроса вычисляются т.н. «меры центральной тенденции». Это величины, являющиеся обобщающими, и к ним относят: среднее арифметическое, медиану, моду, среднее геометрическое и среднее гармоническое. В психологии обычно используют первые три.
— среднее арифметическое (оценка математического ожидания) вычисляется по формуле:
где xi – каждое наблюдаемое значение признака, i – индекс, указывающий на порядковый номер данного значения признака;
n – количество наблюдений.
— медиана (Ме)– это точка на измерительной шкале, выше и ниже которой находится ровно по 50% величин ряда (наблюдений). Её определяют по срединному рангу по формуле:
Т.е., чтобы вычислить медиану, необходимо проранжировать ряд значений (наблюдений). Полученное значение медианы может не соответствовать значению ряда, а находится между двумя соседними значениями, тогда вычисляется среднее арифметическое этих значений.
Например, имеем ряд 3-5-6-7-9-10-11-12. Проранжировав его, имеем 1-2-3-4-5-6-7-8. Ранговая медиана в этом ряду: Ме=8+1/2=4,5. Этому рангу соответствует середина между членами первоначального ряда, имеющими ранги 4 и 5. Следовательно, медиана этого ряда равна 8 (7+9/2). Следует отметить, что величины 8 в ряду нет, но таково значение медианы этого ряда.
— мода (Мо) – это значение, наиболее часто встречающееся в выборке. Пример: 2, 6, 6, 8, 9, 9, 9, 10; Мо=9.
Если все значения в группе встречаются одинаково часто, то считается, что моды нет. Если два соседних значения имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений (например: 1, 2, 2, 2, 4, 4, 4, 5, 5, 7; Мо=3). Если то же самое относится к двум несмежным значениям, то существует две моды, а группа значений признака является бимодальной (пример: 0, 1, 1, 1, 2, 3, 4, 4, 4, 7; Мо=1 и 4).
Обычно среднее арифметическое применяется при стремлении к наибольшей точности, и когда впоследствии нужно будет вычислять стандартное отклонение. Медиана – когда в значениях признака есть нетипичные данные (например: 1, 3, 5, 7, 9, 26, 13). Мода – когда не нужна высокая точность, но важна быстрота определения меры центральной тенденции.
2. Велик ли разброс данных относительно среднего значения?
Для ответа на этот вопрос применяются меры изменчивости (рассеивания, разброса). Они позволяют судить о степени однородности полученного множества, о его компактности, и косвенно – о надёжности получаемых результатов. Наиболее используемые в психологических исследованиях: размах, среднее отклонение, дисперсия, стандартное отклонение, квартильное отклонение.
— размах (Р) – это интервал между максимальным и минимальным значениями признака. Определяется легко, но чувствителен к случайностям, особенно при малом числе данных. Пример: (0, 2, 3, 5, 8; Р=8); (-0,2, 1,0, 1,4, 2,0; Р=2,2)
— среднее отклонение (МД) – это среднее арифметическое разницы (по модулю) между каждым значением в выборке и её средним:
где d=│XM│; где М – среднее выборки; Х – конкретное значение; N – число значений.
Множество всех конкретных отклонений от среднего характеризует изменчивость данных, но, если их не взять по модулю, то их сумма будет равна нулю, и мы не получим информации об их изменчивости. МД показывает степень скученности данных вокруг среднего (иногда вместо М берут Ме или Мо).
— дисперсия (Д) (от лат. – рассыпанный).
где mi – количество появлений значений хi при N наблюдениях.
Для больших выборок (N≥30) в знаменателе просто N.
— стандартное отклонение или среднее квадратичное отклонение. В психологии принято обозначать эту величину σ (сигма):
— коэффициент ковариации является относительной характеристикой рассеивания и рассчитывается по формуле:
— квартильное отклонение (Q). На практике нам часто важно узнать не точку, а интервал значений, следовательно, ось накопленной частоты (если все значения разместить на оси) разбивается на равное количество интервалов. Это S-образная кривая (ось накопленной частоты), где М – генеральная средняя. Функция этой кривой выглядит символически следующим образом:
F(Х) = (1/σ√2π*)∫((-(t-µ) 2 )/ 2σ 2 )dt
Точки на оси накопленной частоты, делящие её в установленной пропорции, называются квантилями (отсюда название квантильной стандартизации тестов). Среди квантилей выделяют квартили, квинтили, децили, процентили. Например, 3 квартиля (Q1, Q2, Q3) делят выборку на 4 равные части (кварты) таким образом, что 25% испытуемых ниже Q1, 50% ниже Q2, 75% ниже Q3, 99 процентилей делят выборку на 100 равных частей (процентов) и т.д.
— квартиль первая вычисляется по формуле: Q1=(R1+Rn/2)/2, т.е. полусумма первого и последнего рангов первой – левой от медианы — половины ряда;
— квартиль третья: Q3=(Rn/2+Rn)/2, т.е. полусумма первого и последнего рангов второй – правой от медианы – середины ряда.
Полученным значениям рангов соответствуют определённые величины в исходном ряду данных. Для характеристики Распределения вычисляется среднее квартильное отклонение:
где Х 1 и Х 2 – значения ряда, соответствующие третьей и первой квартили.
Понятно, что при симметричном распределении Q2 и Ме будут совпадать. А вообще точка на оси, соответствующая Q2 определяется после отделения 50% всех значений выборки.
3. Существует ли взаимосвязь между отдельными данными в имеющейся совокупности и каковы характер и сила этих связей?
Для решения этого вопроса необходимо вычислить меры связи (корреляции). Меры связи выявляют соотношения между двумя переменными. Эти связи вычисляют с помощью коэффициентов корреляции.
— коэффициент корреляции Карла Пирсона вычисляется путём нормирования ковариации переменных на произведение их среднеквадратических отклонений:
Значение коэффициента может варьировать от -1 до +1.
— коэффициент ранговой корреляции Чарльза Эдварда Спирмена:
Его полученное значение необходимо сравнить с табличным (в справочниках, учебниках по статистике, специальных изданиях и др.).
3.2. Виды количественного анализа данных
Статистический анализ данных, входящий в процедуру обработки результатов исследования включает в себя, кроме указанного, следующее.
1. Дисперсионный анализ (ДА). В отличие от корреляционного, может выявлять зависимость между двумя, тремя и т.д. переменными. Изменения изучаемого признака могут быть вызваны как несколькими переменными, так и их взаимодействием, что может выявить ДА.
2. Факторный анализ. Позволяет снизить размерность пространства данных, т.е. обоснованно уменьшить количество измеряемых признаков за счёт их объединения в некоторые совокупности (факторы). Основой анализа является матрица корреляций, т.е. таблицы коэффициентов корреляции каждого признака со всеми остальными. В зависимости от числа факторов в корреляционной матрице различают:
— однофакторный (по Спирмену);
— бифакторный (по Холзингеру);
— многофакторный (по Терстону.
Весьма сложный математический и логический аппараты факторного анализа часто затрудняют выбор адекватного задачам исследования варианта метода.
3. Регрессионный анализ. Метод позволяет изучать зависимость среднего значения одной величины от вариации другой (других) величины. Специфика метода заключается в том, что хотя бы одна из рассматриваемых величин носит случайный характер. Тогда описание зависимости распадается на две задачи: 1) выявление общего вида зависимости и 2) уточнение путём вычисления оценок параметров зависимости. Решение первой задачи – дело мастерства и интуиции исследователя, т.к. стандартных методов её решения не существует. Решение же второй задачи по сути представляет собой нахождение аппроксимирующей кривой. Чаще всего эта аппроксимация осуществляется с помощью математического метода наименьших квадратов.
Идея этого метода принадлежит Фрэнсису Гальтону, заметившему, что у очень высоких родителей дети были несколько меньше ростом, а у очень маленьких родителей – дети более рослые. Эту закономерность он назвал регрессией.
4. Таксономический анализ. Это математический приём группировки данных в классы (таксоны, кластеры) таким образом, чтобы объекты, входящие в один класс, были более однородны по какому-либо признаку по сравнению с объектами, входящими в другие классы. В итоге появляется возможность определить в той или иной метрике расстояние между изучаемыми объектами и дать упорядоченное описание их взаимоотношений на количественном уровне. В силу недостаточной проработанности критериев эффективности и допустимости кластерных процедур данный метод рассматривается как дополнительный или дополняется другими методами, в частности, факторным анализом.
Дата добавления: 2016-05-16 ; просмотров: 4053 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ
Источник
Количественные способы обработки информации
7.1. Общее представление об обработке данных
Обработка данных психологических исследований – отдельный раздел экспериментальной психологии, тесно связанный с математической статистикой и логикой. Обработка данных направлена на решение следующих задач:
• упорядочивание полученного материала;
• обнаружение и ликвидация ошибок, недочетов, пробелов в сведениях;
• выявление скрытых от непосредственного восприятия тенденций, закономерностей и связей;
• обнаружение новых фактов, которые не ожидались и не были замечены в ходе эмпирического процесса;
• выяснение уровня достоверности, надежности и точности собранных данных и получение на их базе научно обоснованных результатов.
Различают количественную и качественную обработку данных. Количественная обработка – это работа с измеренными характеристиками изучаемого объекта, его «объективированными» свойствами. Качественная обработка представляет собой способ проникновения в сущность объекта путем выявления его неизмеряемых свойств.
Количественная обработка направлена в основном на формальное, внешнее изучение объекта, качественная – преимущественно на содержательное, внутреннее его изучение. В количественном исследовании доминирует аналитическая составляющая познания, что отражено и в названиях количественных методов обработки эмпирического материала: корреляционный анализ, факторный анализ и т. д. Реализуется количественная обработка с помощью математико-статистических методов.
В качественной обработке преобладают синтетические способы познания. Обобщение проводится на следующем этапе исследовательского процесса – интерпретационном. При качественной обработке данных главное заключается в соответствующем представлении сведений об изучаемом явлении, обеспечивающем дальнейшее его теоретическое изучение. Обычно результатом качественной обработки является интегрированное представление о множестве свойств объекта или множестве объектов в форме классификаций и типологий. Качественная обработка в значительной мере апеллирует к методам логики.
Противопоставление друг другу качественной и количественной обработки довольно условно. Количественный анализ без последующей качественной обработки бессмыслен, так как сам по себе не приводит к приращению знаний, а качественное изучение объекта без базовых количественных данных в научном познании невозможно. Без количественных данных научное познание – чисто умозрительная процедура.
Единство количественной и качественной обработки наглядно представлено во многих методах обработки данных: факторном и таксономическом анализе, шкалировании, классификации и др. Наиболее распространены такие приемы количественной обработки, как классификация, типологизация, систематизация, периодизация, казуистика.
Качественная обработка естественным образом выливается в описание и объяснение изучаемых явлений, что составляет уже следующий уровень их изучения, осуществляемый на стадии интерпретации результатов. Количественная же обработка полностью относится к этапу обработки данных.
7.2. Первичная статистическая обработка данных
Все методы количественной обработки принято подразделять на первичные и вторичные.
Первичная статистическая обработка нацелена на упорядочивание информации об объекте и предмете изучения. На этой стадии «сырые» сведения группируются по тем или иным критериям, заносятся в сводные таблицы. Первично обработанные данные, представленные в удобной форме, дают исследователю в первом приближении понятие о характере всей совокупности данных в целом: об их однородности – неоднородности, компактности – разбросанности, четкости – размытости и т. д. Эта информация хорошо считывается с наглядных форм представления данных и дает сведения об их распределении.
В ходе применения первичных методов статистической обработки получаются показатели, непосредственно связанные с производимыми в исследовании измерениями.
К основным методам первичной статистической обработки относятся: вычисление мер центральной тенденции и мер разброса (изменчивости) данных.
Первичный статистический анализ всей совокупности полученных в исследовании данных дает возможность охарактеризовать ее в предельно сжатом виде и ответить на два главных вопроса: 1) какое значение наиболее характерно для выборки; 2) велик ли разброс данных относительно этого характерного значения, т. е. какова «размытость» данных. Для решения первого вопроса вычисляются меры центральной тенденции, для решения второго – меры изменчивости (или разброса). Эти статистические показатели используются в отношении количественных данных, представленных в порядковой, интервальной или пропорциональной шкале.
Меры центральной тенденции – это величины, вокруг которых группируются остальные данные. Данные величины являются как бы обобщающими всю выборку показателями, что, во-первых, позволяет судить по ним обо всей выборке, а во-вторых, дает возможность сравнивать разные выборки, разные серии между собой. К мерам центральной тенденции в обработке результатов психологических исследований относятся: выборочное среднее, медиана, мода.
Выборочное среднее (М) – это результат деления суммы всех значений (X) на их количество (N).
Медиана (Me) – это значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных. Медиана не обязательно должна совпадать с конкретным значением. Совпадение происходит в случае нечетного числа значений (ответов), несовпадение – при четном их числе. В последнем случае медиана вычисляется как среднее арифметическое двух центральных значений в упорядоченном ряду.
Мода (Мо) – это значение, наиболее часто встречающееся в выборке, т. е. значение с наибольшей частотой. Если все значения в группе встречаются одинаково часто, то считается, что моды нет. Если два соседних значения имеют одинаковую частоту и больше частоты любого другого значения, мода есть среднее этих двух значений. Если то же самое относится к двум несмежным значениям, то существует две моды, а группа оценок является бимодальной.
Обычно выборочное среднее применяется при стремлении к наибольшей точности в определении центральной тенденции. Медиана вычисляется в том случае, когда в серии есть «нетипичные» данные, резко влияющие на среднее. Мода используется в ситуациях, когда не нужна высокая точность, но важна быстрота определения меры центральной тенденции.
Вычисление всех трех показателей производится также для оценки распределения данных. При нормальном распределении значения выборочного среднего, медианы и моды одинаковы или очень близки.
Меры разброса (изменчивости) – это статистические показатели, характеризующие различия между отдельными значениями выборки. Они позволяют судить о степени однородности полученного множества, его компактности, а косвенно и о надежности полученных данных и вытекающих из них результатов. Наиболее используемые в психологических исследованиях показатели: среднее отклонение, дисперсия, стандартное отклонение.
Размах (Р) – это интервал между максимальным и минимальным значениями признака. Определяется легко и быстро, но чувствителен к случайностям, особенно при малом числе данных.
Среднее отклонение (МД) – это среднеарифметическое разницы (по абсолютной величине) между каждым значением в выборке и ее средним.
где d = |Х – М |, М – среднее выборки, X – конкретное значение, N – число значений.
Множество всех конкретных отклонений от среднего характеризует изменчивость данных, но если не взять их по абсолютной величине, то их сумма будет равна нулю и мы не получим информации об их изменчивости. Среднее отклонение показывает степень скученности данных вокруг выборочного среднего. Кстати, иногда при определении этой характеристики выборки вместо среднего (М) берут иные меры центральной тенденции – моду или медиану.
Дисперсия (D) характеризует отклонения от средней величины в данной выборке. Вычисление дисперсии позляет избежать нулевой суммы конкретных разниц (d = Х – М) не через их абсолютные величины, а через их возведение в квадрат:
где d = |Х – М|, М – среднее выборки, X – конкретное значение, N – число значений.
Стандартное отклонение (б). Из-за возведения в квадрат отдельных отклонений d при вычислении дисперсии полученная величина оказывается далекой от первоначальных отклонений и потому не дает о них наглядного представления. Чтобы этого избежать и получить характеристику, сопоставимую со средним отклонением, проделывают обратную математическую операцию – из дисперсии извлекают квадратный корень. Его положительное значение и принимается за меру изменчивости, именуемую среднеквадратическим, или стандартным, отклонением:
где d = |Х– М|, М – среднее выборки, X– конкретное значение, N – число значений.
МД, D и ? применимы для интервальных и пропорционных данных. Для порядковых данных в качестве меры изменчивости обычно берут полуквартильное отклонение (Q), именуемое еще полуквартильным коэффициентом. Вычисляется этот показатель следующим образом. Вся область распределения данных делится на четыре равные части. Если отсчитывать наблюдения начиная от минимальной величины на измерительной шкале, то первая четверть шкалы называется первым квартилем, а точка, отделяющая его от остальной части шкалы, обозначается символом Qv Вторые 25 % распределения – второй квартиль, а соответствующая точка на шкале – Q2. Между третьей и четвертой четвертями распределения расположена точка Q3. Полуквартильный коэффициент определяется как половина интервала между первым и третьим квартилями:
При симметричном распределении точка Q2 совпадет с медианой (а следовательно, и со средним), и тогда можно вычислить коэффициент Q для характеристики разброса данных относительно середины распределения. При несимметричном распределении этого недостаточно. Тогда дополнительно вычисляют коэффициенты для левого и правого участков:
7.3. Вторичная статистическая обработка данных
К вторичным относят такие методы статистической обработки, с помощью которых на базе первичных данных выявляют скрытые в них статистические закономерности. Вторичные методы можно подразделить на способы оценки значимости различий и способы установления статистических взаимосвязей.
Способы оценки значимости различий. Для сравнения выборочных средних величин, принадлежащих к двум совокупностям данных, и для решения вопроса о том, отличаются ли средние значения статистически достоверно друг от друга, используют t-критерий Стьюдента. Его формула выглядит следующим образом:
где М1, М2 – выборочные средние значения сравниваемых выборок, m1, m2 – интегрированные показатели отклонений частных значений из двух сравниваемых выборок, вычисляются по следующим формулам:
где D1, D2 – дисперсии первой и второй выборок, N1, N2 – число значений в первой и второй выборках.
После вычисления значения показателя t по таблице критических значений (см. Статистическое приложение 1), заданного числа степеней свободы (N1 + N2 – 2) и избранной вероятности допустимой ошибки (0,05, 0,01, 0,02, 001 и т.д.) находят табличное значение t. Если вычисленное значение t больше или равно табличному, делают вывод о том, что сравниваемые средние значения двух выборок статистически достоверно различаются с вероятностью допустимой ошибки, меньшей или равной избранной.
Если в процессе исследования встает задача сравнить неабсолютные средние величины, частотные распределения данных, то используется ?2критерий (см. Приложение 2). Его формула выглядит следующим образом:
где Pk – частоты распределения в первом замере, Vk – частоты распределения во втором замере, m – общее число групп, на которые разделились результаты замеров.
После вычисления значения показателя ?2по таблице критических значений (см. Статистическое приложение 2), заданного числа степеней свободы (m – 1) и избранной вероятности допустимой ошибки (0,05, 0,0 ?2t больше или равно табличному) делают вывод о том, что сравниваемые распределения данных в двух выборках статистически достоверно различаются с вероятностью допустимой ошибки, меньшей или равной избранной.
Для сравнения дисперсий двух выборок используется F-критерий Фишера. Его формула выглядит следующим образом:
где D1, D2 – дисперсии первой и второй выборок, N1, N2 – число значений в первой и второй выборках.
После вычисления значения показателя F по таблице критических значений (см. Статистическое приложение 3), заданного числа степеней свободы (N1 – 1, N2 – 1) находится Fкр. Если вычисленное значение F больше или равно табличному, делают вывод о том, что различие дисперсий в двух выборках статистически достоверно.
Способы установления статистических взаимосвязей. Предыдущие показатели характеризуют совокупность данных по какому-либо одному признаку. Этот изменяющийся признак называют переменной величиной или просто переменной. Меры связи выявляют соотношения между двумя переменными или между двумя выборками. Эти связи, или корреляции, определяют через вычисление коэффициентов корреляции. Однако наличие корреляции не означает, что между переменными существует причинная (или функциональная) связь. Функциональная зависимость – это частный случай корреляции. Даже если связь причинна, корреляционные показатели не могут указать, какая из двух переменных является причиной, а какая – следствием. Кроме того, любая обнаруженная в психологических исследованиях связь, как правило, существует благодаря и другим переменным, а не только двум рассматриваемым. К тому же взаимосвязи психологических признаков столь сложны, что их обусловленность одной причиной вряд ли состоятельна, они детерминированы множеством причин.
По тесноте связи можно выделить следующие виды корреляции: полная, высокая, выраженная, частичная; отсутствие корреляции. Эти виды корреляций определяют в зависимости от значения коэффициента корреляции.
При полной корреляции его абсолютные значения равны или очень близки к 1. В этом случае устанавливается обязательная взаимозависимость между переменными. Здесь вероятна функциональная зависимость.
Высокая корреляция устанавливается при абсолютном значении коэффициента 0,8–0,9. Выраженная корреляция считается при абсолютном значении коэффициента 0,6–0,7. Частичная корреляция существует при абсолютном значении коэффициента 0,4–0,5.
Абсолютные значения коэффициента корреляции менее 0,4 свидетельствуют об очень слабой корреляционной связи и, как правило, в расчет не принимаются. Отсутствие корреляции констатируется при значении коэффициента 0.
Кроме того, в психологии при оценке тесноты связи используют так называемую «частную» классификацию корреляционных связей. Она ориентирована не на абсолютную величину коэффициентов корреляции, а на уровень значимости этой величины при определенном объеме выборки. Эта классификация применяется при статистической оценке гипотез. При данном подходе предполагается, что чем больше выборка, тем меньшее значение коэффициента корреляции может быть принято для признания достоверности связей, а для малых выборок даже абсолютно большое значение коэффициента может оказаться недостоверным.[86]
По направленности выделяют следующие виды корреляционных связей: положительная (прямая) и отрицательная (обратная). Положительная (прямая) корреляционная связь регистрируется при коэффициенте со знаком «плюс»: при увеличении значения одной переменной наблюдается увеличение другой. Отрицательная (обратная) корреляция имеет место при значении коэффициента со знаком «минус». Это означает обратную зависимость: увеличение значения одной переменной влечет за собой уменьшение другой.
По форме различают следующие виды корреляционных связей: прямолинейную и криволинейную. При прямолинейной связи равномерным изменениям одной переменной соответствуют равномерные изменения другой. Если говорить не только о корреляциях, но и о функциональных зависимостях, то такие формы зависимости называют пропорциональными. В психологии строго прямолинейные связи – явление редкое. При криволинейной связи равномерное изменение одного признака сочетается с неравномерным изменением другого. Эта ситуация для психологии типична.
Коэффициент линейной корреляции по К. Пирсону (r) вычисляется c помощью следующей формулы:
где х – отклонение отдельного значения X от среднего выборки (Мх), у – отклонение отдельного значения Y от среднего выборки (Му), Ьх – стандартное отклонение для X, ?y – стандартное отклонение для Y, N – число пар значений Xи Y.
Оценка значимости коэффициента корреляции проводится по таблице (см. Статистическое приложение 4).
При сравнении порядковых данных применяется коэффициент ранговой корреляции по Ч. Спирмену (R):
где d – разность рангов (порядковых мест) двух величин, N – число сравниваемых пар величин двух переменных (X и Y).
Оценка значимости коэффициента корреляции проводится по таблице (см. Статистическое приложение 5).
Внедрение в научные исследования автоматизированных средств обработки данных позволяет быстро и точно определять любые количественные характеристики любых массивов данных. Разработаны различные программы для компьютеров, по которым можно проводить соответствующий статистический анализ практически любых выборок. Из массы статистических приемов в психологии наибольшее распространение получили следующие: 1) комплексное вычисление статистик; 2) корреляционный анализ; 3) дисперсионный анализ; 4) регрессионный анализ; 5) факторный анализ; 6) таксономический (кластерный) анализ; 7) шкалирование. Познакомиться с характеристиками этих методов можно в специальной литературе («Статистические методы в педагогике и психологии» Стенли Дж., Гласа Дж. (М., 1976), «Математическая психология» Г.В. Суходольского (СПб., 1997), «Математические методы психологического исследования» А.Д. Наследова (СПб., 2005) и др.).
Источник