1. Центральные тенденции
Теория:
В статистике исследуют различные совокупности данных — числовых значений случайных величин с учётом частот, с которыми они встречаются в совокупности.
Набор всех данных назовём генеральной совокупностью , а любую её часть — выборкой .
В статистических исследованиях выборку называют репрезентативной , если в ней присутствуют те и только те значения случайной величины, что и в генеральной совокупности, причём частоты имеющихся в ней данных находятся практически в тех же отношениях, что и в генеральной совокупности.
Совокупность данных иногда нужно оценить одним числом. Мерой центральной тенденции может являться среднее, мода или медиана .
Мода (обозначают Mo ) — это значение случайной величины, имеющее наибольшую частоту в рассматриваемой выборке.
мода выборки \(7\), \(6\), \(2\), \(5\), \(6\), \(1\) равна \(6\);
a выборка \(2\), \(3\), \(8\), \(2\), \(8\), \(5\) имеет две моды: Mo \(= 2\), Mo \(= 8\).
1. Расположим элементы выборки в порядке возрастания: \(-2\), \(0\), \(1\), \(4\), \(5\), \(5\), \(9\). Количество данных нечётно. Слева и справа от числа \(4\) находятся по \(3\) элемента, т. е. \(4\) — серединное число выборки, поэтому Me \(= 4\).
2. Упорядочим элементы выборки: \(1\), \(2\), \(3\), \(4\), \(6\), \(7\).
Количество данных чётно. Серединные данные выборки: \(3\) и \(4\) — поэтому Me = 3 + 4 2 = 3,5 .
Среднее (или среднее арифметическое ) выборки — это число, равное отношению суммы всех чисел выборки к их количеству.
Если рассматривается совокупность значений случайной величины X , то её среднее обозначают X ¯ .
найти среднее выборки значений случайной величины X , распределение которых по частотам представлено в таблице:
Источник
Меры центральной тенденции
Мера центральной тенденции (Central Tendency) — это число, характеризующее выборку по уровню выраженности измеренного признака.
Существуют три способа определения центральной тенденции, каждому из которых соответствует своя мера: мода, медиана и выборочное среднее.
Мода (Mode) — наиболее часто встречающееся значение в ряду данных. Моде, или модальному интервалу признака, соответствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным.
Среди 8 значений признака (3, 7, 3, 5, 7, 8, 7, 6) мода Мо=7 как наиболее часто встречающееся значение.
Когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений.
Распределение может иметь и не одну моду. Когда все значения встречаются одинаково часто, принято считать, что такое распределение не имеет моды.
Бимодальное распределение имеет на графике распределения две вершины, даже если частоты для двух вершин не строго равны. В последнем случае выделяют большую и меньшую моду. Во всей группе может быть и несколько локальных вершин распределения частот. Тогда выделяют наибольшую моду и локальные моды.
Бимодальное, полимодальное распределение может рассматриваться как признак неоднородности выборки. Например, механическое слияние двух классов с неодинаковым уровнем интеллекта.
Еще раз отметим, что мода — это значение признака, а не его частота.
Медиана (Median) — это такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая — больше. Таким образом, первым шагом при определении медианы является упорядочивание (ранжирование) всех значений по возрастанию или убыванию. Далее медиана определяется следующим образом:
• если данные содержат нечетное число значений (8, 9,10,13,15), то медиана есть центральное значение, т. е. Md = 10;
• если данные содержат четное число значений (5, 8, 9, 11), то медиана есть точка, лежащая посередине между двумя центральными значениями, т. е. Md= (8+9)/2=8,5.
Среднее(Mean) (Мх — выборочное среднее, среднее арифметическое) — определяется как сумма всех значений измеренного признака, деленная на количество суммированных значений.
Наиболее очевидной и часто используемой мерой центральной тенденции является среднее значение. Но его использование ограничивается тем, что на величину среднего влияет каждое отдельное значение. Если какое-нибудь значение в группе увеличится на с, то среднее увеличится на c/N. Таким образом, среднее значение весьма чувствительно к выбросам — экстремально малым или большим значениям переменной.
Источник
Меры центральной тенденции
Автор: Николай Кожевников
Дата записи
Меры центральной тенденции (measures of central tendency) — способы осмысления центральной или средней позиции множества наблюдений, оценок, группы чисел и т.д.
На практике существуют большое разнообразие мер центральной тенденции (например, взвешенное, винсоризованное, гармоническое, геометрическое средние, среднее Колмогорова и др), но чаще всего встречаются:
Мода — типичность — максимальная частота — наиболее часто встречающееся значение в совокупности наблюдений. Применяется, например, для определения размера одежды, обуви, калибра патронов, пользующихся популярностью у покупателей, анализа технических экспериментов, а также определение часто встречающегося значения среди данных, имеющих не числовую природу происхождения (например, цвета: синий, красный, желтый, синий, зеленый…).
Давайте найдем моду — максимально встречающееся значение в данной совокупности:
Рассчитаем значение моды в Excel
У нас получилось 13. Т.е. максимально часто встречающееся значение в данной совокупности является значение 13.
Но если построить график, то получается такая картина
Видим, что на анализируемый показатель влияет 2 значения: это значения показателей 6, который встречается 16 раз и 13, встречающийся 17 раз. Например, такая ситуация может возникнуть при выборе кандидата в президенты: первая вершина — отданные голоса городского населения, вторая — сельского. Такой эффект называется мультимодальностью и, как правило, указывает что набор данных не подчиняется нормальному распределению.
Среднее арифметическое
Среднее арифметическое — сумма всех чисел, деленное на их количество, зависимое от разброса наблюдений.
Например, среднее арифметическое чисел 3, 7, 11 будет:
(3+7+11) /3 = 7.
Недостатком данной меры является чувствительность к различным отклонениям и неоднородностям в выборке, другими словами, оно подвержено существенным искажениям со стороны «отщепенцев» (значений) резко отклоняющихся от центра распределения. Для распределений с большим коэффициентом асимметрии может не соответствовать понятию среднего.
В приведенном примере аномальные значения («отщепенцы») будут наращивать среднее значение: если считать среднее арифметическое число проблем с качеством на 1 принтер, то получим 9,1. Впечатляющая цифра! Медиана проблем равняется 1.
Чтобы уяснить эту концепцию представьте 3-х мужчин, сидящих за барной стойкой.
Пример искажения среднего
Предположим, что у каждого из мужчин годовой доход составляет 42 000 долларов. Но тут, с попугаем на плече, к ним подсаживается Роман Абрамович, с годовым доходом 955 000 000 долларов.
Если подсчитать средний доход 4-х сидящих мужчин за барной стойкой (т.е. с Романом Абрамовичем), то мы ошибочно будем полагать что он составляет 238 781 500 долларов. Что на самом деле не соответствует действительности.
Медиана
Медиана — середина — уровень показателя, который делит набор данных на 2 равные половины (50/50). Она не присваивает наблюдениям весовые коэффициенты исходя из того, на сколько они отдалены от средней точки, а лишь оценивает их в зависимости от расположения.
Развивая мысль можно также делить медиану на четверти — квартили:
- 0,25 квантиль — первый (нижний) квартиль;
- 0,5 квантиль — медиана — второй квартиль;
- 0,75 квантиль — третий (верхний) квартиль.
Еще один вариант разделить на децили, каждый из которых включает в себя 10% наблюдений. Например, если ваш расход топлива бензинового двигателя автомобиля в верхнем дециле общего распределения расходов топлива всех бензиновых двигателей, то это означает, ваш двигатель сжигает топлива больше, чем 90% остальных двигателей.
Разбив распределение на сотые доли получим процентили — 1% распределения: первый процентиль представляет нижний 1% данного распределения, а 99-й — его верхний 1%.
Рассмотрим набор нормально распределенных случайных чисел.
В данном примере видим идеальную ситуацию когда медиана, среднее арифметическое и мода совпадают. Но, если рассмотреть ассиметричное распределение, которое может возникать при проведении технических замеров, например, скорости, может сложиться такая ситуация
Как видим из графика у нас присутствуют аномальные значения («отщепенцы»): 23, 28, 30, влияющие на среднее арифметическое, но никак не затрагивающие медиану.
Медиана — альтернатива среднему арифметическому, устойчивая к аномальным отклонениям («отщепенцам»).
Вывод
При выборе меры центральной тенденции нужно учитывать ее устойчивость к значениям, резко отклоняющихся от центра применяемых в каждом конкретном случае. Нужно определить какое влияние оказывают «отщепенцы»: искажают его или наоборот играют важную роль.
Окончательный выбор меры центральной тенденции всегда лежит за исследователем.
Источник
Меры центральной тенденции
Мера центральной тенденции (Central Tendency) — это число, характеризующее выборку по уровню выраженности измеренного признака.
Существуют три способа определения центральной тенденции, каждому из которых соответствует своя мера: мода, медиана и выборочное среднее.
Мода (Mode) — наиболее часто встречающееся значение в ряду данных. Моде, или модальному интервалу признака, соответствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным.
Среди 8 значений признака (3, 7, 3, 5, 7, 8, 7, 6) мода Мо=7 как наиболее часто встречающееся значение.
Когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений.
Распределение может иметь и не одну моду. Когда все значения встречаются одинаково часто, принято считать, что такое распределение не имеет моды.
Бимодальное распределение имеет на графике распределения две вершины, даже если частоты для двух вершин не строго равны. В последнем случае выделяют большую и меньшую моду. Во всей группе может быть и несколько локальных вершин распределения частот. Тогда выделяют наибольшую моду и локальные моды.
Бимодальное, полимодальное распределение может рассматриваться как признак неоднородности выборки. Например, механическое слияние двух классов с неодинаковым уровнем интеллекта.
Еще раз отметим, что мода — это значение признака, а не его частота.
Медиана (Median) — это такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая — больше. Таким образом, первым шагом при определении медианы является упорядочивание (ранжирование) всех значений по возрастанию или убыванию. Далее медиана определяется следующим образом:
• если данные содержат нечетное число значений (8, 9,10,13,15), то медиана есть центральное значение, т. е. Md = 10;
• если данные содержат четное число значений (5, 8, 9, 11), то медиана есть точка, лежащая посередине между двумя центральными значениями, т. е. Md= (8+9)/2=8,5.
Среднее(Mean) (Мх — выборочное среднее, среднее арифметическое) — определяется как сумма всех значений измеренного признака, деленная на количество суммированных значений.
Наиболее очевидной и часто используемой мерой центральной тенденции является среднее значение. Но его использование ограничивается тем, что на величину среднего влияет каждое отдельное значение. Если какое-нибудь значение в группе увеличится на с, то среднее увеличится на c/N. Таким образом, среднее значение весьма чувствительно к выбросам — экстремально малым или большим значениям переменной.
Меры изменчивости
Меры центральной тенденции отражают уровень выраженности измеренного признака. Однако не менее важной характеристикой является выраженность индивидуальных различий испытуемых по измеренному признаку. Меры изменчивости (Dispersion) применяются в психологии для численного выражения величины межиндивидуальной вариации признака.
Наиболее простой и очевидной мерой изменчивости является размах, указывающий на диапазон изменчивости значений. Размах (Range) — это просто разность максимального и минимального значений:
Для определение размаха выборку необходимо сначала упорядочить.
Ясно, что это очень неустойчивая мера изменчивости, на которую влияют любые возможные выбросы.
Для метрических данных используется дисперсия — величина, название которой в науке является синонимом изменчивости.
Дисперсия (Variance) — мера изменчивости данных относительно среднего значения.
Мера изменчивости для метрических данных, пропорциональная сумме квадратов отклонений измеренных значений от их арифметического среднего:
Источник