Графическое изображение рядов распределения: полигон, гистограмма. Показатели центра распределения, колеблемости признака. Формы распределения.
Поможем написать любую работу на аналогичную тему
Графики являются наглядной формой отображения рядов распределения. Для изображения рядов применяются линейные графики и плоскостные диаграммы, построенные в прямоугольной системе координат.
Для графического представления атрибутивных рядов распределения используются различные диаграммы: столбиковые, линейные, круговые, фигурные, секторные и т. д.
Для дискретных вариационных рядов графиком является полигон распределения.
Полигоном распределения называется ломаная линия, соединяющая точки с координатами или
где
— дискретное значение признака,
— частота,
— частость.
График строится в принятом масштабе. Вид полигона распределения приведен на рис. 5.1.
Для изображения интервальных вариационных рядов применяют гистограммы, представляющие собой ступенчатые фигуры, состоящие из прямоугольников, основания которых равны ширине интервала , а высота — частоте
(частости
) равноинтервального ряда или плотности распределения неравноинтервального
Построение диаграммы аналогично построению столбиковой диаграммы. Общий вид гистограммы приведен на рис. 5.2.
Для графического представления вариационных рядов может использоваться также кумулята – ломаная линия, составленная по накопленным частотам (частостям). Накопленные частоты наносятся в виде ординат; соединяя вершины отдельных ординат отрезками прямой, получаем ломаную линию, имеющую неубывающий вид. Координатами точек на графике для дискретного ряда являются для интервального ряда —
Начальная точка графика имеет координаты
самая высокая точка —
Общий вид кумуляты приведен на рис.5.3. Использование кумуляты особенно удобно при проведении сравнений вариационных рядов.
При построении графиков рядов распределения большое значение имеет соотношение масштабов по оси абсцисс и оси ординат. В этом случае и необходимо руководствоваться «правилом золотого сечения», в соответствии с которым высота графика должна быть примерно в два раза меньше его основания.
При проведении эмпирического исследования ряда распределения рассчитываются и анализируются следующие группы показателей:
• показатели положения центра распределения;
• показатели степени его однородности;
• показатели формы распределения.
Показатели положения центра распределения. К ним относятся степенная средняя в виде средней арифметической и структурные средние – мода и медиана.
Средняя арфметическая для дискретного ряда распределения рассчитывается по формуле:
В отличие от средней арифметической, рассчитываемой на основе всех вариант, мода и медиана характеризует значение признака у статистической единице, занимающей определенное положение в вариационном ряду.
Медиана (Me) — значение признака у статистической единицы, стоящей в середине ранжированного ряда и делящей совокупность на две равные по численности части.
Мода (Mo) — наиболее часто встречаемое значение признак в совокупности. Мода широко используется в статистической практике при изучении покупательского спроса, регистрации цен и др.
Для дискретных вариационных рядов Mo и Me выбираются в соответствии с определениями: мода — как значение признака с наибольшей частотой : положение медианы при нечетном объеме совокупности определяется ее номером
, где N – объем статистической совокупности. При четном объеме ряда медиана равна средней из двух вариантов, находящихся в середине ряда.
Медиану используют как наиболее надежный показатель типичного значения неоднородной совокупности, так как она нечувствительна к крайним значениям признака, которые могут значительно отличаться от основного массива его значений. Кроме этого, медиана находит практическое применение вследствие особого математического свойства: Рассмотрим определение моды и медианы на следующем примере: имеется ряд распределения рабочих участка по уровню квалификации.
Данные приведены в таблице 5.2.
Мода выбирается по максимальному значению частоты: при nmax = 14 Mo=4, т.е. чаще всего встречается 4-ый разряд. Для нахождения медианы Me определяются центральные единицы Это 25 и 26-ая единицы. По накопленным частотам определяется группа, в которую попадают эти единицы. Это 4-ая группа, в которой значение признака равно 4. Таким образом, Me = 4, это означает, что у половины рабочих разряд ниже 4-го, а у другой – выше четвертого. В интервальном ряду значения Mo и Me вычисляются более сложным путем.
Мода определяется следующим образом:
• По максимальному значению частоты определяется интервал, в котором находится значение моды. Он называется модальным.
• Внутри модального интервала значение моды вычисляется по формуле:
Для расчета медианы в интервальных рядах используется следующий подход:
• По накопленным частотам находится медианный интервал. Медианным называется интервал, содержащий центральную единицу.
• Внутри медианного интервала значение Me определяется по формуле:
В неравноинтервальных рядах при вычислении Mo используется другая частотная характеристика – абсолютная плотность распределения:
Расчет моды и медианы для интервального ряда распределения рассмотрим на примере ряда распределения рабочих по стажу, приведенного в таблице 5.3.
• Максимальная частота n max = 13, она соответствует четвертой группе, следовательно, модальным является интервал с границами 12 – 16 лет.
• Моду рассчитаем по формуле:
Чаще всего встречаются рабочие со стажем работы около 13 лет. Мода не находится в середине модального интервала, она смещена к его нижней границе, связано это со структурой данного ряда распределения (частота предмодального интервала значительно больше частоты постмодального интервала).
• По графе накопленных частот определяется медианный интервал. Он содержит 25 и 26-у статистические единицы, которые находятся в разных группах – в 3-ей и 4-ой. Для нахождения Me можно использовать любую из них. Расчет проведем по 3-ей группе:
Такое же значение Me можно получить при её расчете по 4-ой группе:
При сдвоенном центре Me всегда находится на стыке интервалов, содержащих центральные единицы. Вычисленное значение Me показывает, что у первых 25 рабочих стаж работы – менее 12 лет, а у оставшихся 25-ти, следовательно, — более 12 лет.
Моду можно определить графически по полигону распределения в дискретных рядах, по гистограмме распределения – в интервальных, а медиану — по кумуляте.
Для нахождения моды в интервальном ряду правую вершину модального прямоугольника нужно соединить с правым верхним углом предыдущего прямоугольника, а левую вершину – с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой распределения.
Для определение медианы высоту наибольшей ординаты кумуляты, соответствующей общей численности совокупности, делят пополам. Через полученную точку проводят прямую, параллельную оси абсцисс, до пересечения ее с кумулятой. Абсцисса точки пересечения является медианой.
Кроме Mo и Me в вариантных рядах могут быть определены и другие структурные характеристики – квантили. Квантили предназначены для более глубокого изучения структуры ряда распределения. Квантиль – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Различают следующие виды квантилей:
• квартили – значения признака, делящие упорядоченную совокупность на 4 равные части;
• децили – значения признака, делящие совокупность на 10 равных частей;
• перцентели — значения признака, делящие совокупность на 100 равных частей.
Если данные сгруппированы, то значение квартиля определяется по накопленным частотам: номер группы, которая содержит i -ый квантиль. Определяется как номер первой группы от начала ряда, в котором сумма накопленных частот равна или превышает i ·N, где I – индекс квантиля. Если ряд интервальный, то значение квантиля определяется по формуле:
Рассчитаем квартили для ряда распределения рабочих участка по стажу работы:
Следовательно, у четверти рабочих стаж менее 7 лет и у четверти – более 16 лет. Таким образом, для характеристики положения центра ряда распределения можно использовать 3 показателя: среднее значение признака, мода, медиана.
При выборе вида и формы конкретного показателя центра распределения необходимо исходить из следующих рекомендаций:
• для устойчивых социально-экономических процессов в качестве показателя центра используют среднюю арифметическую. Такие процессы характеризуются симметричными распределениями, в которых
• для неустойчивых процессов положение центра распределения характеризуется с помощью Mo или Me. Для асимметричных процессов предпочтительной характеристикой центра распределения является медиана, поскольку занимает положение между средней арифметической и модой.
Вторая важнейшая задача при определении общего характера распределения – это оценка степени его однородности. Однородность статистических совокупностей характеризуется величиной вариации (рассеяния) признака, т.е. несовпадением его значений у разных статистических единиц. Для измерения вариации в статистике используются абсолютные и относительные показатели. Выяснение общего характера распределения предполагает не только оценку степени его однородности, но и исследование формы распределения, т.е. оценку симметричности и эксцесса.
Из математической статистики известно, что при увеличении объема статистической совокупности и одновременного уменьшении интервала группировки
полигон либо гистограмма распределения все более и более приближается к некоторой плавной кривой, являющейся для указанных графиков пределом. Эта кривая называется эмпирической кривой распределения и представляет собой графическое изображение в виде непрерывной линии изменения частот, функционально связанного с изменением вариант.
В статистике различают следующие виды кривых распределения:
• одновершинные кривые; • многовершинные кривые.
Однородные совокупности описываются одновершинными распределениями. Многовершинность распределения свидетельствует о неоднородности изучаемой совокупности или о некачественном выполнении группировки.
Одновершинные кривые распределения делятся на симметричные, умеренно асимметричные и крайне асимметричные.
Распределение называется симметричным, если частоты любых 2-х вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой. В таких распределениях
Для характеристики асимметрии используют коэффициенты асимметрии.
Наиболее часто используются следующие из них:
• Коэффициент асимметрии Пирсона
В одновершинных распределениях величина этого показателя изменяется от -1 до +1. в симметричных распределениях As=0. При As>0 наблюдается правосторонняя асимметрия (рис.5.4). В распределениях с правосторонней асимметрией Mo ≤ Me ≤ При As Me>
Рис. 5.4.Правосторонняя асимметрия Рис. 5.5. Левосторонняя асимметрия
Чем ближе по модулю As к 1, тем асимметрия существеннее:
Коэффициент асимметрии Пирсона характеризует асимметрию только в центральной части распределения, поэтому более распространенным и более точным является коэффициент асимметрии, рассчитанный на основе центрального момента 3-его порядка:
Центральным моментом в статистике называется среднее отклонение индивидуальных значений признака от его среднеарифметической величины.
Центральный момент k-ого порядка рассчитывается как:
Соответственно формулы для определения центрального момента третьего порядка имеют следующий вид:
Для оценки существенности рассчитанного вторым способом коэффициента асимметрии определяется его средняя квадратическая ошибка:
Для одновершинных распределений рассчитывается еще один показатель оценки его формы – эксцесс. Эксцесс является показателем островершинности распределения. Он рассчитывается для симметричных распределений на основе центрального момента 4-ого порядка
При симметричных распределениях Ех=0. если Ех>0, то распределение относится к островершинным, если Ех
Источник