Графическое изображение рядов распределения
Анализ рядов распределения можно проводить на основе их графического изображения. Линейчатые и круговые диаграммы строятся для отображения структуры совокупности.
Применяются вместе с диаграммами и такие линии, как полигон, кумулята, огива, гистограмма.
При изображении дискретных вариационных рядов используется полигон.
Полигон– ломаная кривая, строится на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У – частоты.
В прямоугольной системе координат строят точки с координатами (x1, f1), (x2, f2), …, (xN, fN), затем последовательно соединяют их отрезками, а из первой и последней точек опускают перпендикуляры на ось х. Полученный многоугольник является полигоном дискретного вариационного ряда.
Пример построения полигона
Количество баллов x |
Число учащихся n |
Задание: построить полигон частот.
Решение.
Строим точки, основываясь на данных из таблицы. Полученные точки соединяем отрезками прямой. Обратите внимание на точки (0; 0) и (13; 0), расположенные на оси абсцисс и имеющие своими абсциссами числа, на 1 меньшее и большее, чем соответственно абсциссы самой левой и самой правой точек. Полигон частот изображен на рисунке.
Если полигон строят по данным интервального ряда, то в качестве абсцисс точек берут середины соответствующих интервалов. Крайние левую и правую точки соединяют с точками оси абсцисс — серединами ближайших интервалов, частоты которых равны нулю. Конечно, в этом случае полигон лишь приближенно отображает зависимость частот от значений аргумента.
Гладкая кривая, соединяющая точки– это эмпирическая плотность распределения.
Интервальный вариационный ряд изображают в виде гистограммы (частный случай столбиковой диаграммы). Для ее построения для интервальных рядов с равными интервалами в прямоугольной системе координат по оси абсцисс откладывают отрезки, равные длине интервала. Затем на этих отрезках, как на основаниях, строят прямоугольники, высота которых пропорциональна частоте или частости. Для интервального ряда с неравными интервалами по оси ординат откладывают плотность распределения, так как в этом случае именно она дает представление о заполненности интервала. Площадь всей гистограммы численно равна сумме частот.
Пример построения гистограммы.
Гистограмма распределения населения России по возрастным группам.
Все население | В том числе в возрасте | ||||||||
до 10 | 10-20 | 20-30 | 30-40 | 40-50 | 50-60 | 60-70 | 70 и старше | Всего | |
Численность населения | 12,1 | 15,7 | 13,6 | 16,1 | 15,3 | 10,1 | 9,8 | 7,3 | 100,0 |
Кумулята– ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У – накопленные частоты. Накопленные частоты наносятся в виде ординат. Соединяя вершины отдельных ординат отрезками прямой, получаем ломаную линию, имеющую неубывающий вид.
Для дискретных рядов на оси откладываются сами значения признака, а для интервальных – середины интервалов.
Размер заработной платы руб в месяц Xi | Численность работников чел. fi | Накопленные частоты S |
до 5000 | ||
5000 — 7000 | ||
7000 — 10000 | ||
10000 — 15000 | ||
Итого: | — |
Рассчитаем накопленные частоты:
Наколенная частота первого интервала рассчитывается следующим образом: 0 + 4 = 4, для второго: 4 + 12 = 16; для третьего: 4 + 12 + 8 = 24 и т.д.
При построении кумуляты накопленная частота (частость) соответствующего интервала присваивается его верхней границе:
Статистические таблицы
В виде статистических таблиц оформляются результаты сводки и группировки материалов наблюдения.
Статистическая таблица– это особый способ краткой и наглядной записи сведений об изучаемых общественных явлениях. Статистическая таблица позволяет охватить материалы статистической сводки в целом, она также является системой мыслей об исследуемом объекте, излагаемых цифрами на основе определенного порядка в расположении систематизированной информации.
Статистическая таблица – это система строк и столбцов, в которых в определенной последовательности и связи излагается статистическая информация о социально-экономических явлениях.
По внешнему виду статистическая таблица представляет собой ряд пересекающихся горизонтальных и вертикальных линий, образующих по горизонтали строки, а по вертикали – графы (столбцы, колонки), которые в совокупности составляют как бы скелет таблицы.
В образовавшиеся внутри таблицы клетки записывается информация. Составленную таблицу принято называть макетом таблицы,в котором мысленно определяются в деталях цель обследования, объем разработки материалов сводки.
Статистическая таблица имеет свое подлежащее и сказуемое.
Подлежащее таблицыпоказывает, о каком явлении идет речь в таблице, и представляет собой группы и подгруппы, которые характеризуются рядом показателей. Подлежащее таблицы представляет ту статистическую совокупность, о которой идет речь в таблице, т. е. перечень отдельных или всех единиц совокупности либо их групп. Чаще всего подлежащее помещается в левой части таблицы и содержит перечень строк.
Сказуемым таблицыназываются числовые показатели, с помощью которых характеризуется объект, т. е. подлежащее таблицы.
Показатели, образующие подлежащее, располагают в левой части таблицы, а показатели, составляющие сказуемое, помещают справа.
Составленная и оформленная статистическая таблица должна иметь общий, боковые и верхние заголовки. Общий заголовок обычно располагается над таблицей и выражает ее основное содержание. Помещенные слева боковые заголовки раскрывают содержание строк подлежащего, а верхние – вертикальных граф (сказуемого таблицы),
В коммерческой деятельности разрабатываются и составляются различные статистические таблицы
В зависимости от построения подлежащего таблицы делятся на три вида: простые, групповые и комбинационные.
1.1. Простые таблицы не содержат в подлежащем систематизации изучаемых единиц статистической совокупности. В подлежащем простой таблицы объект изучения не подразделяется на группы, а дается либо перечень всех единиц совокупности, либо указывается совокупность в целом.
По характеру представляемого материала простые таблицы бывают собственно перечневые, территориальные и хронологические.
Если в подлежащем таблицы содержится простой перечень каких-либо объектов, таблица называется простой перечневой.
Таблицы, в подлежащем которых приводится перечень территорий (районов, областей и т. п.), называются перечневыми территориальными.
Хронологическую таблицу можно составлять за любые по величине отрезки времени или на моменты, отстоящие друг от друга по времени на различную длину.
Простая таблица содержит только описательные сведения, ее аналитические возможности ограничены. Глубокий анализ исследуемой совокупности, взаимосвязей признаков предполагает построение более сложных таблиц — групповых и комбинационных.
1.2. Групповые таблицысодержат в подлежащем группировку единиц объекта наблюдения по одному существенному признаку, а в сказуемом указываются число единиц в группах (абсолютное или в процентах) и сводные показатели по группам. Простейшим видом групповой таблицы являются таблицы, в которых представлены ряды распределения. Групповая таблица может быть более сложной, если в сказуемом приводится не только число единиц в каждой группе, но и ряд других важных показателей, количественно и качественно характеризующих группы подлежащего. Такие таблицы часто используются в целях сопоставления обобщающих показателей по группам, что позволяет сделать определенные практические выводы.
Групповые статистические таблицы дают более информативный материал для анализа изучаемых явлений благодаря образованным в их подлежащем группам по существенному признаку или выявлению связи между рядом показателей.
1.3. Комбинационныминазывают статистические таблицы, которые имеют в подлежащем группировку по двум или более группировочным признакам, связанным между собой. В подлежащем комбинационной таблицы совокупность подразделяется на группы не по одному, а по нескольким признакам. Комбинационная таблица устанавливает взаимное действие на результативные признаки (показатели) и существующую связь между факторами группировки.
С помощью групповых и комбинационных таблиц можно изучать состав явлений, а также связь и зависимость числовых показателей сказуемого от группировочных признаков подлежащего.
Одними из ответственных моментов построения статистических таблиц являются разработка сказуемого, определение его содержания, правильное установление связи между группировочными признаками и показателями, их характеризующими.
Сказуемое, находясь во взаимосвязи с подлежащим таблицы, должно быть построено так, чтобы с помощью системы его показателей можно было получить полную характеристику выделенных групп, охватить их существенные черты.
Сказуемое статистических таблиц бывает простым и сложным. При простой разработке показатели сказуемого располагаются последовательно один за другим. Распределяя показатели на группы по одному или нескольким признакам в определенном сочетании, получают сложное сказуемое.
Источник
Графическое изображение рядов распределения: полигон, гистограмма. Показатели центра распределения, колеблемости признака. Формы распределения.
Поможем написать любую работу на аналогичную тему
Графики являются наглядной формой отображения рядов распределения. Для изображения рядов применяются линейные графики и плоскостные диаграммы, построенные в прямоугольной системе координат.
Для графического представления атрибутивных рядов распределения используются различные диаграммы: столбиковые, линейные, круговые, фигурные, секторные и т. д.
Для дискретных вариационных рядов графиком является полигон распределения.
Полигоном распределения называется ломаная линия, соединяющая точки с координатами или
где
— дискретное значение признака,
— частота,
— частость.
График строится в принятом масштабе. Вид полигона распределения приведен на рис. 5.1.
Для изображения интервальных вариационных рядов применяют гистограммы, представляющие собой ступенчатые фигуры, состоящие из прямоугольников, основания которых равны ширине интервала , а высота — частоте
(частости
) равноинтервального ряда или плотности распределения неравноинтервального
Построение диаграммы аналогично построению столбиковой диаграммы. Общий вид гистограммы приведен на рис. 5.2.
Для графического представления вариационных рядов может использоваться также кумулята – ломаная линия, составленная по накопленным частотам (частостям). Накопленные частоты наносятся в виде ординат; соединяя вершины отдельных ординат отрезками прямой, получаем ломаную линию, имеющую неубывающий вид. Координатами точек на графике для дискретного ряда являются для интервального ряда —
Начальная точка графика имеет координаты
самая высокая точка —
Общий вид кумуляты приведен на рис.5.3. Использование кумуляты особенно удобно при проведении сравнений вариационных рядов.
При построении графиков рядов распределения большое значение имеет соотношение масштабов по оси абсцисс и оси ординат. В этом случае и необходимо руководствоваться «правилом золотого сечения», в соответствии с которым высота графика должна быть примерно в два раза меньше его основания.
При проведении эмпирического исследования ряда распределения рассчитываются и анализируются следующие группы показателей:
• показатели положения центра распределения;
• показатели степени его однородности;
• показатели формы распределения.
Показатели положения центра распределения. К ним относятся степенная средняя в виде средней арифметической и структурные средние – мода и медиана.
Средняя арфметическая для дискретного ряда распределения рассчитывается по формуле:
В отличие от средней арифметической, рассчитываемой на основе всех вариант, мода и медиана характеризует значение признака у статистической единице, занимающей определенное положение в вариационном ряду.
Медиана (Me) — значение признака у статистической единицы, стоящей в середине ранжированного ряда и делящей совокупность на две равные по численности части.
Мода (Mo) — наиболее часто встречаемое значение признак в совокупности. Мода широко используется в статистической практике при изучении покупательского спроса, регистрации цен и др.
Для дискретных вариационных рядов Mo и Me выбираются в соответствии с определениями: мода — как значение признака с наибольшей частотой : положение медианы при нечетном объеме совокупности определяется ее номером
, где N – объем статистической совокупности. При четном объеме ряда медиана равна средней из двух вариантов, находящихся в середине ряда.
Медиану используют как наиболее надежный показатель типичного значения неоднородной совокупности, так как она нечувствительна к крайним значениям признака, которые могут значительно отличаться от основного массива его значений. Кроме этого, медиана находит практическое применение вследствие особого математического свойства: Рассмотрим определение моды и медианы на следующем примере: имеется ряд распределения рабочих участка по уровню квалификации.
Данные приведены в таблице 5.2.
Мода выбирается по максимальному значению частоты: при nmax = 14 Mo=4, т.е. чаще всего встречается 4-ый разряд. Для нахождения медианы Me определяются центральные единицы Это 25 и 26-ая единицы. По накопленным частотам определяется группа, в которую попадают эти единицы. Это 4-ая группа, в которой значение признака равно 4. Таким образом, Me = 4, это означает, что у половины рабочих разряд ниже 4-го, а у другой – выше четвертого. В интервальном ряду значения Mo и Me вычисляются более сложным путем.
Мода определяется следующим образом:
• По максимальному значению частоты определяется интервал, в котором находится значение моды. Он называется модальным.
• Внутри модального интервала значение моды вычисляется по формуле:
Для расчета медианы в интервальных рядах используется следующий подход:
• По накопленным частотам находится медианный интервал. Медианным называется интервал, содержащий центральную единицу.
• Внутри медианного интервала значение Me определяется по формуле:
В неравноинтервальных рядах при вычислении Mo используется другая частотная характеристика – абсолютная плотность распределения:
Расчет моды и медианы для интервального ряда распределения рассмотрим на примере ряда распределения рабочих по стажу, приведенного в таблице 5.3.
• Максимальная частота n max = 13, она соответствует четвертой группе, следовательно, модальным является интервал с границами 12 – 16 лет.
• Моду рассчитаем по формуле:
Чаще всего встречаются рабочие со стажем работы около 13 лет. Мода не находится в середине модального интервала, она смещена к его нижней границе, связано это со структурой данного ряда распределения (частота предмодального интервала значительно больше частоты постмодального интервала).
• По графе накопленных частот определяется медианный интервал. Он содержит 25 и 26-у статистические единицы, которые находятся в разных группах – в 3-ей и 4-ой. Для нахождения Me можно использовать любую из них. Расчет проведем по 3-ей группе:
Такое же значение Me можно получить при её расчете по 4-ой группе:
При сдвоенном центре Me всегда находится на стыке интервалов, содержащих центральные единицы. Вычисленное значение Me показывает, что у первых 25 рабочих стаж работы – менее 12 лет, а у оставшихся 25-ти, следовательно, — более 12 лет.
Моду можно определить графически по полигону распределения в дискретных рядах, по гистограмме распределения – в интервальных, а медиану — по кумуляте.
Для нахождения моды в интервальном ряду правую вершину модального прямоугольника нужно соединить с правым верхним углом предыдущего прямоугольника, а левую вершину – с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой распределения.
Для определение медианы высоту наибольшей ординаты кумуляты, соответствующей общей численности совокупности, делят пополам. Через полученную точку проводят прямую, параллельную оси абсцисс, до пересечения ее с кумулятой. Абсцисса точки пересечения является медианой.
Кроме Mo и Me в вариантных рядах могут быть определены и другие структурные характеристики – квантили. Квантили предназначены для более глубокого изучения структуры ряда распределения. Квантиль – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Различают следующие виды квантилей:
• квартили – значения признака, делящие упорядоченную совокупность на 4 равные части;
• децили – значения признака, делящие совокупность на 10 равных частей;
• перцентели — значения признака, делящие совокупность на 100 равных частей.
Если данные сгруппированы, то значение квартиля определяется по накопленным частотам: номер группы, которая содержит i -ый квантиль. Определяется как номер первой группы от начала ряда, в котором сумма накопленных частот равна или превышает i ·N, где I – индекс квантиля. Если ряд интервальный, то значение квантиля определяется по формуле:
Рассчитаем квартили для ряда распределения рабочих участка по стажу работы:
Следовательно, у четверти рабочих стаж менее 7 лет и у четверти – более 16 лет. Таким образом, для характеристики положения центра ряда распределения можно использовать 3 показателя: среднее значение признака, мода, медиана.
При выборе вида и формы конкретного показателя центра распределения необходимо исходить из следующих рекомендаций:
• для устойчивых социально-экономических процессов в качестве показателя центра используют среднюю арифметическую. Такие процессы характеризуются симметричными распределениями, в которых
• для неустойчивых процессов положение центра распределения характеризуется с помощью Mo или Me. Для асимметричных процессов предпочтительной характеристикой центра распределения является медиана, поскольку занимает положение между средней арифметической и модой.
Вторая важнейшая задача при определении общего характера распределения – это оценка степени его однородности. Однородность статистических совокупностей характеризуется величиной вариации (рассеяния) признака, т.е. несовпадением его значений у разных статистических единиц. Для измерения вариации в статистике используются абсолютные и относительные показатели. Выяснение общего характера распределения предполагает не только оценку степени его однородности, но и исследование формы распределения, т.е. оценку симметричности и эксцесса.
Из математической статистики известно, что при увеличении объема статистической совокупности и одновременного уменьшении интервала группировки
полигон либо гистограмма распределения все более и более приближается к некоторой плавной кривой, являющейся для указанных графиков пределом. Эта кривая называется эмпирической кривой распределения и представляет собой графическое изображение в виде непрерывной линии изменения частот, функционально связанного с изменением вариант.
В статистике различают следующие виды кривых распределения:
• одновершинные кривые; • многовершинные кривые.
Однородные совокупности описываются одновершинными распределениями. Многовершинность распределения свидетельствует о неоднородности изучаемой совокупности или о некачественном выполнении группировки.
Одновершинные кривые распределения делятся на симметричные, умеренно асимметричные и крайне асимметричные.
Распределение называется симметричным, если частоты любых 2-х вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой. В таких распределениях
Для характеристики асимметрии используют коэффициенты асимметрии.
Наиболее часто используются следующие из них:
• Коэффициент асимметрии Пирсона
В одновершинных распределениях величина этого показателя изменяется от -1 до +1. в симметричных распределениях As=0. При As>0 наблюдается правосторонняя асимметрия (рис.5.4). В распределениях с правосторонней асимметрией Mo ≤ Me ≤ При As Me>
Рис. 5.4.Правосторонняя асимметрия Рис. 5.5. Левосторонняя асимметрия
Чем ближе по модулю As к 1, тем асимметрия существеннее:
Коэффициент асимметрии Пирсона характеризует асимметрию только в центральной части распределения, поэтому более распространенным и более точным является коэффициент асимметрии, рассчитанный на основе центрального момента 3-его порядка:
Центральным моментом в статистике называется среднее отклонение индивидуальных значений признака от его среднеарифметической величины.
Центральный момент k-ого порядка рассчитывается как:
Соответственно формулы для определения центрального момента третьего порядка имеют следующий вид:
Для оценки существенности рассчитанного вторым способом коэффициента асимметрии определяется его средняя квадратическая ошибка:
Для одновершинных распределений рассчитывается еще один показатель оценки его формы – эксцесс. Эксцесс является показателем островершинности распределения. Он рассчитывается для симметричных распределений на основе центрального момента 4-ого порядка
При симметричных распределениях Ех=0. если Ех>0, то распределение относится к островершинным, если Ех
Источник