- 7 методов статистического анализа, которые может применять каждый
- Статистическое наблюдение
- Сводка и группировка материалов статистического наблюдения
- Абсолютные и относительные статистические величины
- Вариационные ряды
- Выборка
- Корреляционный и регрессионный анализ
- Ряды динамики
- Полезные статьи → Статистические методы анализа данных в решении практических задач (часть первая)
- Одномерные типы анализа данных
- Количественные исследования
- Дескриптивный анализ
- Таблицы сопряженности и корреляции
7 методов статистического анализа, которые может применять каждый
Деятельность людей во множестве случаев предполагает работу с данными, а она в свою очередь может подразумевать не только оперирование ими, но и их изучение, обработку и анализ. Например, когда нужно уплотнить информацию, найти какие-то взаимосвязи или определить структуры. И как раз для аналитики в этом случае очень удобно пользоваться не только разными техниками мышления, но и применять статистические методы.
Особенностью методов статистического анализа является их комплексность, обусловленная многообразием форм статистических закономерностей, а также сложностью процесса статистических исследований. Однако мы хотим поговорить именно о таких методах, которые может применять каждый, причем делать это эффективно и с удовольствием.
Статистическое исследование может проводиться посредством следующих методик:
- Статистическое наблюдение;
- Сводка и группировка материалов статистического наблюдения;
- Абсолютные и относительные статистические величины;
- Вариационные ряды;
- Выборка;
- Корреляционный и регрессионный анализ;
- Ряды динамики.
Далее мы рассмотрим каждый из них более подробно. Но отметим, что представим лишь основные характеристики без подробного описания алгоритмов действий. Впрочем, понять их не составит никакого труда.
Статистическое наблюдение
Статистическое наблюдение является планомерным, организованным и в большинстве случаев систематическим сбором информации, направленным, главным образом, на явления социальной жизни. Реализуется данный метод через регистрацию предварительно определенных наиболее ярких признаков, цель которой состоит в последующем получении характеристик изучаемых явлений.
Статистическое наблюдение должно выполняться с учетом некоторых важных требований:
- Оно должно полностью охватывать изучаемые явления;
- Получаемые данные должны быть точными и достоверными;
- Получаемые данные должны быть однообразными и легкосопоставимыми.
Также статистическое наблюдение может иметь две формы:
- Отчетность – это такая форма статистического наблюдения, где информация поступает в конкретные статистические подразделения организаций, учреждений или предприятий. В этом случае данные вносятся в специальные отчеты.
- Специально организованное наблюдение – наблюдение, которое организуется с определенной целью, чтобы получить сведения, которых не имеется в отчетах, или же для уточнения и установления достоверности информации отчетов. К этой форме относятся опросы (например, опросы мнений людей), перепись населения и т.п.
Кроме того, статистическое наблюдение может быть категоризировано на основе двух признаков: либо на основе характера регистрации данных, либо на основе охвата единиц наблюдения. К первой категории относятся опросы, документирование и прямое наблюдение, а ко второй – наблюдение сплошное и несплошное, т.е. выборочное.
Для получения данных при помощи статистического наблюдения можно применять такие способы как анкетирование, корреспондентская деятельность, самоисчисление (когда наблюдаемые, например, сами заполняют соответствующие документы), экспедиции и составление отчетов.
Сводка и группировка материалов статистического наблюдения
Говоря о втором методе, в первую очередь следует сказать о сводке. Сводка представляет собой процесс обработки определенных единичных фактов, которые образуют общую совокупность данных, собранных при наблюдении. Если сводка проводится грамотно, огромное количество единичных данных об отдельных объектах наблюдения может превратиться в целый комплекс статистических таблиц и результатов. Также такое исследование способствует определению общих черт и закономерностей исследуемых явлений.
С учетом показателей точности и глубины изучения можно выделить простую и сложную сводку, но любая из них должна основываться на конкретных этапах:
- Выбирается группировочный признак;
- Определяется порядок формирования групп;
- Разрабатывается система показателей, позволяющих охарактеризовать группу и объект или явление в целом;
- Разрабатываются макеты таблиц, где будут представлены результаты сводки.
Важно заметить, что есть и разные формы сводки:
- Централизованная сводка, требующая передачи полученного первичного материала в вышестоящий центр для последующей обработки;
- Децентрализованная сводка, где изучение данных происходит на нескольких ступенях по восходящей.
Выполняться же сводка может при помощи специализированного оборудования, например, с использованием компьютерного ПО или вручную.
Что же касается группировки, то этот процесс отличается разделением исследуемых данных на группы по признакам. Особенности поставленных статистическим анализом задач влияют на то, какой именно будет группировка: типологической, структурной или аналитической. Именно поэтому для сводки и группировки либо прибегают к услугам узкопрофильных специалистов, либо применяют конкретные техники мышления.
Абсолютные и относительные статистические величины
Абсолютные величина считаются самой первой формой представления статистических данных. С ее помощью удается придать явлениям размерные характеристики, например, по времени, по протяженности, по объему, по площади, по массе и т.д.
Если требуется узнать об индивидуальных абсолютных статистических величинах, можно прибегнуть к замерам, оценке, подсчету или взвешиванию. А если нужно получить итоговые объемные показатели, следует использовать сводку и группировку. Нужно иметь в виду, что абсолютные статистические величины отличаются наличием единиц измерения. К таким единицам относят стоимостные, трудовые и натуральные.
А относительные величины выражают количественные соотношения, касающиеся явлений социальной жизни. Чтобы их получить, одни величины всегда делятся на другие. Показатель, с которым сравнивают (это знаменатель), называют основанием сравнения, а показатель, которой сравнивают (это числитель), называют отчетной величиной.
Относительные величины могут быть разными, что зависит от их содержательной части. Например, существуют величины сравнения, величины уровня развития, величины интенсивности конкретного процесса, величины координации, структуры, динамики и т.д. и т.п.
Чтобы изучить какую-то совокупность по дифференцирующимся признакам, в статистическом анализе применяются средние величины – обобщающие качественные характеристики совокупности однородных явлений по какому-либо дифференцирующемуся признаку.
Крайне важным свойством средних величин является то, что они говорят о значениях конкретных признаков во всем их комплексе единым числом. Невзирая на то, что у отдельных единиц может наблюдаться количественная разница, средние величины выражают общие значения, свойственные всем единицам исследуемого комплекса. Получается, что при помощи характеристики чего-то одного можно получить характеристику целого.
Следует иметь в виду, что одним из самых важных условий применения средних величин, если проводится статистический анализ социальных явлений, считается однородность их комплекса, для которого и нужно узнать среднюю величину. А от такого, как именно будут представлены начальные данные для исчисления средней величины, будет зависеть и формула ее определения.
Вариационные ряды
В некоторых случаях данных о средних показателях тех или иных изучаемых величин может быть недостаточно, чтобы провести обработку, оценку и глубокий анализ какого-то явления или процесса. Тогда во внимание следует брать вариацию или разброс показателей отдельных единиц, который тоже представляет собой важную характеристику исследуемой совокупности.
На индивидуальные значения величин могут воздействовать многие факторы, а сами изучаемые явления или процессы могут быть очень многообразны, т.е. обладать вариацией (это многообразие и есть вариационные ряды), причины которой следует искать в сущности того, что изучается.
Вышеназванные абсолютные величины находятся в непосредственной зависимости от единиц измерения признаков, а значит, делают процесс изучения, оценки и сравнения двух и более вариационных рядов более сложным. А относительные показатели нужно вычислять в качестве соотношения абсолютных и средних показателей.
Выборка
Смысл выборочного метода (или проще – выборки) состоит в том, что по свойствам одной части определяются численные характеристики целого (это называется генеральной совокупностью). Основной выборочного метода является внутренняя связь, объединяющая части и целое, единичное и общее.
Метод выборки отличается рядом существенных преимуществ перед остальными, т.к. благодаря уменьшению количества наблюдений позволяет сократить объемы работы, затрачиваемые средства и усилия, а также успешно получать данные о таких процессах и явлениях, где либо нецелесообразно, либо просто невозможно исследовать их полностью.
Соответствие характеристик выборки характеристикам изучаемого явления или процесса будет зависеть от комплекса условий, и в первую очередь от того, как вообще будет реализовываться выборочный метод на практике. Это может быть как планомерный отбор, идущий по подготовленной схеме, так и непланомерный, когда выборка производится из генеральной совокупности.
Но во всех случаях выборочный метод должен быть типичным и соответствовать критериям объективности. Данные требования нужно выполнять всегда, т.к. именно от них будет зависеть соответствие характеристик метода и характеристик того, что подвергается статистическому анализу.
Таким образом, перед обработкой выборочного материала необходимо провести его тщательную проверку, избавившись тем самым от всего ненужного и второстепенного. Одновременно с этим, составляя выборку, в обязательном порядке нужно обходить стороной любую самодеятельность. Это означает, что ни в коем случае не следует делать выборку только из вариантов, кажущихся типичными, а все другие – отбрасывать.
Эффективная и качественная выборка должна составляться объективно, т.е. производить ее нужно так, чтобы были исключены любые субъективные влияния и предвзятые побуждения. И чтобы это условие было соблюдено должным образом, требуется прибегнуть к принципу рандомизации или, проще говоря, к принципу случайного отбора вариантов из всей их генеральной совокупности.
Представленный принцип служит основой теории выборочного метода, и следовать ему нужно всегда, когда требуется создать эффективную выборочную совокупность, причем случаи планомерного отбора исключением здесь не являются.
Корреляционный и регрессионный анализ
Корреляционный анализ и регрессионный анализ – это два высокоэффективных метода, позволяющие проводить анализ больших объемов данных для изучения возможной взаимосвязи двух или большего количества показателей.
В случае с корреляционным анализом задачами являются:
- Измерить тесноту имеющейся связи дифференцирующихся признаков;
- Определить неизвестные причинные связи;
- Оценить факторы, в наибольшей степени воздействующие на окончательный признак.
А в случае с регрессионным анализом задачи следующие:
- Определить форму связи;
- Установить степень воздействия независимых показателей на зависимый;
- Определить расчетные значения зависимого показателя.
Чтобы решить все вышеназванные задачи, практически всегда нужно применять и корреляционный и регрессионный анализ в комплексе.
Ряды динамики
Посредством этого метода статистического анализа очень удобно определять интенсивность или скорость, с которой развиваются явления, находить тенденцию их развития, выделять колебания, сравнивать динамику развития, находить взаимосвязь развивающихся во времени явлений.
Ряд динамики – это такой ряд, в котором во времени последовательно расположены статистические показатели, изменения которых характеризуют процесс развития исследуемого объекта или явления.
Ряд динамики включает в себя два компонента:
- Период или момент времени, связанный с имеющимися данными;
- Уровень или статистический показатель.
В совокупности эти компоненты представляют собой два члена ряда динамики, где первый член (временной период) обозначается буквой «t», а второй (уровень) – буквой «y».
Исходя из длительности временных промежутков, с которыми взаимосвязаны уровни, ряды динамики могут быть моментными и интервальными. Интервальные ряды позволяют складывать уровни для получения общей величины периодов, следующих один за другим, а в моментных такой возможности нет, но этого там и не требуется.
Ряды динамики также существуют с равными и разными интервалами. Суть же интервалов в моментных и интервальных рядах всегда разная. В первом случае интервалом является временной промежуток между датами, к которым привязаны данные для анализа (удобно использовать такой ряд, например, для определения количества действий за месяц, год и т.д.). А во втором случае – временной промежуток, к которому привязана совокупность обобщенных данных (такой ряд можно использовать для определения качества тех же самых действий за месяц, год и т.п.). Интервалы могут быть равными и разными, независимо от типа ряда.
Естественно, чтобы научиться грамотно применять каждый из методов статистического анализа, недостаточно просто знать о них, ведь, по сути, статистика – это целая наука, требующая еще и определенных навыков и умений. Но чтобы она давалась проще, можно и нужно тренировать свое мышление и улучшать когнитивные способности.
В остальном же исследование, оценка, обработка и анализ информации – очень интересные процессы. И даже в тех случаях, когда это не приводит к какому-то конкретному результату, за время исследования можно узнать множество интересных вещей. Статистический анализ нашел свое применение в огромном количестве сфер деятельности человека, а вы можете использовать его в учебе, работе, бизнесе и других областях, включая развитие детей и самообразование.
Источник
Полезные статьи → Статистические методы анализа данных в решении практических задач (часть первая)
Опрос сотрудников, клиентов, потребителей, – это не просто сбор информации, а полноценное исследование. А целью всякого исследования является научно обоснованная интерпретация изученных фактов. Первичный материал необходимо обработать, а именно упорядочить и проанализировать. После опроса респондентов происходит анализ данных исследования. Это ключевой этап. Он представляет собой совокупность приемов и методов, направленных на то, чтобы проверить, насколько были верны предположения и гипотезы, а также ответить на заданные вопросы. Данный этап является, пожалуй, наиболее сложным с точки зрения интеллектуальных усилий и профессиональной квалификации, однако позволяет получить максимум полезной информации из собранных данных. Методы анализа данных многообразны. Выбор конкретного метода зависит, в первую очередь, от того, на какие вопросы мы хотим получить ответ. Можно выделить два класса процедур анализа:
- одномерные (дескриптивные) и
- многомерные.
Целью одномерного анализа является описание одной характеристики выборки в определенный момент времени. Рассмотрим более подробно.
Одномерные типы анализа данных
Количественные исследования
Дескриптивный анализ
Дескриптивные (или описательные) статистики являются базовым и наиболее общим методом анализа данных. Представьте, что вы проводите опрос с целью составления портрета потребителя товара. Респонденты указывают свой пол, возраст, семейное и профессиональное положение, потребительские предпочтения и т.д., а описательные статистики позволяют получить информацию, на основе которой будет строиться весь портрет. В дополнение к числовым характеристикам создаются разнообразные графики, помогающие визуально представить результаты опроса. Всё это многообразие вторичных данных объединяется понятием «дескриптивный анализ». Полученные в ходе исследования числовые данные наиболее часто представляются в итоговых отчетах в виде частотных таблиц. В таблицах могут быть представлены разные виды частот. Давайте рассмотрим на примере: Потенциальный спрос на товар
- Абсолютная частота показывает, сколько раз тот или иной ответ повторяется в выборке. Например, 23 человека купили бы предложенный товар стоимостью 5000 руб., 41 человек – стоимостью 4500 руб. и 56 человек – 4399 руб.
- Относительная частота показывает, какую долю данное значение составляет от всего объема выборки (23 человека – 19,2%, 41 – 34,2%, 56 – 46,6%).
- Кумулятивная или накопленная частота показывает долю элементов выборки, не превышающих определенное значение. Например, изменение процента респондентов, готовых приобрести тот или иной товар при уменьшении цены на него (19,2% респондентов готовы купить товар за 5000 руб., 53,4% — от 4500 до 5000 руб., и 100% — от 4399 до 5000 руб. ).
Наряду с частотами, дескриптивный анализ предполагает расчет различных описательных статистик. Соответствуя своему названию, они предоставляют основную информацию о полученных данных. Уточним, использование конкретной статистики зависит от того, в каких шкалах представлена исходная информация. Номинальная шкала используется для фиксации объектов, не имеющих ранжированного порядка (пол, место жительства, предпочитаемая марка и т.д.). Для подобного рода массива данных нельзя рассчитать каких-либо значимых статистических показателей, кроме моды — наиболее часто встречающегося значения переменной. Несколько лучше в плане анализа ситуация обстоит с порядковой шкалой. Здесь становится возможным, наряду с модой, расчет медианы – значения, разбивающего выборку на две равные части. Например, при наличии нескольких ценовых интервалов на товар (500-700 руб. руб., 700-900, 900-1100 руб.) медиана позволяет установить точную стоимость, дороже или дешевле которой потребители готовы приобретать или, наоборот, отказаться от покупки. Наиболее богатыми на все возможные статистики являются количественные шкалы, которые представляют собой ряды числовых значений, имеющих равные интервалы между собой и поддающихся измерению. Примерами подобных шкал могут служить уровень дохода, возраст, время, отводимое на покупки и т.д. В данном случае становятся доступными следующие информационные меры: среднее, размах, стандартное отклонение, стандартная ошибка среднего. Конечно, язык цифр является довольно «сухим» и для многих весьма непонятным. По этой причине дескриптивный анализ дополняется визуализацией данных путем построения различных диаграмм и графиков, как, например: гистограммы, линейные, круговые или точечные диаграммы.
Таблицы сопряженности и корреляции
Таблицы сопряженности – это средство представления распределения двух переменных, предназначенное для исследования связи между ними. Таблицы сопряженности можно рассматривать как частный тип дескриптивного анализа. В них также является возможным представление информации в виде абсолютных и относительных частот, графическая визуализация в виде гистограмм или точечных диаграмм. Наиболее эффективно таблицы сопряженности проявляют себя в определении наличия взаимосвязи между номинальными переменными (например, между полом и фактом потребления какого-либо продукта). В общем виде таблица сопряженности выглядит так. Зависимость между полом и пользованием страховыми услугами
Статистический анализ данных
На основе представленных в таблице данных и можно делать выводы о наличии/отсутствии взаимосвязи между исследуемыми переменными. Для более точного выявления наличия связи между переменными используют разные статистические критерии. Наиболее часто применяются такие, как:
- критерий Хи-квадрат (χ2);
- коэффициент сопряженности;
- критерий лямбда;
- коэффициент R Спирмена;
- критерий корреляции Пирсона и др.
Правильный выбор критерия является решающим шагом для получения корректных результатов. Поэтому, если перед вами стоит задача проведения статистического анализа и интерпретация его результатов, но вы не чувствуете уверенности – лучше обратиться к специалистам сервиса Анкетолог, чтобы не получить неправильные выводы, не приближающие к решению проблемы.
По вопросам расчета индексов:
Телефон: +7 (383) 203-49-99
Продолжение статьи «Статистические методы анализа данных для решения практических задач»: часть вторая и часть третья.
Источник