Способ проверки гипотезы называется

Интуитивное объяснение проверки гипотез и p-значение

Привет, Хабр! Представляю вашему вниманию перевод статьи «An intuitive explanation of Hypothesis Testing and P-Values» автора Joos Korstanje.

Несколько лет назад я делал свою первую фриланс-работу по статистике для компании по доставке фруктов и овощей. Двадцать четыре часа в день поступающие продукты от фермеров до того, как были отправлены в супермаркеты, проходили через отдел по контролю за качеством. Выбор продуктов осуществлялся случайно работниками данного отдела.

В годовом отчёте они заметили, что качество в этом году ниже, чем качество в прошлом: разница составила примерно половину пункта по шкале от 1 до 10.

Потом пригласили меня. Я должен был ответить на вопрос:

Являются ли эти 0,5 пунктов существенной разницей?

Если вы не знаете статистику, то этот вопрос может показаться вам странным. Но не беспокойтесь: цель этой статьи показать вам как можно ответить на этот вопрос, используя проверку гипотез, также называемое статистическим выводом.

Игра в числа: вклад одного яблока

Представьте себе, что вы проверяете яблоко на предмет хорошее оно или плохое, используя случайную выборку яблок из очень большой коробки с яблоками. В изображении ниже мы видим реальный эффект размера выборки на измерения: эффект одного яблока очень существенен для маленьких выборок и становится менее и менее значимым, чем больше размер выборки.

Вклад одного яблока зависит от размера выборки.

Понимание влияния размера выборки — это первый базис для понимания проверки гипотез. Мы можем начать утверждать, что 0.5 на 2 яблоках будет как разница в 1 яблоко, очень маленькая. Но на 100 яблоках, 0.5 будет представлять собой разницу в 50 яблок: очень большая разница!

На малых выборках 0.5 пункта это небольшая разница, но на больших выборках 0.5 это разница большая.

Насколько большая должна быть выборка: проверка гипотез и значимость как ответ

Есть несколько способов, чтобы ответить на данный вопрос, но в этой статье я собираюсь погрузиться в статистический вывод или проверку гипотез.

Проверка гипотез — это семейство статистических методов используемых, чтобы понять, как выборка наблюдаемых объектов может использоваться, чтобы принять или отвергнуть заранее поставленную гипотезу. Проверка гипотез используется для решения многих задач, в основном в научных исследованиях и как ключевой метод в онлайн маркетинге (А\Б тестирование).

Математики разработали проверку гипотез таким образом, что существует определённая процедура для поиска истины.

Проверка гипотез позволяет только проверить гипотезы, но не разработать их.

Из коробки, в которой 100 яблок (назовём её генеральной совокупностью), мы возьмём выборку из 8 яблок. В этом году из 8 яблок 5 оказались гнилыми (62%), а в выборке прошлого года из 8 яблок было только 4 гнилых (50%). Мы хотим использовать проверку гипотез, чтобы определить стал ли процент гнилых яблок в этом году больше, чем в прошлом.

Проверка гипотез — это математическая альтернатива для измерения генеральной совокупности. Благодаря этим вычислениям мы можем обобщить измерения небольшой выборки на большую генеральную совокупность. Так мы проделываем меньше работы.

Читайте также:  Способы отправления поезда при запрещающем выходном светофоре

Случайно набранная выборка имеет такой же процент гнилых яблок, как и генеральная совокупность, при условии, что набранная выборка достаточно велика.

Математики придумали способ, как обобщить вывод, основанный на выборке, на генеральную совокупность.

Этот способ начинается с формулировки чёткой исследовательской гипотезы. К сожалению, математика работает только в том случае, если у нас уже есть представление о том, что мы хотим проверить.

Основная гипотеза для нашего примера:

Процент гнилых яблок в генеральной совокупности в этом году, больше чем в прошлом.

Фактическая проверка гипотезы

Математика проверки гипотез образует баланс между результатом измерений выборки с числом наблюдений. Результатом будет p-значение.

Эти вычисления проходят через использование распределений: почти для каждой воображаемой ситуации был выведен математический закон, который описывает ожидаемый результат.

Для вопросов вида «да/нет», таких как вопрос о наших гнилых яблоках (гнилые/не гнилые), применяется закон подбрасывания монетки. Это самый простой пример математического закона: 50% выпадения решки, 50% орла.

Также очень просто это может быть представлено, как стандартное математическое распределение, которое скажет нам о вероятности наблюдений. Для примера, 7 орлов выпало из 10 подбрасываний монетки. Это называется биноминальным распределением и может быть изображено так:


биноминальное распределение 10 подбрасываний монетки.

В этой статье я буду далек от тяжёлой математики, но важно знать, что мы можем использовать математические формулы для оценки того, является ли наблюдаемый процент далеким от ожидаемого процента.

В конце этой статьи я дам вам список часто используемых формул проверки гипотез для различных случаев и после объясню, как их использовать. Но сначала я объясню интерпретацию проверки гипотез.

Результат проверки гипотез: p-value

За проверкой гипотез есть математический баланс между наблюдаемыми значениями и размером выборки. В конце вычислений каждый существующий вариант тестирования гипотез выдаст стандартизированную оценку, которая позволит сравнить результат, даже когда математика не совсем одинакова.

P-value это стандартный способ, чтобы сформулировать результат проверки гипотез и использовать его в любых других тестах.

P-value это число между 0 и 1, которое говорит нам, если разница между нашим наблюдениями выборок, и наши гипотезы сильно различаются. Опорное значение – это 0.05.

Разница статистически значима, если p-value меньше 0.05.
И разница статистически не значима, если p-value больше 0.05.

Мы сделали 10 подбрасываний монетки.
Наша гипотеза: мы ожидаем 5 решек.
Наши наблюдения: мы получили 6 решек.
Вычисление p-value дало 0.518, что больше, чем 0.05.
Наш вывод: разница статистически не значима.
Наша интерпретация: результат соответствует гипотезе.

Мы сделали 10 подбрасываний монетки
Наша гипотеза: мы ожидаем 5 решек.
Наш результат: мы получили 10 решек.
Наше p-value — 0.0, что меньше чем 0.05.
Наше заключение: разница статистически значима
Наша интерпретация: результат не соответствует гипотезе.

Мы проверили 10 яблок.
Наша гипотеза: мы ожидаем 1 гнилое яблоко.
Наш результат: мы получили 1 гнилых яблок.
Наше p-value — 1.0 что больше, чем 0.05.
Наше заключение: разница статистически не значима
Наша интерпретация: результат соответствует гипотезе.

Мы проверили 10 яблок.
Наша гипотеза: мы ожидаем 1 гнилое яблоко.
Наш результат: мы получили 5 гнилых яблок.
Наше p-value — 0.0114 что меньше, чем 0.05.
Наше заключение: разница статистически значима
Наша интерпретация: результат не соответствует гипотезе.

Читайте также:  Огурцы без уксуса холодным способом под железную крышку

Заключение

В этой статье я дал интуитивную интерпретацию общей структуры статистических погрешностей или проверки гипотез. Я надеюсь, что теперь вы лучше понимаете проверку гипотез, и чем она может быть вам полезна.

Я не уходил глубоко в математические доказательства и в специфичные детали. В таблице ниже приведен список самых частых проверок гипотез, которые я рекомендую для дальнейшего изучения.

Название теста Альтернативная гипотезе
Тест одной выборки Значение пременной отлично от ожидаемого значения
Тест двух выборок Значение двух групп различно
ANOVA Значение больше чем двух групп различно
Пропорциональная z проверка Процент успеха переменной из двух возможных вариантов отлично от ожидаемого значения
Двухпропарциаоная z-проверка Процент успеха переменной с двумя исходами различно между двумя группами

Список с альтернативными гипотезами для некоторых проверок гипотез.

Я надеюсь эта статья будет полезна для вас, и желаю вам удачи в дальнейших исследованиях проверки гипотез.

Источник

Мир статистических гипотез

В современном мире мы обладаем все большим и большим объемом данных о событиях, происходящих вокруг. Зачастую у нас появляются вопросы, на которые хотелось бы быстро ответить на основе имеющейся информации, для этого как нельзя лучше подходит процесс, связанный с проверкой статистических гипотез. Однако, многие считают, что это занятие подразумевает под собой большое число вычислений и в принципе довольно сложно для понимания. На самом деле, алгоритм проверки гипотез достаточно прост, а для осуществления расчетов с каждым годом появляется все больше и больше готовых инструментальных средств, не требующих от человека глубоких познаний в области. Далее я попытаюсь показать, что мало того, что процесс проверки гипотез может быть полезным, так и осуществляется достаточно быстро и без серьезных усилий.

Статистические гипотезы и области их применения

Статистическая гипотеза — это предположение о каких-либо характеристиках случайной величины. Например: существенно ли изменение числа AI-стартапов в Европе в два разных года и т. д.

Проверка статистических гипотез является важнейшим классом задач математической статистики. С помощью данного инструмента можно подтвердить или отвергнуть предположение о свойствах случайной величины путем применения методов статистического анализа для элементов выборки. Если в предыдущем предложении какие-либо термины являются не совсем понятными, ниже можно найти пояснение на простом языке.

Случайная величина — это величина, которая в зависимости от той или иной ситуации принимает конкретные значения с определенными вероятностями. Примеры: отметка на экзамене; результат игры в кости; количество AI-стартапов по странам Европы. В общем, почти все что угодно!

Генеральная совокупность — совокупность всех объектов для анализа. Например: все AI-стартапы в Европе в 2019-м году.

Выборка — часть данных из генеральной совокупности. Например: официально зарегистрированные AI-стартапы в некоторых странах Европы в 2019-м году.

Статистический анализ — использование различных методов для того, чтобы определить свойства генеральной совокупности по выборке.

Для проверки статистических гипотез зачастую применяются статистические тесты, о которых будет рассказано далее.

Алгоритм проверки статистической гипотезы

В обобщенном виде алгоритм выглядит таким образом:

Формулировка основной (H0) и альтернативной (H1) гипотез

Выбор уровня значимости

Выбор статистического критерия

Определения правила принятия решения

Итоговое принятие решения на основе исходной выборки данных

Читайте также:  Способы опровержения правила доказательства

Данные шаги являются унифицированными и схему можно использовать почти во всех случаях. Далее подробнее рассмотрим пример работы данного алгоритма на конкретных данных.

Пример проверки статистической гипотезы

Итак, как вы, наверное, догадались по вышеприведенным примерам, будем проверять гипотезу о том, что имеется существенное различие между числом созданных европейских AI-стартапов в 2019-м и 2020-м годах. Пример достаточно простой, чтобы было проще разобраться в ходе работы алгоритма.

Рисунок 1 — исходные данные

Сначала обратим внимание на исходную выборку (рис. 1): датасет представлен для 30-ти Европейских стран, внесены только официально зарегистрированные в стране стартапы. Данные количественные по двум годам. Стоит отметить, что выборки — парные, то есть мы наблюдаем один и тот же показатель для одних и тех же стран с разницей в год.

Сразу стоит отметить, что будут проверены две статистические гипотезы подряд. Для того, чтобы применять критерий для сравнения средних выборок двух лет нужно сначала определить закон распределения данных. Таким образом, шаг 1 — проверка статистической гипотезы о законе распределения данных. Шаг 2 — проверка статистической гипотезы о равенстве между средними.

Проверка гипотезы о законе распределения

Для данных 2019-го года проверим нормальность распределения.

H0: случайная величина распределена нормально

H1: случайная величина не распределена нормально

Пусть уровень значимости alpha = 0.05 (как и в 95-ти процентах статистических тестов). Определение уровня значимости достойно отдельного поста, так что не будем заострять на нем внимание.

Будет использован критерий Шапиро-Уилка.

На этом шаге необходимо разобраться, как работает критерий. В данном случае рассчитывается следующая статистика — функция от нашей выборки:

, , , ;

Как видно, формула не слишком простая, плюс существует непростой механизм определения параметра a, поэтому в таких случаях проще пользоваться онлайн-калькуляторами для расчета статистики. Я, например, воспользуюсь хорошим статистическим онлайн-ресурсом — https://www.statskingdom.com/320ShapiroWilk.html.

Итак, калькулятор показал нам, что p-value = 1.20005e-9 , W = 0.435974; Что же делать дальше? Есть два варианта:

Можно сравнить статистику W с критическим значением Wкрит. Критическое значение чаще всего приведено в готовых таблицах (по строкам/столбцам там отмечен объем выборки и уровень значимости, а на пересечении как раз-таки и лежит Wкрит.). Если W>Wкрит., то не отвергаем H0 и наоборот. Но это не очень удобно, поэтому чаще используется второй способ.

Можно сравнить p-value с alpha (выбран на 2-ом шаге). Если p-value Рисунок 2 — пример расчета критерия Вилкоксона

Разнообразие статистических критериев

Как мы увидели на примере, важным шагом в проверке статистической гипотезы является выбор критерия. В примере выше я использовала лишь два статистических критерия, но по факту их гораздо больше, так сказать, на все случаи жизни. Данные критерии важно знать и четко нужно осознавать, когда и какой можно применить. Многие из них направлены на сравнение центров распределений случайных величин, например, сравнение средних, медиан, равенство параметра распределения какому-либо числу и т. д. В основном они делятся на параметрические (знаем закон распределения случайной величины) и непараметрические.

Для вашего удобства внизу (рис. 3) приведена таблица с основными, с моей точки зрения, критериями сравнения центров распределения и их классификацией. Надеюсь, она будет вам полезна, ее можно дополнять и расширять по вашему желанию.

Рисунок 3 — классификация статистических критериев

Источник

Оцените статью
Разные способы