Стратифицированный способ отбора это

Содержание
  1. Routes to finance
  2. 01 — Основы статистики. Введение (Ноябрь 2021).
  3. Образец представляет собой мини-представление большей совокупности.
  4. Стратифицированные образцы состоят из однородных подгрупп, которые считаются различными по важности. Коллекция этих однородных подгрупп называется слоями. Этот метод процедур выборки позволяет населению делиться на однородные подгруппы, из которых могут быть выбраны простые случайные выборки.
  5. Целью стратифицированной случайной выборки является выбор участников из разных подгрупп, которые, как считается, имеют отношение к исследованиям, которые будут проводиться. Например, на результаты исследования могут влиять атрибуты субъектов, такие как их возраст, пол, уровень опыта работы, расовая и этническая группа, экономическая ситуация, достигнутый уровень образования и т. Д.
  6. Стратифицированная случайная выборка является вероятностной, поскольку каждый метод, используемый для выбора выборочной совокупности, обеспечивает достаточно надежный способ оценки того, насколько репрезентативна популяция выборки для большей (вселенной) популяции, из которой была выбрана выборка. Другими словами, вероятностная выборка позволяет исследователю
  7. Используйте стратифицированные методы случайной выборки, когда есть интерес к различиям между однородными подгруппами и большей выборкой населения в целом.
  8. Случайная модель кода одежды для офиса
  9. Случайная медицинская халатность
  10. Что такое вознаграждение? Что такое виды вознаграждения?
  11. Стратификация, или как научиться доверять данным
  12. 1. Простой пример: вычисление площади фигуры
  13. 2. Кросс-валидация
  14. 3. Немного математики
  15. Заключение и прагматика

Routes to finance

01 — Основы статистики. Введение (Ноябрь 2021).

Стратифицированная случайная выборка — это тип вероятностной процедуры выборки. Две основные части этого типа выборки: 1) он стратифицирован и 2) он вероятностен. Итак, что это значит и почему это важно? Стратифицированная случайная выборка также известна как пропорциональная случайная выборка или случайная выборка квот. Что такое стратифицированная случайная выборка?

Образец представляет собой мини-представление большей совокупности.

Образцы могут быть определены неформально или формально. Но образцы, которые систематически разрабатываются в соответствии с определенными научными методами, обычно воспринимаются как более полезные для обобщения более широкой популяции.

Стратифицированные образцы состоят из однородных подгрупп, которые считаются различными по важности. Коллекция этих однородных подгрупп называется слоями. Этот метод процедур выборки позволяет населению делиться на однородные подгруппы, из которых могут быть выбраны простые случайные выборки.

Почему стратифицированный образец полезен?

Целью стратифицированной случайной выборки является выбор участников из разных подгрупп, которые, как считается, имеют отношение к исследованиям, которые будут проводиться. Например, на результаты исследования могут влиять атрибуты субъектов, такие как их возраст, пол, уровень опыта работы, расовая и этническая группа, экономическая ситуация, достигнутый уровень образования и т. Д.

Стратифицированный образец сконструирован таким образом, чтобы эти потенциально влиятельные характеристики можно было разумно предположить, чтобы отразить структуру этих характеристик в общей популяции. Таким образом, образец отражает население, из которого он был взят, но образец нельзя назвать

представительным большей популяции. Помните, что выбор членов стратифицированного образца не является случайным процессом. Тем не менее, как только слои были установлены, для выборочной выборки образцов

для каждой страты используется простая случайная выборка. Что такое вероятностное значение?

Стратифицированная случайная выборка является вероятностной, поскольку каждый метод, используемый для выбора выборочной совокупности, обеспечивает достаточно надежный способ оценки того, насколько репрезентативна популяция выборки для большей (вселенной) популяции, из которой была выбрана выборка. Другими словами, вероятностная выборка позволяет исследователю

оценить коэффициенты , что выбранный образец делает или не представляет большую популяцию, из которой был оттянут образец. Примеры

Читайте также:  Способы работы с переносом

Используйте стратифицированные методы случайной выборки, когда есть интерес к различиям между однородными подгруппами и большей выборкой населения в целом.

Предположим, что население бизнес-клиентов можно разделить на три группы: Gen-Xers, Gen-Yers (Millennial) и Baby Boomers. Более того, у нас есть основания полагать, что и Gen-Xers, и Gen-Yers — относительно небольшие меньшинства для всей бизнес-клиентуры. Gen-Xers составляют около 5 процентов от общей численности населения, а Gen-Yers составляют около 10 процентов клиентов.

Простая случайная выборка из 100 членов (n = 100) может генерировать 5 Gen-Xers и 10 Gen-Yers, если мы использовали долю выборки 10 процентов. Можно было бы получить еще меньше Gen-Xers и меньше Gen-Yers, чем в выборке — случайно. Стратификация, вероятно, приведет к более представительным результатам. Скажем, мы хотим иметь по меньшей мере 25 человек в каждой группе. Если мы по-прежнему возьмем образец 100 (n = 100), тогда мы сможем попробовать 25 Gen-Xers, 25 Gen-Yers и 50 Baby Boomers.

Мы знаем, что 10 процентов населения — Millennials или Gen-Yers (или около 100 наших клиентов). Случайная выборка из 25 клиентов даст фракцию отбора проб в пределах 100 или 25 процентов. что 5 процентов из 50 клиентов, которые не являются бэби-бумерами, являются Gen-Xers. Это означает, что фракция внутри страты будет составлять 25/50 или 50 процентов.

Таким образом, 50 Gen-Xers плюс 100 Gen-Yers в общей сложности 150 наших клиентов. Поскольку общая численность клиентов составляет 1000 человек, мы вычитаем Gen-Xers плюс Gen-Yers (в общей сложности 150 клиентов), из которых 850 клиентов, которые являются бэби-бумерами. фракция для бэби-бумеров составляет 50/850 или около 5. 88%.

Показаны две вещи: (1) Три группы более однородны внутри группы, чем для всего населения. Это означает, что существует меньшая дисперсия, что дает возможность повысить статистическую точность. (2) И поскольку образец был стратифицирован, будет достаточно членов для каждая группа должна иметь возможность делать содержательные выводы подгрупп.

Стратифицированная выборка может быть предпочтительнее простой случайной выборки, когда важно представлять общую совокупность и представлять ключевые подгруппы населения, особенно если подгруппы довольно малы, но различаются важными способами. Используя стратифицированные методы выборки, исследователь может эффективно гарантировать, что подгруппы могут быть дифференцированы при обсуждении результатов исследований.

Случайная модель кода одежды для офиса

Заинтересована в том, чтобы знать, что подходит для сотрудников, чтобы носить их в непринужденной обстановке рабочая среда? Ниже приведена политика поведения в повседневной одежде для офиса.

Случайная медицинская халатность

Случайное медицинское страхование от халатности охватывает действия, совершенные некоторыми медицинскими работниками, работающими в сфере не связанных со здравоохранением.

Что такое вознаграждение? Что такое виды вознаграждения?

Вознаграждение или компенсация — это оплата за проделанную работу в целом. Статья включает обсуждение типов вознаграждений и налогов на сотрудников.

Источник

Стратификация, или как научиться доверять данным

Посмотрите на эти два набора точек и подумайте: какой из них вам кажется более «случайным»? Распределение на левом рисунке явно неравномерно. Есть места, в которых точки сгущаются, а есть и такие, в которых точек почти нет: из-за этого даже может показаться, что левый график более тёмный. На правом рисунке локальные сгущения и разрежения тоже присутствуют, но меньше бросаются в глаза.

Меж тем, именно левый график получен при помощи «честного» генератора случайных чисел. Правый график тоже содержит сплошь случайные точки; но эти точки сгенерированы так, чтобы все маленькие квадраты содержали равное количество точек.

Читайте также:  Способы развития воображения психология презентация

Стратификация — метод выбора подмножества объектов из генеральной совокупности, разбитой на подмножества (страты). При стратификации объекты выбираются таким образом, чтобы итоговая выборка сохраняла соотношения размеров страт (либо контролируемо нарушала эти соотношения, см. пункт 3). Скажем, в рассмотренном примере генеральная совокупность — точки внутри единичного квадрата; стратами являются наборы точек внутри квадратов меньшего размера.

Стратификацию разумно применять при любом семплинге. Скажем, в социологических исследованиях необходимо соблюдать стратификацию как минимум по возрасту и месту проживания респондентов. В машинном обучении стратификация бывает полезна как на этапе сбора данных, так в процессе кросс-валидации .

1. Простой пример: вычисление площади фигуры

Для начала, чтобы продемонстрировать мощь стратификации, я использую сгенерированные во введении наборы точек для вычисления площади закрашенной фигуры — четверти круга с радиусом, равным 0.4. Случайные точки будут бросаться внутрь единичного квадрата и увеличивать счётчик при попадании внутрь круга. Отношение полученного числа к общему числу бросков будет оценкой площади фигуры по методу Монте-Карло.

Простейший (нестратифицированный) способ генерации случайных точек для этой задачи можно реализовать так:

Стратификацию можно реализовать разными способами, я выбрал следующий: все маленькие квадратики пронумерованы, и при генерации очередная точка попадает в квадратик со следующим номером; номера зациклены. Этот метод работает хорошо только если общее число точек кратно числу страт, но, к счастью, в данном случае так и есть.

Теперь будем генерировать наборы точек многократно и проследим за невязкой — величиной отклонения полученной оценки площади от истинного значения. Код для простого алгоритма находится здесь, а для стратифицированного — здесь.

Видно, что оценка, полученная стратифицированным методом, выигрывает по точности и имеет меньшую дисперсию.

В этот момент вы можете возразить, что нужно было просто взять регулярную сетку и таким образом сделать дисперсию равной нулю. Однако такая оценка не была бы несмещённой! К тому же рассматриваемая задача является модельной, а на множестве людей или, скажем, поисковых запросов никакой регулярной сеткой воспользоваться не удастся.

2. Кросс-валидация

Следующие примеры относится к области машинного обучения.

Ситуация первая: в задаче существуют объективные зависимости, которые нужно учитывать для адекватной оценки качества моделей. Например, в задачах кластеризации функция близости двух объектов может зависеть от размера кластера, и нужно добиваться равномерного распределения размеров кластеров между обучающими и тестовыми выборками. Если этого не делать, оценки качества будут заниженными.

Ситуация вторая: нестационарный характер восстанавливаемых зависимостей, т.е. их изменчивость во времени. Так, предсказание посещаемости торговых центров существенно зависит от того, является ли выбранный день выходным. Для получения адекватных оценок обобщающей способности все дни в обучающей выборке должны предшествовать дням, входящим в тестовую выборку. Если этого не делать, оценки качества будут завышены, как правило — чрезвычайно сильно.

Продемонстрирую стратификацию на модельной задаче первого типа. Рассмотрим такую зависимость:

Пусть эта зависимость приближается одномерной линейной моделью. Лишь небольшая часть примеров отклоняется от простого линейного приближения, и именно эти примеры будут давать основной вклад в величину ошибки модели. По существу, чем больше таких «выбросов» попадёт в тестовую выборку, тем меньше их окажется в обучающей выборке, тем выше будет ошибка на тестовой выборке. Можно даже сказать, что измерению всякий раз подвергается не метод обучения, а степень равномерности распределения выбросов между обучающей и тестовой выборками!

Читайте также:  Способы форматирование текстового документа word

Генерацию выборки, обучение одномерной линейной модели, многократный процесс кросс-валидации, в т.ч. стратифицированной, а также построение вариационных рядов я реализовал вот так. Не буду сейчас вдаваться в детали реализации (тем более что она не слишком аккуратна), а сразу приведу графики вариационных рядов полученных оценок:

Действительно, без стратификации оценки имеют большую дисперсию и, кроме того, занижены. Нужно, однако, понимать, что стратифицированная оценка будет корректной только в том случае, если доля выбросов в выборке репрезентативна доле выбросов в генеральной совокупности.

3. Немного математики

Методы стратификации часто используются в онлайн-экспериментах, это достаточно естественно для веб-сервисов: поведение пользователей зависит от характеристик устройств, операционных систем, версий браузеров, характеристик самих пользователей и так далее. Поэтому без стратификации в A/B-тестах легко столкнуться с тем, что, скажем, доля мобильных пользователей в разбиениях различается на 0.5% и интегральные метрики измеряют эффект от этого перекоса, а не от вносимого изменения.

Стратифицированный подход в данном случае предписывает разбивать наблюдения на страты (по версиям устройств, ОС, браузеров и т.д.), вычислять метрики внутри страт, взвешивать их сообразно размерам этих страт и таким образом получать значения интегральных показателей.

Классической работой в этой области является статья Online Stratified Sampling: Evaluating Classifiers at Web-Scale от Microsoft Research, которую я решительно рекомендую к прочтению.

В общем случае будем считать, что дана генеральная совокупность размера , из которой выбираются без повторений представителей для оценки вероятности принадлежности элемента совокупности некоторому классу .

Генеральная совокупность разбита на непересекающихся подмножеств — страт. Внутри -й страты размера возможно вычислить оценку вероятности принадлежности элемента страты классу . Тогда стратифицированная оценка вероятности будет вычисляться как

Дисперсия этой величины благодаря независимости выборов внутри каждой из страт вычисляется просто:

Интересно, что для минимизации дисперсии требуется семплить из страт непропорционально их размерам!

Если выбираются объектов из генеральной совокупности, количество объектов из -й страты для минимизации дисперсии оказывается пропорциональным произведению размера страты на стандартное отклонение величины внутри этой страты:

Единственная сложность здесь в том, что для осуществления оптимального семплинга нужно заранее знать дисперсии внутри страт. Впрочем, на практике они часто известны с достаточной точностью.

Теперь понятно, что делать с систематическими смещениями в данных: их можно нивелировать стратификацией и последующим перевзвешиванием. Например, если в данных существенно смещены социально-демографические показатели, можно стратифицировать именно по ним, а веса страт взять из соответствующей официальной статистики.

Заключение и прагматика

При работе с данными, так же как и при социологических исследованиях, потребность в качественной стратификации может быть чрезвычайной. При анализе логов веб-панелей типа SimilarWeb или Alexa можно получить некорректные результаты из-за нерепрезентативности множества пользователей, поставивших себе расширение. Клиентские части сервисов теряют часть информации при логировании, причём чаще для пользователей со слабыми сетевыми соединениями. Подобного рода ошибки могут портить аналитику и, в конечном счёте, приводить к неверным решениям в развитии продуктов и бизнеса.

Всякий раз при обработке очередного набора данных полезно спросить себя: репрезентативен ли он? Не нужно ли его дополнительно стратифицировать и перевзвесить? Что известно о его происхождении и возможных искажениях?

Если ответов нет или они неудовлетворительны — очень может быть, что данные вас обманут.

Источник

Оцените статью
Разные способы