Простыми словами о выборке
Привет. Я UX-исследователь в СКБ Контур. Чаще всего в работе я использую качественные методы исследований — глубинные интервью и модерируемые юзабилити-тестирования. Количественные исследования без подготовленной инфраструктуры со стороны разработки более ресурсозатратные, поэтому самостоятельно их провести сложнее.
Но самое сложное для меня в проведении количественного исследования — это выборка. Мне ближе гуманитарная сторона исследовательской работы, поэтому разобраться в выборке сложнее, чем в техниках ведения интервью. Если у тебя такая же проблема, эта статья будет полезна.
Ниже я попробовала просто рассказать о выборке, репрезентативности и методах отбора при проведении количественного исследования.
Выборка и репрезентативность
Опрос — это количественный метод, направленный на получение точной, объективной и статистически значимой информации. Если качественные методы помогают в формулировке гипотез, то количественные — масштабируют и проверяют эти гипотезы на всей целевой аудитории.
Поэтому важно проводить отбор респондентов таким образом, чтобы выборочная совокупность отражала состав всей генеральной совокупности.
В социологии есть термин — единица наблюдения. Это может быть один человек, группа или сообщество в зависимости от целей исследования.
Генеральная совокупность — это вся совокупность единиц наблюдения, имеющих отношение к теме исследования.
Например, если ты проводишь продуктовое исследование, то скорее всего твоя генеральная совокупность — это все пользователи сервиса или определенный сегмент.
Выборочная совокупность — часть генеральной совокупности, которую вы изучаете в ходе исследования с помощью разработанных вами инструментов (анкета, гайд и прочее).
Например, в ходе исследования было опрошено 400 респондентов среди всех пользователей сервиса. Это твоя выборочная совокупность.
Выборка должна быть репрезентативной, иначе результаты количественного исследования будут сомнительными.
Репрезентативность — обеспечение в выборочной совокупности наличия всех видов единиц генеральной совокупности в достаточном количестве.
Репрезентативность имеет качественное и количественное выражение. Качественная репрезентация обязывает включить в выборку все возможные варианты респондентов, особенно, если какой-то признак влияет на опыт использования сервиса.
Например, выборка не будет репрезентативной если ты опросишь только новых пользователей (если это не оправдано целями исследования). Особенно это исказит результаты исследования, если длительность использования напрямую влияет на проверку гипотезы.
На практике, особенно в онлайн-опросах, качественная репрезентативность может страдать. Ею можно пренебречь, если вы уверены, что на проверку гипотезы не повлияет принадлежность респондента к той или иной группе. Онлайн-опросы предполагают стихийную выборку и поэтому предусмотреть присутствие всех типов респондентов сложно. Про стихийную выборку подробнее я расскажу ниже.
Чтобы соблюсти количественную репрезентацию нужно обеспечить достаточное число респондентов, в том числе по каждой группе внутри выборки.
Например, если ты пригласишь на опрос 80% новых пользователей и лишь 20% пользователей с опытом — это тоже исказит результаты (опять же если это не предусмотрено дизайном исследования).
И, конечно, для того, чтобы масштабировать результаты опроса на всю генеральную совокупность (в нашем примере — на всех пользователей), нужно в целом рассчитать количество человек, которое ты планируешь пригласить для прохождения опроса.
Что значит «достаточное» количество человек для выборки.
К примеру, если проводить исследование на выборке в 50–100 человек, то погрешность в репрезентативности полученной информации будет выше, чем при опросе 800–1000 человек.
Но увеличивать до бесконечности число опрашиваемых нет смысла. После определенного количества респондентов ошибка выборки остановится на одном уровне.
Ошибка выборки — разность между характеристиками выборочной и генеральной совокупности. Это отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.
Где-то после 400 респондентов ошибка выборки не меняется. Поэтому обычно в опросах выборочная совокупность составляет 300–400 человек. При таком значении ты можешь уверенно переносить результаты исследования на всю аудиторию при соблюдении качественной репрезентации и корректно составленной анкеты.
Если генеральная совокупность небольшая, то и выборочная совокупность будет меньше стандартных 300–400 респондентов.
Если хочешь разобраться с формулой расчета выборки подробнее про нее можно узнать здесь.
Также ты можешь провести сплошной опрос. При сплошном опросе ты опрашиваешь всю генеральную совокупность.
Например, если есть интересный и немногочисленный сегмент пользователей (30–100 человек), ты можешь опросить их всех. Или это стартап и уже есть первые пользователи. В таком случае тоже можно провести опрос по всей генеральной совокупности.
На практике требованиями количественной репрезентации иногда пренебрегают в силу нехватки ресурсов на обзвон (если это телефонный опрос) или времени на сбор ответов. Или если опрос проводят для сбора гипотез, а не для принятия конечного решения.
Здесь важно понимать, какое решение должно быть принято на основе исследования. Если это важный продуктовый или бизнес-вопрос, то лучше потратить время и деньги на проверку гипотезы с репрезентативной выборкой, чтобы не получить неверные выводы. А если, это, к примеру, опрос для сбора отклика по новой фиче, то можно остановиться на 30–60 респондентах. Основные выводы ты сделаешь, а пользователи по мере работы в сервисе расскажут о том, что ты мог пропустить.
Методы отбора
В количественном исследовании по сравнению с качественным не важно кто перед тобой, потому что все выводы строятся по совокупности ответов респондентов и материал собирается в обезличенном виде. Поэтому в идеале в выборку респонденты должны попадать случайным образом, чтобы сделать результаты максимально свободными от искажений.
Чтобы этого достичь можно использовать один из методов формирования выборки.
Случайные выборки
Они предполагают, что в выборке каждый элемент генеральной совокупности имеет заранее заданную вероятность быть отобранным в исследование.
Простая случайная выборка. Сначала нужно присвоить каждому потенциальному респонденту идентификационный номер. Дальше с помощью генератора случайных чисел определить номера, которые будут включены в выборку для опроса.
Механическая выборка. Как и в простой выборке пользователям присваивается порядковый номер. Только отбор происходит не с помощью генератора случайных чисел, а с шагом равным n. Например, каждый сотый.
Стратифицированная выборка. Для такой выборки нужно поделить генеральную совокупность на сегменты или страты. После чего респонденты внутри каждой группы отбираются случайным образом. Из каждого сегмента выделяют пользователей пропорционально их доле в генеральной совокупности.
Кластерный отбор или гнездовая выборка. Группа потенциальных респондентов отбирается случайным образом из всей генеральной совокупности. Далее внутри этой группы опрашиваются все пользователи. Например, можно опросить всех пользователей, которые зарегистрировались в сервисе в прошлом квартале.
При таком отборе риск искажений выше и важно учитывать внешние и внутренние факторы. Может быть в прошлом квартале в жизни пользователей произошло что-то важное, что повлияло на их желание воспользоваться сервисом. Тогда эта группа будет сильно отличаться от генеральной совокупности.
Неслучайные выборки
Обычно такие методы отбора применяют, если нет возможности или ресурсов для формирования случайной выборки. Например, у тебя мало времени на опрос или нет данных о генеральной совокупности или респонденты труднодоступны.
Квотная выборка. Такой метод можно применять, если у вас есть знания о составе генеральной совокупности. Например, вы знаете, как ваши пользователи распределяются в разрезе по должности, отрасли компании, возрасту и так далее. Тогда можно пропорционально этим долям сформировать выборку: в каждом разрезе выбрать такое число респондентов, которое будет отображать статистику по всей аудитории.
Стихийная выборка. Это метод без особых правил. В опрос попадают все, кто захочет пройти опрос. Такая выборка типична для онлайн-опросов, размещенных в свободном доступе.
«Снежный ком». Тоже достаточно популярная и простая методика. Каждого респондента просят порекомендовать нового среди его друзей, коллег и знакомых, которые подходили бы под параметры исследования. Такая выборка часто применяется когда самостоятельно найти интересующих респондентов затруднительно. Например, пользователи, занимающие высокую должность или с высоким доходом.
«Типичный представитель». Из генеральной совокупности отбираются респонденты с типичными признаками целевой аудитории. Только определить, что взять за такой признак, обычно сложно.
Отдельно стоит сказать про многоступенчатые выборки. На практике чаще всего (иногда интуитивно) исследователи используют как раз многоступенчатый метод. Такой отбор предполагает наличие двух или более этапов формирования выборки. Проще говоря, это микс нескольких методов отбора.
Например, ты собрал статистику по своей аудитории и знаешь, что большинство пользователей находятся в Москве. Это будет первая ступень отбора по «типичному представителю». Далее среди пользователей-москвичей ты приглашаешь на опрос каждого сотого (механическая выборка).
Проводя количественное исследование, не забывай о репрезентативности и продумывай подходящий метод отбора респондентов. Хорошая подготовка — половина успеха.
Источник
Способы формирования и типы выборок
Качество результатов выборочного наблюдения зависит от репрезентативностивыборки, т. е. от того, насколько она представительна в генеральной совокупности. Для обеспечения репрезентативности выборки надо соблюдать принцип случайности отбора статистических величин, который реализуется разными способами.
В статистике применяются различные способы формирования выборочных совокупностей, что обусловливается задачами исследования и зависит от специфики объекта изучения.
Основным условием проведения выборочного исследования является предупреждение возникновения систематических ошибок, возникающих вследствие нарушения принципа равных возможностей попадания в выборку каждой единицы генеральной совокупности. Предупреждение систематических ошибок достигается в результате применения научно обоснованных способов формирования выборочной совокупности.
Существуют следующие способы (виды) отбора единиц из генеральной совокупности:
1) индивидуальный отбор – в выборку отбираются отдельные единицы;
2) групповой отбор – в выборку попадают качественно однородные группы или серии изучаемых единиц (бригады, микрорайоны);
3) комбинированный отбор – это сочетание индивидуального и группового отбора.
Отбор также может быть нерайонированным, который предполагает отбор единиц в выборочную совокупность из генеральной совокупности, не разбитой на группы по каким-либо признакам, и районированным, когда генеральная совокупность делится на группы по признакам (например, отбор предприятий по отраслям). Способы отбора определяются правилами формирования выборочной совокупности.
В зависимости от способа отбора выделяют следующие виды выборок:
1). Собственно-случайная (простая случайная) выборка состоит в том, что выборочная совокупность образуется в результате случайного (непреднамеренного) нерайонированного отбора отдельных единиц из генеральной совокупности. Единица отбора совпадает с единицей наблюдения. При этом количество отобранных в выборочную совокупность единиц обычно определяется исходя из принятой доли выборки.
Доля выборки есть отношение числа единиц выборочной совокупности n к численности единиц генеральной совокупности N, т. е. .
Так, при 5%-ной выборке из партии товара в 2 000 ед. численность выборки n составляет 100 ед. (5*2000:100), а при 20%-ной выборке она составит 400 ед. (20*2000:100) и т. д.
Примеры случайной выборки: лотерея, жеребьёвка или тираж. При этом обеспечивается абсолютно равная возможность попадания в выборку любой единицы. Этот способ можно осуществить также с помощью математических таблиц случайных чисел.
Собственно случайный отбор по методу проведения может быть повторным и бесповторным. При повторном отборе каждая единица, отобранная в случайном порядке из генеральной совокупности, после проведения наблюдения возвращается в эту совокупность, и может быть вновь подвергнута исследованию, т. е. имеет шанс попасть в новую выборку. При повторном отборе вероятность попадания каждой отдельной единицы генеральной совокупности в выборку остаётся постоянной. На практике такой способ отбора встречается редко.
Гораздо более распространен собственно случайный бесповторный отбор, при котором исследованные единицы в генеральную совокупность не возвращаются и не могут быть исследованы повторно. При бесповторном отборе вероятность попадания отдельных единиц в каждую последующую выборку меняется, для всех единиц, остающихся в генеральной совокупности после отбора, она возрастает.
Бесповторный отбор даёт более точные результаты, поэтому применяется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т. п.), и тогда ведётся повторный отбор.
2). Механическая выборка состоит в том, что отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы (группы) по определённому критерию (по алфавиту, через временные промежутки, по пространственному способу и т. д.). Затем из каждой группы выбирается по одной единице наблюдения. При этом размер интервала (шаг отбора) в генеральной совокупности равен обратной величине доли выборки, т. е. определяется путём деления числа единиц генеральной совокупности на число единиц выборочной совокупности: .
В выборочную совокупность входят единицы генеральной совокупности, расположенные в списке через данный интервал. Причём, если ряд не ранжирован, то первая единица выбирается наугад, а последующие – через равные интервалы. Так, при 2%-й выборке отбирается каждая 50-я единица (1:0,02), при 5%-й выборке – каждая 20-я единица (1:0,05) и т. д. Если статистические величины ранжированы, то выбираются единицы, находящиеся в серединах интервалов.
Таким образом, в соответствии с принятой долей отбора, генеральная совокупность как бы механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.
Важной особенностью механической выборки является то, что формирование выборочной совокупности можно осуществить, не прибегая к составлению списков. На практике часто используют тот порядок, который позволяет брать единицы так, как они фактически располагаются в генеральной совокупности. Принцип случайного отбора в механической выборке обеспечивается тем, что единицы в генеральной совокупности располагаются в таком порядке, который не оказывает влияние на изучаемый признак или фактор. Например, последовательность выхода готовых изделий с конвейера или поточной линии, порядок размещения единиц партии товара при хранении, транспортировке, реализации и т. д.
3). Типическая (стратифицированная) выборкапредполагает, что генеральная совокупность вначале разделяется на однородные типические группы по реально существующим признакам. Затем из каждой типической группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность.
Общий объём выборки n разбивается пропорционально между списками:
1-й вариант – пропорционально удельному весу типических групп:
,
где: n – объём выборки;
N – объём генеральной совокупности;
ni – число наблюдений из i-той типической группы;
Ni – объем i-той типической группы в генеральной совокупности.
2-й вариант – равномерный (из каждой группы поровну):
,
где k – число групп.
3-й вариант – оптимальный (для групп с большей вариацией признака объём наблюдений увеличивается):
.
Типическая выборка обычно применяется при изучении сложных статистических совокупностей. Например, при выборочном обследовании производительности труда работников торговли, состоящих из отдельных групп по квалификации.
Типический отбор облегчает формирование выборочных совокупностей и обеспечивает более равномерное распределение единиц в генеральной совокупности.
Важной особенностью типической выборки является то, что она даёт более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность.
Разновидностью типической выборки является систематический отбор, т. е. механический отбор из совокупности, ранжированной по какому-либо признаку, связанному с изучаемым признаком. Например, отбор рабочих по семейному бюджету, связанному с их средней заработной платой.
4). Серийная (гнездовая) выборкахарактеризуется тем, что генеральная совокупность первоначально разбивается не на отдельные единицы совокупности, а на определённые равновеликие или неравновеликие серии, или гнёзда (единицы внутри серий связаны по определённому признаку), из которых путём случайного отбора отбираются серии, и затем внутри отобранных серий проводится сплошное наблюдение.
Например, при 10% обследовании качества продукции можно проверять каждую 10-ю единицу (механический отбор), при серийном – через 9 часов каждый 10-й час обследуется вся выпущенная продукция в течение целого часа.
Серийный отбор применяется редко, так как даёт высокую ошибку выборки.
5).Моментная выборка означает, что на определённые моменты времени фиксируется наличие отдельных элементов изучаемого процесса.
При моментном наблюдении обычно характеризуется альтернативный признак (работа или простой). При этом в качестве численности выборочной совокупности, принимается число записей моментного обследования. Например, изучение использования работниками рабочего времени и времени работы оборудования.
Моментное наблюдение может охватывать все единицы совокупности, стать сплошным.
6). Комбинированная выборка представляет собой сочетание нескольких способов выборки. При этом генеральная совокупность сначала разбивается на группы. Затем производят отбор групп, а внутри последних осуществляется отбор отдельных единиц.
Выборки также подразделяются на одноступенчатые и многоступенчатые.
При одноступенчатой выборке каждая отобранная единица сразу же подвергается изучению по заданному признаку. Так обстоит дело при собственно-случайной и серийной выборке.
При многоступенчатой выборке производят подбор из генеральной совокупности отдельных групп, из них – подгрупп, а из последних выбираются отдельные единицы. Так производится типическая выборка с механическим способом отбора единиц в выборочную совокупность.
Типичный отбор состоит в многоступенчатой выборке из сочетания нескольких стадий отбора, причём на каждой стадии имеется своя единица отбора (отрасль предприятия, численность работников и средняя заработная плата).
В случае многофазной выборки из исходной выборки составляются определённые подвыборки для последующих исследований по более обширной программе. Главное отличие многофазной выборки от многоступенчатой заключается в том, что на всех его этапах используются одни и те же единицы отбора, а каждая последующая фаза опирается на совокупность единиц наблюдения предыдущей фазы. При ступенчатом отборе единицы отбора меняются на каждой ступени.
По степени охвата единиц генеральной совокупности выборки разделяются на большие и малые.
Малая выборка – такое выборочное наблюдение, численность единиц которого находится в интервале от 4-5 до 30, в противоположном случае выборка считается большой. Хотя общий принцип выборочного наблюдения – чем больше выборочная совокупность, тем точнее показатели, – иногда используют малую выборку. Малая выборка применяется при исследовании качества продукции с последующим уничтожением проверяемой единицы.
Источник