Способ получения исходных данных

7 способов получить качественные размеченные данные для машинного обучения

Наличие размеченных данных необходимо для машинного обучения, но получение таких данных — непростая и дорогостоящая задача. Мы рассмотрим семь способов их сбора, в том числе перепрофилирование, поиск бесплатных источников, многократное обучение на данных с постепенно повышающимся качеством, а также другие способы.

Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.

При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.

Однако разметка — это неблагодарная работа, которой большинство data scientists-ов занимается только в случае абсолютной необходимости. В рейтинге задач data science разметка данных для обучения по престижности находится где-то в самом низу. В экосистеме data science разметка получила (вероятно, несправедливо) репутацию низкоквалифицированной работы для «синих воротничков». Или, как показано в этом забавном эпизоде последнего сезона сериала HBO «Кремниевая долина», разметка данных для обучения — это рутина, которой бессовестный data scientist может заставить бесплатно заниматься ничего не подозревающих юных студентов колледжа.

Из-за всего этого складывается ошибочное впечатление, что data scientist не может получить приемлемых данных для обучения, если не передаст задачу разметки на аутсорс какой-нибудь «фабрике» низкоквалифицированного труда от мира высоких технологий. Это очень неправильное впечатление, потому что, как я говорил в колонке Pattern Curators of the Cognitive Era, наряду с рутинной оценкой, которую сможет выполнить любой из нас (например, «хот-дог перед нами или не хот-дог»), для разметки могут понадобиться мнения очень квалифицированных в соответствующей области специалистов (например, онкологов, решающих, говорят ли результаты биопсии о наличии злокачественных тканей).

Как сказано в этом посте на Medium, монотонная работа — не единственный способ получения и разметки данных для обучения. Его автор Расмус Рот замечает, что есть и другие подходы для создания размеченных обучающих данных, цена которых вполне будет приемлема для вашего бюджета data science. Ниже я вкратце расскажу об этих способах:

  1. Перепрофилирование уже имеющихся данных для обучения и разметки: наверно, это самый дешёвый, простой и быстрый подход для обучения, если считать, что область новой задачи обучения значительно схожа с областью исходной задачи. При выборе такого подхода инструменты и методики трансферного обучения (transfer learning) могут помочь вам в определении того, какие элементы исходного набора данных можно перепрофилировать под новую область моделирования.
  2. Сбор собственных данных для обучения и разметки из бесплатных ресурсов: веб, социальные сети и другие онлайн-источники переполнены данными, которые можно собирать при наличии нужных инструментов. Как я подчеркнул в колонке для Dataversity, в нашу эру когнитивных вычислений из различных источников можно получать потоки текстов на естественном языке, общественных мнений и других данных для обучения. Если у вас есть краулер данных, то это может быть хорошим вариантом для получения наборов обучающих данных вместе с соответствующей разметкой из исходного контента и метаданных. Однако в процессе оценки пригодности собранных данных для обучения модели вам придётся справляться с различными проблемами, связанными с владением данными, их качеством, семантикой, выборками и так далее.
  3. Изучение уже размеченных публичных наборов данных: сообщества open-source и даже различные коммерческие поставщики предоставляют множество бесплатных данных. Data scientist-ам следует проверять, подойдут ли какие-то из этих данных по крайней мере для первоначального обучения моделей. В идеале этот бесплатный набор данных должен быть уже размечен таким образом, чтобы пригодиться в вашей задаче обучения. Если он не имеет разметки, то вам придётся найти наиболее экономный способ её создания.
  4. Многократное обучение моделей на всё более качественных наборах данных с разметкой: ваших собственных объёмов данных может быть недостаточно для обучения моделей. Для начала обучения можно предварительно обучаться на свободных публичных данных, которые хотя бы приблизительно близки к вашей области. Ещё лучше, если в этих бесплатных наборах данных есть приемлемая разметка. Затем можно будет повторно обучить модель на размеченном наборе данных меньшего объёма, но большего качества, непосредственно связанного с задачей, которую вы стремитесь решить. В процессе многократного обучения модели на всё более качественных наборах данных результаты могут позволить вам более точно настраивать конструирование признаков, классы и гиперпараметры модели. Этот повторяющийся процесс может дать вам понимание того, что стоит приобрести другие, более качественные наборы данных или обеспечить более качественную разметку для последующих этапов обучения, чтобы дальше совершенствовать модель. Однако стоит учитывать, что для такого итеративного совершенствования могут требоваться всё более дорогие наборы обучающих данных и сервисы разметки.
  5. Использование краудсорсинговых сервисов разметки: возможно, у вас недостаточно персонала для разметки своих данных для обучения. Или он слишком занят/его время дорого для того, чтобы использовать его в разметке. Или ваших работников недостаточно для достаточно быстрой разметки большого объёма данных для обучения. В такой ситуации, если позволяет бюджет, можно отдать задачи разметки на краудсорсинг в коммерческие сервисы наподобие Amazon Mechanical Turk или CrowdFlower. Передача разметки на аутсорс может быть гораздо более масштабируемой задачей, чем выполнение её внутри компании, однако взамен вы частично потеряете контроль над качеством и целостностью получившейся разметки. С другой стороны, эти сервисы обычно используют высококачественные инструменты разметки, упрощающие разметку, повышающие её качество и эффективность по сравнению с обработкой внутри компании.
  6. Внедрение задач разметки в онлайн-приложения: когнитивные способности человека — безграничный ресурс, который можно использовать для задач разметки. Например, популярным решением для обучения моделей распознавания изображений и текста стало встраивание данных для обучения в CAPTCHA, которые часто применяются при двухфакторной аутентификации. Схожим образом можно внедрять данные для обучения в геймифицированные приложения, мотивирующие пользователей распознавать, классифицировать и иным образом комментировать изображения, текст, объекты и другие элементы.
  7. Использовать сторонние модели, предварительно обученные на размеченных данных: многие задачи обучения уже решались достаточно хорошими моделями, уже обученными на достаточно хороших наборах данных, которые, предположительно, были адекватно размечены перед обучением соответствующих моделей. Существует множество возможных источников заранее обученных моделей, в том числе учёные-исследователи, коммерческие поставщики и сообщества data science с данными в open-source. Помните, что полезность таких моделей будет снижаться, если область задачи обучения, набор признаков или сама задача со временем отдаляются от исходных.
Читайте также:  Способы борьбы борщевиком сосновского

Обеспечение соответствия моделей их предназначению сильно зависит от доступности данных для обучения, необходимости частого повторного обучения, доступности ресурсов для разметки и так далее. Очевидно, что не существует единого подхода, удовлетворяющего всем требованиям по сбору и разметке наборов данных для обучения.

Сложные решения, которые должны принимать data scientist-ы, привносят риски и неустойчивость в жизненный цикл процесса контролируемого обучения. Как я писал недавно в посте на Wikibon, выбор способа обучения алгоритмов накладывает постоянное бремя по обслуживанию приложений, потребляющих результаты, выдаваемые вашей аналитической моделью.

Источник

Получение исходных данных

СТАТИСТИЧЕСКИЕ ДАННЫЕ И ИХ ОПИСАНИЕ

Получение информации об объекте исследования является одной из основных составляющих статистического исследования.

При статистическом исследовании следует руководствоваться целями и требованиями к результатам. Они определяют методы статистического анализа, исходя из которых организуется сбор исходных данных. В процессе статистического исследования следует опасаться следующих ошибок: нечетко сформулированные цели, некорректно примененные методы и ошибки при получении исходных данных.

Получение исходных данных для статистического исследования может осуществляться двумя способами:

· активный эксперимент, специально организованный для определения статистических зависимостей;

Активный эксперимент используется в технико-экономических исследованиях, когда, например, ставится задача оптимизации режимов технологических процессов по экономическим критериям.

При проведении статистического исследования социально-экономических процессов представляется возможным использовать только наблюдение. Программа является основой данного способа получения информации. Она состоит из трех основных этапов:

· определение объекта наблюдения;

· выбор единицы совокупности;

· определение системы показателей, подлежащих регистрации.

Объектом наблюдений называется совокупность единиц изучаемого явления, о которых могут быть собраны статистические сведения. Для четкого определения объекта наблюдения следует ответить на следующие вопросы:

—что? (какие элементы будем исследовать);

—где? (в каком месте будет вестись наблюдение);

—когда? (за какой период).

Статистическим наблюдением называется планомерный научно обоснованный сбор данных или сведений о социально- экономических явлениях и процессах.

Виды статистических наблюдений можно классифицировать:

· по способу получения информации;

· по учету фактора времени;

· по полноте охвата совокупности (рис. 2).

Рис. 2. Классификация статистических наблюдений

Статистическое исследование представляет собой изучение со­циально-экономических явлений и процессов посредством системы статистических методов и количественных характеристик. Оно про­ходит следующие стадии: а) сбор статистической информации и формирование информационной базы исследования (статистичес­кое наблюдение); б) сводка и группировка данных статистического наблюдения; в) обобщение и анализ результатов обработки статис­тических данных, формулировка выводов и рекомендаций по ито­гам статистического исследования в целом.

Первым и исходным этапом статистического исследования яв­ляется этап статистического наблюдения. Именно в процессе на­блюдения формируется исходная статистическая информация, яв­ляющаяся основой статистического исследования.

Статистическая информация — это совокупность сведений соци­ального и экономического характера, полученных в результате ста­тистического наблюдения, на основе которых осуществляются та­кие функции, как учет, контроль, планирование, статистический анализ и управление.

Статистическое наблюдение представляет собой научно орга­низованный, планомерный и систематический сбор массовых све­дений о социально-экономических явлениях и процессах путем ре­гистрации заранее намеченных существенных признаков.

Читайте также:  Смесь для кекса пудов способ приготовления

Процесс проведения статистического наблюдения включает в себя ряд этапов. Первый из них — программно-методологическая подготовка проведения наблюдения. В нее входят: определение цели и объекта наблюдения, состава признаков, подлежащих регистра­ции; разработка документов для сбора данных; выбор отчетной единицы и единицы, относительно которой будет проводиться на­блюдение; определение методов и средств получения данных. Да­лее следует организационная подготовка проведения наблюдения. Она включает следующие виды работ:

· подбор и подготовка кадров;

· составление календарного плана работ по подготовке и прове­дению статистического наблюдения, по обработке его материалов;

· подготовка технической документации и оборудования.

После этого выбирают форму, способ и вид статистического наблюдения.

Важнейший этап — проведение статистического наблюдения, сбор данных наблюдения, накапливание статистической информации. Очередная ступень — синтаксический, логический и арифметичес­кий контроль данных статистического наблюдения, которые осно­вываются на знании документооборота, логических и арифмети­ческих взаимосвязей между показателями, их количественными и качественными характеристиками.

На заключительной стадии делаются выводы и предложения по проведению статистического наблюдения. Она также включает в себя анализ точности и достоверности полученных данных и при­чин возможного возникновения ошибок наблюдения.

На основе материалов статистического наблюдения, их обработки и анализа разрабатываются решения и предложения для оценки состояния и прогнозирования социально-экономического развития страны, отдельных регионов, отраслей, организационно-правовых структур и т.д.

Объект статистического наблюдения — это совокупность соци­ально-экономических явлений и процессов, которая подвергается статистическому наблюдению. Объектом наблюдения может быть, например, народонаселение страны, группа коммерческих банков, совокупность страховых компаний, финансово-промышленных групп и т.д.

Всякий объект статистического наблюдения состоит из отдель­ных элементов — единиц наблюдения. Определяя объект наблюде­ния, важно четко определить единицу статистического наблюдения и единицу статистической совокупности.

Единица статистического наблюдения — это первичный, состав­ной элемент объекта статистического наблюдения, который явля­ется носителем регистрируемых при наблюдении признаков. В ка­честве единицы наблюдения могут выступать банк, страховая ком­пания, финансово-промышленная группа, высшее учебное заведе­ние, профсоюз и т. д. в зависимости от того, какой объект обследу­ется. Определение единицы наблюдения должно содержать указа­ние ее основных отличительных признаков. Единицы наблюдения называются отчетными единицами.

Отчетная единица — это единица статистического наблюдения, от которой поступают отчетные данные по утвержденным для нее в установленном порядке формам. Так, в системе статистической отчетности в строительстве отчетными единицами являются про­ектные и строительно-монтажные организации.

Статистическое наблюдение различается по организационным формам, видам, источникам сведений и способам их собирания.

Организационные формы статистического наблюдения много­образны, но все они могут быть сведены к двум основным: отчет­ность (предприятий, организаций, учреждений различных органи­зационно-правовых форм) и специально организованное наблюде­ние (переписи, единовременные учеты, обследования сплошного и несплошного характера).

Отчетность — это организационная форма статистического на­блюдения, при которой в установленные сроки сведения поступа­ют в соответствующие статистические органы от предприятий, орга­низаций и учреждений различных организационно-правовых форм в виде установленных в законном порядке отчетных документов (статистических отчетов), заполненных на основании данных пер­вичного учета и подписанных лицами, ответственными за представ­ление и достоверность содержащихся в них сведений. Отчетность является важнейшей формой статистического наблюдения. В ней содержатся основные учетно-статистические данные о состоянии и деятельности предприятий, организаций и других субъектов эко­номики. Все формы статистической отчетности утверждают орга­ны государственной статистики.

Различают общегосударственную и внутриведомственную отчет­ность. Главная особенность общегосударственной отчетности со­стоит в том, что она обязательна для всех без исключения предпри­ятий, учреждений и организаций различных организационно-пра­вовых форм и представляется в сводном виде в органы государствен­ной статистики. Внутриведомственная отчетность действует в пре­делах отдельного министерства, ведомства. Она устанавливается для подведомственных предприятий, организаций и учреждений различ­ных организационно-правовых форм и используется для своих опе­ративных потребностей.

Формы отчетности могут быть типовыми и специализирован­ными. Типовая отчетность — это отчетность, содержащая показа­тели, одинаковые для всех предприятий, организаций и учрежде­ний различных организационно-правовых форм, а также для раз­ных производств и видов деятельности.

Специализированная отчетность вводится для предприятий, организаций и учреждений, имеющих определенные особенности. Она содержит наряду с общими показателями, имеющимися в со­ответствующей типовой отчетности, специфические показатели, характерные для определенных организационно-правовых форм, видов деятельности и производства.

По периодичности представления сведений отчетность подраз­деляется на периодическую и единовременную.

По способу представления отчетных данных различают отчет­ность почтовую и срочную, представляемую по телеграфу, телетай­пу, факсу и другими быстрыми способами.

Специально организованное статистическое наблюдение — это на­блюдение, организуемое с определенно заданной целью на опре­деленную, как правило, дату для получения данных, которые в силу тех или иных причин не собираются посредством отчетности, или для проверки и уточнения данных отчетности, а также для глубоко­го и всестороннего анализа конкретных социально-экономических явлений и процессов. Примером такой организационной формы статистического наблюдения являются переписи населения, бюд­жетные обследования домашних хозяйств, инвентаризации и пере­оценки основных фондов в экономике страны в целом, социологи­ческие обследования и т.д.

Читайте также:  Способы получения когерентных источников методом деления волнового фронта

В зависимости от степени охвата наблюдением единиц изучае­мого объекта статистическое наблюдение подразделяется на сплош­ное и несплошное. Сплошное статистическое наблюдение — это на­блюдение, при котором обследованию подвергаются все без исклю­чения единицы изучаемой совокупности явлений и процессов. Ти­пичным примером сплошного наблюдения являются переписи на­селения, при проведении которых регистрации по основной про­грамме подлежат все без исключения жители страны. К сплошному наблюдению относится также текущая отчетность предприятий и организаций, которая охватывает все подотчетные объекты различ­ных организационно-правовых форм, и т.д.

Несплошное статистическое наблюдение предполагает, что об­следованию подвергаются не все единицы изучаемой совокупнос­ти, а только часть из них. При проведении несплошного наблюде­ния заранее определяется факт его проведения, принцип и методы отбора и формирования части совокупности, которая будет под­вергнута наблюдению. Примером несплошного наблюдения явля­ется регистрация цен на отдельные виды товаров длительного пользования. В практике статистического исследования применя­ется несколько видов несплошного наблюдения: выборочное, мо­нографическое, метод основного массива.

Выборочное наблюдение — это вид несплошного наблюдения, ос­нованный на принципе случайного отбора тех единиц совокупнос­ти, которые должны быть подвергнуты статистическому наблюде­нию. Правильная организация и проведение выборочного наблю­дения позволяют получить достаточно достоверные статистичес­кие данные для характеристики изучаемой совокупности в целом.

Монографическое наблюдение — это вид несплошного наблюде­ния, предполагающий изучение и описание отдельных, характер­ных в каком-либо отношении, единиц совокупности с целью харак­теристики всей совокупности социально-экономических явлений и процессов в целом.

Метод основного массива — это вид несплошного наблюдения, при котором обследованию подвергаются наиболее существенные, крупные единицы изучаемой совокупности, где объем изучаемого признака составляет наибольший, преобладающий удельный вес. Единицы совокупности, обладающие незначительной величиной изучаемого признака, обследованию не подвергаются. Данный вид наблюдения применяется, например, при регистрации цен на рын­ках продовольственных и непродовольственных товаров города.

В зависимости от временного фактора, т.е. по частоте регистра­ции сведений, наблюдение бывает текущее и прерывное. Текущее наблюдение осуществляется систематически, путем непрерывной регистрации фактов по мере их возникновения. Примером текуще­го наблюдения является регистрация актов гражданского состоя­ния. Прерывное наблюдение означает, что регистрация фактов про­изводится регулярно, через определенные промежутки времени или по мере необходимости.

В зависимости от источников собираемых сведений различают наблюдение непосредственное, документальное и опрос.

Непосредственное наблюдение осуществляют сами регистраторы с помощью осмотра, путем непосредственного замера, взвешива­ния или подсчета признаков изучаемого явления. Тем самым уста­навливают факт и регистрируют его в формуляре статистического наблюдения. Примером может служить инвентаризация имущества предприятия или учреждения. Документальное наблюдение — это такое наблюдение,когда запись ответов на вопросы формуляра наблюденияпроизводится на основании соответствующих документов. Например, для составления статистической отчетности строи­тельной фирмы используются данные, взятые из документов бух­галтерского учета. Опрос — это наблюдение, при котором ответы на вопросы формуляра наблюдения записываются со слов опраши­ваемого. Данный вид наблюдения характерен для переписей насе­ления, социологических обследований. Наибольшая точность со­бираемых сведений достигается при непосредственном и докумен­тальном наблюдении.

В статистической практике применяются различные способы ста­тистического наблюдения. Это отчетный, экспедиционный, метод самоисчисления, а также корреспондентский, анкетный и явочный.

Отчетный способ статистического наблюдения заключается в представлении предприятиями, организациями и учреждениями различных организационно-правовых форм статистических отче­тов о своей деятельности в строго установленном порядке (сроки, адреса, формы). Это наиболее распространенный способ сбора ста­тистических данных в нашей стране.

Экспедиционный способ статистического наблюдения заключается в том, что специально привлеченные и обученные работники, име­нуемые счетчиками или регистраторами, посещают каждую едини­цу наблюдения и сами регистрируют сведения о наблюдаемом яв­лении в формуляре статистического наблюдения. Данный способ применяется только при специально организованном наблюдении (например, во время переписи населения).

Способ самоисчисления (саморегистрации) предполагает, что формуляры статистического наблюдения заполняют сами опраши­ваемые, а специально привлеченные работники обеспечивают опра­шиваемых формулярами наблюдения, инструктируют их, собира­ют заполненные формуляры и проверяют правильность их запол­нения.

Анкетный способ статистического наблюдения сводится к сбору статистических данных с помощью специальных вопросников (ан­кет), рассылаемых определенному кругу лиц или публикуемых в периодической печати. Заполнение анкет носит добровольный ха­рактер и осуществляется, как правило, анонимно. Данный способ применяется в обследованиях, где не требуется получения резуль­татов, отличающихся высокой точностью.

Корреспондентский способ статистического наблюдения состо­ит в том, что статистические органы договариваются с определенными лицами, которые берут на себя обязательство вести наблю­дение за социально-экономическими явлениями и процессами, составляющими объект наблюдения, и сообщать его результаты статистическим органам.

Явочный способ статистического наблюдения предполагает пред­ставление сведений в органы, которые ведут наблюдение, в явоч­ном порядке. Применяется, например, при регистрации актов граж­данского состояния.

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Источник

Оцените статью
Разные способы