7 способов получить качественные размеченные данные для машинного обучения
Наличие размеченных данных необходимо для машинного обучения, но получение таких данных — непростая и дорогостоящая задача. Мы рассмотрим семь способов их сбора, в том числе перепрофилирование, поиск бесплатных источников, многократное обучение на данных с постепенно повышающимся качеством, а также другие способы.
Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.
При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.
Однако разметка — это неблагодарная работа, которой большинство data scientists-ов занимается только в случае абсолютной необходимости. В рейтинге задач data science разметка данных для обучения по престижности находится где-то в самом низу. В экосистеме data science разметка получила (вероятно, несправедливо) репутацию низкоквалифицированной работы для «синих воротничков». Или, как показано в этом забавном эпизоде последнего сезона сериала HBO «Кремниевая долина», разметка данных для обучения — это рутина, которой бессовестный data scientist может заставить бесплатно заниматься ничего не подозревающих юных студентов колледжа.
Из-за всего этого складывается ошибочное впечатление, что data scientist не может получить приемлемых данных для обучения, если не передаст задачу разметки на аутсорс какой-нибудь «фабрике» низкоквалифицированного труда от мира высоких технологий. Это очень неправильное впечатление, потому что, как я говорил в колонке Pattern Curators of the Cognitive Era, наряду с рутинной оценкой, которую сможет выполнить любой из нас (например, «хот-дог перед нами или не хот-дог»), для разметки могут понадобиться мнения очень квалифицированных в соответствующей области специалистов (например, онкологов, решающих, говорят ли результаты биопсии о наличии злокачественных тканей).
Как сказано в этом посте на Medium, монотонная работа — не единственный способ получения и разметки данных для обучения. Его автор Расмус Рот замечает, что есть и другие подходы для создания размеченных обучающих данных, цена которых вполне будет приемлема для вашего бюджета data science. Ниже я вкратце расскажу об этих способах:
- Перепрофилирование уже имеющихся данных для обучения и разметки: наверно, это самый дешёвый, простой и быстрый подход для обучения, если считать, что область новой задачи обучения значительно схожа с областью исходной задачи. При выборе такого подхода инструменты и методики трансферного обучения (transfer learning) могут помочь вам в определении того, какие элементы исходного набора данных можно перепрофилировать под новую область моделирования.
- Сбор собственных данных для обучения и разметки из бесплатных ресурсов: веб, социальные сети и другие онлайн-источники переполнены данными, которые можно собирать при наличии нужных инструментов. Как я подчеркнул в колонке для Dataversity, в нашу эру когнитивных вычислений из различных источников можно получать потоки текстов на естественном языке, общественных мнений и других данных для обучения. Если у вас есть краулер данных, то это может быть хорошим вариантом для получения наборов обучающих данных вместе с соответствующей разметкой из исходного контента и метаданных. Однако в процессе оценки пригодности собранных данных для обучения модели вам придётся справляться с различными проблемами, связанными с владением данными, их качеством, семантикой, выборками и так далее.
- Изучение уже размеченных публичных наборов данных: сообщества open-source и даже различные коммерческие поставщики предоставляют множество бесплатных данных. Data scientist-ам следует проверять, подойдут ли какие-то из этих данных по крайней мере для первоначального обучения моделей. В идеале этот бесплатный набор данных должен быть уже размечен таким образом, чтобы пригодиться в вашей задаче обучения. Если он не имеет разметки, то вам придётся найти наиболее экономный способ её создания.
- Многократное обучение моделей на всё более качественных наборах данных с разметкой: ваших собственных объёмов данных может быть недостаточно для обучения моделей. Для начала обучения можно предварительно обучаться на свободных публичных данных, которые хотя бы приблизительно близки к вашей области. Ещё лучше, если в этих бесплатных наборах данных есть приемлемая разметка. Затем можно будет повторно обучить модель на размеченном наборе данных меньшего объёма, но большего качества, непосредственно связанного с задачей, которую вы стремитесь решить. В процессе многократного обучения модели на всё более качественных наборах данных результаты могут позволить вам более точно настраивать конструирование признаков, классы и гиперпараметры модели. Этот повторяющийся процесс может дать вам понимание того, что стоит приобрести другие, более качественные наборы данных или обеспечить более качественную разметку для последующих этапов обучения, чтобы дальше совершенствовать модель. Однако стоит учитывать, что для такого итеративного совершенствования могут требоваться всё более дорогие наборы обучающих данных и сервисы разметки.
- Использование краудсорсинговых сервисов разметки: возможно, у вас недостаточно персонала для разметки своих данных для обучения. Или он слишком занят/его время дорого для того, чтобы использовать его в разметке. Или ваших работников недостаточно для достаточно быстрой разметки большого объёма данных для обучения. В такой ситуации, если позволяет бюджет, можно отдать задачи разметки на краудсорсинг в коммерческие сервисы наподобие Amazon Mechanical Turk или CrowdFlower. Передача разметки на аутсорс может быть гораздо более масштабируемой задачей, чем выполнение её внутри компании, однако взамен вы частично потеряете контроль над качеством и целостностью получившейся разметки. С другой стороны, эти сервисы обычно используют высококачественные инструменты разметки, упрощающие разметку, повышающие её качество и эффективность по сравнению с обработкой внутри компании.
- Внедрение задач разметки в онлайн-приложения: когнитивные способности человека — безграничный ресурс, который можно использовать для задач разметки. Например, популярным решением для обучения моделей распознавания изображений и текста стало встраивание данных для обучения в CAPTCHA, которые часто применяются при двухфакторной аутентификации. Схожим образом можно внедрять данные для обучения в геймифицированные приложения, мотивирующие пользователей распознавать, классифицировать и иным образом комментировать изображения, текст, объекты и другие элементы.
- Использовать сторонние модели, предварительно обученные на размеченных данных: многие задачи обучения уже решались достаточно хорошими моделями, уже обученными на достаточно хороших наборах данных, которые, предположительно, были адекватно размечены перед обучением соответствующих моделей. Существует множество возможных источников заранее обученных моделей, в том числе учёные-исследователи, коммерческие поставщики и сообщества data science с данными в open-source. Помните, что полезность таких моделей будет снижаться, если область задачи обучения, набор признаков или сама задача со временем отдаляются от исходных.
Обеспечение соответствия моделей их предназначению сильно зависит от доступности данных для обучения, необходимости частого повторного обучения, доступности ресурсов для разметки и так далее. Очевидно, что не существует единого подхода, удовлетворяющего всем требованиям по сбору и разметке наборов данных для обучения.
Сложные решения, которые должны принимать data scientist-ы, привносят риски и неустойчивость в жизненный цикл процесса контролируемого обучения. Как я писал недавно в посте на Wikibon, выбор способа обучения алгоритмов накладывает постоянное бремя по обслуживанию приложений, потребляющих результаты, выдаваемые вашей аналитической моделью.
Источник
Получение исходных данных
СТАТИСТИЧЕСКИЕ ДАННЫЕ И ИХ ОПИСАНИЕ
Получение информации об объекте исследования является одной из основных составляющих статистического исследования.
При статистическом исследовании следует руководствоваться целями и требованиями к результатам. Они определяют методы статистического анализа, исходя из которых организуется сбор исходных данных. В процессе статистического исследования следует опасаться следующих ошибок: нечетко сформулированные цели, некорректно примененные методы и ошибки при получении исходных данных.
Получение исходных данных для статистического исследования может осуществляться двумя способами:
· активный эксперимент, специально организованный для определения статистических зависимостей;
Активный эксперимент используется в технико-экономических исследованиях, когда, например, ставится задача оптимизации режимов технологических процессов по экономическим критериям.
При проведении статистического исследования социально-экономических процессов представляется возможным использовать только наблюдение. Программа является основой данного способа получения информации. Она состоит из трех основных этапов:
· определение объекта наблюдения;
· выбор единицы совокупности;
· определение системы показателей, подлежащих регистрации.
Объектом наблюдений называется совокупность единиц изучаемого явления, о которых могут быть собраны статистические сведения. Для четкого определения объекта наблюдения следует ответить на следующие вопросы:
—что? (какие элементы будем исследовать);
—где? (в каком месте будет вестись наблюдение);
—когда? (за какой период).
Статистическим наблюдением называется планомерный научно обоснованный сбор данных или сведений о социально- экономических явлениях и процессах.
Виды статистических наблюдений можно классифицировать:
· по способу получения информации;
· по учету фактора времени;
· по полноте охвата совокупности (рис. 2).
Рис. 2. Классификация статистических наблюдений
Статистическое исследование представляет собой изучение социально-экономических явлений и процессов посредством системы статистических методов и количественных характеристик. Оно проходит следующие стадии: а) сбор статистической информации и формирование информационной базы исследования (статистическое наблюдение); б) сводка и группировка данных статистического наблюдения; в) обобщение и анализ результатов обработки статистических данных, формулировка выводов и рекомендаций по итогам статистического исследования в целом.
Первым и исходным этапом статистического исследования является этап статистического наблюдения. Именно в процессе наблюдения формируется исходная статистическая информация, являющаяся основой статистического исследования.
Статистическая информация — это совокупность сведений социального и экономического характера, полученных в результате статистического наблюдения, на основе которых осуществляются такие функции, как учет, контроль, планирование, статистический анализ и управление.
Статистическое наблюдение представляет собой научно организованный, планомерный и систематический сбор массовых сведений о социально-экономических явлениях и процессах путем регистрации заранее намеченных существенных признаков.
Процесс проведения статистического наблюдения включает в себя ряд этапов. Первый из них — программно-методологическая подготовка проведения наблюдения. В нее входят: определение цели и объекта наблюдения, состава признаков, подлежащих регистрации; разработка документов для сбора данных; выбор отчетной единицы и единицы, относительно которой будет проводиться наблюдение; определение методов и средств получения данных. Далее следует организационная подготовка проведения наблюдения. Она включает следующие виды работ:
· подбор и подготовка кадров;
· составление календарного плана работ по подготовке и проведению статистического наблюдения, по обработке его материалов;
· подготовка технической документации и оборудования.
После этого выбирают форму, способ и вид статистического наблюдения.
Важнейший этап — проведение статистического наблюдения, сбор данных наблюдения, накапливание статистической информации. Очередная ступень — синтаксический, логический и арифметический контроль данных статистического наблюдения, которые основываются на знании документооборота, логических и арифметических взаимосвязей между показателями, их количественными и качественными характеристиками.
На заключительной стадии делаются выводы и предложения по проведению статистического наблюдения. Она также включает в себя анализ точности и достоверности полученных данных и причин возможного возникновения ошибок наблюдения.
На основе материалов статистического наблюдения, их обработки и анализа разрабатываются решения и предложения для оценки состояния и прогнозирования социально-экономического развития страны, отдельных регионов, отраслей, организационно-правовых структур и т.д.
Объект статистического наблюдения — это совокупность социально-экономических явлений и процессов, которая подвергается статистическому наблюдению. Объектом наблюдения может быть, например, народонаселение страны, группа коммерческих банков, совокупность страховых компаний, финансово-промышленных групп и т.д.
Всякий объект статистического наблюдения состоит из отдельных элементов — единиц наблюдения. Определяя объект наблюдения, важно четко определить единицу статистического наблюдения и единицу статистической совокупности.
Единица статистического наблюдения — это первичный, составной элемент объекта статистического наблюдения, который является носителем регистрируемых при наблюдении признаков. В качестве единицы наблюдения могут выступать банк, страховая компания, финансово-промышленная группа, высшее учебное заведение, профсоюз и т. д. в зависимости от того, какой объект обследуется. Определение единицы наблюдения должно содержать указание ее основных отличительных признаков. Единицы наблюдения называются отчетными единицами.
Отчетная единица — это единица статистического наблюдения, от которой поступают отчетные данные по утвержденным для нее в установленном порядке формам. Так, в системе статистической отчетности в строительстве отчетными единицами являются проектные и строительно-монтажные организации.
Статистическое наблюдение различается по организационным формам, видам, источникам сведений и способам их собирания.
Организационные формы статистического наблюдения многообразны, но все они могут быть сведены к двум основным: отчетность (предприятий, организаций, учреждений различных организационно-правовых форм) и специально организованное наблюдение (переписи, единовременные учеты, обследования сплошного и несплошного характера).
Отчетность — это организационная форма статистического наблюдения, при которой в установленные сроки сведения поступают в соответствующие статистические органы от предприятий, организаций и учреждений различных организационно-правовых форм в виде установленных в законном порядке отчетных документов (статистических отчетов), заполненных на основании данных первичного учета и подписанных лицами, ответственными за представление и достоверность содержащихся в них сведений. Отчетность является важнейшей формой статистического наблюдения. В ней содержатся основные учетно-статистические данные о состоянии и деятельности предприятий, организаций и других субъектов экономики. Все формы статистической отчетности утверждают органы государственной статистики.
Различают общегосударственную и внутриведомственную отчетность. Главная особенность общегосударственной отчетности состоит в том, что она обязательна для всех без исключения предприятий, учреждений и организаций различных организационно-правовых форм и представляется в сводном виде в органы государственной статистики. Внутриведомственная отчетность действует в пределах отдельного министерства, ведомства. Она устанавливается для подведомственных предприятий, организаций и учреждений различных организационно-правовых форм и используется для своих оперативных потребностей.
Формы отчетности могут быть типовыми и специализированными. Типовая отчетность — это отчетность, содержащая показатели, одинаковые для всех предприятий, организаций и учреждений различных организационно-правовых форм, а также для разных производств и видов деятельности.
Специализированная отчетность вводится для предприятий, организаций и учреждений, имеющих определенные особенности. Она содержит наряду с общими показателями, имеющимися в соответствующей типовой отчетности, специфические показатели, характерные для определенных организационно-правовых форм, видов деятельности и производства.
По периодичности представления сведений отчетность подразделяется на периодическую и единовременную.
По способу представления отчетных данных различают отчетность почтовую и срочную, представляемую по телеграфу, телетайпу, факсу и другими быстрыми способами.
Специально организованное статистическое наблюдение — это наблюдение, организуемое с определенно заданной целью на определенную, как правило, дату для получения данных, которые в силу тех или иных причин не собираются посредством отчетности, или для проверки и уточнения данных отчетности, а также для глубокого и всестороннего анализа конкретных социально-экономических явлений и процессов. Примером такой организационной формы статистического наблюдения являются переписи населения, бюджетные обследования домашних хозяйств, инвентаризации и переоценки основных фондов в экономике страны в целом, социологические обследования и т.д.
В зависимости от степени охвата наблюдением единиц изучаемого объекта статистическое наблюдение подразделяется на сплошное и несплошное. Сплошное статистическое наблюдение — это наблюдение, при котором обследованию подвергаются все без исключения единицы изучаемой совокупности явлений и процессов. Типичным примером сплошного наблюдения являются переписи населения, при проведении которых регистрации по основной программе подлежат все без исключения жители страны. К сплошному наблюдению относится также текущая отчетность предприятий и организаций, которая охватывает все подотчетные объекты различных организационно-правовых форм, и т.д.
Несплошное статистическое наблюдение предполагает, что обследованию подвергаются не все единицы изучаемой совокупности, а только часть из них. При проведении несплошного наблюдения заранее определяется факт его проведения, принцип и методы отбора и формирования части совокупности, которая будет подвергнута наблюдению. Примером несплошного наблюдения является регистрация цен на отдельные виды товаров длительного пользования. В практике статистического исследования применяется несколько видов несплошного наблюдения: выборочное, монографическое, метод основного массива.
Выборочное наблюдение — это вид несплошного наблюдения, основанный на принципе случайного отбора тех единиц совокупности, которые должны быть подвергнуты статистическому наблюдению. Правильная организация и проведение выборочного наблюдения позволяют получить достаточно достоверные статистические данные для характеристики изучаемой совокупности в целом.
Монографическое наблюдение — это вид несплошного наблюдения, предполагающий изучение и описание отдельных, характерных в каком-либо отношении, единиц совокупности с целью характеристики всей совокупности социально-экономических явлений и процессов в целом.
Метод основного массива — это вид несплошного наблюдения, при котором обследованию подвергаются наиболее существенные, крупные единицы изучаемой совокупности, где объем изучаемого признака составляет наибольший, преобладающий удельный вес. Единицы совокупности, обладающие незначительной величиной изучаемого признака, обследованию не подвергаются. Данный вид наблюдения применяется, например, при регистрации цен на рынках продовольственных и непродовольственных товаров города.
В зависимости от временного фактора, т.е. по частоте регистрации сведений, наблюдение бывает текущее и прерывное. Текущее наблюдение осуществляется систематически, путем непрерывной регистрации фактов по мере их возникновения. Примером текущего наблюдения является регистрация актов гражданского состояния. Прерывное наблюдение означает, что регистрация фактов производится регулярно, через определенные промежутки времени или по мере необходимости.
В зависимости от источников собираемых сведений различают наблюдение непосредственное, документальное и опрос.
Непосредственное наблюдение осуществляют сами регистраторы с помощью осмотра, путем непосредственного замера, взвешивания или подсчета признаков изучаемого явления. Тем самым устанавливают факт и регистрируют его в формуляре статистического наблюдения. Примером может служить инвентаризация имущества предприятия или учреждения. Документальное наблюдение — это такое наблюдение,когда запись ответов на вопросы формуляра наблюденияпроизводится на основании соответствующих документов. Например, для составления статистической отчетности строительной фирмы используются данные, взятые из документов бухгалтерского учета. Опрос — это наблюдение, при котором ответы на вопросы формуляра наблюдения записываются со слов опрашиваемого. Данный вид наблюдения характерен для переписей населения, социологических обследований. Наибольшая точность собираемых сведений достигается при непосредственном и документальном наблюдении.
В статистической практике применяются различные способы статистического наблюдения. Это отчетный, экспедиционный, метод самоисчисления, а также корреспондентский, анкетный и явочный.
Отчетный способ статистического наблюдения заключается в представлении предприятиями, организациями и учреждениями различных организационно-правовых форм статистических отчетов о своей деятельности в строго установленном порядке (сроки, адреса, формы). Это наиболее распространенный способ сбора статистических данных в нашей стране.
Экспедиционный способ статистического наблюдения заключается в том, что специально привлеченные и обученные работники, именуемые счетчиками или регистраторами, посещают каждую единицу наблюдения и сами регистрируют сведения о наблюдаемом явлении в формуляре статистического наблюдения. Данный способ применяется только при специально организованном наблюдении (например, во время переписи населения).
Способ самоисчисления (саморегистрации) предполагает, что формуляры статистического наблюдения заполняют сами опрашиваемые, а специально привлеченные работники обеспечивают опрашиваемых формулярами наблюдения, инструктируют их, собирают заполненные формуляры и проверяют правильность их заполнения.
Анкетный способ статистического наблюдения сводится к сбору статистических данных с помощью специальных вопросников (анкет), рассылаемых определенному кругу лиц или публикуемых в периодической печати. Заполнение анкет носит добровольный характер и осуществляется, как правило, анонимно. Данный способ применяется в обследованиях, где не требуется получения результатов, отличающихся высокой точностью.
Корреспондентский способ статистического наблюдения состоит в том, что статистические органы договариваются с определенными лицами, которые берут на себя обязательство вести наблюдение за социально-экономическими явлениями и процессами, составляющими объект наблюдения, и сообщать его результаты статистическим органам.
Явочный способ статистического наблюдения предполагает представление сведений в органы, которые ведут наблюдение, в явочном порядке. Применяется, например, при регистрации актов гражданского состояния.
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет
Источник