Способы анализа данных исследователями

Анализ данных — основы и терминология

В этой статье я бы хотел обсудить базовые принципы построения практического проекта по (т. н. «интеллектуальному») анализу данных, а также зафиксировать необходимую терминологию, в том числе русскоязычную.

Анализ данных — это область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений.

Говоря чуть более простым языком, я бы предложил понимать под анализом данных совокупность методов и приложений, связанных с алгоритмами обработки данных и не имеющих четко зафиксированного ответа на каждый входящий объект. Это будет отличать их от классических алгоритмов, например реализующих сортировку или словарь. От конкретной реализации классического алгоритма зависит время его выполнения и объем занимаемой памяти, но ожидаемый результат его применения строго зафиксирован. В противоположность этому мы ожидаем от нейросети, распознающей цифры, ответа 8 при входящей картинке, изображающей рукописную восьмерку, но не можем требовать этого результата. Более того, любая (в разумном смысле этого слова) нейросеть будет иногда ошибаться на тех или иных вариантах корректных входных данных. Будем называть такую постановку задачи и применяющиеся при ее решении методы и алгоритмы недетерминистическими (или нечеткими) в отличии от классических (детерминистических, четких).

Алгоритмы и эвристики

Описанную задачу распознавания цифр можно решать пытаясь самостоятельно подобрать функцию, реализующую соответствующее отображение. Получится, скорее всего, не очень быстро и не очень хорошо. С другой стороны, можно прибегнуть к методам машинного обучения, то есть воспользоваться вручную размеченной выборкой (или, в других случаях, теми или иными историческими данными) для автоматического подбора решающей функции. Таким образом, здесь и далее (обобщенным) алгоритмом машинного обучения я буду называть алгоритм, так или иначе на основе данных формирующий недетерминистический алгоритм, решающий ту или иную задачу. (Недетерминистичность полученного алгоритма нужна для того, чтобы под определение не подпадал справочник, использующий предварительно подгруженные данные или внешний API).

Таким образом, машинное обучение является наиболее распространенным и мощным (но, тем не менее, не единственным) методом анализа данных. К сожалению, алгоритмов машинного обучения, хорошо обрабатывающих данные более или менее произвольной природы люди пока не изобрели и поэтому специалисту приходится самостоятельно заниматься предобработкой данных для приведения их в пригодный для применения алгоритма вид. В большинстве случаев такая предобработка называется фичеселектом (англ. feature selection) или препроцессингом. Дело в том, что большинство алгоритмов машинного обучения принимают на вход наборы чисел фиксированной длины (для математиков — точки в ). Однако сейчас также широко используются разнообразные алгоритмы на основе нейронных сетей, которые умеют принимать на вход не только наборы чисел, но и объекты, имеющие некоторые дополнительные, главным образом геометрические, свойства, такие как изображения (алгоритм учитывает не только значения пикселей, но и их взаимное расположение), аудио, видео и тексты. Тем не менее, некоторая предобработка как правило происходит и в этих случаях, так что можно считать, что для них фичеселект заменяется подбором удачного препроцессинга.

Алгоритмом машинного обучения с учителем (в узком смысле этого слова) можно назвать алгоритм (для математиков — отображение), который берет на вход набор точек в (еще называются примерами или samples) и меток (значений, которые мы пытаемся предсказать) , а на выходе дает алгоритм (=функцию) , уже сопоставляющий конкретное значение любому входу , принадлежащему пространству примеров. Например, в случае упомянутой выше нейросети, распознающей цифры, с помощью специальной процедуры на основе обучающей выборки устанавливаются значения, соответствующие связям между нейронами, и с их помощью на этапе применения вычисляется то или иное предсказание для каждого нового примера. Кстати, совокупность примеров и меток называется обучающей выборкой.

Список эффективных алгоритмов машинного обучения с учителем (в узком смысле) строго ограничен и почти не пополняется несмотря на активные исследования в этой области. Однако для правильного применения этих алгоритмов требуется опыт и подготовка. Вопросы эффективного сведения практической задачи к задаче анализа данных, подбора списка фичей или препроцессинга, модели и ее параметров, а также грамотного внедрения непросты и сами по себе, не говоря уже о работе над ними в совокупности.

Общая схема решения задачи анализа данных при использовании метода машинного обучения выглядит таким образом:

Цепочку «препроцессинг — модель машинного обучения — постпроцессинг» удобно выделять в единую сущность. Часто такая цепочка остается неизменной и лишь регулярно дообучается на новопоступивших данных. В некоторых случаях, особенно на ранних этапах развития проекта, ее содержимое заменяется более или менее сложной эвристикой, не зависящей напрямую от данных. Бывают и более хитрые случаи. Заведем для такой цепочки (и возможных ее вариантов) отдельный термин и будем называть мета-моделью (meta-model). В случае эвристики она редуцируется до следующей схемы:

Читайте также:  Способы наложения гипсовых повязок

Эвристика — это просто вручную подобранная функция, не использующая продвинутых методов, и, как правило, не дающая хорошего результата, но приемлемая в определенных случаях, например на ранних стадиях развития проекта.

Задачи машинного обучения с учителем

В зависимости от постановки, задачи машинного обучения делят на задачи классификации, регрессии и логистической регрессии.

Классификация — постановка задачи при которой требуется определить, какому классу из некоторого четко заданного списка относится входящий объект. Типичным и популярным примером является уже упоминавшееся выше распознавание цифр, в ней каждому изображению нужно сопоставить один из 10 классов, соответствующий изображенной цифре.

Регрессия — постановка задачи, при которой требуется предсказать некоторую количественную характеристику объекта, например цену или возраст.

Логистическая регрессия сочетает свойства перечисленных выше двух постановок задач. В ней задаются совершившиеся события на объектах, а требуется предсказать их вероятности на новых объектах. Типичным примером такой задачи является задача предсказания вероятности перехода пользователя по рекомендательной ссылке или рекламному объявлению.

Выбор метрики и валидационная процедура

Метрика качества предсказания (нечеткого) алгоритма — это способ оценить качество его работы, сравнить результат его применения с действительным ответом. Более математично — это функция, берущая на вход список предсказаний и список случившихся ответов , а возвращающая число соответствующее качеству предсказания. Например в случае задачи классификации самым простым и популярным вариантом является количество несовпадений , а в случае задачи регрессии — среднеквадратичное отклонение . Однако в ряде случаев из практических соображений необходимо использовать менее стандартные метрики качества.

Прежде чем внедрять алгоритм в работающий и взаимодействующий с реальными пользователями продукт (или передавать его заказчику), хорошо бы оценить, насколько хорошо этот алгоритм работает. Для этого используется следующий механизм, называемый валидационной процедурой. Имеющаяся в распоряжении размеченная выборка разделяется на две части — обучающую и валидационную. Обучение алгоритма происходит на обучающей выборке, а оценка его качества (или валидация) — на валидационной. В том случае, если мы пока не используем алгоритм машинного обучения, а подбираем эвристику, можно считать, что вся размеченная выборка, на которой мы оцениваем качество работы алгоритма является валидационной, а обучающая выборка пуста — состоит из 0 элементов.

Типичный цикл развития проекта

В самых общих чертах цикл развития проекта по анализу данных выглядит следующим образом.

  1. Изучение постановки задачи, возможных источников данных.
  2. Переформулировка на математическом языке, выбор метрик качества предсказания.
  3. Написание пайплайна для обучения и (хотя бы тестового) использования в реальном окружении.
  4. Написание решающей задачу эвристики или несложного алгоритма машинного обучения.
  5. По необходимости улучшение качества работы алгоритма, возможно уточнение метрик, привлечение дополнительных данных.

Заключение

На этом пока все, следующий раз мы обсудим какие конкретно алгоритмы применяются для решения задач классификации, регрессии и логистической регрессии, а о том, как сделать базовое исследование задачи и подготовить его результат для использования прикладным программистом уже можно почитать здесь.

Источник

Методы исследования в научной работе

В введении курсовой или дипломной работы среди прочих факторов необходимо перечислить методы исследования. Выбрать подходящие методы, применить их в процессе написания работы и грамотно описать во введении – задача не из лёгких. Она усложняется ещё и тем, что в каждой сфере исследования: психология, медицина, финансы, педагогика и прочие, применяются свои, узконаправленные методы. Ниже мы раскроем их сущность и назовём их общие и специальные виды.

Что такое методы исследования?

Это первый вопрос, в котором следует разобраться. Итак, методы исследования – это те шаги, которые мы выполняем на пути к цели своей работы. Это способы, которые помогают нам решить поставленные задачи.

По причине их огромного количества существуют разные классификации методов исследования, подразделения на виды, объединения в группы. Прежде всего, их принято разделять на две категории: универсальные и частные. Первая категория применима для всех отраслей знания, а вторая отличается более узкой направленностью и охватывает те методы, которые применяются строго в той или иной сфере науки.

Следующую классификацию рассмотрим более подробно и выделим их виды: эмпирические, теоретические, количественные и качественные. Далее рассмотрим методы, применимые в конкретных сферах познания: педагогике, психологии, социологии и прочих.

Пример описания методов исследования во введении курсовой или дипломной работы по менеджменту

Эмпирические методы исследования

Этот вид основан на эмпирическом, то есть чувственном восприятии, а также на измерении с помощью приборов. Это важный компонент научных исследований во всех областях знаний от биологии до физики, от психологии до педагогики. Он помогает определять объективные законы, в соответствии с которыми происходят изучаемые явления.

Читайте также:  Способы защиты от поражающих факторов противогазы

Приведённые ниже эмпирические методы исследования в курсовой работе и прочих студенческих трудах вполне можно назвать основными или универсальными, потому что они актуальны для абсолютно всех областей познания.

    • Изучение разнообразных источников информации. Это не что иное, как элементарный сбор информации, то есть этап подготовки к написанию магистерской диссертации или курсовой работы. Сведения, на которые вы будете опираться, можно брать из книг, прессы, нормативно-правовых актов и, наконец, из интернета. При поиске информации следует помнить, что не все находки являются достоверными (особенно в интернете), поэтому при выборке сведений следует отнестись к ним критически и обращать внимание на подтверждение и сходство материалов из разных источников.
    • Анализ полученных сведений. Это этап, который идёт следом за сбором информации. Недостаточно просто найти нужный материал, нужно ещё и тщательно проанализировать его, проверить на логичность, достоверность и актуальность.
    • Наблюдение. Этот метод представляет собой целенаправленное и внимательное восприятие изучаемого явления с последующем сбором информации. Чтобы наблюдение принесло желаемые плоды, необходимо подготовиться к нему заранее: составить план, набросать факторы, требующие особого внимания, чётко определиться со сроками и объектами наблюдения, подготовить таблицу, которую вы будете заполнять в процессе работы.
    • Эксперимент. Если наблюдение – это скорее пассивный метод исследования, то эксперимент характеризуется вашей активной деятельностью. Для проведения опыта или серии опытов вы создаёте определённые условия, в которые помещаете предмет исследования. Далее вы наблюдаете за реакцией предмета и фиксируете результаты опытов в виде таблицы, графика или диаграммы.
    • Опрос. Этот метод помогает глубже заглянуть в изучаемую проблему, задавая конкретные вопросы вовлечённым в неё людям. Опрос применяется в трёх вариациях: это интервью, беседа и анкетирование. Первые два вида устные, а последний – письменный. После выполнения опроса нужно чётко сформулировать его результаты в виде текста, диаграммы, таблицы или графика.

Теоретические методы исследования

Методы проведения исследования данного вида отличаются абстрактностью и обобщённостью. Они помогают систематизировать собранный материал для успешного его изучения.

  • Анализ. Чтобы лучше понять материал, его необходимо разложить на составные единицы и подробно изучить каждую. Этим и занимается анализ.
  • Синтез. Противопоставление анализу, необходимое для объединения разрозненных элементов в единое целое. К этому методу мы прибегаем, чтобы получить общее представление об изучаемом явлении.
  • Моделирование. Чтобы подробно изучить предмет исследования, иногда нужно поместить его в специально созданную модель.
  • Классификация. Этот метод схож с анализом, только информацию он распределяет на основе сравнения и разделяет на группы, опираясь на общие признаки.
  • Дедукция. В лучших традициях Шерлока Холмса этот метод помогает перейти от общего к частному. Этот переход полезен для более глубокого проникновения в сущность изучаемого явления.
  • Индукция. Этот метод – противопоставление дедукции, он помогает переходить от единичного случая к изучению цельного явления.
  • Аналогия. Принцип её действия заключается в том, что мы находим определённые сходства между несколькими явлениями, а затем выстраиваем логические умозаключения о том, что и другие черты у этих явлений могут совпадать.
  • Абстрагирование. Если отвлечься от ярких свойств изучаемого явления, можно выявить те его характеристики, на которые мы доселе не обращали внимания.

Пример описания методов исследования во введении курсовой или дипломной работы по русскому языку

Количественные методы исследования

Эта группа методов помогает анализировать явления и процессы с опорой на количественные показатели.

  • Статистические методы нацелены на первоначальный сбор количественных данных и дальнейшее их измерение для исследования масштабных явлений. Полученные количественные характеристики помогают выявить общие закономерности и устранить случайные незначительные отклонения.
  • Библиометрические методы позволяют изучить структуру, взаимную связь и динамику развития явлений в документационной и информационной областях. Это и подсчет количества сделанных публикаций, и контент-анализ, и цитат-индекс, т.е. определение объёма цитирования различных источников. На их основе можно отследить обращаемость изучаемых документов, степень их использования в различных сферах познания. Отдельного упоминания заслуживает контент-анализ, поскольку он играет важную роль при изучении большого объёма различных документов. Его суть сводится к подсчёту смысловых единиц, которыми могут стать те или иные авторы, произведения, даты выпуска книг. Результатом исследования с помощью этого метода становятся сведения об информационном интересе населения и общем уровне их информационной культуры.

Пример описания методов исследования во введении курсовой или дипломной работы по литературе

Качественные методы исследования

Методы, объединённые в этой группе, направлены на выявление качественных характеристик изучаемых явлений, чтобы на их основе мы могли раскрыть глубинные механизмы различных процессов в обществе, включая влияние средств массовой информации на сознание отдельного человека или определённые черты восприятия информации различными слоями населения. Основная область применения качественных методов – маркетинговые и социологические исследования.

Читайте также:  Способы покрытия дефицита бюджета эмиссия государственный долг

Рассмотрим важнейшие методы этой группы.

  • Глубинное интервью. В отличие от обыкновенного интервью, которое относится к эмпирическому виду, здесь мы говорим о такой беседе, где недостаточно краткого ответа «да» или «нет», но требуются развернутые, аргументированные ответы. Часто глубинное интервью проводится в форме свободной беседы в неформальной обстановке по заранее составленному плану, а его цель заключается в исследовании убеждений, ценностей и мотивации респондентов.
  • Экспертное интервью. От глубинного аналога эта беседа отличается тем, что в роли респондента выступает эксперт, компетентный в интересующей сфере. Обладая знанием о специфических сторонах изучаемого явления, он высказывает ценное мнение и существенно способствует научному исследованию. Часто в беседах подобного рода участвуют представители власти, работники вузов, руководители и сотрудники организаций.
  • Фокус-групповые дискуссии. Здесь беседа происходит не один на один, а с фокус-группой, состоящей из 10-15 респондентов, которые имеют непосредственное отношение к изучаемому явлению. Во время дискуссии её участники делятся личным мнением, опытом и восприятием предложенной темы, а на основе их высказываний составляется «портрет» социальной группы, к которой относится состав фокус-группы.

Методы педагогического исследования

В педагогике исследования проводятся с помощью как универсальных, так и частных методов, необходимых для изучения конкретных педагогических явлений, а также поиска их взаимосвязи и закономерностей. Теоретические методы помогают определять проблемы, выдвигать гипотезы и оценивать собранные материалы для исследования, включая монографии по педагогике, историко-педагогические документы, методические пособия и прочие документы, имеющие отношение к педагогике. Изучая литературу по выбранной теме, мы находим, какие проблемы уже решены, а какие ещё недостаточно освещены.

Помимо теоретических, педагогическое исследование приветствует и эмпирические методы, дополняя их своей спецификой. Так, наблюдение здесь становится целенаправленным и внимательным восприятием педагогических явлений (чаще всего это обычные или открытые уроки в школах). Анкетирование и тестирование часто применяется как к учащимся, так и к педагогическому коллективу для познания сущности образовательных процессов.

Среди частных методов, которые относятся сугубо к педагогическим исследованиям, следует назвать изучение результатов деятельности учащихся (контрольных, самостоятельных, творческих и графических работ) и анализ педагогической документации (журналов успеваемости учащихся, их личных дел и медицинских карт).

Пример перечисления методов исследования во введении курсовой или дипломной работы по педагогике

Методы социологического исследования

Социологические исследования основываются на теоретических и эмпирических методах, дополненных спецификацией тематики. Рассмотрим, каким образом они преобразуются в социологии.

  • Анализ различных источников для получения максимально точной информации. Здесь изучаются и книги, и рукописи, и видео, и аудио, и статистические данные. Один из видов этого метода – это контент-анализ, который трансформирует качественные факторы изучаемых источников в их количественные характеристики.
  • Социологическое наблюдение. С помощью этого метода собираются социологические данные путём непосредственного изучения явления в его нормальных, естественных условиях. В зависимости от цели наблюдения оно может быть контролируемым или неконтролируемым, лабораторным или полевым, включенным или невключенным.
  • Анкетирование, которое в данной сфере превращается в социологический опрос. Респондентам предлагается заполнить анкету, на основе которой в дальнейшем исследователь получает массив социальной информации.
  • Интервью, то есть устный социологический опрос. В ходе прямой беседы между исследователем и респондентом устанавливаются личные психологические отношения, которые способствуют не только получению ответов на поставленные вопросы, но и изучению эмоциональной реакции респондентов на них.
  • Социальный эксперимент – исследование того или иного социального процесса в искусственных условиях. Он проводится для проверки выдвинутой гипотезы и испытания способов управления сопутствующими процессами.

Пример выделения методов исследования во введении курсовой или дипломной работы по социологии

Методы психологического исследования

Методы исследования в психологии – это общенаучные эмпирические и теоретические, а также частные, узконаправленные. Преимущественно исследования здесь опираются на модифицированные наблюдение и эксперимент.

Наблюдение в психологии заключается в изучении психической деятельности путём регистрации интересующих физиологических процессов и актов поведения. Этот старейший метод наиболее эффективен на первых шагах к изучению проблемы, поскольку помогает предварительно определить важные факторы изучаемых процессов. Предметом наблюдения в психологии могут стать особенности поведения людей, включая вербальные (содержание, продолжительность, частота речевых актов) и невербальные (экспрессия лица и тела, жесты).

Наблюдение отличается определённой пассивностью исследователя, а это не всегда удобно. Поэтому для более интенсивного и глубокого изучения интересующих психических процессов применяется эксперимент, который в психологическом контексте представляет собой совместную деятельность исследователя и испытуемого (или нескольких испытуемых). Экспериментатор искусственно создаёт необходимые условия, на фоне которых по его мнению изучаемые явления максимально ярко проявят себя. Если наблюдение – это пассивный метод исследования, то эксперимент – активный, т.к. исследователь активно вмешивается в ход исследования, меняет условия его проведения.

Образец перечисления методов исследования во введении курсовой или дипломной работы по психологии

Итак, мы просмотрели различные методы исследований, достойные не только упоминания в введении дипломной работы или курсовой, но и активного применения на практике.

Источник

Оцените статью
Разные способы