Классификация признаков в статистике
Основная классификация | ||||
по характеру их выражения | по способу измерения | по отношению к характеризуемому объекту | по характеру вариации | по отношению ко времени |
1. Описательные | 1. Первичные или учитываемые | 1. Прямые (непосредственные) | 1. Альтернативные | 1. Моментные |
2. Количественные | 2. Вторичные или расчетные | 2. Косвенные | 2. Дискретные | 2. Интервальные |
3. Непрерывные |
Признаки различаются способами их измерения и другими особенностями, влияющими на приемы статистического изучения. Это дает основание для классификации признаков (табл. 1.2).
Описательные признаки выражаются словесно: национальность человека, разновидность почв, материал стен здания. Описательные признаки подразделяются на номинальные и порядковые. Эти термины взяты из теории измерений. Отличия между ними в том, что номинальные — это описательные признаки, по которым нельзя ранжировать данные, а порядковые — это признаки, по которым можно ранжировать, упорядочивать данные. Например, пользуясь оценками экспертов, ранжируют фигуристов по технике и артистичности исполнения программы или работников по мастерству и т. д.
Количественные признаки выражены числами. Они играют преобладающую роль в статистике. Таковы возраст человека, площадь пашни, заработная плата рабочих, население города, доход кооператива и т. д.
Первичные признаки характеризуют единицу совокупности в целом. Это абсолютные величины. Они могут быть измерены, сосчитаны, взвешены и существуют сами по себе, независимо от их статистического изучения. Например, площадь пашни, мощность двигателей на предприятии, численность населения города, число автомобилей, произведенных в стране.
Вторичные, или расчетные, признаки не измеряются непосредственно, а рассчитываются. Они являются продуктами человеческого сознания, результатом познания изучаемого объекта. Например, себестоимость единицы продукции, производительность труда, рентабельность, урожайность и т. п. Вторичные признаки представляют собой соотношения первичных признаков: деление объема выпущенной продукции на численность работников дает показатель производительности труда; деление суммы затрат на произведенную продукцию на число единиц данной продукции дает себестоимость и т. д.
Несмотря на расчетный характер признаков, они тоже имеют объективный характер. Процесс познания есть отражение объективных свойств явлений и процессов, и расчеты, статистические методы познания являются таким же необходимым средством отражения объективных свойств совокупности, как измерение, взвешивание. Вторичный — не означает второстепенный. Термин определяет только путь познания: сначала надо измерить значения первичных признаков, а уже потом, во вторую очередь, на основе первичных признаков рассчитать значения вторичных.
Прямые (непосредственные) признаки — это свойства, непосредственно присущие тому объекту, который ими характеризуется.
Таковы возраст человека, поголовье коров на ферме, объем продукции завода, численность его рабочих.
Косвенные признаки являются свойствами, присущими не самому объекту, а другим совокупностям, относящимся к объекту, входящим в него. Например, продуктивность коров как косвенный признак фермы. Хотя продуктивность не фермы, а коров — это их прямой признак, но ведь продуктивность характеризует и ферму, которой принадлежат эти коровы (или даже целую область). Такова и оплата труда рабочих по отношению к заводу. Это косвенный признак завода, но очень важный для того, кто собирается поступать на работу и выбирает предприятие.
Практически деление признаков на прямые и косвенные совпадает с их делением на первичные и вторичные. Признаки различаются в статистике и по характеру их вариации, т.е. по различиям их значений у разных единиц совокупности. Выделяются альтернативные признаки, которые могут принимать только два значения. Таковыми являются признаки обладания или необладания чем-то. Например, все садовые участки по признаку наличия посадок вишни можно разделить на имеющие посадки вишни и не имеющие их. Альтернативным признаком являются пол человека, место проживания (город, село), двигатель трактора (гусеничный или колесный).
К дискретным относятся количественные признаки, которые могут принимать только отдельные значения, без промежуточных значений между ними. Дискретные признаки, как правило, целочисленные. Это число членов семьи, количество этажей здания, комнат в квартире.
Непрерывные, точнее, непрерывно варьирующие признаки способны принимать любые значения, конечно, в определенных границах. К непрерывным относятся расчетные вторичные признаки. Ведь их значения — результат деления, а оно может приводить к любым числам — целым, дробным, иррациональным. На практике значения непрерывных признаков округляют с конечной степенью точности, так что они становятся квазидискретными. С другой стороны, дискретные по существу признаки, например число работников предприятия на 1 января, поголовье коров на ту же дату, имеют такое громадное число возможных значений, что на практике статистика вынуждена обращаться с ними, как с квазинепрерывными. Об этом будет сказано в главах 5 и 6 при обсуждении метода группировок.
Моментные признаки характеризуют изучаемый объект в какой-то момент времени, установленный планом статистического исследования. Они существуют на любой момент времени и характеризуют наличие чего-либо: численность населения, стоимость фондов, количество скота, размеры жилой площади.
К интервальным относятся признаки, характеризующие результаты процессов. Поэтому их значения могут возникать только за интервал времени: год, месяц, сутки, но не на момент времени. Таковы число родившихся, умерших, объем промышленной продукции, надой молока, сумма полученной прибыли. Различие между моментными и интервальными признаками существенно при изучении динамики (см. гл. 9).
Единицы измерения моментных признаков относятся только к характеризуемым ими свойствам объектов, а единицы измерения интервальных признаков содержат еще и указание того отрезка времени, за который определено значение признака. Так, стоимость основных производственных фондов предприятия на 1 января выражается в миллионах рублей, а объем продукции за январь — в тысячах или миллионах рублей за месяц.
Источник
Обзор методов отбора признаков
Правильный отбор признаков для анализа данных позволяет:
- повысить качество моделей машинного обучения с учителем и без,
- уменьшить время обучения и снизить требуемые вычислительные мощности,
- а в случае входных данных высокой размерности позволяет ослабить «проклятие размерности».
Оценка важности признаков необходима для интерпретации результатов модели.
Мы рассмотрим существующие методы отбора признаков для задач обучения с учителем и без. Каждый метод проиллюстрирован open source-реализацией на Python, чтобы вы могли быстро протестировать предложенные алгоритмы. Однако это не полная подборка: за последние 20 лет было создано множество алгоритмов, и здесь вы найдёте самые основные из них. Для более глубокого исследования ознакомьтесь с этим обзором.
Модели с учителем и без
Есть алгоритмы отбора с учителем, которые позволяют определить подходящие признаки для лучшего качества работы задач обучения с учителем (например, в задачах классификации и регрессии). Этим алгоритмам нужен доступ к размеченным данным. Для неразмеченных данных также существует ряд методов отбора признаков, которые оценивают все признаки на основе различных критериев: дисперсии, энтропии, способности сохранять локальную схожесть, и т.д. Релевантные признаки, обнаруженные с помощью эвристических методов без учителя, также могут применяться в моделях с учителем, потому что позволяют обнаруживать в данных иные паттерны, помимо корреляции признаков с целевой переменной.
Методы отбора признаков обычно делят на 4 категории: фильтры, обёртки, встроенные и гибридные.
Обёртки
При таком подходе мы оцениваем эффективность подмножества признаков, учитывая финальный результат примененного алгоритма обучения (например, каков прирост точности при решении задачи классификации). В этой комбинации поисковой стратегии и моделирования может использоваться любой алгоритм обучения.
Существующие стратегии отбора:
- Прямой отбор (Forward selection): начинаем с пустого набора признаков, а затем итеративно добавляем признаки, обеспечивающие наилучший прирост качества моделей.
- Обратный отбор (Backward selection): начинаем с набора, состоящего из всех признаков, далее, на каждой итерации убираем «худший» признак.
Реализация: эти алгоритмы реализованы в пакете mlxtend, вот пример использования.
- RFE (Recursive feature elimination, рекурсивное удаление признаков): «жадный» алгоритм поиска, который отбирает признаки с помощью рекурсивного определения всё более маленьких наборов признаков. Он ранжирует признаки по очерёдности их удаления.
Встроенные методы
К этой группе относятся алгоритмы, которые одновременно обучают модель и отбирают признаки. Обычно это реализуют с помощью l1-регуляризатора (sparsity regularizer) или условия, которое ограничивает некоторые признаки.
- SMLR (Sparse Multinomial Logistic Regression, разреженная мультиноминальная логистическая регрессия): этот алгоритм реализует l1-регуляризацию с помощью ARD (Automatic relevance determination, автоматическое определение релевантности) в рамках классической мультиноминальной логистической регрессии. Регуляризация определяет важность каждого признака и обнуляет те, которые бесполезны для прогнозирования.
Реализация: SMLR
ARD (Automatic Relevance Determination Regression, регрессия автоматического определения релевантности): модель использует байесовскую гребневую регрессию (Bayesian Ridge Regression). Она сильнее смещает веса коэффициентов в сторону нуля по сравнению, например, с методом наименьших квадратов.
ARD обнуляет вес некоторых признаков, тем самым помогая идентифицировать релевантные размерности.
Реализация: scikit-learn
Другие примеры алгоритмов регуляризации: Lasso (реализует l1-регуляризацию), гребневая регрессия (реализует l2-регуляризацию), Elastic Net (реализует l1 — и l2-регуляризацию). Если изобразить эти способы графически, то видно, что регрессия Lasso ограничивает коэффициенты площадью квадрата, гребневая регрессия очерчивает круг, а Elastic Net занимает промежуточное положение.
https://scikit-learn.org/stable/auto_examples/linear_model/plot_sgd_penalties.html
Здесь представлено исчерпывающее описание этих алгоритмов.
Фильтры
При таком подходе мы оцениваем важность признаков только на основе свойственных им характеристикам, без привлечения алгоритмов обучения. Эти методы работают быстрее и требуют меньше вычислительных ресурсов по сравнению с методами «обертками». Если для моделирования статистической корреляции между признаками не хватает объема данных, тогда фильтры могут давать результаты хуже, чем обёртки. В отличие от обёрток, такие методы менее склонны к переобучению. Они широко используются для работы с данными высокой размерности, когда методы обертки требуют слишком больших вычислительных мощностей.
Методы с учителем
- Relief: Этот метод случайным образом выбирает из датасета образцы и обновляет значимость каждого признака на основе разницы между выбранным экземпляром и двумя ближайшими к нему объектами того же и противоположного классов. Если наблюдается разница в значениях признака для двух ближайших соседей одного класса, его важность снижается, а если, наоборот, наблюдается различие между значениями признака для объектов разных классов, важность, соответственно, повышается.
Вес признака уменьшается, если его значение отличается для ближайших объектов одного и того же класса больше, чем для ближайших объектов из разных классов; в противном случае вес увеличивается.
Расширенный алгоритм ReliefF использует взвешивание признаков и ищет по большему количеству ближайших соседей.
Реализация: scikit-rebate, ReliefF
Критерий Фишера (Fisher score): Обычно используется в задачах бинарной классификации. Отношение Фишера (Fisher ratio, FiR) определяется как расстояние между средними значениями признаков для каждого класса, деленное на их дисперсии:
Реализация: scikit-feature, пример использования.
Критерий хи-квадрат (Chi-squared score): Проверяет, есть ли значимая разница между наблюдаемой и ожидаемой частотами двух категориальных переменных. Таким образом, проверяется нулевая гипотеза об отсутствии связи между двумя переменными.
Критерий независимости хи-квадрат.
Чтобы корректно применять критерий хи-квадрат для проверки связи между разными признаками из датасета и целевой переменной, необходимо соблюсти условия: переменные должны быть категориальными, независимыми и должны иметь ожидаемую частоту больше 5. Последнее условие гарантирует, что CDF (cumulative density function) статистического критерия (test statistic) может быть аппроксимирован с помощью распределения хи-квадрат. Подробнее рассказано здесь.
Реализация: sklearn, scipy
CFS (Correlation-based feature selection, отбор признаков на основе корреляции): Обоснование этого метода можно сформулировать так:
Признаки релевантны, если их значения систематически меняются в зависимости от принадлежности к той или иной категории.
Таким образом, хорошее подмножество признаков содержит такие признаки, которые высоко коррелируют с целевой переменной, и при этом не коррелируют друг с другом. Оценка подмножества из k признаков вычисляется так:
Здесь — это среднее значение всех корреляций между признаком и классом, а
— среднее значение всех корреляций между признаками. Критерий CFS определяется так:
Реализация: scikit-feature, пример использования.
FCBF (Fast correlation-based filter, быстрый фильтр на основе корреляции): Этот метод работает быстрее и эффективнее, чем ReliefF и CFS, и поэтому чаще используется для входных данных высокой размерности. По сути, этот типичный подход, учитывающий релевантность и избыточность, в рамках которого сначала для всех признаков вычисляются Symmetrical Uncertainty (взаимная информация между X и Y I(X, Y), деленная на сумму их энтропий), затем признаки сортируются по этому критерию, а потом удаляются избыточные.
Методы без учителя
- Дисперсия: было показано, что оценка дисперсии признака может быть эффективным способом отбора признаков. Как правило признаки с почти нулевой дисперсией не являются значимыми, и их можно удалить.
Реализациия: Variance Threshold
Средняя абсолютная разность: Вычисляем среднюю абсолютную разность между значениями признака и его средним значением (реализация).
Более высокие значения, как правило, имеют более высокую предсказательную силу.
Соотношение дисперсий: Среднее арифметическое, деленное на среднее геометрическое. Более высокая дисперсия соответствует более релевантным признакам (реализация).
Поскольку , если и только если соблюдается равенство
, тогда:
Критерий Лапласа (Laplacian Score): В его основе лежит наблюдение, что данные из одного класса часто расположены ближе друг к другу, поэтому можно оценить важность признака по его способности отражать эту близость. Метод состоит из встраивания данных в граф ближайших соседей с помощью измерения произвольного расстояния с последующим вычислением матрицы весов. Затем для каждого признака вычисляем критерий Лапласа и получаем такое свойство, что наименьшие значения соответствуют самым важным размерностям. Однако на практике при отборе подмножества признаков обычно применяется другой алгоритм кластеризации (метод k-средних), с помощью которого выбирается самая эффективная группа.
Реализация: scikit-feature
Реализация: https://github.com/danilkolikov/fsfc
Гибридные методы
Другой способ реализации отбора признаков представляет собой гибрид из фильтров и обёрток, объединённых в двухфазный процесс: сначала признаки фильтруются по статистическим свойствам, а затем применяются методы обертки.
Другие источники
Написано очень много литературы, в которой рассматривается проблема отбора признаков, и здесь мы лишь слегка коснулись всего массива научно-исследовательских работ.
Полный список других алгоритмов отбора признаков, о которых я не упомянул, был реализован в пакете scikit-feature.
Определять релевантные признаки можно также с помощью PLS (Partial least squares, частично наименьшие квадраты), как рассказывается в этой статье, или с помощью методов линейного уменьшения размерности, как показано здесь.
Источник