Способы построения регрессионных моделей

Русские Блоги

Семь регрессионных моделей

Линейная регрессия и логистическая регрессия обычно являются первыми алгоритмами, с помощью которых люди изучают прогностические модели. Из-за популярности этих двух вариантов многие аналитики считают, что они являются единственной формой регрессии. Ученые, которые знают больше, будут знать, что они являются двумя основными формами всех регрессионных моделей.

Дело в том, что существует множество типов регрессии, и каждый тип регрессии имеет свои конкретные случаи применения. В этой статье я представлю наиболее распространенные модели регрессии в 7 в простой форме. В этой статье я надеюсь помочь вам получить более широкое и всестороннее понимание регрессии, а не просто знать, как использовать линейную регрессию и логистическую регрессию для решения практических задач.

В этой статье в основном будут представлены следующие аспекты:

Что такое регрессионный анализ?

Зачем использовать регрессионный анализ?

Какие бывают виды регрессии?

Полиномиальная регрессия (Полиномиальная регрессия)

Как выбрать подходящую регрессионную модель?

1. Что такое регрессионный анализ?

Регрессионный анализ — это метод технологии прогнозного моделирования, который изучает взаимосвязь между зависимой переменной (целью) и независимой переменной (предиктором). Этот метод используется для прогнозирования, моделирования временных рядов и поиска причинно-следственных связей между переменными. Например, исследование взаимосвязи между безрассудным вождением водителя и частотой дорожно-транспортных происшествий может быть решено с помощью регрессионного анализа.

Регрессионный анализ — важный инструмент моделирования и анализа данных. На рисунке ниже показано использование кривой для подбора точек дискретных данных. Среди них минимизируется сумма различий между всеми точками дискретных данных и соответствующими положениями подобранной кривой, и мы будем вводить больше деталей медленно.

2. Зачем использовать регрессионный анализ?

Как упоминалось выше, регрессионный анализ может оценить взаимосвязь между двумя или более переменными. Давайте разберемся на простом примере:

Например, вы хотите оценить рост продаж компании на основе текущей экономической ситуации. У вас есть последние данные по компании, и эти данные показывают, что рост продаж примерно в 2,5 раза превышает экономический рост. Используя это понимание, мы можем предсказать будущие продажи компании на основе текущей и прошлой информации.

Использование регрессионных моделей дает множество преимуществ, например:

Выявляет значимую взаимосвязь между зависимыми и независимыми переменными

Выявить степень влияния нескольких независимых переменных на зависимую переменную

Регрессионный анализ также позволяет нам сравнивать влияние переменных, измеряемых в разных масштабах, таких как влияние изменений цен и количество рекламных мероприятий. Преимущество этого заключается в том, что он может помочь исследователям рынка / аналитикам данных / исследователям данных оценить и выбрать лучший набор переменных для построения прогнозных моделей.

3. Какие бывают типы регрессии?

Существует множество методов регрессии, которые можно использовать для прогнозирования. Эти методы регрессии в основном основаны на трех показателях (количество независимых переменных, типы переменных измерения и форма линии регрессии). Мы обсудим это подробно в следующих главах.

Для творческих людей вы можете комбинировать вышеуказанные параметры и даже создавать новые регрессии. Но перед этим рассмотрим наиболее распространенные типы регрессий.

1) Линейная регрессия

Линейная регрессия — самый известный метод моделирования и один из первых вариантов, когда люди учатся предсказывать модели. В этом методе зависимая переменная является непрерывной, а независимая переменная может быть непрерывной или дискретной. Природа регрессии линейна.

Читайте также:  Все способы ориентации без компаса

Линейная регрессия устанавливает связь между зависимой переменной (Y) и одной или несколькими независимыми переменными (X) с помощью наилучшей прямой линии (также называемой линией регрессии).

Его выражение: Y = a + b * X + e, где a — пересечение линии, b — наклон линии, а e — член ошибки. Если задана независимая переменная X, прогнозируемое значение может быть вычислено с помощью этого выражения линейной регрессии, то есть зависимой переменной Y.

Разница между унарной линейной регрессией и множественной линейной регрессией состоит в том, что множественная линейная регрессия имеет более одной независимой переменной, тогда как унарная линейная регрессия имеет только одну независимую переменную. Следующий вопрос: «Как получить наиболее подходящую прямую?»

Как получить наиболее подходящую прямую (определить значения a и b)?

Эту проблему легко решить, используя метод наименьших квадратов. Метод наименьших квадратов — это обычно используемый алгоритм для подбора линий регрессии. Он вычисляет наиболее подходящую прямую, минимизируя сумму квадратов вертикальной ошибки между каждой точкой данных и предсказанной прямой линией. Поскольку вычисление представляет собой сумму квадратов ошибок, нет смещения между положительной и отрицательной ошибками.

Мы можем использовать индикатор R-квадрат, чтобы оценить производительность модели.

Фокус:

Независимая переменная и зависимая переменная должны соответствовать линейной зависимости.

Множественная регрессия имеет множественную коллинеарность, автокорреляцию и гетероскедастичность.

Линейная регрессия очень чувствительна к выбросам. Выбросы серьезно повлияют на линию регрессии и окончательное прогнозируемое значение.

Мультиколлинеарность увеличивает дисперсию оценок коэффициентов и делает оценки очень чувствительными к небольшим изменениям в модели. В результате оценки коэффициентов нестабильны.

В случае нескольких независимых переменных мы можем использовать методы прямого выбора, обратного исключения и пошагового выбора, чтобы выбрать наиболее важную независимую переменную.

2) Логистическая регрессия

Логистическая регрессия используется для расчета вероятности успеха или неудачи события (неудачи). Когда зависимая переменная является двоичной (0/1, Истина / Ложь, Да / Нет), следует использовать логистическую регрессию. Здесь диапазон значений Y составляет [0,1], что может быть выражено следующим уравнением.

Где p — вероятность наступления события. У вас может возникнуть вопрос: «Зачем использовать логарифмический журнал в уравнении?»

Из-за того, что мы используем биномиальное распределение (зависимая переменная), нам нужно выбрать подходящую функцию активации для отображения вывода между [0,1], и функция Logit соответствует требованиям. В приведенном выше уравнении наилучшие параметры получаются путем использования оценки максимального правдоподобия вместо использования линейной регрессии для минимизации квадратичной ошибки.

Фокус:

Логистическая регрессия широко используется для задач классификации.

Логистическая регрессия не требует линейной связи между зависимой переменной и независимой переменной. Она может обрабатывать несколько типов отношений, поскольку выполняет нелинейное преобразование журнала для предсказанных выходных данных.

Чтобы избежать переобучения и неполного подбора, мы должны охватить все полезные переменные. На практике хороший способ убедиться в такой ситуации — использовать метод пошагового отбора для оценки логистической регрессии.

Чем больше количество обучающих выборок, тем лучше, потому что, если количество выборок невелико, эффект оценки максимального правдоподобия будет хуже, чем у метода наименьших квадратов.

Независимые переменные не должны коррелироваться, то есть мультиколлинеарность отсутствует. Однако при анализе и моделировании мы можем выбрать включение эффектов взаимодействия категориальных переменных.

Если значение зависимой переменной является порядковым, это называется порядковой логистической регрессией.

Если зависимая переменная является мульти-категориальной, это называется множественной логистической регрессией.

3) Полиномиальная регрессия

В соответствии с уравнением регрессии, если индекс независимой переменной больше 1, то это уравнение полиномиальной регрессии, как показано ниже:

Читайте также:  Безоборотный способ метания ножей

В полиномиальной регрессии наиболее подходящей линией является не прямая линия, а кривая, которая соответствует точкам данных.

Фокус:

Хотя могут быть некоторые стимулы для подгонки многочленов более высокого порядка для уменьшения ошибки, это склонно к переобучению. Подгоночную кривую следует нарисовать, уделяя особое внимание тому, чтобы кривая отражала истинное распределение образца. Рисунок ниже — это пример, который может помочь нам понять.

Обратите особое внимание на два конца кривой, чтобы увидеть, имеют ли смысл эти формы и тенденции. Полиномы более высокого порядка могут приводить к странным результатам вывода.

4) Пошаговая регрессия

Когда мы имеем дело с несколькими независимыми переменными, используется пошаговая регрессия. В этом методе выбор независимых переменных осуществляется в автоматическом режиме без ручного вмешательства.

Пошаговая регрессия заключается в наблюдении статистических значений, таких как R-квадрат, t-статистика и индикаторы AIC, для определения важных переменных. На основе определенных критериев регрессионная модель постепенно настраивается путем добавления / удаления ковариатов. Распространенные методы пошаговой регрессии следующие:

Стандартная пошаговая регрессия выполняет две функции: на каждом шаге добавляются или удаляются независимые переменные.

Прямой отбор начинается с наиболее важной независимой переменной в модели, а затем на каждом этапе добавляются переменные.

Обратное исключение начинается со всех независимых переменных в модели, а затем на каждом шаге удаляется наименее значимая переменная.

Цель этого метода моделирования — получить максимальную предсказательную силу при использовании наименее независимых переменных. Это также один из методов обработки многомерных наборов данных.

5) Хребтовая регрессия

Риджерная регрессия — это метод, используемый, когда данные страдают от мультиколлинеарности (независимые переменные сильно коррелированы). В мультиколлинеарности, даже если оценка методом наименьших квадратов (МНК) несмещена, дисперсия велика, что делает наблюдательную мудрость далекой от истинного значения. Регрессия гребня может эффективно уменьшить дисперсию, добавив дополнительную степень отклонения к оценке регрессии.

Ранее мы ввели уравнение линейной регрессии следующим образом:

Это уравнение также имеет погрешность, и полное уравнение может быть выражено как:

В линейном уравнении ошибку предсказания можно разложить на два подкомпонента. Первое связано с предвзятостью, а второе — с отклонениями. Ошибка предсказания может возникать из-за любого из этих двух или двух компонентов. Здесь мы обсудим ошибку из-за дисперсии.

Риджевая регрессия решает проблему мультиколлинеарности за счет уменьшения параметра λ (лямбда). Рассмотрим следующее уравнение:

В приведенной выше формуле есть два элемента. Первый — это член наименьших квадратов, а второй — сумма квадратов коэффициента β, умноженного на параметр усадки λ. Цель добавления второго члена — уменьшить величину коэффициента β, чтобы уменьшить дисперсию.

Фокус:

Если не предполагается нормальность, все предположения регрессии гребня и регрессии наименьших квадратов одинаковы.

Регрессия гребня уменьшила значение коэффициента, но не достигла нуля, что указывает на отсутствие функции выбора признаков.

Это метод регуляризации, использующий регуляризацию L2.

6) Регрессия лассо

Подобно гребневой регрессии, штраф за регрессию оператора наименьшей абсолютной усадки и выбора является абсолютным значением коэффициента регрессии. Кроме того, это может уменьшить изменчивость и повысить точность моделей линейной регрессии. Рассмотрим следующее уравнение:

Регрессия лассо отличается от регрессии гребня: функция штрафа использует сумму абсолютных значений коэффициентов вместо квадратов. Это приводит к штрафному члену (или эквиваленту суммы абсолютных значений оценок ограничений), так что некоторые оценки коэффициентов регрессии в точности равны нулю. Чем больше наложенный штраф, тем ближе оценка к нулю. Осознайте, что нужно выбирать из n переменных.

Фокус:

Читайте также:  Способы развития торгового центра

Если не предполагается нормальность, все предположения регрессии лассо и регрессии наименьших квадратов одинаковы.

Регрессия лассо уменьшает коэффициент до нуля (ровно до нуля), что помогает при выборе признаков.

Это метод регуляризации, который использует регуляризацию L1.

Если набор независимых переменных сильно коррелирован, то регрессия лассо выберет только одну из них, а остальные уменьшит до нуля.

7) Эластичная чистая регрессия

Эластичная регрессия — это гибридная техника регрессии гребня и регрессии лассо, которая использует регуляризацию как L2, так и L1. Устойчивые сети полезны при наличии нескольких взаимосвязанных характеристик. Лассо-регрессия, вероятно, выберет один из них случайным образом, а эластичная регрессия, вероятно, выберет оба.

Одно из преимуществ взвешивания регрессии гребня и регрессии лассо состоит в том, что оно позволяет эластичной регрессии унаследовать некоторую стабильность регрессии гребня во вращающемся состоянии.

Фокус:

В случае сильно коррелированных переменных он поддерживает групповые эффекты.

Не имеет ограничений на количество выбранных переменных

Он имеет два коэффициента усадки λ1 и λ2.

В дополнение к этим 7 наиболее часто используемым методам регрессии вы также можете изучить другие модели, такие как байесовская, экологическая и робастная регрессия.

4. Как выбрать подходящую регрессионную модель?

Когда вы знаете только одну или две техники, жизнь обычно проста. Одна знакомая мне учебная организация сказала своим студентам: если результат непрерывен, используйте линейную регрессию; если результат двоичный, используйте логистическую регрессию! Однако чем больше вариантов доступно, тем сложнее выбрать правильный ответ. Аналогичная ситуация возникает и при выборе регрессионной модели.

В различных типах регрессионных моделей важно выбрать наиболее подходящий метод, основанный на типах независимых и зависимых переменных, измерениях данных и других существенных характеристиках данных. Вот несколько советов о том, как выбрать подходящую регрессионную модель:

Интеллектуальный анализ данных — неотъемлемая часть создания прогнозных моделей. Это должно быть первым шагом к выбору правильной модели, например к определению взаимосвязи и влияния переменных.

Он больше подходит для степени соответствия различных моделей. Мы можем анализировать их различные параметры индексов, такие как статистически значимые параметры, R-квадрат, скорректированный R-квадрат, AIC, BIC и условия ошибок. Другой критерий — критерий Cp Маллоуз. Проверьте возможные отклонения модели, сравнив модель со всеми возможными подмоделями (или тщательно их выбрав).

Перекрестная проверка — лучший способ оценки прогнозных моделей. Вы можете разделить набор данных на две группы (обучающий набор и набор проверки). Мера точности предсказания может быть дана путем измерения простой среднеквадратичной ошибки между наблюдаемым значением и предсказанным значением.

Если набор данных содержит несколько смешанных переменных, вам не следует использовать метод автоматического выбора модели, потому что вы не хотите помещать эти смешанные переменные в модель одновременно.

Это также зависит от ваших целей. По сравнению с моделями с высокой статистической значимостью простые модели легче реализовать.

Методы регуляризации регрессии (LasSo, Ridge и ElasticNet) хорошо работают, когда набор данных является многомерным, а независимые переменные — мультиколлинеарными.

Вывод:

Теперь, я надеюсь, у вас будет общее впечатление от возвращения. Эти методы регрессии следует выбирать и применять в соответствии с различными условиями данных. Один из лучших способов выяснить, какую регрессию использовать, — это проверить семейство переменных, дискретных или непрерывных.

В этой статье я обсудил 7 типов методов регрессии и ключевые моменты, связанные с каждой регрессией. Как новичок в этой отрасли, я предлагаю вам изучить эти методы и реализовать эти модели в практических приложениях.

Источник

Оцените статью
Разные способы