Построить линейное уравнение регрессии с одной объясняющей переменной матричным способом

20. Уравнение линейной регрессии

На предыдущем уроке мы уже узнали, что такое линейная регрессия и научились находить её уравнение для несгруппированных данных (это когда даны две строчки или два столбца чисел). И сейчас тема получает продолжение – в данной статье я расскажу вам о том, как вычислить линейный коэффициент корреляции и как найти уравнение линейной регрессии в случае комбинационной группировки. Это когда в условии дана комбинационная таблица:

Имеются выборочные данные по 40 предприятиям региона:

1) Определить признак-фактор и признак-результат и высказать предположение о наличии и направлении корреляционной зависимости от . Построить корреляционное поле и выдвинуть гипотезу о возможной форме зависимости.

2) Вычислить линейный коэффициент корреляции и детерминации, сделать выводы.

3) Найти уравнение линейной регрессии на и изобразить соответствующую прямую на чертеже. Спрогнозировать среднюю суточную переработку сырья, когда стоимость основных фондов предприятий достигнет 9 млрд. руб.

Все термины и понятия вам уже знакомы! А если нет, то будут ссылки по ходу решения и, конечно же, видео – как это всё быстро подсчитать и нарисовать в Экселе + Калькулятор (сразу для особо страждущих).

1) Прежде всего в подобных задачах нам нужно обосновать причинно-следственную связь между признаками (если это не сделано в условии). Очевидно, что чем больше стоимость основных фондов, тем крупнее предприятие и тем больше сырья оно способно переработать. Однако это не является непреложным правилом, ибо любое, самое крупное предприятие может неэффективно работать или даже простаивать. Тем не менее, общая тенденция состоит в том, что при увеличении стоимости фондов предприятий их средняя суточная переработка растёт. Такая нежёсткая зависимость называется… Правильно! Я приду к вам в вещих снах – будете вздрагивать и просыпаться от этой фразы 🙂

Таким образом, мы предполагаем наличие прямой корреляционной зависимости суточной переработки сырья (признак-результат) от стоимости основных фондов (фактор ).

Частоты комбинационной таблицы располагаются преимущественно по диагонали – от левого верхнего до правого нижнего угла, что подтверждает прямое направление зависимости («чем больше, тем больше»).

Теперь определим форму зависимости (линейная, квадратичная, экспоненциальная или какая-то другая). Простейший способ – графический, построили корреляционное поле и посмотрели. Для этого нужно немного модифицировать исходную таблицу, а именно перейти от интервальных вариационных рядов (левый столбец и 2-я сверху строка) к дискретным, выбрав в качестве вариант и середины соответствующих интервалов:

Заодно подсчитаем суммы частот по серым строкам (правый столбец) и суммы частот по серым столбцам (нижняя строка), не забыв убедиться в том, что итоговые суммы равны объёму выборки :

Читайте также:  Способы коррекции нижней трети лица

Довольно часто значения и уже подсчитаны и приведены в условии, но так бывает не во всех задачах, и поэтому я насыщаю решение всеми возможными действиями.

Обратите внимание, что значения признака-фактора расположены по вертикали в левом столбце, а значения признака-результата – по горизонтали в «шапке» таблицы. Именно такое расположение (а не наоборот) чаще всего встречается на практике (ещё раз специально просмотрел с десяток методичек). Однако оно не сильно удобно в техническом плане, в частности, для построения корреляционного поля:

Ранее мы строили эмпирические линии регрессии – это простейший способ изобразить форму корреляционной зависимости. Однако гораздо удобнее привлечь на помощь функции. Анализируя чертёж, приходим к выводу, что эмпирические точки «выстроились» примерно по прямой, что позволяет предположить наличие линейной корреляционной зависимости – суточной переработки сырья от – стоимости основных фондов.

Дальнейшие действия состоят в том, чтобы отыскать уравнение линейной регрессии , график которой проходит максимально близко сразу ко всем точкам (с учётом их «весов» – частот в серых полях комбинационной таблицы), а также оценить тесноту линейной корреляционной зависимости – насколько близко расположены точки к построенной прямой. Эта теснота оценивается с помощью линейного коэффициента корреляции, с него и начнём:

2) Коэффициент корреляции вычислим по знакомой формуле .

Лично я привык в первую очередь находить средние и стандартные отклонения . Эти расчёты мы проводили неоднократно.

Сначала разберёмся с признаком-фактором . Для этого из комбинационной таблицы (см. выше) выпишем значения и заполним расчётную таблицу:

Вычислим среднее значение млрд. руб. и среднее квадратическое отклонение, как корень из дисперсии, вычисленной по формуле:

Аналогично, берём игрековые значения из комбинационной таблицы и заполняем расчетную таблицу для признака-результата :

после чего рассчитываем нужные показатели:
тыс. ц;

Теперь найдём среднее значение произведения признаков. Для этого вычислим все возможные произведения и на соответствующие ненулевые частоты , наглядно распишу парочку штук:

Вычислим сумму этих произведений:

и искомую среднюю:

Таким образом, линейный коэффициент корреляции:

В результате получено положительное число и, согласно шкале Чеддока, существует сильная прямая линейная корреляционная зависимость суточной переработки сырья от стоимости основных фондов.

Вычислим коэффициент детерминации:
, таким образом, в рамках построенной модели 69,12% вариации суточной переработки сырья обусловлено стоимостью основных фондов. Остальные вариации обусловлено другими факторами.

Читайте также:  Хирургический уровень обработки рук проводится перед достигается способом

В статье об индексе корреляции и детерминации я более подробно разберу построенную модель, и тогда последний вывод станет понятнее (для тех, кому он не очень понятен).

3) Найдём уравнение линейной регрессии на (именно так на). Здесь можно использовать формулы предыдущего урока , но есть более академичный вариант. Искомое уравнение имеет вид:
, в данной задаче (вычисления приближённые):

примерно:

Полученное уравнение показывает, что при увеличении стоимости основных фондов на 1 млрд. руб. суточная переработка сырья увеличивается в среднем на 1,61 тысяч центнеров.

Это очень важный вывод, который часто требуется в заданиях, по сути, смысл коэффициента «а».

Найдём пару удобных точек для построения графика:

отметим их на чертеже (красный цвет) и аккуратно проведём линию регрессии, её, как правило, изображают на том же чертеже:

Спрогнозируем среднюю суточную переработку сырья при стоимости основных фондов в 9 млрд. руб.:
тыс. ц.

Ещё раз подчёркиваю, что уравнение регрессии возвращает нам среднее, а точнее среднеожидаемое значение признака-результата при различных значениях «икс» признака-фактора. И на самом деле уравнение регрессии корректнее записать так: , но дабы не разводить путаницу я использую максимально простые обозначения.

Теперь видео о том, как быстро расправиться с этой задачей:

Как найти коэффициент корреляции и уравнение регрессии по таблице? (Ютуб)

Для желающих сразу решить эту задачу есть калькулятор.

Помимо рассмотренного, существует второе уравнение линейной регрессии – на , его можно составить по формуле:
, после чего свести к виду:
– полученное уравнение позволяет нам узнать средние значения «икс», соответствующие различным значениям «игрек»

Чисто формально эта регрессия существует всегда, так, в рассмотренной задаче признак явно не зависит от , но вот линейная корреляционная зависимость есть! (причём, такой же тесноты). Помним, что причинно-следственная зависимость и корреляционная – это не одно и то же! Кроме того, в некоторых задачах признаки взаимно влияют друг на друга, уже известный вам пример:

– количество произведённых куриц на птицефабрике;
– количество произведённых яиц.

Здесь в уравнении регрессии на – самый что ни на есть здравый смысл.

График регрессии тоже можно изобразить на чертеже, и примечателен тот факт, что он будет пересекать график в точности в точке .

Следует добавить, что второе уравнение регрессии можно построить и для случая несгруппированных данных (см. задачи предыдущего урока о корреляции). Формула та же.

И я предлагаю вам потренироваться самостоятельно:

Читайте также:  Современные способы лечения артроза коленных суставов

Известны следующие данные:

Найти линейный коэффициент корреляции и уравнения регрессии на и на . Построить корреляционное поле, линии регрессии и определить их точку пересечения. Вычислить и . По каждому пункту сделать выводы.

Обратите внимание, что в условии ничего не сказано о признаках , но нам ничего и не нужно о них знать, ведь задачу можно решить вне зависимости от того, где здесь признак-фактор, а где результат, и есть ли вообще причинно-следственная связь между признаками. Хотя, скорее всего, она здесь есть, ибо комбинационная группировка выполнена же из каких-то соображений.

Все числа уже в Экселе и вам остаётся выполниться вычисления; ничего страшного, если получится не очень красиво, важно наработать сам навык. Краткое решение для сверки чуть ниже.

И я вас поздравляю! – на этом «обязательная часть программы» завершена, надеюсь, корреляционно-регрессионный «минимум» освоен успешно.

Для читателей с углублённым изучением статистики и просто энтузиастов запланирована статья об Индексе корреляции и проверке значимости коэффициентов (там на самом деле много ещё чего). Далее поговорим о моделях нелинейной регрессии, ранговой корреляции Спирмена, коэффициенте корреляции Фехнера. И вишенка на торте, точнее, тыква на голове:))

Множественная корреляция и модель двухфакторной регрессии.

Впрочем, это пока ориентировочные планы.

До скорых встреч!

Решения и ответы:

Пример 70. Решение: вычислим частоты по каждому признаку:

Линейный коэффициент корреляции найдём по формуле .
Заполним расчётную таблицу для признака :

Вычислим среднее значение млрд. руб. и среднее квадратическое отклонение:

Заполним расчётную таблицу для признака :

Вычислим и
.

Вычислим произведения :

их сумму и среднюю .

Вычислим линейный коэффициент корреляции:
, таким образом, существует заметная обратная линейная корреляционная зависимость между признаками (в обе стороны).

Составим уравнение линейной регрессии на (здесь и далее вычисления приближённые):

Полученное уравнение показывает, что при увеличении «икс» на 1 единицу «игрек» в среднем уменьшается примерно на 0,47 единицы.

Составим уравнение линейной регрессии на :

Полученное уравнение показывает, что при увеличении «игрек» на 1 единицу «икс» в среднем уменьшается примерно на 0,87 единицы.

Найдём точки для построения графиков:

построим корреляционное поле и изобразим линии регрессии:

Линии регрессии пересекаются в точке

Вычислим:
– среднеожидаемое значение «игрек» при ;
– среднеожидаемое значение «икс» при .

Примечание: вычисления местами не очень точные из-за округлений.

Автор: Емелин Александр

(Переход на главную страницу)

Zaochnik.com – профессиональная помощь студентам

cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5

Источник

Оцените статью
Разные способы