Метод наименьших квадратов.
Поможем написать любую работу на аналогичную тему
Сущность метода наименьших квадратов заключается в отыскании параметров модели тренда, которая лучше всего описывает тенденцию развития какого-либо случайного явления во времени или в пространстве (тренд – это линия, которая и характеризует тенденцию этого развития). Задача метода наименьших квадратов (МНК) сводится к нахождению не просто какой-то модели тренда, а к нахождению лучшей или оптимальной модели. Эта модель будет оптимальной, если сумма квадратических отклонений между наблюдаемыми фактическими величинами и соответствующими им расчетными величинами тренда будет минимальной (наименьшей):
(9.1)
где — квадратичное отклонение между наблюдаемой фактической величиной
и соответствующей ей расчетной величиной тренда,
— фактическое (наблюдаемое) значение изучаемого явления,
— расчетное значение модели тренда,
— число наблюдений за изучаемым явлением.
МНК самостоятельно применяется довольно редко. Как правило, чаще всего его используют лишь в качестве необходимого технического приема при корреляционных исследованиях. Следует помнить, что информационной основой МНК может быть только достоверный статистический ряд, причем число наблюдений не должно быть меньше 4-х, иначе, сглаживающие процедуры МНК могут потерять здравый смысл.
Инструментарий МНК сводится к следующим процедурам:
Первая процедура. Выясняется, существует ли вообще какая-либо тенденция изменения результативного признака при изменении выбранного фактора-аргумента, или другими словами, есть ли связь между «у» и «х».
Вторая процедура. Определяется, какая линия (траектория) способна лучше всего описать или охарактеризовать эту тенденцию.
Третья процедура. Рассчитываются параметры регрессионного уравнения, характеризующего данную линию, или другими словами, определяется аналитическая формула, описывающая лучшую модель тренда.
Пример. Допустим, мы имеем информацию о средней урожайности подсолнечника по исследуемому хозяйству (табл. 9.1).
Поскольку уровень технологии при производстве подсолнечника в нашей стране за последние 10 лет практически не изменился, значит, по всей видимости, колебания урожайности в анализируемый период очень сильно зависели от колебания погодно-климатических условий. Действительно ли это так?
Первая процедура МНК. Проверяется гипотеза о существовании тенденции изменения урожайности подсолнечника в зависимости от изменения погодно-климатических условий за анализируемые 10 лет.
В данном примере за «y» целесообразно принять урожайность подсолнечника, а за «x» – номер наблюдаемого года в анализируемом периоде. Проверку гипотезы о существовании какой-либо взаимосвязи между «x» и «y» можно выполнить двумя способами: вручную и при помощи компьютерных программ. Конечно, при наличии компьютерной техники данная проблема решается сама собой. Но, чтобы лучше понять инструментарий МНК целесообразно выполнить проверку гипотезы о существовании связи между «x» и «y» вручную, когда под рукой находятся только ручка и обыкновенный калькулятор. В таких случаях гипотезу о существовании тенденции лучше всего проверить визуальным способом по расположению графического изображения анализируемого ряда динамики — корреляционного поля:
Корреляционное поле в нашем примере расположено вокруг медленно возрастающей линии. Это уже само по себе говорит о существовании определенной тенденции в изменении урожайности подсолнечника. Нельзя говорить о наличии какой-либо тенденции лишь тогда, когда корреляционное поле похоже на круг, окружность, строго вертикальное или строго горизонтальное облако, или же состоит из хаотично разбросанных точек. Во всех остальных случаях следует подтвердить гипотезу о существовании взаимосвязи между «x» и «y», и продолжить исследования.
Вторая процедура МНК. Определяется, какая линия (траектория) способна лучше всего описать или охарактеризовать тенденцию изменения урожайности подсолнечника за анализируемый период.
При наличии компьютерной техники подбор оптимального тренда происходит автоматически. При «ручной» обработке выбор оптимальной функции осуществляется, как правило, визуальным способом – по расположению корреляционного поля. То есть, по виду графика подбирается уравнение линии, которая лучше всего подходит к эмпирическому тренду (к фактической траектории).
Как известно, в природе существует огромное разнообразие функциональных зависимостей, поэтому визуальным способом проанализировать даже незначительную их часть — крайне затруднительно. К счастью, в реальной экономической практике большинство взаимосвязей достаточно точно могут быть описаны или параболой, или гиперболой, или же прямой линией. В связи с этим, при «ручном» варианте подбора лучшей функции, можно ограничиться только этими тремя моделями.
Прямая:
Гипербола:
Парабола второго порядка: :
Нетрудно заметить, что в нашем примере лучше всего тенденцию изменения урожайности подсолнечника за анализируемые 10 лет характеризует прямая линия, поэтому уравнением регрессии будет уравнение прямой.
Третья процедура. Рассчитываются параметры регрессионного уравнения, характеризующего данную линию, или другими словами, определяется аналитическая формула, описывающая лучшую модель тренда.
Нахождение значений параметров уравнения регрессии, в нашем случае параметров и
, является сердцевиной МНК. Данный процесс сводится к решению системы нормальных уравнений.
(9.2)
Эта система уравнений довольно легко решается методом Гаусса. Напомним, что в результате решения, в нашем примере, находятся значения параметров и
. Таким образом, найденное уравнение регрессии будет иметь следующий вид:
В линейном уравнении параметр – коэффициент регрессии указывает, на сколько единиц в среднем изменится
с изменением
на единицу. Он имеет единицу измерения результативного признака. В случае прямой связи
– величина положительная, а при обратном – отрицательная. Параметр
– свободный член уравнения регрессии, то есть это значение
при
. Если
не получает нулевых значений, этот параметр имеет лишь расчетное назначение.
Приведем также системы нормальных уравнений для отыскивания параметров нелинейных уравнений.
Источник
Суть способа наименьших квадратов
Сущность метода наименьших квадратов
При классическом подходе пользуются методом наименьших квадратов, который основывается на предположении о независимости друг от друга отдельных наблюдений. Если данные наблюдения нанести на диаграмму, характеризующую рассеивание взаимосвязанных признаков, то линия, представляющая это уравнение, будет выбрана так, что сумма квадратов расстояний по вертикали между точками-и этой линией будет минимальной. Сущность метода наименьших квадратов заключается в том, что отыскиваются такие значения коэффициентов уравнения регрессии, при которых сумма квадратов отклонений фактических значений варьирующего признака от вычисленного по уравнению была бы наименьшей из всех возможных [c.321]
Сущность метода наименьших квадратов. [c.105]
В чем сущность метода наименьших квадратов (МНК) [c.311]
Сущность метода наименьших квадратов состоит в отыскании параметров моделей тренда, минимизирующих ее отклонение от точек исходного временного ряда, т.е. [c.119]
В чем состоит сущность метода наименьших квадратов [c.15]
Разработку норм по методу экстраполяции осуществляют в следующем порядке определяют фактические удельные показатели, соответствующие выбранному измерителю нормы, на конец каждого года в отчетном периоде троят график динамического ряда фактических удельных показателей в анализируемом (отчетном) периоде выявляют тенденцию изменения по годам отчетного периода показателей динамического ряда для оценки характера изменения удельных показателей в этом периоде осуществляют выравнивание динамического ряда с принятым измерителем нормы способом наименьших квадратов по прямолинейной или криволинейной зависимостям сущность способа наименьших квадратов состоит в нахождении наименьшей суммы квадратов отклонений фактических точек от линии выравнивания рассчитывают значения норм потребности в оборудовании по годам планового периода (или для последних лет пятилетних периодов) по уравнениям кривых различных математических функций. [c.167]
Из рис. 4.3 видно, что точки, характеризующие фактические значения себестоимости при определенном параметре d, дают некоторый разброс относительно видимой общей закономерности, выраженной кривой 5Н = / (d). Эти отклонения объясняются тем, что не учтены все влияющие на себестоимость факторы. В этом случае, очевидно, нерационально подбирать исходную функцию так, чтобы ей удовлетворяли все фактические точки. Важнее правильно выразить общую тенденцию зависимости себестоимости от исследуемого параметра, одновременно сглаживая незакономерные случайные отклонения. С этой целью используют метод наименьших квадратов, сущность которого заключается в том, что сумма квадратов отклонений фактических ординат от ординат, вычисленных по уравнению линии связи, должна быть минимальной, т. е. [c.122]
Коэффициенты регрессии определяются методом наименьших квадратов, сущность которого — минимизация суммы квадратов отклонений между эмпирическими и теоретическими (рассчитанными по уравнению регрессии) значениями электропотребления [c.149]
Интерпретация параметров интенсивности влияния факторов fli в многомерных регрессионных моделях определяется наличием и теснотой внутренних связей системы факторных показателей. Хотя наиболее распространенный метод оценки коэффициентов регрессии — метод наименьших квадратов — предполагает статистическую независимость факторных показателей, в практических попытках моделирования хозяйственной деятельности данное требование трудно выполнять и поэтому в общем случае им пренебрегают. Изучаются лишь пути устранения явных искажений, когда направление влияния фактора в модели прямо противоречит сущности моделируемого явления или теоретическим представлениям о сущности моделируемой связи. Такое положение создается из-за наличия тесной связи между факторами (какой-нибудь фактор выражается линейной комбинацией других факторов, включенных в мо- [c.120]
Источник
Метод наименьших квадратов
Пример №1 . Функция задана таблицей
X | -2 | -1 | 0 | 1 | 2 |
Y | 3.1 | 1.7 | 0.9 | 0.7 | 1.05 |
Применяя метод наименьших квадратов, приблизить ее многочленами 1-й и 2-й степени. Для каждого приближения определить величину среднеквадратичной погрешности, построить график.
Рекомендации к решению . На первом шаге в калькуляторе необходимо выбрать Вид сглаживани: по прямой . Чтобы получить приближение 2-й степени необходимо выбрать Вид сглаживани: по параболе .
Пример №2 . По 10 парам наблюдений получены следующие результаты: ∑xi = 100; ∑yi = 200; ∑xiyi = 21000; ∑yi 2 = 12000; ∑yi 2 = 45000. По МНК оцените коэффициенты линейных уравнений регрессии Y на X и X на Y . Оцените коэффициент корреляции и детерминации. Проинтерпретируйте результаты.
Решение.
Уравнение регрессии X на Y: y = a + bx
Найдем средние значения.
x – = 100/10 = 10; y – = 200/10 = 20; xy – = 21000/10 = 2100;
b = (2100-10×20)/(12000/10-10 2 ) = 1.727
a = 20 – 1.727×10 = 2.727
y = 2.727 + 1.727x
Уравнение регрессии Y на X: x = a + by = (y-2.727)/1.727 = 0,579x – 1.579
Дисперсии
σx 2 = 12000/10 – 10 2 = 1100
σy 2 = 45000/10 – 20 2 = 4100
Среднеквадратические отклонения
σx = (1100) 1/2 = 33.17
σy = (4100) 1/2 = 64.03
Коэффициент корреляции rxy = b σx/σy = 1.727×33.17/64.03 = 0.895
Коэффициент детерминации: R 2 = 0,895 2 = 0.8. Следовательно, в 80% случаев изменения х приводят к изменению y . Другими словами, точность подбора уравнения регрессии — высокая.
Пример №3 . В задачах результаты измерений величин x и y даются таблицей. Предполагая, что между переменными x и y существует линейная функциональная зависимость y = ax + b, найти, пользуясь способом наименьших квадратов эту функцию. Вычислить с помощью полученной формулы приближенные значения y при x = 2.5 и x=6.
Сглаживание ряда методом наименьших квадратов
Решение.
1. Находим параметры уравнения методом наименьших квадратов. Линейное уравнение тренда имеет вид y = bt + a
Система уравнений МНК:
a0n + a1∑t = ∑y
a0∑t + a1∑t 2 = ∑y•t
t | y | t 2 | y 2 | t•y |
1 | 58.8 | 1 | 3457.44 | 58.8 |
2 | 58.7 | 4 | 3445.69 | 117.4 |
3 | 59 | 9 | 3481 | 177 |
4 | 59 | 16 | 3481 | 236 |
5 | 58.8 | 25 | 3457.44 | 294 |
6 | 58.3 | 36 | 3398.89 | 349.8 |
7 | 57.9 | 49 | 3352.41 | 405.3 |
8 | 57.5 | 64 | 3306.25 | 460 |
9 | 56.9 | 81 | 3237.61 | 512.1 |
45 | 524.9 | 285 | 30617.73 | 2610.4 |
Для наших данных система уравнений имеет вид:
9a0 + 45a1 = 524.9
45a0 + 285a1 = 2610.4
Из первого уравнения выражаем а0 и подставим во второе уравнение
Получаем a0 = -0.24, a1 = 59.5
Уравнение тренда:
y = -0.24 t + 59.5
Эмпирические коэффициенты тренда a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.
Коэффициент тренда b = -0.24 показывает среднее изменение результативного показателя (в единицах измерения у) с изменением периода времени t на единицу его измерения. В данном примере с увеличением t на 1 единицу, y изменится в среднем на -0.24.
Ошибка аппроксимации.
Оценим качество уравнения тренда с помощью ошибки абсолютной аппроксимации.
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения тренда к исходным данным.
Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве тренда.
Однофакторный дисперсионный анализ.
Средние значения
Дисперсия
Среднеквадратическое отклонение
Коэффициент эластичности.
Коэффициент эластичности представляет собой показатель силы связи фактора t с результатом у, показывающий, на сколько процентов изменится значение у при изменении значения фактора на 1%.
Коэффициент эластичности меньше 1. Следовательно, при изменении t на 1%, Y изменится менее чем на 1%. Другими словами — влияние t на Y не существенно.
Эмпирическое корреляционное отношение.
Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].
где ( y -yt)² = 4.4-1.08 = 3.31
В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 2
Интервальный прогноз.
Определим среднеквадратическую ошибку прогнозируемого показателя.
m = 1 — количество влияющих факторов в уравнении тренда.
Uy=yn+L±K
где
L — период упреждения; уn+L — точечный прогноз по модели на (n + L)-й момент времени; n — количество наблюдений во временном ряду; Sy — стандартная ошибка прогнозируемого показателя; Tтабл — табличное значение критерия Стьюдента для уровня значимости α и для числа степеней свободы, равного n-2.
По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;α/2) = (7;0.025) = 2.365
Точечный прогноз, t = 10: y(10) = -0.24*10 + 59.5 = 57.15
57.15 — 1.08 = 56.07 ; 57.15 + 1.08 = 58.23
Интервальный прогноз:
t = 10: (56.07;58.23)
Точечный прогноз, t = 11: y(11) = -0.24*11 + 59.5 = 56.91
56.91 — 1.14 = 55.77 ; 56.91 + 1.14 = 58.05
Интервальный прогноз:
t = 11: (55.77;58.05)
2. Сглаживаем ряд методом скользящей средней. Одним из эмпирических методов является метод скользящей средней. Этот метод состоит в замене абсолютных уровней ряда динамики их средними арифметическими значениями за определенные интервалы. Выбираются эти интервалы способом скольжения: постепенно исключаются из интервала первые уровни и включаются последующие.
t | y | ys | Формула |
1 | 58.8 | 58.75 | (58.8 + 58.7)/2 |
2 | 58.7 | 58.85 | (58.7 + 59)/2 |
3 | 59 | 59 | (59 + 59)/2 |
4 | 59 | 58.9 | (59 + 58.8)/2 |
5 | 58.8 | 58.55 | (58.8 + 58.3)/2 |
6 | 58.3 | 58.1 | (58.3 + 57.9)/2 |
7 | 57.9 | 57.7 | (57.9 + 57.5)/2 |
8 | 57.5 | 57.2 | (57.5 + 56.9)/2 |
9 | 56.9 | — | — |
Стандартная ошибка (погрешность) рассчитывается по формуле:
где i = (t-m-1, t)
3. Построим прогноз численности с использованием экспоненциального сглаживания. Важным методом стохастических прогнозов является метод экспоненциального сглаживания. Этот метод заключается в том, что ряд динамики сглаживается с помощью скользящей средней, в которой веса подчиняются экспоненциальному закону.
Эту среднюю называют экспоненциальной средней и обозначают St.
Она является характеристикой последних значений ряда динамики, которым присваивается наибольший вес.
Экспоненциальная средняя вычисляется по рекуррентной формуле:
St = α*Yt + (1- α)St-1
где St — значение экспоненциальной средней в момент t;
St-1 — значение экспоненциальной средней в момент (t = 1);
Что касается начального параметра S0, то в задачах его берут или равным значению первого уровня ряда у1, или равным средней арифметической нескольких первых членов ряда.
Yt — значение экспоненциального процесса в момент t;
α — вес t-ого значения ряда динамики (или параметр сглаживания).
Последовательное применение формулы дает возможность вычислить экспоненциальную среднюю через значения всех уровней данного ряда динамики.
Наиболее важной характеристикой в этой модели является α, по величине которой практически и осуществляется прогноз. Чем значение этого параметра ближе к 1, тем больше при прогнозе учитывается влияние последних уровней ряда динамики.
Если α близко к 0, то веса, по которым взвешиваются уровни ряда динамики убывают медленно, т.е. при прогнозе учитываются все прошлые уровни ряда.
В специальной литературе отмечается, что обычно на практике значение α находится в пределах от 0,1 до 0,3. Значение 0,5 почти никогда не превышается.
Экспоненциальное сглаживание применимо, прежде всего, при постоянном объеме потребления (α = 0,1 — 0,3). При более высоких значениях (0,3 — 0,5) метод подходит при изменении структуры потребления, например, с учетом сезонных колебаний.
В качестве S0 берем первое значение ряда, S0 = y1 = 58.8
t | y | St | Формула |
1 | 58.8 | 58.8 | (1 — 0.1)*58.8 + 0.1*58.8 |
2 | 58.7 | 58.71 | (1 — 0.1)*58.7 + 0.1*58.8 |
3 | 59 | 58.97 | (1 — 0.1)*59 + 0.1*58.71 |
4 | 59 | 59 | (1 — 0.1)*59 + 0.1*58.97 |
5 | 58.8 | 58.82 | (1 — 0.1)*58.8 + 0.1*59 |
6 | 58.3 | 58.35 | (1 — 0.1)*58.3 + 0.1*58.82 |
7 | 57.9 | 57.95 | (1 — 0.1)*57.9 + 0.1*58.35 |
8 | 57.5 | 57.54 | (1 — 0.1)*57.5 + 0.1*57.95 |
9 | 56.9 | 56.96 | (1 — 0.1)*56.9 + 0.1*57.54 |
Прогнозирование данных с использованием экспоненциального сглаживания.
Методы прогнозирования под названием «сглаживание» учитывают эффекты выброса функции намного лучше, чем способы, использующие регрессивный анализ.
Базовое уравнение имеет следующий вид:
F(t+1) = F(t)(1 — α) + αY(t)
F(t) – это прогноз, сделанный в момент времени t; F(t+1) отражает прогноз во временной период, следующий непосредственно за моментом времени t
Стандартная ошибка (погрешность) рассчитывается по формуле:
где i = (t — 2, t)
Пример . Методом наименьших квадратов найти функции вида y=ax+b , y=ax²+bx+c , аппроксимирующие экспериментальную функцию y=f(x) . В обоих случаях найти суммы квадратов невязок ∑bi². В декартовой системе координат построить экспериментальные точки и графики найденных функций y=ax+b,y=ax^2+bx+c.
Пример №5
Пример №6
Пример №3 . Функция y=y(x) задана таблицей своих значений:
x: -2 -1 0 1 2
y: -0,8 -1,6 -1,3 0,4 3,2
Применяя метод наименьших квадратов, приблизить функцию многочленами 1-ой и 2-ой степеней. Для каждого приближения определить величину среднеквадратичной погрешности. Построить точечный график функции и графики многочленов.
Источник