- Глава 3 Оценка параметров
- 3.1 Метод минимума хи-квадрат
- 3.2 Метод максимального правдоподобия.
- 3.3 Метод наименьших квадратов (МНК).
- 3.4 Проверка качества аппроксимации
- 3.5 Оценка погрешности параметров
- 3.6 Методы построения наилучшей прямой
- 3.6.1 Метод наименьших квадратов
- 3.6.2 Погрешность МНК в линейной модели
- 3.6.3 Недостатки и условия применимости МНК
- 3.6.4 Метод хи-квадрат построения прямой
Глава 3 Оценка параметров
Цель любого физического эксперимента — проверить, выполняется ли некоторая теоретическая закономерность ( модель ), а также получить или уточнить её параметры. Поскольку набор экспериментальных данных неизбежно ограничен, а каждое отдельное измерение имеет погрешность, можно говорить лишь об оценке этих параметров. В большинстве случаев измеряется не одна величина, а некоторая функциональная зависимость величин друг от друга. В таком случае возникает необходимость построить оценку параметров этой зависимости.
Пример. Рассмотрим процедуру измерения сопротивления некоторого резистора. Простейшая теоретическая модель для резистора — закон Ома U = R I , где сопротивление R — единственный параметр модели. Часто при измерениях возможно возникновение систематической ошибки — смещение нуля напряжения или тока. Тогда для получения более корректной оценки сопротивления стоит использовать модель с двумя параметрами: U = R I + U 0 .
Для построения оценки нужны следующие компоненты
данные — результаты измерений < x i , y i >и их погрешности < σ i >(экспериментальная погрешность является неотъемлемой частью набора данных!);
модель y = f ( x | θ 1 , θ 2 , … ) — параметрическое описание исследуемой зависимости ( θ — набор параметров модели, например, коэффициенты < k , b >прямой f ( x ) = k x + b );
процедура построения оценки параметров по измеренным данным («оценщик»):
Рассмотрим самые распространенные способы построения оценки.
3.1 Метод минимума хи-квадрат
Обозначим отклонения результатов некоторой серии измерений от теоретической модели y = f ( x | θ ) как
Δ y i = y i — f ( x i | θ ) , i = 1 … n , |
где θ — некоторый параметр (или набор параметров), для которого требуется построить наилучшую оценку. Нормируем Δ y i на стандартные отклонения σ i и построим сумму
χ 2 = ∑ i ( Δ y i σ i ) 2 , | (3.1) |
которую принято называть суммой хи-квадрат .
Метод минимума хи-квадрат ( метод Пирсона ) заключается в подборе такого θ , при котором сумма квадратов отклонений от теоретической модели, нормированных на ошибки измерений, достигает минимума:
χ 2 ( θ ) → min . |
Замечание. Подразумевается, что погрешность измерений σ i указана только для вертикальной оси y . Поэтому, при использовании метода следует выбирать оcи таким образом, чтобы относительная ошибка по оси абсцисс была значительно меньше, чем по оси ординат.
Данный метод вполне соответствует нашему интуитивному представлению о том, как теоретическая зависимость должна проходить через экспериментальные точки. Ясно, что чем ближе данные к модельной кривой, тем меньше будет сумма χ 2 . При этом, чем больше погрешность точки, тем в большей степени дозволено результатам измерений отклоняться от модели. Метода минимума χ 2 является частным случаем более общего метода максимума правдоподобия (см. ниже), реализующийся при нормальном ( гауссовом ) распределении ошибок.
Можно показать (см. [ 5 ] ), что оценка по методу хи-квадрат является состоятельной, несмещенной и, если данные распределены нормально, имеет максимальную эффективность (см. приложение 5.2 ).
Замечание. Простые аналитические выражения для оценки методом хи-квадрат существуют (см. п. 3.6.1 , 3.6.4 ) только в случае линейной зависимости f ( x ) = k x + b (впрочем, нелинейную зависимость часто можно заменой переменных свести к линейной). В общем случае задача поиска минимума χ 2 ( θ ) решается численно, а соответствующая процедура реализована в большинстве специализированных программных пакетов по обработке данных.
3.2 Метод максимального правдоподобия.
Рассмотрим кратко один из наиболее общих методов оценки параметров зависимостей — метод максимума правдоподобия.
Сделаем два ключевых предположения:
зависимость между измеряемыми величинами действительно может быть описана функцией y = f ( x | θ ) при некотором θ ;
все отклонения Δ y i результатов измерений от теоретической модели являются независимыми и имеют случайный (не систематический!) характер.
Пусть P ( Δ y i ) — вероятность обнаружить отклонение Δ y i при фиксированных < x i >, погрешностях < σ i >и параметрах модели θ . Построим функцию, равную вероятности обнаружить весь набор отклонений < Δ y 1 , … , Δ y n >. Ввиду независимости измерений она равна произведению вероятностей:
L = ∏ i = 1 n P ( Δ y i ) . | (3.2) |
Функцию L называют функцией правдоподобия .
Метод максимума правдоподобия заключается в поиске такого θ , при котором наблюдаемое отклонение от модели будет иметь наибольшую вероятность , то есть
L ( θ ) → max . |
Пусть теперь ошибки измерений имеют нормальное распределение (напомним, что согласно центральной предельной теореме нормальное распределение применимо, если отклонения возникают из-за большого числа независимых факторов, что на практике реализуется довольно часто). Согласно ( 2.5 ), вероятность обнаружить в i -м измерении отклонение Δ y i пропорциональна величине
P ( Δ y i ) ∝ e — Δ y i 2 2 σ i 2 , |
где σ i — стандартная ошибка измерения величины y i . Тогда логарифм функции правдоподобия ( 3.2 ) будет равен (с точностью до константы)
ln L = — ∑ i Δ y i 2 2 σ i 2 = — 1 2 χ 2 . |
Таким образом, максимум правдоподобия действительно будет соответствовать минимуму χ 2 .
3.3 Метод наименьших квадратов (МНК).
Рассмотрим случай, когда все погрешности измерений одинаковы, σ i = const . Тогда множитель 1 / σ 2 в сумме χ 2 выносится за скобки, и оценка параметра сводится к нахождению минимума суммы квадратов отклонений:
S ( θ ) = ∑ i = 1 n ( y i — f ( x i | θ ) ) 2 → min . | (3.3) |
Оценка по методу наименьших квадратов (МНК) удобна в том случае, когда не известны погрешности отдельных измерений. Однако тот факт, что метод МНК игнорирует информацию о погрешностях, является и его основным недостатком. В частности, это не позволяет определить точность оценки (например, погрешности коэффициентов прямой σ k и σ b ) без привлечения дополнительных предположений (см. п. 3.6.2 и 3.6.3 ).
3.4 Проверка качества аппроксимации
Значение суммы χ 2 позволяет оценить, насколько хорошо данные описываются предлагаемой моделью y = f ( x | θ ) .
Предположим, что распределение ошибок при измерениях нормальное . Тогда можно ожидать, что большая часть отклонений данных от модели будет порядка одной среднеквадратичной ошибки: Δ y i ∼ σ i . Следовательно, сумма хи-квадрат ( 3.1 ) окажется по порядку величины равна числу входящих в неё слагаемых: χ 2 ∼ n .
Замечание. Точнее, если функция f ( x | θ 1 , … , θ p ) содержит p подгоночных параметров (например, p = 2 для линейной зависимости f ( x ) = k x + b ), то при заданных θ лишь n — p слагаемых в сумме хи-квадрат будут независимы. Иными словами, когда параметры θ определены из условия минимума хи-квадрат, сумму χ 2 можно рассматривать как функцию n — p переменных. Величину n — p называют числом степеней свободы задачи.
В теории вероятностей доказывается (см. [ 4 ] или [ 5 ] ), что ожидаемое среднее значение (математическое ожидание) суммы χ 2 в точности равно числу степеней свободы:
χ 2 ¯ = n — p . |
Таким образом, при хорошем соответствии модели и данных, величина χ 2 / ( n — p ) должна в среднем быть равна единице. Значения существенно большие (2 и выше) свидетельствуют либо о плохом соответствии теории и результатов измерений , либо о заниженных погрешностях . Значения меньше 0,5 как правило свидетельствуют о завышенных погрешностях .
Замечание. Чтобы дать строгий количественный критерий, с какой долей вероятности гипотезу y = f ( x ) можно считать подтверждённой или опровергнутой, нужно знать вероятностный закон, которому подчиняется функция χ 2 . Если ошибки измерений распределены нормально, величина хи-квадрат подчинятся одноимённому распределению (с n — p степенями свободы). В элементарных функциях распределение хи-квадрат не выражается, но может быть легко найдено численно: функция встроена во все основные статистические пакеты, либо может быть вычислена по таблицам.
3.5 Оценка погрешности параметров
Важным свойством метода хи-квадрат является «встроенная» возможность нахождения погрешности вычисленных параметров σ θ .
Пусть функция L ( θ ) имеет максимум при θ = θ ^ , то есть θ ^ — решение задачи о максимуме правдоподобия. Согласно центральной предельной теореме мы ожидаем, что функция правдоподобия будем близка к нормальному распределению: L ( θ ) ∝ exp ( — ( θ — θ ^ ) 2 2 σ θ 2 ) , где σ θ — искомая погрешность параметра. Тогда в окрестности θ ^ функция χ 2 ( θ ) = — 2 ln ( L ( θ ) ) имеет вид параболы:
χ 2 ( θ ) = ( θ — θ ^ ) 2 σ θ 2 + const . |
Легко убедиться, что:
χ 2 ( θ ^ ± σ θ ) — χ 2 ( θ ^ ) = 1 . |
Иными словами, при отклонении параметра θ на одну ошибку σ θ от значения θ ^ , минимизирующего χ 2 , функция χ 2 ( θ ) изменится на единицу. Таким образом для нахождения интервальной оценки для искомого параметра достаточно графическим или численным образом решить уравнение
Δ χ 2 ( θ ) = 1 . | (3.4) |
Вероятностное содержание этого интервала будет равно 68% (его еще называют 1– σ интервалом). Отклонение χ 2 на 2 будет соответствовать уже 95% доверительному интервалу.
Замечание. Приведенное решение просто использовать только в случае одного параметра. Впрочем, все приведенные рассуждения верны и в много-параметрическом случае. Просто решением уравнения 3.4 будет не отрезок, а некоторая многомерная фигура (эллипс в двумерном случае и гипер-эллипс при больших размерностях пространства параметров). Вероятностное содержание области, ограниченной такой фигурой будет уже не равно 68%, но может быть вычислено по соответствующим таблицам. Подробнее о многомерном случае в разделе 5.5 .
3.6 Методы построения наилучшей прямой
Применим перечисленные выше методы к задаче о построении наилучшей прямой y = k x + b по экспериментальным точкам < x i , y i >. Линейность функции позволяет записать решение в относительно простом аналитическом виде.
Обозначим расстояние от i -й экспериментальной точки до искомой прямой, измеренное по вертикали, как
Δ y i = y i — ( k x i + b ) , |
и найдём такие параметры < k , b >, чтобы «совокупное» отклонение результатов от линейной зависимости было в некотором смысле минимально.
3.6.1 Метод наименьших квадратов
Пусть сумма квадратов расстояний от точек до прямой минимальна:
S ( k , b ) = ∑ i = 1 n ( y i — ( k x i + b ) ) 2 → min . | (3.5) |
Данный метод построения наилучшей прямой называют методом наименьших квадратов (МНК).
Рассмотрим сперва более простой частный случай, когда искомая прямая заведомо проходит через «ноль», то есть b = 0 и y = k x . Необходимое условие минимума функции S ( k ) , как известно, есть равенство нулю её производной. Дифференцируя сумму ( 3.5 ) по k , считая все величины < x i , y i >константами, найдём
d S d k = — ∑ i = 1 n 2 x i ( y i — k x i ) = 0 . |
Решая относительно k , находим
k = ∑ i = 1 n x i y i ∑ i = 1 n x i 2 . |
Поделив числитель и знаменатель на n , этот результат можно записать более компактно:
k = ⟨ x y ⟩ ⟨ x 2 ⟩ . | (3.6) |
Напомним, что угловые скобки означают усреднение по всем экспериментальным точкам:
⟨ … ⟩ ≡ 1 n ∑ i = 1 n ( … ) i |
В общем случае при b ≠ 0 функция S ( k , b ) должна иметь минимум как по k , так и по b . Поэтому имеем систему из двух уравнений ∂ S / ∂ k = 0 , ∂ S / ∂ b = 0 , решая которую, можно получить (получите самостоятельно):
-\left \left ><\left -\left% ^<2>>,\qquad b=\left -k\left .» display=»block»> k = ⟨ x y ⟩ — ⟨ x ⟩ ⟨ y ⟩ ⟨ x 2 ⟩ — ⟨ x ⟩ 2 , b = ⟨ y ⟩ — k ⟨ x ⟩ . | (3.7) |
Эти соотношения и есть решение задачи о построении наилучшей прямой методом наименьших квадратов.
3.6.2 Погрешность МНК в линейной модели
Погрешности σ k и σ b коэффициентов, вычисленных по формуле ( 3.7 ) (или ( 3.6 )), можно оценить в следующих предположениях. Пусть погрешность измерений величины x пренебрежимо мала: σ x ≈ 0 , а погрешности по y одинаковы для всех экспериментальных точек σ y = const , независимы и имеют случайный характер (систематическая погрешность отсутствует).
Пользуясь в этих предположениях формулами для погрешностей косвенных измерений (см. раздел ( 2.6 )) можно получить следующие соотношения:
σ k = 1 n — 2 ( D y y D x x — k 2 ) , | (3.10) |
σ b = σ k ⟨ x 2 ⟩ , | (3.11) |
где использованы введённые выше сокращённые обозначения ( 3.8 ). Коэффициент n — 2 отражает число независимых >: n экспериментальных точек за вычетом двух условий связи ( 3.7 ).
В частном случае y = k x :
σ k = 1 n — 1 ( ⟨ y 2 ⟩ ⟨ x 2 ⟩ — k 2 ) . | (3.12) |
3.6.3 Недостатки и условия применимости МНК
Формулы ( 3.7 ) (или ( 3.6 )) позволяют провести прямую по любому набору экспериментальных данных, а полученные выше соотношения — вычислить соответствующую среднеквадратичную ошибку для её коэффициентов. Однако далеко не всегда результат будет иметь физический смысл. Перечислим ограничения применимости данного метода.
В первую очередь метод наименьших квадратов — статистический, и поэтому он предполагает использование достаточно большого количества экспериментальных точек (желательно 10″ display=»inline»> n > 10 ).
Поскольку метод предполагает наличие погрешностей только по y , оси следует выбирать так, чтобы погрешность σ x откладываемой по оси абсцисс величины была минимальна.
Кроме того, метод предполагает, что все погрешности в опыте — случайны. Соответственно, формулы ( 3.10 )–( 3.12 ) применимы только для оценки случайной составляющей ошибки k или b . Если в опыте предполагаются достаточно большие систематические ошибки, они должны быть оценены отдельно . Отметим, что для оценки систематических ошибок не существует строгих математических методов, поэтому в таком случае проще и разумнее всего воспользоваться графическим методом.
Одна из основных проблем, связанных с определением погрешностей методом наименьших квадратов заключается в том, что он дает разумные погрешности даже в том случае, когда данные вообще не соответствуют модели. Если погрешности измерений известны, предпочтительно использовать метод минимума χ 2 .
Наконец, стоит предостеречь от использования любых аналитических методов «вслепую», без построения графиков. В частности, МНК не способен выявить такие «аномалии», как отклонения от линейной зависимости, немонотонность, случайные всплески и т.п. Все эти случаи требуют особого рассмотрения и могут быть легко обнаружены визуально при построении графика.
3.6.4 Метод хи-квадрат построения прямой
Пусть справедливы те же предположения, что и для метода наименьших квадратов, но погрешности σ i экспериментальных точек различны. Метод минимума хи-квадрат сводится к минимизации суммы квадратов отклонений, где каждое слагаемое взято с весом w i = 1 / σ i 2 :
χ 2 ( k , b ) = ∑ i = 1 n w i ( y i — ( k x i + b ) ) 2 → min . |
Этот метод также называют взвешенным методом наименьших квадратов.
Определим взвешенное среднее от некоторого набора значений < x i >как
⟨ x ⟩ ′ = 1 W ∑ i w i x i , |
где W = ∑ i w i — нормировочная константа.
Повторяя процедуру, использованную при выводе ( 3.7 ), нетрудно получить (получите) совершенно аналогичные формулы для искомых коэффициентов:
^<\prime>-\left ^<\prime>\left ^<\prime% >><\left ^<\prime>-\left ^<\prime 2>>,\qquad b=\left ^<\prime>-k\left ^<\prime>,» display=»block»> k = ⟨ x y ⟩ ′ — ⟨ x ⟩ ′ ⟨ y ⟩ ′ ⟨ x 2 ⟩ ′ — ⟨ x ⟩ ′ 2 , b = ⟨ y ⟩ ′ — k ⟨ x ⟩ ′ , | (3.13) |
с тем отличием от ( 3.7 ), что под угловыми скобками ⟨ … ⟩ ′ теперь надо понимать усреднение с весами w i = 1 / σ i 2 .
Записанные формулы позволяют вычислить коэффициенты прямой, если известны погрешности σ y i . Значения σ y i могут быть получены либо из некоторой теории, либо измерены непосредственно (многократным повторением измерений при каждом x i ), либо оценены из каких-то дополнительных соображений (например, как инструментальная погрешность).
Источник