Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии

Метод наименьших квадратов (МНК, OLS, Ordinary Least Squares) - один из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным. Метод основан на минимизации суммы квадратов остатков регрессии.

Сущность МНК

Пусть задана некоторая (параметрическая) модель вероятностной (регрессионной) зависимости между (объясняемой) переменной y и множеством факторов (объясняющих переменных) x

Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №1 - открытая онлайн библиотека

где Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №2 - открытая онлайн библиотека - вектор неизвестных параметров модели

Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №3 - открытая онлайн библиотека - случайная ошибка модели.

Пусть также имеются выборочные наблюдения значений указанных переменных. Пусть Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №4 - открытая онлайн библиотека - номер наблюдения ( Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №5 - открытая онлайн библиотека ). Тогда Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №6 - открытая онлайн библиотека - значения переменных в Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №4 - открытая онлайн библиотека -м наблюдении. Тогда при заданных значениях параметров b можно рассчитать теоретические (модельные) значения объясняемой переменной y:

Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №8 - открытая онлайн библиотека

Тогда можно рассчитать остатки регрессионной модели - разницу между наблюдаемыми значениями объясняемой переменной и теоретическими (модельными, оцененными):

Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №9 - открытая онлайн библиотека

Величина остатков зависит от значений параметров b.

Сущность МНК (обычного, классического) заключается в том, чтобы найти такие параметры b, при которых сумма квадратов остатков Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №10 - открытая онлайн библиотека (англ. Residual Sum of Squares[1]) будет минимальной:

В общем случае решение этой задачи может осуществляться численными методами оптимизации (минимизации). В этом случае говорят о нелинейном МНК (NLS или NLLS - англ. Non-Linear Least Squares). Во многих случаях можно получить аналитическое решение. Для решения задачи минимизации необходимо найти стационарные точки функции Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №10 - открытая онлайн библиотека , продифференцировав её по неизвестным параметрам b, приравняв производные к нулю и решив полученную систему уравнений:

Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №12 - открытая онлайн библиотека

Предпосылки МНК:

5- случайный характер остатков; Если на графике получена горизонтальная полоса, то остатки представляют собой случайные величины и МНК оправдан.

6- гомоскедастичность – дисперсия остатков одинакова для всех значений фактора; Если это условие не соблюдается, то имеет место гетероскедастичность.Наличие гомо- или гетероскедастичности можно видеть по графику зависимости остатков от теоретических значений результативного признака.

проводят также ее количественное подтверждение. При малом объеме выборки, что характерно для эконометрических исследований для этих целей используется метод Гольдфельда –Квандта, который включает в себя следующие шаги:

7. Упорядочение наблюдений по мере возрастания фактора х.

8. Исключение из наблюдений нескольких центральных наблюдений (С). При этом должно выполняться условие, что (N – С)/2 должно быть больше р – число параметров в модели.

9. Распределение оставшихся наблюдений на две равные группы с малыми и большими значениями факторного признака.

10. Решение уравнения регрессии для каждой группы (имеем два уравнения).

11. Определение остаточной суммы квадратов отклонений для каждой группы и определение их отношения (отношение большей к меньшей).

12. Сравнение этого отношения с табличным значением критерия Фишера (d f = n - C – 2p/2). Если это отношение меньше табличного значения F- критерия, то мы имеем гомоскедастичные остатки. Чем больше это отношение превышает табличное, тем больше нарушена предпосылка о равенстве дисперсий остаточных величин.

7- отсутствие автокорреляции остатков (то есть остатки распределены независимо друг от друга); Автокорреляция – это наличие тесной корреляционной зависимости между остатками текущих и предшествующих наблюдений, если наблюдения упорядочены по фактору х. Автокорреляционная зависимость определяется по линейному коэффициенту корреляции между текущими и предшествующими наблюдениями.

8- остатки подчиняются нормальному закону распределения. Соответствие распределение остатков нормальному закону распределения можно проверить с помощью критерия Пирсона как критерия.

В тех случаях, когда эти предпосылки выполняются, оценки, полученные по МНК, будут обладать вышеназванными свойствами, если же некоторые предпосылки не выполняются, то необходимо корректировать модель.

Простейшие частные случаи

В случае парной линейной регрессии Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №13 - открытая онлайн библиотека , когда оценивается линейная зависимость одной переменной от другой, формулы расчета упрощаются (можно обойтись без матричной алгебры). Система уравнений имеет вид:

Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №14 - открытая онлайн библиотека

Отсюда несложно найти оценки коэффициентов:

Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №15 - открытая онлайн библиотека

Свойства МНК-оценок

В первую очередь, отметим, что для линейных моделей МНК-оценки являются линейными оценками, как это следует из вышеприведённой формулы. Для несмещенностиМНК-оценок необходимо и достаточно выполнения важнейшего условия регрессионного анализа: условное по факторам математическое ожидание случайной ошибки должно быть равно нулю. Данное условие, в частности, выполнено, если

1. математическое ожидание случайных ошибок равно нулю, и

2. факторы и случайные ошибки - независимые случайные величины.

Первое условие можно считать выполненным всегда для моделей с константой, так как константа берёт на себя ненулевое математическое ожидание ошибок (поэтому модели с константой в общем случае предпочтительнее).

Для того, чтобы кроме состоятельности и несмещенности, оценки (обычного) МНК были ещё и эффективными (наилучшими в классе линейных несмещенных оценок) необходимо выполнение дополнительных свойств случайной ошибки:

· Постоянная (одинаковая) дисперсия случайных ошибок во всех наблюдениях (отсутствие гетероскедастичности): Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №16 - открытая онлайн библиотека

· Отсутствие корреляции (автокорреляции) случайных ошибок в разных наблюдениях между собой Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №17 - открытая онлайн библиотека

Данные предположения можно сформулировать для ковариационной матрицы вектора случайных ошибок Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №18 - открытая онлайн библиотека

Линейная модель, удовлетворяющая таким условиям, называется классической. МНК-оценки для классической линейной регрессии являются несмещёнными,состоятельными и наиболее эффективными оценками в классе всех линейных несмещённых оценок (в англоязычной литературе иногда употребляют аббревиатуру BLUE(Best Linear Unbaised Estimator) - наилучшая линейная несмещённая оценка; в отечественной литературе чаще приводится теорема Гаусса - Маркова).

Обобщенный МНК

Метод наименьших квадратов допускает широкое обобщение. Вместо минимизации суммы квадратов остатков можно минимизировать некоторую положительно определенную квадратичную форму от вектора остатков Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №19 - открытая онлайн библиотека , где Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №20 - открытая онлайн библиотека - некоторая симметрическая положительно определенная весовая матрица. Обычный МНК является частным случаем данного подхода, когда весовая матрица пропорциональна единичной матрице.

Доказано (теорема Айткена), что для обобщенной линейной регрессионной модели (в которой на ковариационную матрицу случайных ошибок не налагается никаких ограничений) наиболее эффективными (в классе линейных несмещенных оценок) являются оценки т. н. обобщенного МНК (ОМНК, GLS - Generalized Least Squares) - LS-метода с весовой матрицей, равной обратной ковариационной матрице случайных ошибок: Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №21 - открытая онлайн библиотека .

Можно показать, что формула ОМНК-оценок параметров линейной модели имеет вид

Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №22 - открытая онлайн библиотека

Ковариационная матрица этих оценок соответственно будет равна

Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №23 - открытая онлайн библиотека

Фактически сущность ОМНК заключается в определенном (линейном) преобразовании (P) исходных данных и применении обычного МНК к преобразованным данным. Цель этого преобразования - для преобразованных данных случайные ошибки уже удовлетворяют классическим предположениям.

Взвешенный МНК

В случае диагональной весовой матрицы (а значит и ковариационной матрицы случайных ошибок) имеем так называемый взвешенный МНК (WLS - Weighted Least Squares). В данном случае минимизируется взвешенная сумма квадратов остатков модели, то есть каждое наблюдение получает «вес», обратно пропорциональный дисперсии случайной ошибки в данном наблюдении: Прогноз и оценка точности МНК на основе уравнений парной и множественной линейной регрессии - №24 - открытая онлайн библиотека . Фактически данные преобразуются взвешиванием наблюдений (делением на величину, пропорциональную предполагаемому стандартному отклонению случайных ошибок), а к взвешенным данным применяется обычный МНК.

Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера