Оценка параметров линейного уравнения множественной регрессии

Рассмотрим три метода расчета параметров множественной линейной регрессии.

1. Матричный метод. Представим данные наблюдений и параметры модели в матричной форме.

Оценка параметров линейного уравнения множественной регрессии - №1 - открытая онлайн библиотека - вектор – столбец наблюдений зависимой переменной;

Оценка параметров линейного уравнения множественной регрессии - №2 - открытая онлайн библиотека - вектор – столбец параметров уравнения регрессии (3);

Оценка параметров линейного уравнения множественной регрессии - №3 - открытая онлайн библиотека - n – мерный вектор – столбец отклонений выборочных значений yi от значений Оценка параметров линейного уравнения множественной регрессии - №4 - открытая онлайн библиотека , получаемых по уравнению (4).

Для удобства записи столбцы записаны как строки и поэтому снабжены штрихом для обозначения операции транспонирования.

Наконец, значения независимых переменных запишем в виде прямоугольной матрицы размерности Оценка параметров линейного уравнения множественной регрессии - №5 - открытая онлайн библиотека :

Оценка параметров линейного уравнения множественной регрессии - №6 - открытая онлайн библиотека

Каждому столбцу этой матрицы отвечает набор из n значений одного из факторов, а первый столбец состоит из единиц, которые соответствуют значениям переменной при свободном члене.

В этих обозначениях эмпирическое уравнение регрессии выглядит так:

Оценка параметров линейного уравнения множественной регрессии - №7 - открытая онлайн библиотека (6)

Отсюда вектор остатков регрессии можно выразить таким образом:

Оценка параметров линейного уравнения множественной регрессии - №8 - открытая онлайн библиотека (7)

Таким образом, функционал Оценка параметров линейного уравнения множественной регрессии - №9 - открытая онлайн библиотека , который, собственно, и минимизируется по МНК, можно записать как произведение вектора – строки е’ на вектор – столбец е:

Оценка параметров линейного уравнения множественной регрессии - №10 - открытая онлайн библиотека (8)

В соответствии с МНК дифференцирование Q по вектору В приводит к выражению:

Оценка параметров линейного уравнения множественной регрессии - №11 - открытая онлайн библиотека (9)

которое для нахождения экстремума следует приравнять к нулю. В результате преобразований получаем выражение для вектора параметров регрессии:

Оценка параметров линейного уравнения множественной регрессии - №12 - открытая онлайн библиотека 10)

Здесь Оценка параметров линейного уравнения множественной регрессии - №13 - открытая онлайн библиотека - матрица, обратная к Оценка параметров линейного уравнения множественной регрессии - №14 - открытая онлайн библиотека .

Пример. Бюджетное обследование пяти случайно выбранных семей дало следующие результаты (в тыс. руб.):

Семья Накопления, S Доход, Y Имущество, W
3,5
1,5

Оценить регрессию S на Y и W.

Введем обозначения:

S=[3;6;5;3,5;1,5]’ – вектор наблюдений зависимой переменной;

B=[a;b1;b2]’ – вектор параметров уравнения регрессии;

Оценка параметров линейного уравнения множественной регрессии - №15 - открытая онлайн библиотека

- матрица значений независимых переменных.

Далее с помощью матричных операций вычисляем (используем табличный процессор MS Excel и функции ТРАНСП, МУМНОЖ и МОБР в нем):

Оценка параметров линейного уравнения множественной регрессии - №16 - открытая онлайн библиотека

Оценка параметров линейного уравнения множественной регрессии - №17 - открытая онлайн библиотека

Регрессионная модель в скалярном виде:

Оценка параметров линейного уравнения множественной регрессии - №18 - открытая онлайн библиотека

Скалярный метод. При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии:

Оценка параметров линейного уравнения множественной регрессии - №19 - открытая онлайн библиотека (11)

Решить эту систему можно любым подходящим способом, например, методом определителей или методом Гаусса.

Рассмотрим пример, приведенный выше. Здесь для двух факторов, Y и W, система нормальных уравнений запишется так:

Оценка параметров линейного уравнения множественной регрессии - №20 - открытая онлайн библиотека

Рассчитываем значения сумм, получаем:

Оценка параметров линейного уравнения множественной регрессии - №21 - открытая онлайн библиотека

Рассчитаем значения определителей этой системы, используем функцию МОПРЕД в Excel:

Оценка параметров линейного уравнения множественной регрессии - №22 - открытая онлайн библиотека

Отсюда получим оценки параметров модели:

Оценка параметров линейного уравнения множественной регрессии - №23 - открытая онлайн библиотека

Регрессионная модель в стандартизованном масштабе. Уравнение регрессии в стандартизованном масштабе имеет вид:

Оценка параметров линейного уравнения множественной регрессии - №24 - открытая онлайн библиотека (12)

где Оценка параметров линейного уравнения множественной регрессии - №25 - открытая онлайн библиотека - стандартизованные переменные:

Оценка параметров линейного уравнения множественной регрессии - №26 - открытая онлайн библиотека (13)

для которых среднее значение равно нулю: Оценка параметров линейного уравнения множественной регрессии - №27 - открытая онлайн библиотека , а среднее квадратическое отклонение равно единице: Оценка параметров линейного уравнения множественной регрессии - №28 - открытая онлайн библиотека ; βj – стандартизованные коэффициенты регрессии, или β – коэффициенты (не следует путать их с параметрами уравнения (2)).

Применяя МНК к уравнению (12), после соответствующих преобразований получим систему нормальных уравнений:

Оценка параметров линейного уравнения множественной регрессии - №29 - открытая онлайн библиотека (14)

В этой системе Оценка параметров линейного уравнения множественной регрессии - №30 - открытая онлайн библиотека - элементы расширенной матрицы парных коэффициентов корреляции или, другими словами, коэффициенты парной корреляции между различными факторами или между факторами и результативным признаком. Имея измеренные значения всех переменных, вычислить матрицу парных коэффициентов корреляции на компьютере не составляет большого труда, используя, например, табличный процессор MS Excel или программу Statistica.

Решением системы (14) определяются β-коэффициенты. Эти коэффициенты показывают, на сколько значений с.к.о. изменится в среднем результат, если соответствующий фактор хj изменится на одну с.к.о. при неизменном среднем уровне других факторов. Поскольку все переменные заданы как центрированные и нормированные, β – коэффициенты сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии, в отличие от коэффициентов обычной регрессии, которые несравнимы между собой.

Пусть функция издержек производства y (тыс. руб.) характеризуется уравнением вида:

Оценка параметров линейного уравнения множественной регрессии - №31 - открытая онлайн библиотека

где факторами являются основные производственные фонды (тыс. руб.) и численность занятых в производстве (чел.). Отсюда видно, что при постоянной занятости рост стоимости основных производственных фондов на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение числа занятых на одного человека при неизменной технической оснащенности приводит к росту затрат в среднем на 1,1 тыс. руб.. Однако это не означает, что первый фактор сильнее влияет на издержки производства по сравнению со вторым. Такое сравнение возможно, если обратиться к уравнению регрессии в стандартизованном масштабе. Пусть оно выглядит так:

Оценка параметров линейного уравнения множественной регрессии - №32 - открытая онлайн библиотека

Это означает, что с ростом первого фактора на одно с.к.о. при неизменном числе занятых затраты на продукцию увеличиваются в среднем на 0,5 с.к.о. Так как β12 (0,5<0,8), то можно заключить, что большее влияние на производство продукции оказывает второй фактор, а не первый, как кажется из уравнения регрессии в натуральном масштабе.

В парной зависимости стандартизованный коэффициент регрессии есть не что иное, как линейный коэффициент корреляции r. Подобно тому, как в парной зависимости коэффициенты регрессии и корреляции связаны между собой, так и во множественной регрессии коэффициенты «чистой» регрессии bj связаны с β – коэффициентами:

Оценка параметров линейного уравнения множественной регрессии - №33 - открытая онлайн библиотека (15)

Это позволяет от уравнения регрессии в стандартизованном масштабе:

Оценка параметров линейного уравнения множественной регрессии - №34 - открытая онлайн библиотека (16)

переходить к уравнению регрессии в натуральном масштабе (4). Параметр а определяется так:

Оценка параметров линейного уравнения множественной регрессии - №35 - открытая онлайн библиотека (17)

Свободный член в уравнении (16) отсутствует, поскольку все стандартизованные переменные имеют нулевое среднее значение.

Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет использовать их при отсеве факторов – из модели исключаются факторы с наименьшим значением βj.

В заключение приведем расчет стандартизованного уравнения регрессии по данным рассмотренного выше числового примера. Используя функцию КОРРЕЛ в Excel, рассчитаем расширенную матрицу парных коэффициентов корреляции:

Оценка параметров линейного уравнения множественной регрессии - №36 - открытая онлайн библиотека

в которой последний столбец состоит из элементов Оценка параметров линейного уравнения множественной регрессии - №37 - открытая онлайн библиотека и Оценка параметров линейного уравнения множественной регрессии - №38 - открытая онлайн библиотека соответственно, а неединичные элементы в первых двух столбцах соответствуют Оценка параметров линейного уравнения множественной регрессии - №39 - открытая онлайн библиотека . Эта матрица является расширенной матрицей системы уравнений для определения β – коэффициентов:

Оценка параметров линейного уравнения множественной регрессии - №40 - открытая онлайн библиотека

Решаем систему методом определителей, получаем:

Δ=0,926291; Δ1=0,688461; Δ2=-0,44504;

β1=0,688461/0,926291=0,743245;

β2=-0,44504/0,926291=-0,48045;

Тогда стандартизованное уравнение регрессии запишется так:

Оценка параметров линейного уравнения множественной регрессии - №41 - открытая онлайн библиотека

Отсюда видно, что первый фактор оказывает большее воздействие на результат, чем второй (|β1|>|β2|), однако эта разница не так велика, как для коэффициентов в натуральном масштабе (0,1229 и –0,0294). От этого уравнения можно перейти к уравнению в натуральном масштабе. Для этого с помощью функции СТАНДОТКЛОН в Excel определим стандартные отклонения всех переменных:

Оценка параметров линейного уравнения множественной регрессии - №42 - открытая онлайн библиотека

а с помощью функции СРЗНАЧ – средние значения:

Оценка параметров линейного уравнения множественной регрессии - №43 - открытая онлайн библиотека

Далее определяем оценки параметров: Оценка параметров линейного уравнения множественной регрессии - №44 - открытая онлайн библиотека

Эти значения оценок совпадают с оценками, полученными ранее.