Проверка наличия мультиколлинеарности

Проверим наличие мультиколлинеарности, проанализировав коэффициенты парной и частной корреляции.

Рис.5 – Описательная статистика.

Проверка наличия мультиколлинеарности - №1 - открытая онлайн библиотека

Рис.6– Таблица значений парной корреляции.

Проверка наличия мультиколлинеарности - №2 - открытая онлайн библиотека

На рис. 5 видно, что существует нежелательная зависимость от количества ремонтов и количества рейсов. Соответствующие значения парной корреляции составляют r12=0,835; r13=0,755. Коэффициент парной корреляции между факторами Количество ремонтов и Количество рейсов также существует зависимость и составляет r23=0,58. Чтобы избежать мультиколлинеарности, необходимо убрать из уравнения одну из взаимозависимых переменных.

Для того чтобы оценить интенсивность связи между зависимой переменной и одной из независимых при исключении влияния остальных факторов, исследуем коэффициенты частной корреляции.

Рис.7 - Коэффициенты частной корреляции.

Проверка наличия мультиколлинеарности - №3 - открытая онлайн библиотека

На рис. 7 коэффициенты частной корреляции расположены во втором столбце (Partial Cor.). Наблюдается сильная зависимость от количества рейсов (r = 0,47) , а также зависимость от количество ремонтов(r = 0,48). Это значит, что факторы X2 и X3 целесообразно оставить.

Исключим Мультиколлинеарность, которая была обнаружена в таблице парной корреляции (Табл. 3). Исключим фактор X1, т.к. он имеет самый маленький коэффициент частной корреляции с Y.

Аналогично предыдущему построим и проанализируем новое уравнение регрессии.

Рис.8 – Результаты множественной регрессии.

Multiple Regression Results

Dependent: 6-месячная сто Multiple R = ,80625688 F = 8,358986

R?= ,65005016 df = 2,9

No. of cases: 12 adjusted R?= ,57228353 p = ,008872

Standard error of estimate:235,65331927

Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p = ,0168

Количество ре beta=,489 Количество ре beta=,418

Коэффициенты множественной корреляции (0,80626), множественной детерминации (0,6501) немного уменьшились, а наша ситуация немного улучшилась за счет того, что скорректированный коэффициент множественной детерминации (0,5723) немного увеличился. Т.к. в нашей задаче выборка экспериментальных данных мала (n=12), то скорректированному коэффициенту множественной детерминации можно доверять в большей мере, чем коэффициенту множественной детерминации.

Тогда уравнения множественной регрессии будет иметь вид:

Ŷ=343,99 +92,4*Х2+0,04*Х3

Ŷ’=0,48*Х’2+0,42 *Х’3

Рис.9 - Подробная информация о множественной регрессии.

Проверка наличия мультиколлинеарности - №4 - открытая онлайн библиотека

Рис. 10 - Таблица парной корреляции.

Проверка наличия мультиколлинеарности - №5 - открытая онлайн библиотека

Рис11. Таблица коэффициентов частной корреляции.

Проверка наличия мультиколлинеарности - №6 - открытая онлайн библиотека

Но остается нежелательная сильная зависимость количества ремонтов от количество рейсов (рис. 10). Исключим стоимость и вновь повторим процедуру исследования (рис. 12).

Рис.12. Результаты множественной регрессии.

Dependent: 6-месячная сто Multiple R = ,80625688 F = 8,358986

R?= ,65005016 df = 2,9

No. of cases: 12 adjusted R?= ,57228353 p = ,008872

Standard error of estimate:235,65331927

Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p = ,0168

Количество ре beta=,418

Коэффициенты множественной корреляции (0,80626), множественной детерминации (0,65005) и скорректированный коэффициент множественной детерминации (0,5723) уменьшились. Т.е. наша ситуация ухудшилась при исключении Количества ремонтов.

Тогда наиболее приемлемым является второй вариант модели:

Ŷ=343,99 +92,4*Х2+0,04*Х3

Ŷ’=0,48*Х’2+0,42 *Х’3

Для того чтобы проверить правильность наших рассуждений проведем автоматический анализ множественной регрессии методом прямой пошаговой регрессии.

Рис.13. Результат автоматического анализа множественной регрессии.

Multiple Regression Results (Step 2)

Dependent: 6-месячная сто Multiple R = ,80625688 F = 8,358986

R?= ,65005016 df = 2,9

No. of cases: 12 adjusted R?= ,57228353 p = ,008872

Standard error of estimate:235,65331927

Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p = ,0168

Количество ре beta=,489 Количество ре beta=,418

Как видно эта модель совпадает с полученной нами ранее методом обратной пошаговой регрессии.

Анализ остатков.

Оценим степень адекватности модели исследуя остатки

Рис. 14. – Анализ остатков.

Dependent: 6-месячная Multiple R : ,80625688 F = 8,358986

R?: ,65005016 df = 2,9

No. of cases: 12 adjusted R?: ,57228353 p = ,008872

Standard error of estimate: 235,65331927

Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p < ,0168

Рис. 15. – Результат анализа остатков

Проверка наличия мультиколлинеарности - №7 - открытая онлайн библиотека

В первом столбце этой таблицы на рис. 15 отображаются наблюдаемые значения переменной Стоимость (Observed Value), во втором – рассчитанные с помощью составленного уравнения множественной регрессии (Predicted Value), а в третьем столбце – вычисленные остатки (Residual).

Для проверки выполнения предпосылки о случайном характере остатков построим график зависимости остатков от теоретического значения ŷ.

Рис. 16 – График зависимости остатков от теоретического значения

Проверка наличия мультиколлинеарности - №8 - открытая онлайн библиотека

На рис. 16 видно, что остатки разбросаны случайным образом внутри горизонтальной полосы, т.е. представляют собой случайные величины. Значит, метод наименьших квадратов оправдан, и теоретические значения ŷ хорошо аппроксимируют фактические значения y.

Для проверки выполнения предпосылки о нулевой средней величине остатков, не зависящей от x, построим графики зависимости остатков от экзогенных переменных, включенных в модель – «Количество ремонтов» и «Количество рейсов ».

Проверка наличия мультиколлинеарности - №9 - открытая онлайн библиотека

Проверка наличия мультиколлинеарности - №10 - открытая онлайн библиотека
Рис. 17 – Графики зависимости остатков от экзогенных факторов.

Из графиков на рис. 17 видно, что остатки (точки на плоскости) хаотично разбросаны относительно прямых регрессии остатков, в их поведении нет закономерностей. Нет оснований говорить, что остатки коррелированны с экзогенными факторами (т.е. предпосылка E(Û)=0 (выполняется).

Дисперсия остатков гомоскедастична, т.к. диапазон варьирования остатков не меняется с переходом от одного xi к другому. Значит, третья предпосылка также выполняется.

Для проверки наличия автокорреляции в остатках проведем тест Дарбина-Уотсона.

Рис. 18 – Результаты теста Дарбина-Уотсона.

Проверка наличия мультиколлинеарности - №11 - открытая онлайн библиотека

Для числа наблюдений n=12, количества независимых переменных m=2 и уровня значимости α=0,05 находим значения dL=0,81 и dU=1,57.

0 dL=0,81 dU=1,57 2 4- dU=2,43 4- dL=3,19

Полож.коррел. Зона неопр. Отсутствие автокоррел. Зона неопр. Отр.коррел.

Расчетное значение d=1,038, следовательно, попадает в зону неопределенности. Значит, будем считать, что автокорреляция в остатках имеет место, следовательно, четвертая предпосылка не выполняется.

Для проверки выполнения пятой предпосылки рассмотрим график остатков на нормальной вероятностной бумаге.

Рис. 21 – График остатков на нормальной вероятностной бумаге.

Проверка наличия мультиколлинеарности - №12 - открытая онлайн библиотека

На графике можно увидеть, что значения остатков лежат достаточно близко к прямой, поэтому предположение о нормальном распределении ошибок выполнено.

Вывод:в результате выполнения лабораторной работы были получены уравнения:

уравнение множественной регрессии в естественной форме:

Ŷ = 375,32-30,405*Х1+113,11*Х2+0,0414*Х3

стандартизированное уравнение:

Ŷ’= - 0,18*Х’1+0,59*Х’2+0,49 *Х’3

Стандартизированное уравнение не имеет размерности параметров, поэтому оно удобно для сравнения степени влияния соответствующих факторов на зависимую переменную.

Был рассчитан средний коэффициент эластичности:

|Э̄xy2|>|Э̄xy3|>|Э̄xy1|- в наибольшей степени на цену влияет "Количество ремонтов" (X2) и "Количество рейсов" (Х3).

Сделали вывод, что наиболее приемлемым является второй вариант модели:

Ŷ=343,99 +92,4*Х2+0,04*Х3

Ŷ’=0,48*Х’2+0,42 *Х’3

Так как коэффициенты множественной корреляции (0,80626), множественной детерминации (0,6501) немного уменьшились, скорректированный коэффициент множественной детерминации (0,5723) немного увеличился.

По анализу предпосылок
1.Случайный. характер остатков- выполняется;

2. Нулевая средняя величина остатков- выполняется;

3.Гомоскедастичность- выполняется;

4.Отсутствие автокорреляции -не выполняется;

5.Остатки подчиненному нормальному распределению- выполняется.