Проблема мультиколлинеарности в моделях множественной регрессии. Признаки мультиколлинеарности

- Чем выше корреляция, тем выше дисперсии и больше риск получить несостоятельные оценки. В этом случае говорят о мульти-сти.

- Высокая коррелированность не всегда ведет к несостоятельности. Например если n велико и дисперсия случайного члена мала, то можно получить состоятельные оценки.

- Любая регрессия страдает от мульти-сти. Задача определить, когда это влияние становится существенным

Наибольшие затруднения в использовании аппарата множественной регрессии возникают при наличии мульти-сти факторных переменных, когда более чем два фактора связаны между собой линейной зависимостью.

Мульти-стью для линейной множественной регрессии называется наличие линейной зависимости между факторными переменными, включёнными в модель.

Мульти-сть - нарушение одного из основных условий, лежащих в основе построения линейной модели множественной регрессии.

Мульти-сть в матричном виде - это зависимость между столбцами матрицы факторных переменных Х:

Проблема мультиколлинеарности в моделях множественной регрессии. Признаки мультиколлинеарности - №1 - открытая онлайн библиотека

Если не учитывать единичный вектор, то размерность данной матрицы равна n*n. Если ранг матрицы Х меньше n, то в модели присутствует полная или строгая мульти-сть. Но на практике полная мульти-сть почти не встречается.

Можно сделать вывод, что одной из основных причин присутствия мультик-сти в модели множественной регрессии является плохая матрица факторных переменных Х.

Чем сильнее мульти-сть факторных переменных, тем менее надежной является оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.

Включение в модель мульти-ных факторов нежелательно по нескольким причинам:

1) основная гипотеза о незначимости коэффициентов множественной регрессии может подтвердиться, но сама модель регрессии при проверке с помощью F-критерия оказывается значимой, что говорит о завышенной величине коэффициента множественной корреляции;

2) полученные оценки коэффициентов модели множественной регрессии могут быть неоправданно завышены или иметь неправильные знаки;

3) добавление или исключение из исходных данных одного-двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;

4) мульти-ные факторы, включённые в модель множественной регрессии, способны сделать её непригодной для дальнейшего применения.

Конкретных методов обнаружения мульти-сти не существует, а принято применять ряд эмпирических приёмов. В большинстве случаев множественный регрессионный анализ начинается с рассмотрения корреляционной матрицы факторных переменных R или матрицы (ХТХ).

Корреляционной матрицей факторных переменных называется симметричная относительно главной диагонали матрица линейных коэффициентов парной корреляции факторных переменных:

Проблема мультиколлинеарности в моделях множественной регрессии. Признаки мультиколлинеарности - №2 - открытая онлайн библиотека

где rij – линейный коэффициент парной корреляции между i-м и j-ым факторными переменными,

Проблема мультиколлинеарности в моделях множественной регрессии. Признаки мультиколлинеарности - №3 - открытая онлайн библиотека

На диагонали корреляционной матрицы находятся единицы, потому что коэффициент корреляции факторной переменной с самой собой равен единице.

При рассмотрении данной матрицы с целью выявления мульти-ных факторов руководствуются следующими признаками:

1) если в корреляционной матрице факторных переменных присутствуют коэффициенты парной корреляции по абсолютной величине большие 0,8, то делают вывод, что в данной модели множественной регрессии существует мульти-сть;

2) вычисляют собственные числа корреляционной матрицы факторных переменных и max. Если min‹10-5, то в модели регрессии присутствует мульти-сть. Если отношение

Проблема мультиколлинеарности в моделях множественной регрессии. Признаки мультиколлинеарности - №4 - открытая онлайн библиотека

то также делают вывод о наличии мульти-ных факторных переменных;

3) вычисляют определитель корреляционной матрицы факторных переменных. Если его величина очень мала, то в модели регрессии присутствует мульти-сть.