Основные задачи регрессионного анализа

В силу неоднозначности корреляционной зависимости между Y и X, для изучения влияния независимой переменной на объясняемую переменную используют «усредненные» зависимости, т.е. изучают условное математическое ожидание M[Y|X=x] (математическое ожидание случайной величины, вычисленную в предположении, что переменная X приняла значение x) в зависимости от x.

Поскольку при различных значениях будут получаться различные значения условного математического ожидания, то мы будем иметь дело с некой функцией

Основные задачи регрессионного анализа - №1 - открытая онлайн библиотека , (1)

которая называется функцией регрессии Y на X.

Отметим, что реальные значения зависимой переменной Y не всегда совпадают с ее условными математическими ожиданиями и могут быть различными при одном и том же значении объясняющей переменной.

Поэтому связь между зависимой и объясняющей переменной обычно записывают в виде

Основные задачи регрессионного анализа - №2 - открытая онлайн библиотека , (2)

называемое теоретическим уравнением регрессии. Величину e обычно называют случайным отклонением (ошибкой, возмущением). Это слагаемое, которое, по существу, является случайной величиной и указывает на стохастическую суть зависимости.

Для определения параметров функции регрессии необходимо знать и использовать все значения переменных X и Y генеральной совокупности, что практически невозможно.

Основные задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных X и Y:

а) установить форму зависимости между переменными;

б) оценить функцию регрессии (т.е. получить наилучшие оценки неизвестных параметров, проверить статистические гипотезы о параметрах модели);

в) проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений);

г) оценить неизвестные значения зависимой переменной (сделать прогноз значений).

Используя выборочные данные можно построить так называемое эмпирическое уравнение регрессии:

Основные задачи регрессионного анализа - №3 - открытая онлайн библиотека , (3)

где Основные задачи регрессионного анализа - №4 - открытая онлайн библиотека – оценка условного математического ожидания Основные задачи регрессионного анализа - №5 - открытая онлайн библиотека , Основные задачи регрессионного анализа - №6 - открытая онлайн библиотека – оценка функции регрессии.

Следовательно, в конкретном случае

Основные задачи регрессионного анализа - №7 - открытая онлайн библиотека , (4)

где отклонение ei – оценка теоретического случайного отклонения εi. Эту величину также называют остатками (residuals).

Решений задачи построения качественного уравнения регрессии, соответствующего эмпирическим данным и целям исследования, является достаточно сложным и многоступенчатым процессом. Его можно разбить на три этапа:

1) выбор формулы уравнения регрессии (спецификация);

2) определение параметров выбранногоуравнения (параметризации);

3) анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения (верификации).

В случае парной регрессия выбор формулы обычно осуществляетсяпо графическому изображению реальных статистических данных в виде точек в декартовой системе координат, которое называется корреляционным полем (диаграммой рассеивания)(см., например, рис. 5.1).

Основные задачи регрессионного анализа - №8 - открытая онлайн библиотека

Рис. 1

На рис. 1 представлены три ситуации.

На графике 5.1, а взаимосвязь между Х и Y близка к линейной, и прямая 1 достаточнохорошо соответствуетэмпирическим точкам. Поэтому в данном случае в качестве зависимости между Х и Y целесообразно выбрать линейную функцию Основные задачи регрессионного анализа - №9 - открытая онлайн библиотека .

На графике 1, б реальная взаимосвязь между Х и Y, скорее всего, описывается квадратичной функцией Основные задачи регрессионного анализа - №10 - открытая онлайн библиотека (линия 2).

И какую бы мы ни провели прямую (например, линия I), отклонения точек наблюдений от нее будут существенными и неслучайными.

На графике 1, в явная взаимосвязь между Х и Y отсутствует. Какую бы мы ни выбрали форму связи, результаты ее спецификации и параметризации (определение коэффициентов уравнения) будут неудачными.

В частности, прямые 1 и 2, проведенные через центр «облака» наблюдений и имеющие противоположный наклон, одинаково плохи для того, чтобы делать выводы об ожидаемых значениях переменной Y по значениям переменной X.

Более подробно вопросы спецификации, а также вопросы параметризациии верификации уравнения регрессии, будут обсуждены в следующих лекциях.