Оценка существенности параметров линейной регрессии и корреляции

После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза Оценка существенности параметров линейной регрессии и корреляции - №1 - открытая онлайн библиотека о том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y.

Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений (СКО) y от среднего значения Оценка существенности параметров линейной регрессии и корреляции - №2 - открытая онлайн библиотека раскладывается на две части – объясненную и необъясненную:

Оценка существенности параметров линейной регрессии и корреляции - №3 - открытая онлайн библиотека (13)

или, соответственно:

Оценка существенности параметров линейной регрессии и корреляции - №4 - открытая онлайн библиотека

Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и Оценка существенности параметров линейной регрессии и корреляции - №5 - открытая онлайн библиотека

Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Однако на практике в правой части (13) присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y.Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Число степеней свободы. (df-degrees of freedom)- это число независимо варьируемых значений признака.

Для общей СКО требуется (n-1) независимых отклонений, т.к. Оценка существенности параметров линейной регрессии и корреляции - №6 - открытая онлайн библиотека что позволяет свободно варьировать (n-1) значений, а последнее n-е отклонение определяется из общей суммы, равной нулю. Поэтому Оценка существенности параметров линейной регрессии и корреляции - №7 - открытая онлайн библиотека

Факторную СКО можно выразить так:

Оценка существенности параметров линейной регрессии и корреляции - №8 - открытая онлайн библиотека

Эта СКО зависит только от одного параметра b,-поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и Оценка существенности параметров линейной регрессии и корреляции - №9 - открытая онлайн библиотека

Для определения Оценка существенности параметров линейной регрессии и корреляции - №10 - открытая онлайн библиотека воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы:

Оценка существенности параметров линейной регрессии и корреляции - №11 - открытая онлайн библиотека (14)

Таким образом, можем записать:

Оценка существенности параметров линейной регрессии и корреляции - №12 - открытая онлайн библиотека

Из этого баланса определяем, что Оценка существенности параметров линейной регрессии и корреляции - №10 - открытая онлайн библиотека =n-2.

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы:

Оценка существенности параметров линейной регрессии и корреляции - №14 - открытая онлайн библиотека (15)
Оценка существенности параметров линейной регрессии и корреляции - №15 - открытая онлайн библиотека (16)
Оценка существенности параметров линейной регрессии и корреляции - №16 - открытая онлайн библиотека (17)

Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим Оценка существенности параметров линейной регрессии и корреляции - №17 - открытая онлайн библиотека - критерий для проверки нулевой гипотезы, которая в данном случае записывается как Оценка существенности параметров линейной регрессии и корреляции - №18 - открытая онлайн библиотека

Оценка существенности параметров линейной регрессии и корреляции - №19 - открытая онлайн библиотека (18)

Если Оценка существенности параметров линейной регрессии и корреляции - №20 - открытая онлайн библиотека справедлива, то дисперсии не отличаются друг от друга. Для Оценка существенности параметров линейной регрессии и корреляции - №20 - открытая онлайн библиотека необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенности Оценка существенности параметров линейной регрессии и корреляции - №20 - открытая онлайн библиотека и различных числах степеней свободы. Табличное значение F- критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. При нахождении табличного значения F- критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы – числителя (она равна единице) и знаменателя, равная n-2.

Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного то есть Fфактич>Fтабл(α;1;n-2). В этом случае Оценка существенности параметров линейной регрессии и корреляции - №23 - открытая онлайн библиотека отклоняется и делается вывод о существенности превышения Dфакт над Dостат.,то есть о существенности статистической связи между y и x.

Если Оценка существенности параметров линейной регрессии и корреляции - №24 - открытая онлайн библиотека , то вероятность Оценка существенности параметров линейной регрессии и корреляции - №25 - открытая онлайн библиотека выше заданного уровня (например, 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между y и x. Уравнение регрессии считается статистически незначимым, Оценка существенности параметров линейной регрессии и корреляции - №26 - открытая онлайн библиотека не отклоняется.

В рассмотренном примере:

Оценка существенности параметров линейной регрессии и корреляции - №27 - открытая онлайн библиотека - это общая СКО.

Оценка существенности параметров линейной регрессии и корреляции - №28 - открытая онлайн библиотека

- это факторная СКО.

Оценка существенности параметров линейной регрессии и корреляции - №29 - открытая онлайн библиотека - остаточная СКО.

Оценка существенности параметров линейной регрессии и корреляции - №30 - открытая онлайн библиотека ; Оценка существенности параметров линейной регрессии и корреляции - №31 - открытая онлайн библиотека ; Оценка существенности параметров линейной регрессии и корреляции - №32 - открытая онлайн библиотека ;

Оценка существенности параметров линейной регрессии и корреляции - №33 - открытая онлайн библиотека ; Оценка существенности параметров линейной регрессии и корреляции - №34 - открытая онлайн библиотека .

На любом уровне значимости Оценка существенности параметров линейной регрессии и корреляции - №35 - открытая онлайн библиотека , и можно сделать вывод о значимости уравнения регрессии. Статистическая связь между y и x доказана.

Величина F- критерия связана с коэффициентом детерминации.

Оценка существенности параметров линейной регрессии и корреляции - №36 - открытая онлайн библиотека , (19)

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.

Стандартная ошибка коэффициента регрессии определяется по формуле:

Оценка существенности параметров линейной регрессии и корреляции - №37 - открытая онлайн библиотека , (20)

Оценка существенности параметров линейной регрессии и корреляции - №38 - открытая онлайн библиотека - остаточная дисперсия на одну степень свободы (то же, что и D­остат).

В рассмотренном примере

Оценка существенности параметров линейной регрессии и корреляции - №39 - открытая онлайн библиотека

Величина стандартной ошибки совместно с t- распределением Стьюдента при n-2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение t- критерия Стьюдента

Оценка существенности параметров линейной регрессии и корреляции - №40 - открытая онлайн библиотека , (21)

которое затем сравнивается с табличным значением при определенном уровне значимости α и числе степеней свободы (n-2). Здесь проверяется нулевая гипотеза в виде Н0:b=0, также предполагающая несущественность статистической связи между y и х, но только учитывающая значение b, а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Однако общий смысл гипотез один и тот же: проверка наличия статистической связи между y и х или её отсутствия.

Если tb>tтабл(α;n-2), то гипотеза Н0:b=0 должна быть отклонена, а статистическая связь y с х считается установленной. В случае tb<tтабл(α;n-2) нулевая гипотеза не может быть отклонена, и влияние х на y признается несущественным.

В рассмотренном примере

Оценка существенности параметров линейной регрессии и корреляции - №41 - открытая онлайн библиотека

Для двустороннего α=0,05 и n-2=5 tтабл=2,57, tb>tтабл , поэтому гипотезу о несущественности b следует отклонить.

Существует следующая связь:

Оценка существенности параметров линейной регрессии и корреляции - №42 - открытая онлайн библиотека (22)

Доверительный интервал для b определяется как

Оценка существенности параметров линейной регрессии и корреляции - №43 - открытая онлайн библиотека , (23)

где Оценка существенности параметров линейной регрессии и корреляции - №44 - открытая онлайн библиотека - рассчитанное (оцененное) по МНК значение коэффициента регрессии.

95%-ные границы в примере составят:

Оценка существенности параметров линейной регрессии и корреляции - №45 - открытая онлайн библиотека

то есть Оценка существенности параметров линейной регрессии и корреляции - №46 - открытая онлайн библиотека Это означает, что с вероятностью 0,95 истинное значение b находится в указанном интервале.

Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, Оценка существенности параметров линейной регрессии и корреляции - №47 - открытая онлайн библиотека Они не должны включать нуль.

Стандартная ошибка параметра Оценка существенности параметров линейной регрессии и корреляции - №48 - открытая онлайн библиотека определяется по формуле:

Оценка существенности параметров линейной регрессии и корреляции - №49 - открытая онлайн библиотека (24)

Процедура оценивания существенности a не отличается от таковой для параметра b. При этом фактическое значение t-критерия вычисляется по формуле:

Оценка существенности параметров линейной регрессии и корреляции - №50 - открытая онлайн библиотека (25)

Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что r как случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях |r|. В этом случае гипотеза об отсутствии корреляционной связи между y и х H0:r=0 проверяется на основе статистики

Оценка существенности параметров линейной регрессии и корреляции - №51 - открытая онлайн библиотека , (26)

которая при справедливости H0 приблизительно распределена по закону Стьюдента с (n-2) степенями свободы. Если Оценка существенности параметров линейной регрессии и корреляции - №52 - открытая онлайн библиотека , то гипотеза H0 отвергается с вероятностью ошибиться, не превышающей α. Из (19) видно, что в парной линейной регрессии Оценка существенности параметров линейной регрессии и корреляции - №53 - открытая онлайн библиотека . Кроме того, Оценка существенности параметров линейной регрессии и корреляции - №42 - открытая онлайн библиотека , поэтому Оценка существенности параметров линейной регрессии и корреляции - №55 - открытая онлайн библиотека . Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Однако при малых выборках и значениях r, близких к Оценка существенности параметров линейной регрессии и корреляции - №56 - открытая онлайн библиотека , следует учитывать, что распределение r как случайной величины отличается от нормального, и построение доверительных интервалов для r не может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу.

Чтобы обойти это затруднение, используется так называемое z-преобразование Фишера:

Оценка существенности параметров линейной регрессии и корреляции - №57 - открытая онлайн библиотека , (27)

которое дает нормально распределенную величину z, значения которой при изменении r от –1 до +1 изменяются от -∞ до +∞. Стандартная ошибка этой величины равна:

Оценка существенности параметров линейной регрессии и корреляции - №58 - открытая онлайн библиотека (28)

Для величины z имеются таблицы, в которых приведены её значения для соответствующих значений r.

Для z выдвигается нуль-гипотеза H0:z=0, состоящая в том, что корреляция отсутствует. В этом случае значения статистики

Оценка существенности параметров линейной регрессии и корреляции - №59 - открытая онлайн библиотека , (29)

которая распределена по закону Стьюдента с (n-2) степенями свободы, не превышает табличного на соответствующем уровне значимости.

Для каждого значения z можно вычислить критические значения r. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значение r превышает по абсолютной величине табличное, то данное значение r считается существенным. В противном случае фактическое значение несущественно.