Корреляционный анализ

Основной задачей корреляционного анализа является выявление тесноты связи между случайными величинами путем оценки коэффициентов корреляции.

Рассмотрим простейшее из уравнений регрессии - двумерную модель (8.2.3) . Полную информацию о корреляционной зависимости между переменными Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека , заданными с помощью выборочных наблюдений Корреляционный анализ - №3 - открытая онлайн библиотека , Корреляционный анализ - №4 - открытая онлайн библиотека Корреляционный анализ - №5 - открытая онлайн библиотека , в этой модели, дают средние значения Корреляционный анализ - №6 - открытая онлайн библиотека и Корреляционный анализ - №7 - открытая онлайн библиотека , дисперсии Корреляционный анализ - №8 - открытая онлайн библиотека и Корреляционный анализ - №9 - открытая онлайн библиотека (см. (2.5.9)) и коэффициент корреляции (см. (2.5.13))

Корреляционный анализ - №10 - открытая онлайн библиотека

где Корреляционный анализ - №11 - открытая онлайн библиотека и Корреляционный анализ - №12 - открытая онлайн библиотека - среднеквадратические отклонения, а Корреляционный анализ - №13 - открытая онлайн библиотека - ковариация между Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека (см. (2.5.12)). Выборочный коэффициент корреляции в обозначениях Корреляционный анализ - №16 - открытая онлайн библиотека и Корреляционный анализ - №17 - открытая онлайн библиотека можно записать в виде

Корреляционный анализ - №18 - открытая онлайн библиотека (8.4.1)

Корреляционный анализ - №19 - открытая онлайн библиотека

Рис. 8.3 Иллюстрация отклонений Корреляционный анализ - №20 - открытая онлайн библиотека и Корреляционный анализ - №21 - открытая онлайн библиотека

Для обоснования измерения тесноты связи между случайными величинами Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека при помощи формулы (8.4.1) разобьем поле рассеяния точек Корреляционный анализ - №24 - открытая онлайн библиотека , на четыре части с помощью перпендикуляров к осям координат, проходящих через точку Корреляционный анализ - №25 - открытая онлайн библиотека (см. Рис. 8.3). Тогда для любой точки Корреляционный анализ - №26 - открытая онлайн библиотека будут определены отклонения Корреляционный анализ - №16 - открытая онлайн библиотека и Корреляционный анализ - №17 - открытая онлайн библиотека . При помощи этих переменных можно характеризовать полученные на Рис. 8.3 квадранты: квадранты I и III характеризуются положительным знаком произведения Корреляционный анализ - №29 - открытая онлайн библиотека , а квадранты II и IV - отрицательным знаком Корреляционный анализ - №29 - открытая онлайн библиотека . Переводя эти рассуждения на случайные величины Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека , можно сделать вывод, что

  • если зависимость между Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека положительная, то большая часть точек Корреляционный анализ - №26 - открытая онлайн библиотека лежит в I и III квадрантах и сумма Корреляционный анализ - №36 - открытая онлайн библиотека становится положительной;
  • если зависимость между Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека отрицательная, то большая часть точек Корреляционный анализ - №26 - открытая онлайн библиотека лежит в II и IV квадрантах и сумма Корреляционный анализ - №36 - открытая онлайн библиотека становится отрицательной;
  • если нет связи между Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека , то точки Корреляционный анализ - №26 - открытая онлайн библиотека рассеяны по всем четырем квадрантам и сумма Корреляционный анализ - №36 - открытая онлайн библиотека близка к нулю.

Сумма Корреляционный анализ - №36 - открытая онлайн библиотека в качестве меры тесноты связи между Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека имеет недостаток: ее численное значение может быть увеличено за счет случайной, достаточно удаленной от Корреляционный анализ - №25 - открытая онлайн библиотека точки Корреляционный анализ - №26 - открытая онлайн библиотека или же в результате выбора единиц измерения переменных Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека . Эти недостатки можно исправить, если усреднить рассматриваемую сумму в виде (8.4.1), т.е. мерой оценки связи взять коэффициент корреляции Корреляционный анализ - №52 - открытая онлайн библиотека , который является безразмерной величиной и при достаточно большом объеме Корреляционный анализ - №53 - открытая онлайн библиотека выборки обладает следующими удобными свойствами:

  1. для любых случайных величин Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека Корреляционный анализ - №56 - открытая онлайн библиотека
  2. если Корреляционный анализ - №57 - открытая онлайн библиотека то корреляционная связь между Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека отсутствует;
  3. если Корреляционный анализ - №60 - открытая онлайн библиотека , то корреляционная связь переходит в функциональную зависимость между Корреляционный анализ - №1 - открытая онлайн библиотека и Корреляционный анализ - №2 - открытая онлайн библиотека .

Введём в рассмотрение величины:

Корреляционный анализ - №63 - открытая онлайн библиотека Корреляционный анализ - №64 - открытая онлайн библиотека

и представим выражение (8.4.1) в виде

Корреляционный анализ - №65 - открытая онлайн библиотека . (8.4.2)

Пусть Корреляционный анализ - №66 - открытая онлайн библиотека и Корреляционный анализ - №67 - открытая онлайн библиотека - параметры регрессии (8.2.4), полученные методом наименьших квадратов. Объединяя формулы (8.2.8) и (8.4.2), получим:

Корреляционный анализ - №68 - открытая онлайн библиотека . (8.4.3)

Возведя в квадрат обе части уравнения Корреляционный анализ - №69 - открытая онлайн библиотека отклонения точки Корреляционный анализ - №70 - открытая онлайн библиотека от линии наименьших квадратов (8.2.7) и суммируя по Корреляционный анализ - №71 - открытая онлайн библиотека , получим:

Корреляционный анализ - №72 - открытая онлайн библиотека (8.4.4)

В силу (8.2.7) имеем:

Корреляционный анализ - №73 - открытая онлайн библиотека

Используя (8.2.8), запишем

Корреляционный анализ - №74 - открытая онлайн библиотека

Поэтому из (8.4.4) получаем

Корреляционный анализ - №75 - открытая онлайн библиотека (8.4.5)

Как следует из (8.4.5), общая вариация значений случайной величины Корреляционный анализ - №2 - открытая онлайн библиотека около их выборочного среднего Корреляционный анализ - №77 - открытая онлайн библиотека может быть разложена на две составляющие. Первая составляющая показывает вариацию значений Корреляционный анализ - №78 - открытая онлайн библиотека около их среднего Корреляционный анализ - №79 - открытая онлайн библиотека , равного среднему Корреляционный анализ - №7 - открытая онлайн библиотека . Действительно, так как точка Корреляционный анализ - №25 - открытая онлайн библиотека лежит на линии Корреляционный анализ - №82 - открытая онлайн библиотека (см. (8.2.6)), найденной методом наименьших квадратов, то Корреляционный анализ - №83 - открытая онлайн библиотека

Эту составляющую общей вариации обычно связывают с линейным воздействием на Корреляционный анализ - №2 - открытая онлайн библиотека изменений объясняющей переменной Корреляционный анализ - №1 - открытая онлайн библиотека . Т.е. это часть суммы квадратов отклонений, которая обусловлена найденной линейной зависимостью Корреляционный анализ - №82 - открытая онлайн библиотека .

Предположив общую вариацию Корреляционный анализ - №87 - открытая онлайн библиотека отличной от нуля и принимая во внимание выражения (8.2.7) и (8.4.3), вычислим отношение:

Корреляционный анализ - №88 - открытая онлайн библиотека (8.4.6)

Следовательно, отношение части общей вариации Корреляционный анализ - №2 - открытая онлайн библиотека , обусловленной линейной зависимостью от Корреляционный анализ - №1 - открытая онлайн библиотека , к общей вариации равно квадрату коэффициента корреляции. Другими словами, это есть доля дисперсии Корреляционный анализ - №2 - открытая онлайн библиотека , объясняемая линейной зависимостью Корреляционный анализ - №2 - открытая онлайн библиотека от Корреляционный анализ - №1 - открытая онлайн библиотека . Ее называют коэффициентом детерминации. Например, Корреляционный анализ - №94 - открытая онлайн библиотека означает, что линейная регрессия Корреляционный анализ - №2 - открытая онлайн библиотека на Корреляционный анализ - №1 - открытая онлайн библиотека объясняет 0,25% дисперсии Корреляционный анализ - №2 - открытая онлайн библиотека .

Из (8.4.5) и (8.4.6) получаем еще одно представление для коэффициента детерминации:

Корреляционный анализ - №98 - открытая онлайн библиотека (8.4.7)

Отсюда следует, что значение Корреляционный анализ - №99 - открытая онлайн библиотека не может превзойти единицы и что его максимальное значение будет достигнуто только при

Корреляционный анализ - №100 - открытая онлайн библиотека

Последнее возможно, когда каждое отклонение Корреляционный анализ - №101 - открытая онлайн библиотека равно нулю и поэтому все точки Корреляционный анализ - №102 - открытая онлайн библиотека в точности лежат на прямой линии (функциональная зависимость

Корреляционный анализ - №103 - открытая онлайн библиотека

Рис. 8.4 Поле рассеяния и линия регрессии

между Корреляционный анализ - №2 - открытая онлайн библиотека и Корреляционный анализ - №1 - открытая онлайн библиотека ). Минимальное значение Корреляционный анализ - №99 - открытая онлайн библиотека , равное нулю, достигается при Корреляционный анализ - №107 - открытая онлайн библиотека Это имеет место, когда первая составляющая в (8.4.5) равна нулю.

Выражение (8.4.7) подтверждает ранее приведенные свойства коэффициента корреляции. Действительно, в силу (8.4.7) коэффициент Корреляционный анализ - №52 - открытая онлайн библиотека может изменяться в пределах от -1 до 1, а его знак определяется знаком суммы Корреляционный анализ - №36 - открытая онлайн библиотека (Рис. 8.3 ).

Вторая составляющая в (8.4.5) является той частью общей вариации значений переменной Корреляционный анализ - №2 - открытая онлайн библиотека , которая не имеет отношения к линейной зависимости между Корреляционный анализ - №2 - открытая онлайн библиотека и Корреляционный анализ - №1 - открытая онлайн библиотека , найденной методом наименьших квадратов. Она измеряет ту часть колебания Корреляционный анализ - №2 - открытая онлайн библиотека , которая возникает из-за влияния на Корреляционный анализ - №2 - открытая онлайн библиотека неучтенных факторов, не связанных с Корреляционный анализ - №1 - открытая онлайн библиотека .

Пример 8.4. Требуется оценить зависимость времени перевозок товара от расстояния между пунктом хранения и различными пунктами доставки внутри города. Данные наблюдения приведены в таблице:

Расстояние (в км) 3,5 2,4 4,9 4,2 3,0 1,3 1,0 3,0 1,5 4,1
Время (в мин)

Обозначим: Корреляционный анализ - №2 - открытая онлайн библиотека - время, Корреляционный анализ - №1 - открытая онлайн библиотека - расстояние и нарисуем поле рассеяния Корреляционный анализ - №118 - открытая онлайн библиотека (Рис. 8.4). Расположение точек говорит о возможной линейной связи Корреляционный анализ - №2 - открытая онлайн библиотека и Корреляционный анализ - №1 - открытая онлайн библиотека . Поэтому, используя формулы (8.2.8) и (8.2.9), находим:

Корреляционный анализ - №121 - открытая онлайн библиотека

Тогда линейная модель имеет вид:

Корреляционный анализ - №122 - открытая онлайн библиотека (8.4.8)

Коэффициент корреляции, рассчитанный по формуле (8.4.1), имеет вид

Корреляционный анализ - №123 - открытая онлайн библиотека

Так как это значение очень близко к единице, то линейная связь между расстоянием и временем доставки очень тесна. Этот вывод подтверждается характером разброса точек на Рис. 8.4. Здесь коэффициент детерминации (8.4.7) показывает долю общей вариации времени перевозок, которая зависит от расстояния:

Корреляционный анализ - №124 - открытая онлайн библиотека

Таким образом, выборочная модель (8.4.8) объясняет 91,8% вариации времени доставки. Не объясняется 8,2% вариации времени доставки. Эта часть вариации обусловлена не учтенными в модели, но влияющими на время поездки факторами (пробки на дорогах, время суток, погода, вид транспорта и пр.).