Корреляция и ковариация в EXCEL

Теоретическое отступление

Напомним, что корреляционной связью называют статистическую связь, состоящую в том, что различным значениям одной переменной соответствуют различные средние значения другой (с изменением значения Х среднее значение Y изменяется закономерным образом). Предполагается, что обе переменные Х и Y являются случайными величинами и имеют некий случайный разброс относительно их среднего значения .

Примечание . Если случайную природу имеет только одна переменная, например, Y, а значения другой являются детерминированными (задаваемыми исследователем), то можно говорить только о регрессии.

Таким образом, например, при исследовании зависимости среднегодовой температуры нельзя говорить о корреляции температуры и года наблюдения и, соответственно, применять показатели корреляции с соответствующей их интерпретацией.

Корреляционная связь между переменными может возникнуть несколькими путями:

  1. Наличие причинной зависимости между переменными. Например, количество инвестиций в научные исследования (переменная Х) и количество полученных патентов (Y). Первая переменная выступает как независимая переменная (фактор) , вторая – зависимая переменная (результат) . Необходимо помнить, что зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.
  2. Наличие сопряженности (общей причины). Например, с ростом организации растет фонд оплаты труда (ФОТ) и затраты на аренду помещений. Очевидно, что неправильно предполагать, что аренда помещений зависит от ФОТ. Обе этих переменных во многих случаях линейно зависят от количества персонала.
  3. Взаимовлияние переменных (при изменении одной, вторая переменная изменяется, и наоборот). При таком подходе допустимы две постановки задачи; любая переменная может выступать как в роли независимой переменной и в роли зависимой.

Таким образом, показатель корреляции показывает, насколько сильна линейная взаимосвязь между двумя факторами (если она есть), а регрессия позволяет прогнозировать один фактор на основе другого.

Корреляция , как и любой другой статистический показатель, при правильном применении может быть полезной, но она также имеет и ограничения по использованию. Если диаграмма рассеяния показывает четко выраженную линейную зависимость или полное отсутствие взаимосвязи, то корреляция замечательно это отразит. Но, если данные показывают нелинейную взаимосвязь (например, квадратичную), наличие отдельных групп значений или выбросов, то вычисленное значение коэффициента корреляции может ввести в заблуждение (см. файл примера ).

Корреляция близкая к 1 или -1 (т.е. близкая по модулю к 1) показывает сильную линейную взаимосвязь переменных, значение близкое к 0 показывает отсутствие взаимосвязи. Положительная корреляция означает, что с ростом одного показателя другой в среднем увеличивается, а при отрицательной – уменьшается.

Для вычисления коэффициента корреляции требуется, чтобы сопоставляемые переменные удовлетворяли следующим условиям:

  • количество переменных должно быть равно двум;
  • переменные должны быть количественными (например, частота, вес, цена). Вычисленное среднее значение этих переменных имеет понятный смысл: средняя цена или средний вес пациента. В отличие от количественных, качественные (номинальные) переменные принимают значения лишь из конечного набора категорий (например, пол или группа крови). Этим значениям условно сопоставлены числовые значения (например, женский пол – 1, а мужской – 2). Понятно, что в этом случае вычисление среднего значения , которое требуется для нахождения корреляции , некорректно, а значит некорректно и вычисление самой корреляции
  • переменные должны быть случайными величинами и иметь нормальное распределение .

Двумерные данные могут иметь различную структуру. Для работы с некоторыми из них требуются определенные подходы:

  • Для данных с нелинейной связью корреляцию нужно использовать с осторожностью. Для некоторых задач бывает полезно преобразовать одну или обе переменных так, чтобы получить линейную взаимосвязь (для этого требуется сделать предположение о виде нелинейной связи, чтобы предложить нужный тип преобразования).
  • С помощью диаграммы рассеяния у некоторых данных можно наблюдать неравную вариацию (разброс). Проблема неодинаковой вариации состоит в том, что места с высокой вариацией не только предоставляют наименее точную информацию, но и оказывают наибольшее влияние при расчете статистических показателей. Эту проблему также часто решают с помощью преобразования данных, например, с помощью логарифмирования.
  • У некоторых данных можно наблюдать разделение на группы (clustering), что может свидетельствовать о необходимости разделения совокупности на части.
  • Выброс (резко отклоняющееся значение) может исказить вычисленное значение коэффициента корреляции. Выброс может быть причиной случайности, ошибки при сборе данных или могут действительно отражать некую особенность взаимосвязи. Так как выброс сильно отклоняется от среднего значения, то он вносит большой вклад при расчете показателя. Часто расчет статистических показателей производят с и без учета выбросов.

Использование MS EXCEL для расчета корреляции

В качестве примера возьмем 2 переменные Х и Y и, соответственно, выборку состоящую из нескольких пар значений (Х i i ). Для наглядности построим диаграмму рассеяния .

Примечание : Подробнее о построении диаграмм см. статью Основы построения диаграмм . В файле примера для построения диаграммы рассеяния использована диаграмма График , т.к. мы здесь отступили от требования случайности переменной Х (это упрощает генерацию различных типов взаимосвязей: построение трендов и заданный разброс). В случае реальных данных необходимо использовать диаграмму типа Точечная (см. ниже).

Расчеты корреляции проведем для различных случаев взаимосвязи между переменными: линейной, квадратичной и при отсутствии связи .

Примечание : В файле примера можно задать параметры линейного тренда (наклон, пересечение с осью Y) и степень разброса относительно этой линии тренда. Также можно настроить параметры квадратичной зависимости.

В файле примера для построения диаграммы рассеяния в случае отсутствия зависимости переменных использована диаграмма типа Точечная. В этом случае точки на диаграмме располагаются в виде облака.

Примечание : Обратите внимание, что изменяя масштаб диаграммы по вертикальной или горизонтальной оси, облаку точек можно придать вид вертикальной или горизонтальной линии. Понятно, что при этом переменные останутся независимыми.

Как было сказано выше, для расчета коэффициента корреляции в MS EXCEL существует функций КОРРЕЛ() . Также можно воспользоваться аналогичной функцией PEARSON() , которая возвращает тот же результат.

Для того, чтобы удостовериться, что вычисления корреляции производятся функцией КОРРЕЛ() по вышеуказанным формулам, в файле примера приведено вычисление корреляции с помощью более подробных формул:

= КОВАРИАЦИЯ.Г(B28:B88;D28:D88)/СТАНДОТКЛОН.Г(B28:B88)/СТАНДОТКЛОН.Г(D28:D88)

= КОВАРИАЦИЯ.В(B28:B88;D28:D88)/СТАНДОТКЛОН.В(B28:B88)/СТАНДОТКЛОН.В(D28:D88)

Примечание : Квадрат коэффициента корреляции r равен коэффициенту детерминации R2, который вычисляется при построении линии регрессии с помощью функции КВПИРСОН() . Значение R2 также можно вывести на диаграмме рассеяния , построив линейный тренд с помощью стандартного функционала MS EXCEL (выделите диаграмму, выберите вкладку Макет , затем в группе Анализ нажмите кнопку Линия тренда и выберите Линейное приближение ). Подробнее о построении линии тренда см., например, в статье о методе наименьших квадратов .

Использование MS EXCEL для расчета ковариации

Ковариация близка по смыслу с дисперсией (также является мерой разброса) с тем отличием, что она определена для 2-х переменных, а дисперсия – для одной. Поэтому, cov(x;x)=VAR(x).

Для вычисления ковариации в MS EXCEL (начиная с версии 2010 года) используются функции КОВАРИАЦИЯ.Г() и КОВАРИАЦИЯ.В() . В первом случае формула для вычисления аналогична вышеуказанной (окончание обозначает Генеральная совокупность ), во втором – вместо множителя 1/n используется 1/(n-1), т.е. окончание обозначает Выборка .

Примечание : Функция КОВАР() , которая присутствует в MS EXCEL более ранних версий, аналогична функции КОВАРИАЦИЯ.Г() .

Примечание : Функции КОРРЕЛ() и КОВАР() в английской версии представлены как CORREL и COVAR. Функции КОВАРИАЦИЯ.Г() и КОВАРИАЦИЯ.В() как COVARIANCE.P и COVARIANCE.S.

Дополнительные формулы для расчета ковариации :

= СУММПРОИЗВ(B28:B88-СРЗНАЧ(B28:B88);(D28:D88-СРЗНАЧ(D28:D88)))/СЧЁТ(D28:D88)

= СУММПРОИЗВ(B28:B88-СРЗНАЧ(B28:B88);(D28:D88))/СЧЁТ(D28:D88)

= СУММПРОИЗВ(B28:B88;D28:D88)/СЧЁТ(D28:D88)-СРЗНАЧ(B28:B88)*СРЗНАЧ(D28:D88)

Эти формулы используют свойство ковариации :

Если переменные x и y независимые, то их ковариация равна 0. Если переменные не являются независимыми, то дисперсия их суммы равна:

VAR(x+y)= VAR(x)+ VAR(y)+2COV(x;y)

А дисперсия их разности равна

VAR(x-y)= VAR(x)+ VAR(y)-2COV(x;y)

Расчет ковариации роста и падения цен двух видов акций в Excel

Пример 2. В таблице Excel внесены данные роста (положительное число) или падения цены (отрицательное) двух различных ценных бумаг на протяжении 12 месяцев года относительно некоторой начальной величины. Определить ковариацию двух диапазонов данных и сделать выводы. Сделать отчет доступным для пользователей Excel 2007.

Вид исходной таблицы:

В данном примере исследуется вся генеральная выборка. Для расчета можно использовать функцию КОВАРИАЦИЯ.Г, однако результаты не будут доступны для пользователей более старых версий Excel. Применим следующую формулу:

В результате получим:

Это значение свидетельствует о достаточно большой взаимосвязи между исследуемыми значениями. Поскольку число отрицательное, данная взаимосвязь является обратной. То есть, с ростом цены одной акции наблюдается падение цены второй и наоборот. Можно предположить, что эти акции принадлежат двум конкурирующим компаниям.

Статистический анализ ковариации показателей в Excel

Пример 3. В таблице Excel введены данные о спросе на алкогольные напитки, индексе цен и уровне дохода населения государства. Проанализировать взаимосвязи между имеющимися данными.

Вид исходной таблицы данных:

Вначале рассчитаем ковариацию между спросом и индексом цен по формуле:

Полученный результат:

Для оценки степени взаимосвязи двух диапазонов данных удобнее использовать коэффициент корреляции, который можно рассчитать без использования функции КОРРЕЛ следующим способом:

=B12/КОРЕНЬ(ДИСП.Г(B3:B10)*ДИСП.Г(C3:C10))

Функция ДИСП.Г используется для расчета дисперсии генеральной совокупности. Приведенная выше формула наглядно демонстрирует взаимосвязь между коэффициентами ковариации и корреляции.

Полученный результат:

Как видно, между ценами и спросом существует довольно сильная обратная связь. Однако для определения степени влияния спроса определим коэффициент детерминации r2 по формуле:

=СТЕПЕНЬ(B13;2)

Полученное значение, выраженное в процентах:

То есть, примерно 59% вариации спроса за исследуемый период обусловлены изменчивостью цены. Остальные 41% – прочими факторами. А еще одним фактором в данном примере является уровень дохода. Рассчитаем коэффициент корреляции между спросом и доходами с помощью следующей функции:

=КОРРЕЛ(B3:B10;D3:D10)

Результат:

Положительное значение 0,741 соответствует о наличии довольно сильной зависимости между ростом уровня доходов и спросом. Чтобы определить общий коэффициент корреляции и сделать выводы, найдем коэффициент корреляции между индексом цен и уровнем доходов:

=КОРРЕЛ(C3:C10;D3:D10)

Результат:

Имеем не сильно выраженную обратную взаимосвязь. Теперь выполним расчет общего коэффициента корреляции по формуле:

=(B13-B15*B16)/КОРЕНЬ((1-СТЕПЕНЬ(B15;2))*(1-СТЕПЕНЬ(B16;2)))

Результат:

Расчеты показывают, что влияние роста цен на уровень спроса «сглаживается» благодаря росту уровня дохода населения. Корень квадратный из последнего значения, взятого по модулю, равен примерно 91%, показывая, насколько вариация цен определяла вариация спроса на алкогольные напитки, если не брать в учет параллельное изменение уровня дохода.

Проверяем значимость коэффициента корреляции (проверяем гипотезу зависимости).

Поскольку оценка коэффициента корреляции вычислена на конечной выборке, и поэтому может отклоняться от своего генерального значения, необходимо проверить значимость коэффициента корреляции. Проверка производится с помощью t-критерия:
t =
Rx,y
n – 2
1 – R2x,y
( 3.1 )
Случайная величина t следует t-распределению Стьюдента и по таблице t-распределения необходимо найти критическое значение критерия ( tкр.α) при заданном уровне значимости α. Если вычисленное по формуле ( 3.1 ) tпо модулю окажется меньше чем tкр.α, то зависимости между случайными величинами X и Y нет. В противном случае, экспериментальные данные не противоречат гипотезе о зависимости случайных величин.

Вычислим значение t-критерия по формуле ( 3.1 ) получим:

t =
-0.34591
11 – 2
1 – ( -0.34591)2
= -1.10601

Определим по таблице t-распределения критическое значение параметра tкр.α
Искомое значение tкр.α располагается на пересечении строки соответствующей числу степеней свободы и столбца соответствующего заданному уровню значимости α.
В нашем случае число степеней свободы есть n – 2 = 11 – 2 = 9 и α= 0.05 , что соответствует критическому значению критерия tкр.α = 2.262 (см. табл. 3)

Таблица 3 t-распределение
Число степеней свободы
( n – 2 )
α = 0.1 α = 0.05 α = 0.02 α = 0.01 α = 0.002 α = 0.001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291

Сравним абсолютное значение t-критерия и tкр.α
Абсолютное значение t-критерия меньше критического 1.1060141716536 зависимости между случайными величинами X и Y нет.

Вычисляем коэффициенты уравнения линейной регрессии.

Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость между случайными величинами X и Y. Если считать, что величина X свободная, а Y зависимая от Х, то уравнение регрессии запишется следующим образом

Y = a + b•X ( 4.1 ), где:
b = Rx,y
σy
σx
= Rx,y
Sy
Sx
( 4.2 ),

a = My – b•Mx ( 4.3 )

Рассчитанный по формуле ( 4.2 ) коэффициент b называют коэффициентом линейной регрессии. В некоторых источниках a называют постоянным коэффициентом регрессии и b соответственно переменным.
Погрешности предсказания Y по заданному значению X вычисляются по формулам :
σy/x = σy
1-R2x,y
= Sy
1-R2x,y
( 4.4 ) – абсолютная погрешность,
δy/x =
σy/x
My
100% ( 4.5 ) – относительная погрешность

Величину σy/x (формула 4.4 ) еще называют остаточным средним квадратическим отклонением, оно характеризует уход величины Y от линии регрессии, описываемой уравнением ( 4.1 ), при фиксированном (заданном) значении X.

 Вычислим отношение
σy2
σx2
.

σy2 / σx2 = 5.42149 / 14.72727 = 0.36813

 Вычислим отношение
σy
σx
.

Извлечем из последнего числа квадратный корень – получим:
σy / σx = 0.60673

 Вычислим коэффициент b по формуле ( 4.2 )
b = -0.34591 • 0.60673 = -0.20988

Вычислим коэффициент a по формуле ( 4.3 )
a = 13.18182 – ( -0.20988 • 51.00000) = 23.88552

Оценим погрешности уравнения регрессии.
Извлечем из σy2 квадратный корень получим:

σy =
5.42149
= 2.32841 ;

Возведем в квадрат R x,yполучим:
R2x,y = -0.345912 = 0.11966
Вычислим абсолютную погрешность (остаточное среднее квадратическое отклонение) по формуле ( 4.4 )

σy/x = 2.32841
1 – 0.11966
= 2.18467

Вычислим относительную погрешность по формуле ( 4.5 )
δy/x = ( 2.18467 / 13.18182)100% = 16.57335%

ОТВЕТ: Уравнение линейной регрессии имеет вид: Y = 23.88552 -0.20988 X ( 4.6 )
Погрешности уравнения: σy/x = 2.18467 ; δy/x = 16.57335%

Центрирование и нормирование одномерных координат

Разминку проведем на простом и всем понятном — центрировании и нормировании данных. Пусть у нас есть ряд чисел . Тогда операция центрирования сводится к нахождению среднего (центроида набора)
и построению нового набора как разности между исходными числами и их центроидом (средним):
Центрирование — это первый шаг к собственной системе координат (ССК) исходного набора, поскольку сумма центрированных координат равна 0. Вторым шагом является нормирование суммы квадратов центрированных координат к 1. Для выполнения данной операции нам нужно вычислить эту сумму (точнее среднее):

Теперь мы можем построить ССК исходного набора как совокупность собственного числа S и нормированных чисел (координат):

Квадраты расстояний между точками исходного набора определяются как разности квадратов компонент собственного вектора, умноженные на собственное число. Обратим внимание на то, что собственное число S оказалось равно дисперсии исходного набора (7.3).
Итак, для любого набора чисел можно определить собственную систему координат, то есть выделить значение собственного числа (она же дисперсия) и рассчитать координаты собственного вектора путем центрирования и нормирования исходных чисел. Круто.
Упражнение для тех, кто любит «щупать руками». Построить ССК для набора {1, 2, 3, 4}.

Ответ.
Собственное число (дисперсия): 1.25.
Собственный вектор: {-1.342, -0.447, 0.447, 1.342}.

Центрирование и ортонормирование многомерных координат

Что, если вместо набора чисел нам задан набор векторов — пар, троек и прочих размерностей чисел. То есть точка (узел) задается не одной координатой, а несколькими. Как в этом случае построить ССК?
Да, можно построить матрицу квадратов расстояний, потом определить матрицу девиации и рассчитать для нее спектр. Но об этом мы узнали не так давно. Обычно поступали (и поступают) по другому.
Введем обозначение компонент набора. Нам заданы точки (узлы, переменные, векторы, кортежи)  и каждая точка характеризуется числовыми компонентами. Обращаем внимание, что второй индекс  — это номер компоненты (столбцы матрицы), а первый индекс — номер точки (узла) набора (строки матрицы).
Что мы делаем дальше? Правильно — центрируем компоненты. То есть для каждого столбца (компоненты) находим центроид (среднее) и вычитаем его из значения компоненты:
Мы получили матрицу центрированных данных (МЦД) .
Следующим шагом нам как будто бы надо вычислить дисперсию для каждой компоненты и их нормировать. Но мы этого делать не будем. Потому что хотя таким образом мы действительно получим нормированные векторы, но нам-то нужно, чтобы эти векторы были независимыми, то есть ортонормированными. Операция нормирования не поворачивает вектора (а лишь меняет их длину), а нам нужно развернуть векторы перпендикулярно друг другу. Как это сделать?
Правильный (но пока бесполезный) ответ — рассчитать собственные вектора и числа (спектр). Бесполезный потому, что мы не построили матрицу, для которой можно считать спектр. Наша матрица центрированных данных (МЦД) не является квадратной — для нее собственные числа не рассчитаешь. Соответственно, нам надо на основе МЦД построить некую квадратную матрицу. Это можно сделать умножением МЦД на саму себя (возвести в квадрат).
Но тут — внимание! Неквадратную матрицу можно возвести в квадрат двумя способами — умножением исходной на транспонированную. И наоборот — умножением транспонированной на исходную. Размерность и смысл двух полученных матриц — разный.
Умножая МЦД на транспонированную, мы получаем матрицу корреляции:
Из данного определения (есть и другие) следует, что элементы матрицы корреляции являются скалярными произведениями центрированных векторов. Соответственно, элементы главной диагонали отражают квадрат длины данных векторов.
Значения матрицы — не нормированы (обычно их нормируют, но для наших целей этого не нужно). Размерность матрицы корреляции совпадает с количеством исходных точек (векторов).
Теперь переставим перемножаемые в (8.1) матрицы местами и получим матрицу ковариации (опять же опускаем множитель 1/(1-n), которым обычно нормируют значения ковариации):

Здесь перемножаются компоненты (а не векторы). Соответственно, размерность матрицы ковариации равна количеству исходных компонент. Для пар чисел матрица ковариации имеет размерность 2×2, для троек — 3×3 и т.д.
Почему важна размерность матриц корреляции и ковариации? Фишка в том, что поскольку матрицы корреляции и ковариации происходят из произведения одного и того же вектора, то они имеют один и тот же набор собственных чисел, один и тот же ранг (количество независимых размерностей) матрицы. Как правило, количество векторов (точек) намного превышает количество компонент. Поэтому о ранге матриц судят по размерности матрицы ковариации.
Диагональные элементы ковариации отражают дисперсию компонент. Как мы видели выше, дисперсия и собственные числа тесно связаны. Поэтому можно сказать, что в первом приближении собственные числа матрицы ковариации (а значит, и корреляции) равны диагональным элементам (а если межкомпонентная дисперсия отсутствует, то равны в любом приближении).
Если стоит задача найти просто спектр матриц (собственные числа), то удобнее ее решать для матрицы ковариации, поскольку, как правило, их размерность небольшая. Но если нам необходимо найти еще и собственные вектора (определить собственную систему координат) для исходного набора, то необходимо работать с матрицей корреляции, поскольку именно она отражает перемножение векторов. Возможно, что оптимальным алгоритмом является сочетание диагонализаций двух матриц — сначала нашли собственные числа для ковариации и потом на их основе определили собственные вектора матрицы корреляции.
Ну и раз уж мы так далеко зашли, то упомянем, что пресловутый метод главных компонент как раз и состоит в расчете спектра матрицы ковариации/корреляции для заданного набора векторных данных. Найденные компоненты спектра располагаются вдоль главных осей эллипсоида данных. Из нашего рассмотрения это вытекает потому, что главные оси — это и есть те оси, дисперсия (разброс) данных по которым максимален, а значит, и максимально значение спектра.

Определение независимости для случайных величин.

Две случайные величины X и Y независимы тогда и только тогда, когда:

( P(X,Y) = P(X)P(Y) ).

Например, учитывая независимость, P(3,2) = P(3)P(2).

Мы умножаем отдельные вероятности, чтобы получить совместные вероятности. Независимость является более сильным свойством, чем некоррелированность, потому что корреляция касается только линейных зависимостей.

Следующее правило распространяется на независимые случайные величины и, следовательно, также на некоррелированные случайные величины.

Правило умножения для ожидаемого значения произведения некоррелированных случайных величин.

Ожидаемое значение произведения некоррелированных случайных величин является произведением их ожидаемых значений.

( E(XY) = E(X) E(Y) ),
если X и Y не коррелированны.

Многие финансовые переменные, такие как выручка (цена, умноженная на количество), являются произведением случайных величин. Когда это применимо, приведенное выше правило упрощает расчет ожидаемого значения произведения случайных величин.

В противном случае расчет зависит от условного ожидаемого значения; расчет может быть выражен как ( E(XY) = E (X) E(Y|X) ).

Ключевые различия между ковариацией и корреляцией

Следующие пункты заслуживают внимания, поскольку речь идет о разнице между ковариацией и корреляцией:

  1. Мера, используемая для указания степени изменения двух случайных переменных в тандеме, называется ковариацией. Мера, используемая для представления, насколько сильно связаны две случайные величины, известная как корреляция.
  2. Ковариация – это не что иное, как мера корреляции. Наоборот, корреляция относится к масштабированной форме ковариации.
  3. Значение корреляции имеет место между -1 и +1. Наоборот, значение ковариации лежит между -∞ и + ∞.
  4. На ковариацию влияет изменение масштаба, т.е. если все значение одной переменной умножается на постоянную, а все значение другой переменной умножается на аналогичную или другую постоянную, то ковариация изменяется. В отличие от этого, на корреляцию не влияет изменение масштаба.
  5. Корреляция безразмерна, т. Е. Это единичная мера взаимосвязи между переменными. В отличие от ковариации, где значение получается произведением единиц двух переменных.

сходства

Оба измеряют только линейные отношения между двумя переменными, то есть когда коэффициент корреляции равен нулю, ковариация также равна нулю. Кроме того, две меры не зависят от изменения местоположения.

Заключение

Корреляция – это особый случай ковариации, который может быть получен при стандартизации данных. Теперь, когда дело доходит до выбора, который является лучшей мерой взаимосвязи между двумя переменными, корреляция предпочтительнее ковариации, поскольку она не зависит от изменения местоположения и масштаба, а также может использоваться для сравнения между две пары переменных.


Источники


  • https://excel2.ru/articles/korrelyaciya-i-kovariaciya-v-ms-excel
  • https://exceltable.com/funkcii-excel/primery-raschetov-kovariacii
  • http://www.math-pr.com/exampl_sts4.htm
  • https://habr.com/post/263907/
  • https://fin-accounting.ru/cfa/l1/quantitative/cfa-portfolio-expected-return-covariance-correlation
  • https://ru.gadget-info.com/difference-between-covariance

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Все об Экселе: формулы, полезные советы и решения