Excel - это просто!

A+ A A-

Как рассчитать корреляцию в Microsoft Excel

Вы уже сталкивались с необходимостью рассчитать степень связи двух статистических величин и определить формулу, по которой они коррелируют? Нормальный человек может спросить, зачем это вообще может быть нужно. Как ни странно, это действительно бывает нужно. Знание достоверных корреляций может помочь вам зарабатывать бешенные деньги, если вы, скажем, биржевой трейдер. Проблема в том, что почему-то эти корреляции никто не раскрывает (удивительно, не правда ли?).

Давайте посчитаем их сами! Для примера, я решил попробовать посчитать корреляцию рубля к доллару через евро. Давайте разберем, как это делается подробно.

Эта статья рассчитана на продвинутый уровень владения Microsoft Excel. Если у вас нет времени читать всю статью, вы можете скачать файл и разобраться с ним самостоятельно.

Если вы часто сталкиваетесь с необходимостью сделать что-то подобное, настоятельно рекомендую подумать о покупке книги Статистические вычисления в среде Excel.

Что важно знать о корреляциях

Чтобы рассчитать достоверную корреляцию, необходимо иметь достоверную выборку, чем больше она будет, тем достовернее будет результат. Для целей данного примера я взял ежедневную выборку курсов валют за 10 лет. Данные есть в свободном доступе, я их брал с сайта http://oanda.com.

Что я, собственно, сделал

(1) Когда у меня были исходные данные, я начал с того, что проверил степень корреляции этих двух наборов данных. Для этого я воспользовался функцией CORREL (КОРРЕЛ) - о ней есть немного информации здесь. Она возвращает степень корреляции двух диапазонов данных. Результат, прямо скажем, получился не особенно впечатляющим (всего около 70%). А вообще говоря, степень соотношения двух величин принято считать, как квадрат этой величины, то есть корреляция получилась достоверной приблизительно на 49%. Это очень мало!

(2) Мне это показалось очень странным. Какие ошибки могли закрасться в мои расчеты? Поэтому я решил построить график и посмотреть, что могло произойти. График был простоен специально с разбивкой по годам, чтобы можно было визуально увидеть, где рвет корреляцию. График получился вот таким

(3) Из графика очевидно, что на диапазоне около 35 рублей за евро корреляцию начинает рвать на две части. Из-за этого она и получилась недостоверной. Необходимо было определить в связи с чем это происходит.

(4) По цвету видно, что эти данные относятся к 2007, 2008, 2009 годам. Конечно! Периоды экономических пиков и спадов обычно недостоверны статистически, что и произошло в данном случае. Поэтому я попробовал исключить из данных эти периоды (ну и для проверки, я проверрил степень корреляции данных в этом периоде). Степень корреляции только этих данных составляет 0.01%, то есть она отсутствует в принципе. Зато без них данные коррелируют приблизительно на 81%. Это уже достаточно достоверная корреляция. Вот график с функцией.

Дальнейшие шаги

Теоретически, функцию корреляции можно уточнить, если перевести ее из линейной в экспоненциальную или логарифмическую. При этом статистическая достоверность корреляции вырастает приблизительно на один процент, но сложность применения формулы повышается неимоверно. Поэтому для себя я ставлю вопрос: а нужно ли это на самом деле? Решать вам - для каждого конкретного случая.

Вывод

Анализ данных и графиков корреляции позволяет улучшить ее достоверность очень существенно. Основываясь на полученных результатах можно сказать, что курсы коррелируют в периоды нормальной экономики (не на пике и дне) на 81% по формуле EUR/RUR=23.279EUR/USD + 7.2776.

Расчеты вы можете посмотреть, скачав файл внизу.

Читайте также, что делать, если статистически достоверная корреляция не получается даже после танцев с бубном и о том, как вынести формулу корреляции в ячейку на листе Microsoft Excel.
Если вы часто сталкиваетесь с подобными задачами в работе, я настоятельно рекомендую вам обратить внимание на эту книгу. Она описывает широкий круг вопросов, связанных со статистическими обработками, прогнозированием, моделированием в Excel на живых рабочих примерах.
Читайте также про графический факторный анализ с помощью графиков-водопадов (Waterfall charts) и графиков-торнадо (tornado charts).

Последние новости

Как быстро удалить тысячи строк из громадной таблицы по филь…

Пошаговая инструкция по удалению множества строк, которые перемешаны в огромном массиве данных. Так, чтобы компьютер не ...

О нас

Напишите мне edward@youcanexcel.ru

О проекте

Копирование материалов сайта разрешено только с согласия владельца с размещением ссылки на источник.

Веб-сайт оптимизирован под разрешение не менее 1024x768.

Сайт отражается некорректно? Должно быть вы пользуетесь Internet explorer. Установите себе хороший браузер!