інформаційно-аналітичний портал Українського агентства фінансового розвитку
на головну
Математичний апарат для інвестора.
Кореляційний та регресійний аналіз

А. Горчаков

КОРЕЛЯЦІЙНИЙ АНАЛІЗ

Основними завданнями кореляційного аналізу є:
- вимірювання рівня зв'язку двох чи більше явищ;
- відбір чинників, що найбільш істотно впливають на результативну ознаку на підставі вимірювання ступеня зв'язку між явищами;
- виявлення раніше невідомих причинних зв'язків. Кореляція безпосередньо не виявляє причинних зв'язків між явищами, але встановлює чисельне значення цих зв'язків і достовірність думок про їх наявність.
При проведенні кореляційного аналізу сукупність даних розглядається як безліч змінних (чинників), кожна з яких містить n спостережень; xik – спостереження i змінної k; – середнє значення k-ї змінної; i=1,...,n.
Основними засобами аналізу є:
- парні коефіцієнти кореляції;
- часткові коефіцієнти кореляції;
- множинні коефіцієнти кореляції. Парні коефіцієнти кореляції опосередковано враховують вплив інших чинників. Для виключення цього впливу визначають часткові коефіцієнти кореляції.

Парні коефіцієнти кореляції
Парний коефіцієнт кореляції між k-м і L-м чинниками обчислюється за формулою:

Він є показником тісноти лінійного статистичного зв'язку, але тільки у разі спільного нормального розподілу випадкових величин, вибірками яких є k-й і L-й чинники.
За таких умов для перевірки гіпотези про рівність нулю парного коефіцієнта кореляції використовується t-статистика, розподілена згідно із законом Стьюдента з n-2 ступенями свободи. У програмі для парного коефіцієнта кореляції спочатку розраховується критичне значення t-статистики, а на його основі критичне значення коефіцієнта кореляції

Якщо розрахункове значення більше критичного, то гіпотеза про рівність нулю даного коефіцієнта кореляції заперечується на відповідному рівні імовірності. Аналогічні висновки мають місце при перевірці значущості часткових коефіцієнтів кореляції.

Часткові коефіцієнти кореляції
Частковий коефіцієнт кореляції першого порядку між k-м і L-м чинниками характеризує тісноту їх лінійного зв'язку при фіксованому значенні j-го чинника. Він визначається як

Він розподілений аналогічно парному коефіцієнту за таких самих передумов, і для перевірки його значеннєвості використовується t-статистика, в якій число ступенів свободи дорівнює n-3. У програмі частковий коефіцієнт кореляції розраховується в загальному вигляді, тобто за умови, що решта всіх змінних - фіксовані:

Тут Dij — визначник матриці, утвореної з матриці парних коефіцієнтів кореляції викреслюванням i-го рядка і j-го стовпчика. Для кожного часткового коефіцієнта кореляції аналогічно парному розраховується t-значення для перевірки значущості коефіцієнта, а також довірчі інтервали. При цьому дисперсія z- перетвореної величини дорівнюватиме 1/(n-L-3) , де L- число фіксованих змінних (у програмі L=m-2).

Множинні коефіцієнти кореляції
Для визначення тісноти зв’язку між поточною k-ю змінною і змінними, що залишились, використовується вибірковий множинний коефіцієнт кореляції:

де D - визначник матриці парних коефіцієнтів кореляції.
Для перевірки статистичної значущості коефіцієнта множинної кореляції використовується величина:

що має F-розподіл з L і (n-L-2) рівнями волі відповідно.
Якщо розраховане F-значення більше значення F-розподілу на відповідному рівні імовірності (0.9 і вище), то гіпотеза про лінійний зв'язок між k-ю змінною і рештою змінних не заперечується. У програмі для кожного коефіцієнта множинної кореляції виводиться F-значення і процентна точка F-розподілу, яка йому відповідає.

РЕГРЕСІЙНИЙ АНАЛІЗ
У регресійному аналізі вирішуються такі завдання:
- встановлення форм залежності (позитивна, негативна, лінійна, нелінійна);
- визначення функції регресії. Важливо не тільки вказати загальну тенденцію зміни залежної змінної, але і з'ясувати, якою була б дія на залежну змінну головних чинників - причин, якби інші (другорядні, побічні) чинники не змінювалися б (знаходилися б на одному і тому ж середньому рівні), і якщо були б виключені випадкові елементи;
- оцінка невідомих значень залежної змінної.
Рівняння множинної лінійної регресії має вигляд:

У кожному виді регресійного аналізу необхідно вибрати залежну змінну Y (для якої будується рівняння регресії) і одну або декілька незалежних змінних xi (i=1,2...m). Це рівняння дозволяє встановити статистичний взаємозв'язок показників, що вивчаються, і, у разі його стійкості, давати аналітичні і прогнозні оцінки.
На базовому періоді часу будується рівняння регресії залежної змінної. Далі проводиться розрахунок прогнозних значень залежної змінної по розрахованому рівнянню регресії. При цьому для всіх регресорів наперед повинні бути отримані їх прогнозні оцінки і дописані в кінець початкових даних. Для залежної змінної в таблицю початкових даних на глибину періоду прогнозування необхідно дописати нульові значення.

Лінійна множинна регресія
У лінійному регресійному аналізі розглядається залежність випадкової величини Y від низки початкових чинників (регресорів) X1, X2,..., Xm, яка через вплив неврахованих чинників буде стохастичною. У матричному записі вона має вигляд:
Y = Х +
де Y – вектор значень змінної;
X – матриця незалежних змінних;
- вектор параметрів, що підлягає визначенню;
- вектор випадкових відхилень.
У регресійному аналізі діють наступні припущення:
           
     
матриця X детермінована і її стовпці лінійно незалежні.
МНК-оцінки знаходяться із умови мінімуму функціонала: .
Оцінки параметрів мають вигляд: і є незміщеними та ефективними.
Нехай - емпірична апроксимуюча регресія. Тоді елементи вектора називаються залишками. Аналіз залишків дозволяє визначити якість побудованого рівняння регресії.

Покрокова регресія
Покрокова регресія є одним з методів визначення найкращої підмножини регресорів для пояснення Y. Реалізується покрокова процедура з послідовним включенням змінних в рівняння регресії.
Нехай в рівняння регресії включено L змінних, тобто зроблено L кроків алгоритму, і здійснюється L+1 крок. Основне питання, що вирішується на кожній ітерації, — це те, яку змінну включати в рівняння регресії.
Для кожної змінної регресії, за винятком змінних, які вже включені в модель, розраховується величина Cj, що дорівнює відносному зменшенню суми квадратів залежної змінної. При включенні змінної в рівняння регресії вона інтерпретується як частка дисперсії незалежної змінної, яку пояснює j-а змінна, що залишилася. Нехай k – номер змінної, що має максимальне значення j-го елементу. Тоді якщо Ck<p, де p - наперед визначена константа, то аналіз змінних припиняється, і більше змінних не вводиться в модель. Інакше k змінна вводиться в рівняння регресії. Константа p є параметром методу і може бути змінена користувачем.

Гребінева регресія
Гребінева регресія заснована на гребіневих оцінках, спрямованих на оцінювання множинних лінійних регресій в умовах мультиколлінеарності, тобто значної кореляції незалежних змінних. Як відомо, наслідком мультиколлінеарності є погана обумовленість матриці X’X і нескінченне зростання з цієї причини дисперсії оцінок лінійної регресії.
Матриця X’X регуляризується шляхом додавання малого позитивного числа до діагональних елементів. У програмі реалізовано алгоритм побудови однопараметричної гребіневої оцінки вигляду:
     
де k — параметр регуляризації;
D - матриця регуляризації, у якості якої може бути вибрана одинична матриця або діагональна матриця, складена з діагональних елементів матриці X’X.
Для автоматичного розрахунку параметра k вибрана формула
k=ms/a’a
де а — вектор оцінок регресії по МНК
s — оцінка залишкової дисперсії по МНК.
Проте, користувач має можливість довільно змінювати значення параметра регуляризації.

Парна регресія
Парна регресія встановлює зв'язок між відгуком Y і функцією, залежною від однієї вхідної змінної X, тобто регресія має вигляд: Y = f(X).
Функції f, включені в парну регресію в даному пакеті, задовольняють дві основні умови: вони поширені в практиці економічних досліджень, кожне з рівнянь регресії шляхом перетворень типу логарифмування і зведення до ступеня зводиться до лінійної моделі.
Для реалізації функції парної регресії необхідно вибрати змінну Y (залежна змінна), змінну X (пояснююча змінна), а також сформувати список функцій парної регресії.

Модель Перетворення Матриці
X Y
логарифмування
немає -
логарифмування
немає -
немає
логарифмування
немає -
немає -

Основні функції парної регресії і відповідні перетворення наведені в таблиці:

Модель Перетворення Матриці
X Y
немає -
немає -
немає -
зведення у ступінь (-1)
зведення у ступінь (-1)
логарифмування
немає -
логарифмування

Для кожної функції із списку будуть знайдені оцінки регресії методом найменших квадратів, а також розрахований критерій. Критерієм є величина:

де k – число оцінюваних параметрів функції.
Функція, якій відповідає мінімальне значення критерію, вважається оптимальною. Для неї розраховуються всі параметри і результати виводяться в протокол “Регресійний аналіз".

Економічна інтерпретація результатів
За допомогою коефіцієнтів регресії не можна зіставити чинники за рівнем їх впливу на залежну змінну через відмінності одиниць вимірювання і рівня коливання. Для усунення цього застосовується:
- коефіцієнт еластичності;
- дельта-коефіцієнт;
- бета-коефіцієнт.
Як за допомогою приватних коефіцієнтів еластичності, так і за допомогою бета-коефіцієнтів можна проранжувати чинники за рівнем їх впливу на залежну змінну, тобто зіставити їх між собою по величині цього впливу. Разом з тим не можна безпосередньо оцінити частку впливу чинника в сумарному впливі всіх чинників. З цією метою використовують дельта-коефіцієнти.

Коефіцієнт еластичності
Для економічної інтерпретації нелінійних зв'язків зазвичай користуються коефіцієнтом еластичності, який характеризує відносну зміну залежної змінної при зміні пояснюючої змінної на 1%. Якщо рівняння регресії має вигляд у = f(x), то коефіцієнт еластичності розраховується як

де — середнє значення змінної x
— середнє значення змінної у.
Похідна береться в точці .
Аналітичні вирази для розрахунку коефіцієнта еластичності з точністю до знаку наведені в таблиці:
Функція Формула коефіцієнта еластичності
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16


Дельта-коефіцієнт
Частка внеску кожного чинника в сумарний вплив усіх чинників дорівнює:
     

R2 — коефіцієнт множинної детермінації;
r i — коефіцієнт парної кореляції між i- м чинником і залежною змінною;
  коефіцієнт.
При коректному аналізі величини дельта-коефіцієнтів позитивні, тобто всі коефіцієнти регресії мають той же знак, що і відповідні парні коефіцієнти кореляції.
Проте, у випадках значної корельованості пояснюючих змінних, деякі дельта-коефіцієнти можуть бути негативними внаслідок того, що відповідний коефіцієнт регресії має знак, протилежний парному коефіцієнту кореляції.

Бета-коефіцієнт
Для усунення відмінностей у вимірюванні і ступені коливання чинників використовується коефіцієнт, або коефіцієнт регресії в стандартизованому вигляді:

де bj — коефіцієнт регресії при j-й змінній;
S j – оцінка середньоквадратичного відхилення j-ї змінної;
S y – оцінка середньоквадратичного відхилення незалежної змінної.
Він показує, на яку частину величини середнього квадратичного відхилення змінюється середнє значення залежної змінної із зміною відповідної незалежної змінної на одне середньоквадратичне відхилення при фіксованому на постійному рівні значенні решти незалежних змінних.
© 2003-2009  Українське агентство фінансового розвитку Дизайн та розробка порталу
студія web-дизайну "Золота рибка"