інформаційно-аналітичний портал Українського агентства фінансового розвитку
на головну
Математичний апарат для інвестора.
Методика статистичного аналізу і прогнозування

А. Горчаков

При статистичному дослідженні фінансово-економічних показників в ході аналізу обчислюють прості характеристики динаміки їх розвитку, виявляють закономірності минулого розвитку і оцінюють можливість їх перенесення на майбутнє. Для успішного вирішення вказаного завдання треба:

1. Мати необхідний для прояву статистичних закономірностей обсяг даних (для річних спостережень - не менше 5 рівнів, для сезонних процесів - не менше трьох періодів сезонності);
2. Забезпечити методологічну зіставність даних;
3. На основі змістовного аналізу досліджуваного показника обґрунтувати можливість перенесення закономірностей минулого на обраний період прогнозування;
4. За допомогою даної програми отримати адекватну математичну модель і на її основі побудувати локальні та інтервальні прогнози.
У разі невиконання етапів (1-3) використовувати математичні методи немає сенсу.
Основною формою надання статистичної інформації є часові ряди (ЧР) спостережень, тобто ряди динаміки, у яких за ознаку впорядкування береться час. ЧР, що складається з N рівнів x(1), x(2) ... x(N), може бути записаний в компактній формі: X(t) t=1,2...N, тобто t - порядковий номер спостереження.
Статистичні методи дослідження виходять з припущення про можливість представлення рівнів ряду у вигляді суми декілька компонент, що відображають закономірність і випадковість розвитку, зокрема, у вигляді суми декілька компонент:
Х(t)= f(t)+ S(t)+E(t)(1.1), де f(t) - тренд (довготривала тенденція) розвитку;
S(t) - сезонна компоненту;
E(t) - залишкова компоненту.
Тренд являє собою стійку зміну показника протягом тривалого часу. Він виражається аналітичною функцією, що використовується для формування прогнозних оцінок.
Сезонна компоненту характеризує стійкі внутрішньорічні коливання рівнів. Вона виявляється в деяких показниках, що представлені квартальними або місячними даними. Наявність стійких коливань в добових або тижневих даних може розглядатися як циклічна і відображається сезонною компонентою.
Залишкова компоненту є розбіжністю між фактичними і розрахунковими значеннями. Якщо побудована адекватна модель, то E(t) близька до 0, випадкова, незалежна, така, що підкоряється нормальному закону розподілу компонентою. Інакше модель є поганою.
Основною метою статистичного аналізу часових рядів є вивчення співвідношення між закономірністю і випадковістю у формуванні значень рівнів ряду, оцінка кількісної міри їх впливу. Закономірності, що пояснюють динаміку показника у минулому, можуть бути використані для прогнозування його значень у майбутньому, а урахування
випадковості дозволяє визначити вірогідність відхилення від закономірного розвитку і їх можливу величину.
Формування рівнів ряду визначається закономірностями трьох основних типів: інерцією тенденції, інерцією взаємозв'язку між послідовними рівнями ряду і інерцією взаємозв'язку між досліджуваним показником і показниками-чинниками, що впливають на нього. Відповідно, розрізняють завдання аналізу і моделювання тенденцій; взаємозв'язку між послідовними рівнями ряду; причинних взаємодій між досліджуваним показником і показниками-чинниками. Перша з них вирішується за допомогою методів компонентного аналізу, друга - за допомогою адаптивних методів і моделей, а третя - на основі економетричного моделювання, що ґрунтується на методах кореляційно-регресивного аналізу.
Статистичний аналіз здійснюється в такій послідовності:
1. Постановка завдання і підбір початкової інформації.
2. Попередній аналіз початкових часових рядів і формування набору моделей прогнозування.
3. Чисельне оцінювання параметрів моделей.
4. Визначення якості моделей (адекватності і точності).
5. Вибір однієї кращої або побудова узагальненої моделі.
6. Отримання локального та інтервального прогнозів.
7. Змістовний коментар отриманого прогнозу.
На першому етапі формулюється мета дослідження здійснюється змістовний (логічний і економічний) аналіз досліджуваного процесу; вирішується питання про вибір показника, що характеризує його якнайповніше; визначаються показники, що впливають на хід розвитку; визначається найбільш розумний період попередження прогнозу (горизонт прогнозування, тобто на скільки кроків вперед робиться прогноз).
Оптимальний горизонт прогнозування визначається індивідуально для кожного показника на основі обґрунтованої думки про його стабільність і з урахуванням статистичного коливання даних. Він, як правило, не перевищує 1/3 обсягу даних.
Попередній аналіз даних має на меті визначення відповідності наявних даних вимогам, що пред'являються до них математичними методами (об'єктивності, зіставності, повноти, однорідності і стійкості); будується графік динаміки, і розраховуються основні динамічні характеристики (прирости, темпи зростання, темпи приросту, коефіцієнти автокореляції).
Набір моделей (початкова база моделей) формується на основі інтуїтивних прийомів (таких, наприклад, як аналіз графіка динаміки ряду), формалізованих статистичних процедур (дослідження приростів рівнів), виходячи з цілей дослідження і якості наявної інформації, а також змістовного аналізу.
Перевага віддається найбільш простим моделям, які можуть бути змістовно інтерпретовані. При використанні потужних ПЕОМ цю проблему можна перекласти на програми, доручивши провести обчислення по всіх доступних моделях і методах.
Метод найменших квадратів (МНК) лежить в основі чисельного оцінювання параметрів моделей кривих зростання. Параметри адаптивних методів оцінюються з використанням спеціальних процедур багатовимірної чисельної оптимізації. У всіх випадках основна ідея оцінки параметрів полягає в якнайкращому, тобто максимальному наближенні моделі до початкових даних. Екстраполяційні методи прогнозування будують моделі кривих зростання і адаптивні моделі, що використовують лише один чинник - "час". Цей чинник є умовним представником всієї сукупності причинних чинників, що впливають на показник, який нас цікавить. Криві зростання виходять з рівноцінності всіх даних і відображають загальну тенденцію розвитку, а адаптивні моделі і методи виходять з більшої значущості останніх спостережень і краще відображають динаміку зміни. Потенційно могутнішим інструментом прогнозування є моделі Бокса-Дженкінса і ОЛІМП. Тому саме вони складають основу робочої бази моделей. Кожна побудована модель заноситься в базу моделей. Максимальна кількість моделей в базі моделей обмежена 20 (у поточній версії). Якщо робоча база моделей заповнена (побудовано понад двадцять моделей), то знов побудована модель порівнюється з якнайгіршою моделлю і витісняє її, якщо нова модель має кращі характеристики якості. Внутрішня інформація бази моделей включає (для кожної моделі): тип моделі; кількість і значення параметрів побудованої моделі; вектор залишків; вектор прогнозів (включаючи межі) і низку інших.
Інформація, що міститься в робочій базі моделей, служить основою для побудови прогнозу як по кращій моделі, так і при формуванні узагальненого прогнозу. Методика вимірювання якості моделей у поєднанні з високою швидкодією сучасних обчислювальних машин дозволяє за короткий час проглядати велику кількість моделей і залишати з них якнайкращі.
Якість моделі з формально-статистичної точки зору оцінюється на основі її адекватності і точності. Адекватність моделей оцінюється шляхом дослідження властивостей залишкової компоненти, тобто розбіжностей, розрахованих по моделі рівнів і фактичних спостережень. Точність моделі характеризує рівень близькості розрахункових даних до фактичних. На основі характеристик точності і адекватності розраховується узагальнений показник якості моделі, що використовується для визначення кращої моделі.
Як прогнозна модель може бути вибрана краща модель з числа побудованих, або на основі декількох моделей сформована узагальнена модель (див. “Побудова узагальненого прогнозу").
При виборі кращої моделі слід враховувати не тільки формальні статистичні характеристики, але й інтерпретованість їх траєкторії розвитку із змістовної точки зору. У разі неспівпадання результатів вибору по статистичному і змістовному критеріях перевага віддається останньому.
На основі побудованої моделі розраховуються локальний та інтервальний прогноз. Екстраполяція лежить в основі локального прогнозу. Він формується шляхом підстановки в модель (рівняння тренда) відповідного значення чинника "Час", тобто t=N+1, N+2...N+k. Інтервальні прогнози будуються на основі локальних.
Довірча вірогідність прогнозу характеризує рівень впевненості в потраплянні прогнозованої величини в побудований інтервал прогнозування. Вона змінюється в межах від 0 до 100%. і задається користувачем. Слід пам'ятати, що при її збільшенні інтервальний прогноз розширюється, і тому корисність прогнозу обернено пропорційна довірчій вірогідності. Можна побудувати прогноз, який відбудеться з вірогідністю 99%, проте з практичної точки зору він буде даремний (наприклад, прогноз погоди: очікується температура повітря від 5 до 25 градусів - не дає необхідної інформації для прийняття правильного рішення про форму одягу). З математичної точки зору довірчою вірогідністю для розрахунку прогнозу можна користуватися лише при отриманні адекватної математичної моделі.
Після отримання прогнозних оцінок необхідно переконатися в їх доцільності і несуперечності. Отриманий прогноз має бути підданий критичному розгляду з метою виявлення можливих суперечностей відомим фактам і уявленням про характер розвитку на періоді попередження прогнозу. Як засіб оцінки ефективності математичного апарату при дослідженні конкретних процесів часто застосовують ретропрогноз. За наявності даних про динаміку інших показників можна побудувати модель їх впливу на основний досліджуваний показник і у разі її високої якості отримати прогнозні оцінки. Для формування набору чинників окрім змістовних аспектів необхідно враховувати формально - статистичні, які грунтуються на коефіцієнтах кореляції. Отже, перед регресивним аналізом необхідно скористатися кореляційним аналізом, а при необхідності отримання прогнозів ще й екстраполяційними моделями.

Середнє значення:
Середньоквадратичне відхилення (СКВ):  
Дисперсія:
Незміщена оцінка дисперсії:
Середньоквадратичне відхилення для незміщеної оцінки дисперсії:
Середнє лінійне відхилення:
Моменти початкові:  
2-го порядку:
3-го порядку:
4-го порядку:
Моменти центральні:  
3-го порядку:
4-го порядку:
Коефіцієнт асиметрії:
Незміщена оцінка коефіцієнта асиметрії:
Середньоквадратичне відхилення (СКВ) коефіцієнта асиметрії:
Показник ексцесу:
Незміщена оцінка:
Середньоквадратичне відхилення:

2. Дескриптивна статистика
Початкові дані можуть бути охарактеризовані простими методами описової статистики. Вони дозволяють отримати уявлення про особливості досліджуваного показника і перспективності використання глибших методів аналізу.
Нижче наводяться формули обчислення основних характеристик даних, у яких xi, - чисельні значення спостережень змінної X, i=1,2,...,n.
Коефіцієнти асиметрії і ексцесу дозволяють зробити попередні
висновки про наближення розподілу, що вивчається, до нормального. Розподіл прийнято вважати нормальним, якщо виконуються умови: As ≤ 3SA і E ≤ 5SE
Для вивчення просторових даних використовується технологія їх агрегації шляхом побудови інтервального ряду. Ширина інтервалу для угрупування (Н) визначається таким чином:      

де L - кількість інтервалів (округляється у більший бік);
n - число членів ряду.
Якщо встановлено відповідний параметр, то змінюється значення H і перераховується L. Кожен j-й інтервал (j = 1...L) характеризується певною частотою і частістю попадання в нього відповідних спостережень заданого ряду.

Коефіцієнти варіації:  
- за розмахом:
- за середнім лінійним відхиленням:
- за середньоквадратичним відхиленням:
Медіана (висхідний ряд вважається відсортованим)
Мода - Значення Х, що спостерігається найчастіше
Мінімальне значення ряду Xmin
Максимальне значення ряду Xmax
Розмах R=Xmax-Xmin

Таблиця інтервального ряду розподілів містить розподіл даних на інтервали, числову характеристику інтервалу (початок, середину і кінець), а також частоту і частість спостережень.
В якості характеристик інтервального ряду використовуються: середнє значення; дисперсія; среднеквадратичне відхилення; коефіцієнти асиметрії і ексцесу; мода і медіана.
Сенс і призначення цих характеристик співпадає з варіаційними характеристиками, а формули обчислення містять компоненту, що враховує частоту попадання спостережень в інтервали.

Бутстреп-оцінки
Сутність методу зводиться до доповнення даних фактичних спостережень даними чисельного моделювання. При цьому моделювання проводиться тільки в рамках фактичних даних. Вхідні параметри методу:
{X 1, X 2 ..., X n } - початкова вибірка;
k - кількість модельованих вибірок (k>50);
p - імовірнісний рівень оцінки математичного очікування (рекомендовані значення 0.7-0.9).
Вирішується завдання оцінки математичного очікування для малої вибірки за наступним алгоритмом:
1. Моделювання вибірок з використанням датчика натуральних чисел, рівномірно розподілених в інтервалі від 1 до n:

2. Для кожної вибірки V шукається оцінка математичного очікування:

3. Для варіаційного ряду математичних очікувань вибірки будується інтервальний ряд, як описано в попередньому розділі.
4. З хвостів побудованого інтервального ряду відсікаються інтервали так, щоб сумарна частина відкинутих інтервалів не перевершувала (1-р). Інтервали, що залишилися, визначають інтервальну оцінку математичного очікування.
© 2003-2009  Українське агентство фінансового розвитку Дизайн та розробка порталу
студія web-дизайну "Золота рибка"