інформаційно-аналітичний портал Українського агентства фінансового розвитку
на головну
Математичний апарат для інвестора.
Аналіз та прогнозування часових рядів

А. Горчаков

Аналіз часових рядів
Характеристика динаміки
Динаміка зміни досліджуваного показника може бути охарактеризована стосовно якогось базисного (зазвичай першого) спостереження і величиною зміни сусідніх рівнів. У зв'язку з цим обчислюються базисні і ланцюгові характеристики. У якості статистичних характеристик часового ряду Yi, i = використовуються наступні величини:

абсолютний базисний приріст
абсолютний ланцюговий приріст
базисний коефіцієнт росту
ланцюговий коефіцієнт росту
базисний коефіцієнт приросту
ланцюговий коефіцієнт приросту
темп росту
темп приросту
середня арифметична
середній абсолютний приріст
середній темп росту
середній темп приросту
  де N – число рівнів ряду, Yi – рівні ряду

Примітка. Використання показника середньої арифметичної величини для характеристики процесів, представлених часовими рядами з яскраво вираженою тенденцією, є некоректним.

Оцінка наявності тренда
Оцінка наявності тренда в досліджуваному часовому ряду здійснюється за допомогою методів Фостера-Стюарта і середніх відповідно до методики, яка викладена в роботах Четиркина Є.М. У разі суперечності їх висновків перевага надається першому методу.
Відповідно до методу перевірки істотності різниці середніх початковий часовий ряд розбивається на дві однакові (або майже однакові) частини, після чого перевіряється гіпотеза про істотність різниці середніх для цих частин. Недолік методу полягає в неможливості правильно визначити наявність тренда у тому випадку, коли часовий ряд містить точку зміни тенденції в районі середини ряду.
У методі Форстера-Стюарта гіпотеза про відсутність тренда перевіряється за допомогою допоміжних функцій:




Перевіряється гіпотеза про те, що L=0. Для перевірки будується t-статистика: яка має розподіл Стьюдента з T-1 ступенями свободи. Гіпотеза про відсутність тенденції не приймається, якщо розрахункове t-значення більше табличного на вибраному рівні значеннєвості 0.95.
Перевірка однорідності даних
Перевірка однорідності даних зазвичай проводиться на основі критерію Ірвіна, що заснований на порівнянні сусідніх значень ряду. Відповідно до нього розраховується характеристика t:.
Отримані значення порівнюються потім з табличними значеннями. Проте критерій Ірвіна недостатньо ефективний для виявлення аномальності в динамічних рядах, тому що величина у характеризує відхилення значень показника від середнього рівня по всій сукупності спостережень, а значить, він не виявляє викиди усередині ряду спостережень. У програмі використовується модифікований метод, відповідно до якого послідовно розраховуютьс я у не по всій сукупності, а по 3-4 спостереженням, і розраховані з такими ковзаючими значеннями у величини порівнюються з критичними значеннями *для n=3.
Перевірка не проводиться для часових рядів з періодом сезонності більше за одиницю, а також для рівнів на кінцях періоду спостереження.
Оцінка автокореляційних властивостей
Оцінка властивостей зводиться до дослідження автокореляційної і часткової автокореляційної функції вихідного і різницевих рядів. Аналіз автокореляції виконується за допомогою графіка і критичних значень коефіцієнтів.
Автокореляційна функція є сукупністю коефіцієнтів автокореляції, обчислених для досліджуваного показника або різницевого ряду.
Вона використовується для оцінки тісноти взаємозв'язку рівнів ряду і підбору відповідних авторегресійних моделей. Аналіз автокореляції виконується за допомогою графіка автокореляції; коефіцієнти автокореляції для його побудови обчислюються за формулою:


Часткова автокореляційна функція обчислюється за формулою:

де K - максимальна затримка (лаг) функції (зазвичай K<=n/4);
r - автокореляційна функція (АКФ).
“Чисті" авторегресійні процеси мають плавно затухаючу АКФ і ЧАКФ, що різко переривається. В цьому випадку в якості порядку АР-моделі вибирають лаг, після якого всі ЧАКФ мають незначну величину.
Прогнозування часових рядів
Для прогнозування несезонних і сезонних процесів використовується різний математичний апарат.
Динаміка багатьох фінансово-економічних показників має стійку коливальну складову. При дослідженні місячних і квартальних даних часто спостерігаються внутрішньорічні сезонні коливання відповідно з періодом 12 і 4. При використанні денних спостережень часто спостерігаються коливання з тижневим (п'ятиденним) циклом. В цьому випадку для отримання точніших прогнозних оцінок необхідно не тільки правильно відобразити тренд, але й компоненту коливання. Вирішення цього завдання можливе тільки при використанні спеціального класу методів і моделей.
В основі сезонних моделей лежать їх несезонні аналоги, що доповнені засобами віддзеркалення сезонних коливань. Сезонні моделі здатні відображати як відносно постійну сезонну хвилю, так і ту, що динамічно змінюється залежно від тренда. Перша форма відноситься до класу аддитивних, а друга - до класу мультиплікативних моделей. Більшість моделей мають обидві форми. Найширше в практиці використовуються моделі Хольта-Уінтерса, авторегресії, Бокса- Дженкінса.
Криві зростання
Для аналітичного вирівнювання часових рядів використовуються функції з одним параметром t, що є порядковим номером спостереження (t=1,2,...N), який інтерпретується як "Час". Моделі цього класу отримали назву "Криві зростання". Оцінка їх параметрів проводиться аналогічно побудові парної регресії, в якій пояснюючою змінною є час. Для кривих зростання реалізовані ті ж обчислювальні процедури, що й у парній регресії. Як показує практика, для короткострокового і середньострокового прогнозування вони є надійним інструментом.
Метод найменших квадратів є основним методом чисельної оцінки параметрів кривих зростання. Оцінка якості моделі проводиться за критерієм мінімуму середньої квадратичної похибки. Апроксимація спостережень складними функціями дає наближення до фактичних спостережень, але знижує стійкість моделі на періоді прогнозування. Тому використовувати для прогнозування такі моделі дуже небезпечно. Особливе місце серед 18 задіяних у програмі моделей займають дві функції, які не зводяться до моделі лінійної регресії. Це функції - Гомперца і Логістична крива. Для пошуку їхніх параметрів використовується метод багатовимірної чисельної оптимізації (у даній версії програми - метод багатогранника, що деформується).
Екстраполяція траєкторії моделі за період спостереження, тобто підстановка в модель чергового значення чинника "Час" t=N+1, N+2..., є основою прогнозування трендових моделей. Інтервальний прогноз у кожній прогнозній точці визначається за співвідношеннями регресійного аналізу із заданою користувачем довірчою вірогідністю.
Адаптивні методи прогнозування
При короткостроковому прогнозуванні зазвичай важливіша динаміка розвитку досліджуваного показника на кінці періоду спостережень, а не тенденція його розвитку, що склалася в середньому на всьому періоді передісторії. Властивість динамічності розвитку фінансово-економічних процесів часто переважає над властивістю інерційності. Тому ефективнішими є адаптивні методи, що враховують інформаційну нерівнозначність даних.
Адаптивні моделі і методи мають механізм автоматичного налаштування на зміну досліджуваного показника. Інструментом прогнозу є модель (див. Базові адаптивні моделі), первинна оцінка параметрів якої проводиться за декількома першими спостереженнями. На її основі робиться прогноз, який порівнюється з фактичними спостереженнями. Далі модель корегується відповідно до величини помилки прогнозу і знов використовується для прогнозування наступного рівня, аж до вичерпання всіх спостережень. Таким чином, модель постійно "вбирає" нову інформацію, пристосовується до неї і до кінця періоду спостереження відображає тенденцію, що склалася на даний момент. Прогноз виходить як екстраполяція останньої тенденції. У різних методах прогнозування процес налаштування (адаптації) моделі здійснюється по-різному. Базовими адаптивними моделями є: Модель Брауна; Модель Хольта; Модель авторегресії.
Перші дві моделі відносяться до схеми ковзаючого середнього, остання - до схеми авторегресії. Численні адаптивні методи ґрунтуються на цих моделях і розрізняються між собою способом числової оцінки параметрів, визначення параметрів адаптації і компонуванням.
Згідно із схемою ковзаючого середнього, оцінкою поточного рівня є зважене середнє всіх попередніх рівнів, причому ваги при спостереженнях зменшуються в міру віддалення від останнього (поточного) рівня, тобто інформаційна цінність спостережень тим більша, чим ближче вони до кінця періоду спостережень.
Згідно із схемою авторегресії, оцінкою поточного рівня є зважена сума "p" попередніх рівнів (їх кількість називається порядком моделі). Інформаційна цінність спостережень визначається не їх близькістю до модельованого рівня, а тіснотою зв'язку між ними.
Обидві схеми мають механізм відображення коливального (сезонного або циклічного) розвитку досліджуваного процесу.
Модель Брауна
Нехай X(t), t=1,..,n - часовий ряд спостережень. Прогноз у момент часу t на τ кроків уперед може бути отриманий за формулою:

де a1,,t і a2,,t - поточні оцінки коефіцієнтів адаптивного полінома.
У моделі Брауна модифікація (адаптація) коефіцієнтів лінійної моделі здійснюється таким чином:


де - коефіцієнт дисконтування даних.
et - похибка прогнозування,
Початкові значення параметрів моделі визначаються за МНК на основі декількох перших спостережень. Оптимальне значення параметра дисконтування знаходиться в переділах від нуля до одиниці, визначається методом числової оптимізації і є постійним для всього періоду спостережень.
Оператор В переміщує всю послідовність на один крок назад: Bx(t)=x(t-1). Застосування оператора В до спостережень і до коефіцієнтів адаптивного полінома дозволяє показати модель Брауна у вигляді:

з чого виходить, що модель Брауна можна трактувати як модель авторегресії - ковзаючого середнього АРКС(p,d,q) с p=0, d=2, q=2 і коефіцієнтами ковзаючого середнього -2 i 2 .
У таблиці “Параметрів моделі" для моделі Брауна відображається оптимальне значення коефіцієнта.
Модель авто регресії
У моделі авторегресії AP(p) порядку "p" поточний рівень ряду представляється у вигляді зваженої суми "p" попередніх спостережень:
X(t)= а *X(t-1)+a2 *X(t-2)+...+a(p)*X(t-p)
Параметри моделі можуть бути оцінені за МНК (проста авторегресія) або іншим методом (як в методі Бокса-Дженкінса). Порядок авторегресії (величина "p") визначається шляхом перебору, а його початкова оцінка формується на основі аналізу автокореляційної функції. Кращою вважається величина, при якій досягнута найменша дисперсія похибок.
У сезонній моделі авторегресії AP(p) порядок вибирається рівною періоду сезонності (коливань). У багатьох випадках сезонна АР(р) - модель з оцінками за МНК виявляється "переобтяженою" незначущими коефіцієнтами, і внаслідок цього вона зазвичай поступається аналогічній моделі Бокса-Дженкінса.
Для підвищення стійкості моделі в більшості випадків доцільно будувати її для стаціонарного процесу, тобто ряду з виключеною тенденцією. У програмі видалення тенденції здійснюється на основі різницевого оператора.
Метод Бокса - Дженкінса
Якщо часовий ряд стаціонарний, що означає наявність статистичної рівноваги щодо постійної середньої с, він може бути представлений широким класом лінійних моделей, що називаються моделями авторегресії-ковзного середнього (АРКС). Це означає, що
де - значення заздалегідь перетвореної змінної,
at - процес "білого шуму",
1 ,..., p - параметри авторегресії,
1 ,..., q - параметри ковзаючого середнього.
Якщо використовувати оператор переміщення назад B то АРКС-модель можна записати в операторній формі:
Параметри повинні задовольняти наступні умови:
- для стаціонарності корені рівняння ( B ) = 0 повинні лежати поза одиничним колом для оператора авторегресії ( B ) (ряди знаходяться у статистичній рівновазі щодо фіксованого середнього),
- для забезпечення оборотності корені рівняння (B) = 0 повинні лежати поза одиничним колом для оператора ковзаючого середнього (В).
Щоб досягти економії параметрів, у модель включають одночасно оператори авторегресії і ковзаючого середнього.
Тоді як авторегресійні моделі і моделі ковзаючого середнього були відомі відносно давно, їх використання в моделюванні часових рядів було ускладнене з наступних причин:
- відсутність відповідних методів ідентифікації, оцінювання і контролю цих моделей,
- наявність неадекватних методів для опису нестаціонарних рядів.
При формалізації нестаціонарних рядів використовують такі класи моделей, що придатні для представлення широкого діапазону практичних ситуацій, тобто використовують кінцеві різниці порядку d:

(Кінцева різниця першого порядку ).
Стаціонарний ряд можна потім представити в допомогою АРКС моделі
Визначена вище модель називається авторегресійною інтегрованою моделлю ковзаючого середнього, або АРІКС(p,d,q). Взаємопов'язана статистична методика, що включає в себе:
- ідентифікацію часового ряду (визначення розмірностей операторів кінцевої різниці, авторегресії і ковзаючого середнього);
- оцінювання параметрів моделі;
- перевірку адекватності моделі;
- отримала назву методу Бокса-Дженкінса від прізвищ авторів.
Метод ОЛІМП
Метод ОЛІМП є розповсюдженням моделей авторегресії - ковзаючого середнього для моделювання нестаціонарних часових рядів. Теоретично доведено, що таке узагальнення коректне для широкого класу часових рядів.
Формально співвідношення моделі ОЛІМП відповідають моделі АРКС(p,q), за винятком того, що на вхід моделі надходить нестаціонарний, взагалі кажучи, часовий ряд. Так само як і для несезонних моделей, сезонна модель ОЛІМП відрізняється від АРКС-моделей тим, що на її вхід можуть надходити нестаціонарні часові ряди, які не приводяться до стаціонарних шляхом узяття кінцевих різниць. В операторному вигляді модель ОЛІМП (p,q)х(P,Q) має вигляд:

З точки зору загальних міркувань розмірності операторів авторегресії для моделі ОЛІМП повинні бути дещо більші, ніж для моделі Бокса-Дженкінса при моделюванні однакових часових рядів.
Якщо ідентифікована модель Бокса-Дженкінса з параметрами p,d,q, то відповідна модель ОЛІМП повинна мати параметри: p'=p+d, q'=q.
Оцінка якості моделей
Якість моделі оцінюється, як правило, двома взаємодоповнюючими характеристиками: точністю і адекватністю. Кожна з них, у свою чергу, має декілька критеріїв. Вони з різних боків і не завжди однозначно характеризують досліджуваний процес. Тому існує необхідність у їх інтегрованій оцінці. На основі окремих критеріїв точності й адекватності, розглянутих нижче, формується узагальнений критерій.
Схема формування інтегрованих критеріїв точності й адекватності, а також загального критерію якості прогнозування полягає в наступному. За допомогою механізму параметрів пакету формується склад окремих критеріїв, на основі яких розраховується інтегрований показник. Так, точність може характеризуватися тільки коефіцієнтом детерміації, або дисперсією і середньою похибкою апроксимації, або всіма трьома перерахованими вище критеріями точності.
Заздалегідь для кожного окремого критерію розробляється процедура його нормування.
Нормований критерій виходить з початкової статистики критерію так, щоб виконувалися умови:
- нормований критерій дорівнює 100, якщо модель абсолютно точна (адекватна);
- нормований критерій дорівнює 0, якщо модель абсолютно неточна (неадекватна).
Проблема нормування вирішується спеціальним чином для кожного з критеріїв якості моделі прогнозування. Числове значення кожного показника лежить в діапазоні від 0 до 100. Те ж саме стосується інтегрованого критерію адекватності.
Узагальнений критерій якості моделі формується як зважена сума узагальненого критерію точності і узагальненого критерію адекватності. Ваги цих доданків складають відповідно 0.75 і 0.25, тобто характеристикам точності надається більшої ваги. В якості представника характеристик точності використовується нормоване значення середньої відносної похибки апроксимації, а в якості представника критеріїв адекватності - нормоване значення критерію Дарбіна-Уотсона і характеристики нормального закону розподілу залишкової компоненти. Числове значення узагальненого критерію якості лежить в діапазоні від 0 до 100. Мінімальне значення відповідає абсолютно поганій моделі, а максимальне – тій, що ідеально відображає розвиток показника. Узагальнений критерій якості моделі сформований відповідно до схеми формування інтегрованих критеріїв. Наш досвід застосування цього показника показує, що достатньо надійними є моделі, що мають оцінку якості не менше 75.
Формально-статистичний вибір кращої моделі у багатьох випадках не дає повної впевненості в його правильності. Тому окрім вказаної програмою моделі доцільно розглянути результати прогнозування інших моделей, що мають близьке значення критерію якості.
Адекватність моделей
Адекватними моделями вважаються такі, у яких залишкова компоненту має властивості незалежності, випадковості і нормальності розподілу.
Критерій Дарбіна-Уотсона є найбільш поширеним критерієм для перевірки кореляції усередині ряду. Якщо величина

де ei - розбіжність між фактичними і розрахунковими рівнями, має значення, близьке до 2, то можна вважати модель регресії досить адекватною.
Для побудови інтервального прогнозу необхідне виконання властивості нормальності розподілу залишкової компоненти. Оцінка виконання цієї властивості здійснюється на основі коефіцієнтів асиметрії та ексцесу, що наведені в розділі дескриптивних статистик.
При оцінці адекватності рівняння регресії враховується також кореляційне відношення, що характеризує частку дисперсії залежної змінної, що пояснюється рівнянням регресії. Кореляційне відношення розраховується за формулою:

де - розрахункові значення залежної змінної,
- середнє значення.
Точність моделі
Точність моделі характеризує наближення розрахункових спостережень до фактичних на періоді апроксимації. Вважається, що моделі з меншою розбіжністю між фактичними та розрахунковими значеннями краще відображають досліджуваний процес. Для характеристики рівня близькості використовуються:
- середнє квадратичне відхилення (або дисперсія), що враховує складність моделі;
- коефіцієнт детермінації (чим ближче до 1, тим точніша модель);
- середня відносна похибка апроксимації (чим ближче до 0, тим точніша модель);
- середнє значення (має бути близьке до нуля);
- максимальне відхилення.
Статистично точність прогнозів можна оцінити тільки використовуючи ретропрогноз, суть якого полягає в побудові моделі за усіченим обсягом даних (N-k) точок з подальшим порівнянням прогнозних оцінок з відомими (фактичними), але навмисно “забутими" k рівнями ряду. За результатами порівняння обчислюються наступні показники точності:
- середнє значення;
- середньоквадратичне відхилення;
- середній модуль похибок прогнозування (%);
- максимальне і мінімальне відхилення.
Чим менше значення цих величин, тим вища якість ретропрогнозу. Цей підхід дає гарні результати, якщо на періоді ретропрогнозу не містяться принципово нові закономірності.
Побудова узагальненого прогнозу
На практиці, часто зустрічається ситуація, коли серед побудованих моделей декілька виявилися адекватними, а відмінності між їх характеристиками точності невеликі. В цьому випадку доцільно будувати узагальнений прогноз. У програмі він формується як лінійна комбінація часткових прогнозів:

де M - число об'єднуваних прогнозів;
pj - вагові коефіцієнти часткових прогнозів;
уj - часткові прогнози.
Вагові коефіцієнти визначаються з умови мінімуму дисперсії похибок узагальнювального прогнозу - тобто максимуму його точності, що знаходиться як сума всіх елементів коваріаційної матриці похибок приватних прогнозів з відповідними вагами:


де kij - кореляційний момент, що характеризує спільний розподіл похибок i та j прогнозів;
i, j - середні квадратичні похибки;
r - коефіцієнт кореляції між рядами похибок часткових прогнозів уi та уj .
На вагові коефіцієнти накладається обмеження: їх сума повинна давати одиницю. Це необхідна умова того, щоб дисперсія узагальнюючого прогнозу не перевищувала дисперсії часткових прогнозів. Тоді коваріаційна матриця похибок часткових прогнозів матиме вигляд:

Дисперсія узагальнюючого прогнозу дорівнюватиме сумі всіх елементів матриці:

У точці мінімуму функції всі (М-1) перші часткові похідні мають перетворюватися в нуль.
Прирівнявши до нуля всі (М-1) перші часткові похідні по змінних p1, p2..., pM-1 отримуємо систему (М-1) лінійних рівнянь з (М-1) невідомими:

Коефіцієнти при змінних складуть матрицю В, елементи якої визначаються таким чином:

Вектор вільних членів складатиметься з елементів:

Така система рівнянь може бути вирішена одним з методів лінійної алгебри.
Алгоритм об'єднання часткових прогнозів можна представити у вигляді наступних процедур, що виконуються послідовно:
1. Обчислюються дисперсії похибок часткових прогнозів і будується коваріаційна матриця
     
де ej - похибки часткових прогнозів;
t - порядковий номер спостереження

2. Будуються матриця В і вектор С за формулами:


3. З розв’язанням системи лінійних рівнянь визначається (М-1) значення pj, а останній ваговий коефіцієнт pM визначається за формулою:

4. Перевірка умови:

Якщо умова не виконується, прогнози уj виключаються і проводиться перерахунок вагових - коефіцієнтів (до пункту 2).
5. Якщо всі вагові коефіцієнти позитивні, обчислюється значення узагальнюючого прогнозу: і коефіцієнт умовної ефективності:
де - дисперсія похибок комплексного прогнозу;
- дисперсія похибок найкращого часткового погнозу.
Оскільки в більшості випадків точність прогнозів змінюється в часі, формули оцінки вагових коефіцієнтів модифікуються так, що пізнішим помилкам надається більше значення; таким чином відбувається корегування узагальнюючого прогнозу шляхом зміни вагових коефіцієнтів у бік найкращого часткового прогнозу:

де p jT - ваговий коефіцієнт часткового прогнозу в момент часу Т;
Y jT - частковий прогноз у момент часу Т;
Y0Тt- узагальнений прогноз у момент часу Т.
Для підвищення стабільності динаміки зміни вагів в алгоритмі їх корегування використовується схема експоненціального згладжування.
Для проведення узагальнення необхідно мати не менше двох адекватних моделей. З метою підвищення стійкості результатів кількість узагальнюючих часткових прогнозів не повинна перевищувати п'яти.
© 2003-2009  Українське агентство фінансового розвитку Дизайн та розробка порталу
студія web-дизайну "Золота рибка"