Для некоторых конфигурации количество весов явно превосходило число входных данных (наблюдений). Хотя недостаток степеней свободы делает оценку сомнительной, мы приводим здесь результаты работы 13-27-1 модели, чтобы проиллюстрировать доказанную Колмогоровым в 1957 г. и популяризованную Хехт-Нильсоном теорему о существовании отображения. Эта теорема утверждает, что любая непрерывная функция может быть реализована трехслойной нейронной сетью, имеющей во входном слое m (в нашем случае 13) элементов, промасштабированных на [0,1], (2m+1) элементов-процессоров в единственном скрытом слое и л элементов в выходном слое. Таким образом, гарантируется, что иерархическая многослойная нейронная сеть может решить любую нелинейно отделимую задачу и может точно реализовать любое отображение m-мерных входных векторов в n-мерные выходные. При этом теорема ничего не говорит нам ни о возможности реализовать отображение посредством сети меньших размеров, ни о том, что для этого подойдут обычно используемые сигмоидные преобразования.
Для определения наилучшего размера сети мы пользовались известным правилом для временных рядов, которое называется байесовским информационным критерием (BIC). В случае, когда две модели давали одинаковое качество результатов, предпочтение отдавалось более простой из них, т.е. имеющей меньшее число параметров. Де Гроот и Вуртц предложили модифицированный нормализованный BIC под названием NBIC в виде
где k = 1,2,...,N, N — число наблюдений в обучающем множестве; р — число весов.
Первое слагаемое представляет собой логарифм среднеквадратичной ошибки на обучающем множестве. Второе слагаемое зависит от числа степеней свободы и растет линейно с ростом размера сети. Критерий действует так: сеть, имеющая наименьшее значение NBIC, обладает наилучшими способностями к прогнозу и обобщению. Видно, что из всех испробованных конфигураций наилучшей оказалась сеть 13-2-1.
При относительно простой конфигурации эта сеть имеет 44 потенциальных степени свободы при том, что в обучающем множестве имеются 45 наблюдений. Чтобы смягчить это несоответствие, мы убрали несколько переменных, сильно коррелированных либо с Мильонен-нотой (V2), либо с потреблением (V5). Таким образом были исключены следующие переменные:
совокупные вложения в ценные бумаги с фиксированным доходом (V7).
уровень безработицы (V8),
индекс курсов акций CBS (V9),
предложение денег (V10).
В результате получилась архитектура 9-2-1 с 32 параметрами, для которых была проделана повторная оценка. На диаграмме показана MSE на обучающем и проверочной множествах. Оптимальная длительность обучения составляет примерно 7500 циклов. При дальнейшем увеличении числа эпох в обучении MSE на проверочном множестве начинала медленно расти.
По сравнению с 13-2-1 сетью значения MSE и на обучающем, и на проверочном множествах получаются чуть-чуть лучше. Перед тем, как делать выводы собственно о структуре сети, разумно сравнить ее результаты с такими классическими методами, как многомерная регрессия или модель ARIMA (собственной разработки MoF).
Наряду с таким хорошим критерием успеха, как MSE, можно пользоваться также так называемой средней относительной дисперсией ARV:
где N — число наблюдений, Среднее — среднее значение целевого ряда, aJ - дисперсия целевого ряда.
Нормировка MSE устраняет зависимость от динамического разброса данных и учитывает волатильность внутри базы данных. Оценка качества работы сети будет дана в сравнении с результатами регрессии и модели ARIMA. Оба этих метода будут вкратце изложены. Регрессионная модель была построена с использованием только 45 наблюдений из обучающего множества:
Одна из переменных — ANNUAL, помесячная раскладка годового прогноза правительства, имеет здесь особенно большое значение. Это неудивительно, поскольку MoF рассматривает эту зависимую переменную как цель и старается приблизить значение целевой переменной (RECEIPT) к правительственному прогнозу (это — пример так называемого условного прогнозирования). Число рабочих дней (DAY), календарные эффекты (CAL) и сезонность (SEA) также играют существенную роль. Погода (RAIN,TEM), ожидаемая процентная ставка (AIBOR) и потребление (CON) существенного влияния на решение не окатывают.
Значение статистического показателя Дарбина-Уотсона указывает на наличие отрицательной корреляции разностей ряда. Поэтому было бы разумно перейти к разностям первого порядка или преобразовать регрессионную модель к такому виду, когда применима процедура OLS (например, итерационный процесс Кокрана-Оркутта). Однако, поскольку MoF больше заинтересовано в прогнозировании уровня, а не тренда, разности тут плохо подходят. Обычный регрессионный OLS-анализ в применении к прогнозу ежемесячных налоговых сборов дал неудовлетворительные результаты. Поэтому MoF решило применить одномерный метод Бокса-Дженкинса. Получившаяся в результате модель АRIМА(0,0,0)(0,1,1)12 с параметрами, определенными из того же самого обучающего множества данных, имеет следующий вид:
Сравнительные характеристики всех трех методов видны из сопоставления соответствующих значений ARV (средней относительной дисперсии):
И регрессия, и сеть имеют лучшие характеристики, чем ARIMA. Причина этого в том, что ARIMA является одномерной моделью, где в принципе не могут учитываться календарные эффекты или число рабочих дней. Совокупное действие этих эффектов, начиная с сентября 1991 г., вызывает колебания уровня, поступлений налогов от месяца к месяцу и внутри месяцев. Далее, сеть дает более точную оценку, чем регрессия. Причина может быть связана с присутствующей в данных нелинейностью. Значения R-отношения Вигенда 0.705 и 0.743. соответственно, для обучающего и тестового множеств также свидетельствуют о наличии (возможно, слабых) нелинейных связей.
Коль скоро сеть имеет лучшие характеристики, чем модель ARIMA и регрессия, попробуем разобраться в ее внутренней структуре и рассмотрим вклад каждой из девяти фазовых переменных.
|