Нейросетевое приложение для оценивания характеристической экспоненты процесса Леви на примере распределения Бандорффa-Нильсена

Авторы статьи: Белявский Г.И. Пучков Е.В., Лила В.Б. 

Введение. Основная задача, которая рассматривается в статье, заключается в построении нейросетевой модели для оценки характеристической экспоненты процесса Леви. Первая работа, связанная с вычислением характеристик случайной последовательности была выполнена в 1949 году Д. Хеббом [1]. Эта работа была связана с решением задачи самообучения нейросети. В последствии было доказано, что алгоритм обучения Д. Хебба непосредственно связан с вычислением главной компоненты. Более эффективный алгоритм обучения сети для вычисления главной компоненты последовательности может быть получен как частный случай метода стохастического градиента [2] с использованием отношения Релея. Если U главный собственный вектор ковариационной матрицы последовательности, то n - е приближение к U вычисляется следующим образом (см., например, [2])

Z^n = U^{n-1}+h_{n}sign(X^n, U^{n-1})[X^n-(X^n, U^{n-1})U^{n-1}], U^n = \frac{Z^n}{\sqrt{(Z^n,Z^n)}} (1)

В (1) последовательность h удовлетворяет условию: \Sigma h_n = \infty, \Sigma h_{n}^2 < \infty X^n - n-й элемент обучающей выборки.
Были предложены алгоритмы для определения нескольких главных компонент: (Sanger 1989 [3], Oja 1989 [4] , 1992 [5], Dente and Vilela Mendes 1996 [6]). Для определения нескольких главных компонент можно также использовать метод стохастического градиента. Соответствующий алгоритм вычисления k -главных собственных векторов ковариационной матрицы определяется системой равенств:

Z^n_1 = U^{n-1}_1+h_{n}^1sign(X^n, U^{n-1}_1)[X^n-(X^n, U^{n-1}_1)U^{n-1}_1], U^{n-1}_1 = \frac{Z^n_1}{\sqrt{(Z^n_1,Z^n_1)}} (2)
Z^n_2 = U^{n-1}_2+h_{n}^2sign(X^n, U^{n-1}_2)[X^n-(X^n, U^{n-1}_2)U^{n-1}_2], V^{n}_2 = Z^n_2-(Z^n_2, U^n_1)U^n_1, U^n_2 = \frac{V^n_2}{\sqrt{(V^n_2,V^n_2)}}
.....
Z^n_k = U^{n-1}_k+h_{n}^2sign(X^n, U^{n-1}_k)[X^n-(X^n, U^{n-1}_k)U^{n-1}_k], V^{n}_k = Z^n_k-\sum_{i=1}^{k-1}(Z^n_k, U^n_i)U^n_i, U^n_k = \frac{V^n_k}{\sqrt{(V^n_k,V^n_k)}}

Обоснование алгоритма и доказательство сходимости можно найти в [2]. Если многомерный закон распределения последовательности нормальный с нулевым математическим ожиданием, то ковариационная матрица содержит полную информацию о законе распределения и использование метода главных компонент является оправданным. Если закон распределения не является нормальным, то метод главных компонент является неполным, поскольку не учитывает полностью информацию о поведении данных, например, связанную с моментами порядка три и более. Известен ряд работ (Softy and Kammen 1991 [7], Taylor and Coombes 1993 [8]), в которых метод главных компонент обобщается на моменты более высокого порядка. Эти сети позволяют анализировать данные более сложной природы – приближать их поверхностью, отличающейся от плоскости как в методе главных компонент. Применения метода главных компонент и обобщенного метода главных компонент для анализа данных не всегда оправдано, поскольку не всегда существуют моменты необходимого порядка у анализируемого закона распределения. В тоже время характеристическая функция существует для любого закона распределения [9].
В последнее время большой интерес проявляется к процессам Леви [10], в связи с использованием этих процессов при моделировании в различных приложениях. Поведение процессов Леви полностью описывается параметрическим семейством одномерных законов распределения F_t(x). Семейство законов распределения однозначно определяется семейством характеристических функций:

\Phi_t(y) = E exp(iyX_t) = exp(t\varphi(y)) (3)

В (3) характеристическая экспонента

\varphi(y) = imy-\frac{\sigma^2}{2}y^2+\int_{-\infty}^{+\infty}(exp(iyx)-1-iyxI_{\{|x|\le1\}}(x))v(dx) (4)

Несобственный интеграл Лебега в (4) вычисляется по мере Леви, обладающей следующим свойством:

\int_{-\infty}^{+\infty}(x^2\wedge1)v(dx)<1 (5)

Интеграл отвечает за скачкообразную составляющую процесса Леви. Приращения процесса Леви \Delta X^\Delta_j = X_{j\Delta} - X_{(j-1)\Delta} - независимые и одинаково распределенные случайные величины с характеристической функцией \Phi_t(y) = E exp(iyX_t) = exp(t\varphi(y)). Положив \Delta = 1, получим соотношение, которое в дальнейшем будет использовано для оценки характеристической экспоненты. Далее будем использовать обозначение: Y_j = \Delta X^\Delta_j. Как уже отмечалось случайные величины Y - независимые и одинаково распределенные случайные величины. Их общая характеристическая функция может быть представлена следующим образом:

\Phi_1(y) = E exp(iyY_j)+iEsin(yY_j) = A(y)+iB(y).

Отсюда

Im\varphi(y) = arctg\frac{B(y)}{A(y)}, Re\varphi(y) = ln\frac {A(y)}{cos arctg(B(y)/A(y))} (6)

Формула (6) позволяет вычислить характеристическую экспоненту, используя оценки A и B. Далее рассматривается оценка A(y), поскольку оценка B(y) выполняется аналогично.
Алгоритм обучения нейросети, использующий потенциальные функции. Структура нейросети, предназначенной для вычисления оценки A(y) представлена на рис. 1.

struct_neuroseti

Рис.1. Структура нейросети (The neural network structure)

Допустим, что нам необходимо вычислять характеристическую экспоненту в интервале значений аргумента: [\alpha, \beta] разобьем данный интервал на N частей с требуемой точностью вычислений. Определим потенциальную функцию U(y) следующими условиями:
а) носителем функции является симметричный интервал [-h, h];
б) функция является симметричной;
в) функция является гладкой, на интервале [-h, 0] функция возрастает, на интервале [0, h] функция убывает.
Примером такой функции может служить функция Ланцоша [11]  \begin{eqnarray*}U_k(y) =\begin{cases}\frac{h}{\pi}sin \frac{\pi}{h}y, |y|\le h \\ 0, |y|>h \end{cases}\end{eqnarray*}. В качестве критерия обучения рассмотрим средний квадрат отклонения:

F(W) = \sum_j(E cos y_j Y-\sum_k W_k U^h(y_j-y_k))^2 (7)

В (7) закон распределения Law(Y) = Law(Y_i), y_j - точки разбиения интервала [\alpha, \beta]. Задача обучения заключается в вычислении минимума F(W).
Наиболее простая ситуация получается если h совпадает с длиной элементарного интервала разбиения - \delta. В этом случае критерий обучения (7) будет иметь вид:

F(W) = \sum_j (E cos y_j Y-W_j)^2 (8)

Из этого соотношения следует, что минимум критерия обучения достигается, когда W_j = E cos y_j Y. Следовательно, алгоритм обучения определяется равенствами:

W^i_j = \frac{t-1}{t}W^{t-1}_j+\frac{1}{t}cos y_j Y^i (9)

Для общего случая (h>\delta) может быть применен стохастический аналог адаптивного алгоритма обучения [12]:

W^t = W^{t-1}+\gamma_t g_t, g_t = -\bigtriangledown F (W^{t-1}, Y^t)+\sum^{min(i, t-1)_{k=1}} \alpha_k, g_k (10)

В формуле (10) \bigtriangledown F(W^{t-1}, Y^t) - стохастический градиент критерия F, l-я координата которого (\bigtriangledown F(W^{t-1}, Y^t))_i = \sum_{j} U^h (y_j-y_i) \sum_{k}(W^{t-1}U^h(y_j-y_k)-cos(y_jY^t)), g_1 = -\bigtriangledown F (W^0, Y^1), .
Далее рассматривается пример оценки вещественной части характеристической функции для гиперболического распределения при помощи адаптивного алгоритма обучения.
Гиперболические распределения. В 1997 году О. Барндорфф-Нильсен предложил [13] обобщенные гиперболические распределения. Введение этих распределений обусловлено необходимостью описания некоторых эмпирических закономерностей в геологии, геоморфологии, турбулентности и финансовой математики.
Собственно гиперболическое распределение и гауссовское\\обратно-гауссовское распределение являются наиболее употребительными распределениями. Каждое из этих распределений является смесью нормальных законов:

 LawY = E^1_{\sigma^{2}} N (\mu + \alpha \sigma^2, \sigma^2) с плотностью p^1_{\sigma^2}(x) = \frac{\sqrt{a/b}}{2K_1(\sqrt{ab})} exp\{{\frac{-1}{2} (ax+\frac{b}{x})}\}
и LawY = E^2_{\sigma^{2}} N (\mu + \alpha \sigma^2, \sigma^2) с плотностью p^2_{\sigma^2}(x) = \frac{b}{2\pi} exp(\sqrt{ab}) \frac{1}{\sqrt{x^3}} exp\{{\frac{-1}{2} (ax+\frac{b}{x})}\}.
(11)

В (11) K_1(x) - модифицированная функция Бесселя третьего рода с индексом 1. Остановимся на одном из распределений, например, на гиперболическом распределении. Характеристическая функция, благодаря (11), будет иметь вид: \Phi_1(y) = E^1_{\sigma^2} exp (i(\mu +\alpha \sigma^2)y-\frac{\sigma^2}{2}y^2). С использованием соответствующей плотности (11) получим равенство для вещественной части характеристической функции:

Re \Phi_1(y) = \frac{\sqrt{a/b}}{2K_1({\sqrt{a/b})}} \int_{0}^{\infty} cos((\mu+\alpha x)y) exp \{ \frac{-1}{2} ((a+y^2)x + \frac{b}{x})\} (12)

Формула (12) позволяет вычислить вещественную часть характеристической функции, используя численное интегрирование. Это в свою очередь позволяет определить различие между оценкой, полученной с помощью обучения нейросети, со значением, полученным по формуле (12). Для получения обучающей выборки использовались два генератора. С помощью первого генератора выбиралась дисперсия - \sigma^2, при этом использовалась первая плотность из (11), затем генерировалась нормальная случайная величина - N(\mu + a\sigma^2, \sigma^2). Результаты расчетов приведены на рис.2. Параметры гиперболического распределения в эксперименте принимали следующие значения: \alpha = 0.1, \mu = 0.5, a = 0.2, b = 0.1. Число итераций составило 325.

giperbol_raspred

Рис. 2. Вещественная часть характеристической функции гиперболического распределения. Пунктирная линия соответствует численному интегрированию, сплошная линия получена в результате обучения нейросети адаптивным алгоритмом (The real part of the characteristic features of a hyperbolic distribution. The dotted line corresponds to the numerical integration, continuous line obtained as a result of neural network training using a adaptive algorithm).

Таким образом, после обучения нейросеть с удовлетворительной степенью точности позволяет вычислять оценку основной характеристики процесса Леви – характеристической экспоненты.
Замечание. Кроме выше перечисленных работ следует упомянуть работу Dente J. A. [14], в которой излагается идея оценки характеристической функции с помощью обучения нейросети. Основное отличие нашего исследования состоит в использовании другого алгоритма обучения. Кроме этого заметим, что эта методика применима только для процессов с независимыми и однородными приращениями, к которым относятся процессы Леви. В противном случае необходимо учитывать зависимость характеристической функции от времени.

 

Литература

  1. Hebb, D. O. Organization of behavior. New York: Wiley, 1949, 335 p.
  2. Белявский Г.И. О некоторых алгоритмах определения главных компонент в пространстве признаков // Математический анализ и его приложения. Ростов-на-Дону: Изд-во РГУ, 1975. №7. С. 63­-67.
  3. Sanger, T. D. Optimal unsupervised learning in a single-layer linear feedforward neural network // Neural Networks 2, 1989, pp. 459-
  4. Oja E. Neural networks, principal components and subspaces // J. of Neural Systems, 1989. №1, pp. 61-68.
  5. Oja E. Principal components, minor components and linear neural networks // Neural Networks, 1992. №5, 927-935.
  6. Dente J. A. and Vilela Mendes R. // Unsupervised learning in general connectionist systems, Network: Computation in Neural Systems, №7, pp. 123-139.
  7. Softy, W. R. and Kammen, D. M. Correlations in high dimensional or asymmetric data sets: Hebbian neuronal processing // Neural Networks, 1991. №4, pp. 337-
  8. Taylor J. G. and Coombes S. Learning higher order correlations, Neural Networks, 1993. №6, pp. 423-
  9. Lukacs E. Characteristic functions, Griffin’s Statistical Monographs& Courses, No. 5. Hafner Publishing Co., New York, 1960, 216 p.
  10. Cont R.,Tankov P. Financial modeling with jump processes. London: Chapman Hall / CRC, 2004, 606 p.
  11. Жуков М.И. Метод Фурье в вычислительной математике. – М.: Наука, 1992. 176 с.
  12. Белявский Г.И., Пучков Е.В., Лила В.Б. Алгоритм и программная реализация гибридного метода обучения искусственных нейронных сетей // Международный журнал "Программные продукты и системы". Тверь, 2012. №4. С. 96-100.
  13. Barndorff-Nielsen O.E. Exponentially decreasing distributions for the logarithm of particle size // Proceeding of the Royal Society. London: Ser. A, Math. Phys V.353, 1977, pp. 401
  14. Joaquim A. Dente, R. Vilela Mendes Characteristic functions and process identification by neural networks // arXiv: physics 9712035 v1[physics.data-an], 1997, pp. 1465

 

Опубликовано в: Международный журнал "Программные продукты и системы", Тверь, №3, 2015 г.