```html تَدَفُّقات التَطْبِيعِ المُتَغَيِّرَة زَمَنِيًّا لنمذجة المُعادَلات التَفاضُلِيَّةِ العَشْوائِيَّةِ بِدِقَّةٍ

تَدَفُّقات التَطْبِيعِ المُتَغَيِّرَة زَمَنِيًّا لنمذجة المُعادَلات التَفاضُلِيَّةِ العَشْوائِيَّةِ بِدِقَّةٍ

Naoufal El Bekri, Lucas Drumetz, Franck Vermet

latex

مُلَخَّص

أَصْبَحَت النماذج التوليدية ذات أهمية متزايدة في تعلم الآلة ونماذج التعلم العميق. من بين النماذج التوليدية الشائعة تتألق تدفقات التطبيع، التي تتيح تقدير الاحتمالية الدقيقة من خلال تحويل توزيع أساسي عبر تحولات ديفيومورفية. إن توسعة إطار عمل تدفقات التطبيع إلى التعامل مع التدفقات المفهرسة زمنيًا أدت إلى ظهور تدفقات التطبيع الديناميكية، وهي أداة قوية لنمذجة السلاسل الزمنية، والعمليات العشوائية، والمعادلات التفاضلية العشوائية العصبية. في هذا العمل، نقترح نسخة جديدة من تدفقات التطبيع الديناميكية، وهي تدفق التطبيع المتغير زمنيًا (TCNF)، بالاعتماد على تشويه زمني لحركة براونية، مما يشكل عائلة واسعة ومتنوعة من العمليات الغاوسية. يتيح لنا هذا النهج نمذجة بعض المعادلات التفاضلية العشوائية التي لا يمكن التقاطها بطرق أخرى، بما في ذلك معادلات قياسية مثل عملية أورنشتاين-أولينبك المعروفة؛ كما يعمم المنهجيات السابقة ويؤدي إلى نتائج محسنة وقدرة أفضل على الاستدلال والتنبؤ.

مُقَدِّمَة

تُستخدم الأنظمة الديناميكية على نطاق واسع في مجالات علمية متعددة مثل المالية، وعلوم الأرض، والفيزياء. يتضمن تمثيل هذه الأنظمة عادة معادلات تفاضلية عادية أو معادلات تفاضلية عشوائية (oksendal2013stochastic) عند أخذ الضوضاء والاضطرابات في الاعتبار، بالإضافة إلى المكون الحتمي. تشمل التطبيقات الحاسمة نمذجة التقلبات في البيانات المالية وتقدير الشكوك ونشرها في علوم الأرض. لقد شهدت معالجة هذه الأنظمة، من خلال نمذجة السلاسل الزمنية وتعلم الآلة، زيادة في الشعبية خاصة مؤخرًا بفضل النماذج التوليدية للتنبؤ والتصفية والاستيفاء مع أخذ الشكوك في عين الاعتبار.

تشمل النماذج التوليدية الشائعة الشبكات العصبية التوليدية التنافسية (conf/nips/GoodfellowPMXWOCB14) والمشفّرات التباينية الذاتية (journals/corr/KingmaW13)، وأيضًا مؤخرًا تدفقات التطبيع (jmlr/PapamakariosNRM21, journals/pami/KobyzevPB21) والنماذج المبنية على التشتت/التقييم (conf/nips/SongE19). على الرغم من إمكانية تطبيق هذه النماذج لتوليد السلاسل الزمنية، إلا أنها قد تعامل هذه البيانات كمتجهات في \(\mathbb{R}^{T}\)، حيث \(T\) هو عدد خطوات الزمن، دون مراعاة البنية السببية. تم تكييف الشبكات العصبية التوليدية التنافسية والمشفّرات التباينية الذاتية وتدفقات التطبيع لبيانات السلاسل الزمنية في (conf/nips/YoonJS19, kidger2021neural)، (li2020scalable, zeng2023latent)، (mehrasa2019point, conf/iclr/ShchurBG20) على التوالي. في هذا العمل، نركز على تدفقات التطبيع لقدرتها على الوصول إلى توزيع صريح، وهو أمر حاسم عند الحاجة لتقدير الشكوك أو كشف الشذوذ.

تعتمد تدفقات التطبيع على صيغة تغيير المتغيرات المعروفة، التي توفر تعبيرًا عن دالة الكثافة الاحتمالية لتحولات ديفيومورفية لمتغير عشوائي. عن طريق اختيار التحولات بعناية، إذا كانت الكثافة الأولية قابلة للتعامل (تحمل احتمالًا صريحًا ويسهل أخذ عينات منها، وغالبًا ما تكون غاوسية)، يمكن التلاعب بالكثافة المحوّلة وأخذ العينات منها بسهولة أيضًا، شريطة القدرة على حساب يعقوبي التحويل بفعالية. في الحد النظري عند تطبيق عدد لا نهائي من التحولات، نستنتج تدفق التطبيع المستمر (DBLP:conf/iclr/GrathwohlCBSD19). في هذه الحالة، يُوصف تدفق التطبيع بمعادلة تفاضلية عادية يمكن دمجها للحصول على الكثافة الناتجة، مما يزيد من كفاءة الحساب لهذه النماذج عبر استبدال يعقوبي محدد بدمج أثره.

تم توسيع تدفقات التطبيع إلى الإعداد الديناميكي عن طريق استبدال التوزيع الأساسي القابل للتعامل بعملية احتمالية قابلة للتعامل، أي حركة براونية (deng2020modeling)، مما يجعل هذا النوع من النماذج أكثر كفاءة لتوليد السلاسل الزمنية. ومع ذلك، أظهر (deng2021continuous) أن هذه النماذج لا تستطيع نظريًا التعامل مع بعض العمليات الأساسية والشائعة، مثل عملية أورنشتاين-أولينبك الكلاسيكية.

وبالتالي، في هذه الورقة نقترح تعميمًا لهذا النهج باستخدام عائلة واسعة من العمليات الغاوسية كعملية أساسية بدلاً من الحركة البراونية القياسية. تُنشأ هذه العمليات الغاوسية من خلال تحويل الحركة البراونية عبر الزمن، مما يؤدي إلى تدفق التطبيع المتغير زمنيًا، وهو نموذج يمتلك خصائص رياضية تمكّنه من وصف الديناميكيات والمعادلات التفاضلية العشوائية التي لا يمكن للنماذج السابقة التقاطها، مع الحفاظ على التعبيرية العالية لتدفقات التطبيع الديناميكية. نؤكد هذه النتائج من خلال تجارب عديدة على عدة عمليات معروفة.

تنظم بقية هذه الورقة على النحو التالي: نقدم أولًا، في القسم «الخَلْفِيَّة»، نظرة عامة على المعادلات التفاضلية الاحتمالية العصبية—حيث يُمثل كل من الانجراف والانتشار بواسطة شبكات عصبية—ونعرض منهج تدفق التطبيع الديناميكي وقيوده. بعد ذلك، في القسم «tcnf»، نقدم نموذجنا ونصف خصائصه وخوارزمية التدريب. أخيرًا، يتم تقديم النتائج الكمية في قسم «التَجارِب» ومقارنتها بنماذج أخرى مبنية على التدفق، ونختم بالملاحظات الختامية في القسم «الخُلاصَة».

الخَلْفِيَّة

الأَعْمال ذات الصِلَة

مُعادَلات التَفاضُل العَشْوائِيَّة العصبية

نعتبر فضاء احتمالي مفلتر \((\Omega, \mathcal{F}, P)\) وأفقًا زمنيًا \(T\). تُعرف عملية الانتشار \(X = \{X_t\}_{t\in [0, T]}\) بواسطة معادلة إيتو للتفاضل العشوائي (SDE): \[ \begin{aligned} \label{eq:EDS_X} dX_t = \mu(X_t, t)dt + \sigma(X_t,t)dW_t, \quad t\in [0, T] \end{aligned} \] حيث \(W = \{W_t\}_{t\in [0, T]}\) هي عملية وينر القياسية المتكيفة بأبعاد \(m\)، و\(\mu:\mathbb{R} ^d \times [0,T] \to \mathbb{R} ^d\) و\(\sigma:\mathbb{R} ^d \times [0,T] \to \mathbb{R} ^{d\times m}\) هما معاملا الانجراف والانتشار على التوالي. عندما تُنفَّذ هاتان الدالتان بواسطة الشبكات العصبية، يُسمى SDE عصبيًا (tzen2019neural, liu2019neural).

لقد اقترح العديد من الدراسات تعلم SDEs عصبية باستخدام أطر توليدية مختلفة، مثل المشفرات التلقائية الاختلافية (li2020scalable, zeng2023latent) والشبكات التوليدية التنافسية (kidger2021neural). في هذه الورقة نركز بشكل خاص على نموذج تدفق التطبيع.

تَدَفُّقات التَطْبِيع

تدفق التطبيع (jmlr/PapamakariosNRM21, journals/pami/KobyzevPB21, DBLP:conf/iclr/GrathwohlCBSD19) هو تحويل مصمم لنمذجة متغير عشوائي \(X\) وتوزيعه المعقد \(p_X\) من خلال توزيع أساسي \(p_Z\) ودالة ثنائية الاتجاه قابلة للتفاضل \(f:\mathbb{R} ^d \to \mathbb{R} ^d\). تسمح هذه النمذجة بتقدير الكثافة الدقيقة والأخذ العيني الفعال، باستخدام صيغة تغيير المتغير لـ \(X=f(Z)\):

\[ \log p_X(x) = \log p_Z(z) - \log \left|\det J_{f}(z)\right| \]

حيث يعبر يعقوبي \(J_f(z) = \left[\frac{\partial f_i}{\partial z_j} \right]_{1\leq i,j \leq d}\) عن جميع المشتقات الجزئية لـ \(f\).

لقد وسعت الأعمال السابقة هذا الإطار عن طريق نمذجة السلاسل الزمنية والعمليات العشوائية باستخدام تباين مستمر مفهرس بالزمن \(F(., t)\) مع حركة براونية كعملية أساسية، مما أدى إلى عملية تدفق الزمن المستمر (deng2020modeling): \[ \begin{aligned} X_t = F(W_t, t). \end{aligned} \]

تقترح طريقة أخرى (deng2021continuous) دمج ديناميكيات عملية أورنشتاين-أولينبك مع تدفق التطبيع بهدف نمذجة المعادلات التفاضلية العشوائية بفعالية.

لقد أثبتت هذه النماذج جدواها في التقاط السلوك المعقد لأنواع مختلفة من العمليات العشوائية والمعادلات التفاضلية العشوائية. ومع ذلك، تنشأ قيود مهمة عند تطبيق قاعدة إيتو على عملية تدفق الزمن المستمر لاشتقاق عملية أورنشتاين-أولينبك الأحادية الموصوفة بـ:

\[ \begin{aligned} \label{eq:ou} dY_t = -a(Y_t - b)dt + \sigma dW_t \end{aligned} \]

فعند تطبيق قاعدة إيتو على \(F(W_t,t)\) نحصل على: \[ \begin{aligned} \label{eq:NF-OU} \begin{split} dF(W_t,t) = & \frac{\partial F}{\partial t}(W_t,t)dt + \frac{\partial F}{\partial x}(W_t,t)dW_t \\ & + \frac{1}{2}\frac{\partial^2 F}{\partial x^2}(W_t,t)dt \end{split} \end{aligned} \]

من خلال المقارنة بين المعادلتين، نستنتج أنه لنمذجة عملية أورنشتاين-أولينبك يجب أن تتحقق \(\frac{\partial F}{\partial x}(W_t,t) = \sigma\)، مما يعني \(F(W_t, t) = \sigma W_t + g(t)\) حيث \(g\) دالة قابلة للتفاضل. ومع ذلك، يؤدي تفاضل هذه العلاقة إلى الشرط التالي: \[ \begin{aligned} \label{OUabsurde} \frac{dg}{dt}(t) +a g(t) -a b= -a\sigma W_t \end{aligned} \] وهذه المعادلة غير قابلة للحل لأن الجانب الأيسر حتمي بينما الجانب الأيمن يعتمد عشوائيًا على \(W_t\). وبالتالي، تظهر قيود في قدرة عملية تدفق الزمن المستمر على نمذجة العمليات العشوائية بفعالية.

في القسم التالي، نقترح نموذجًا يعالج هذا القيد ويحقق نتائج محسنة.

تَدَفُّق التَطْبِيعِ الدِينامِيكِيّ مَعَ تَغْيِير الزَمَن

تَدَفُّق التَطْبِيعِ المُتَغَيِّر زَمَنِيًّا

نقترح نمذجة عملية عشوائية مراقبة، \(X = \{X_t\}_{t\in [0, T]}\)، عبر دمج تدفق تطبيعي مع حركة وينر متغيرة بالزمن لالتقاط السلوك الديناميكي لـ \(X_t\) من سلسلة زمنية محققة \(\{(x_{t_i},t_i)\}_{i=1}^n\). في هذه الورقة نركز على الحالة أحادية البعد، أما الحالة العامة فتتطلب تعميمًا زمنيًا مناسبًا لكل بعد. نقدم مفهوم تدفق التطبيع المتغير بالزمن (TCNF) كما يلي:

\[ \begin{aligned} X_t = f_\theta \bigl(W_{\phi(t)},\phi(t)\bigr), \quad \forall t \in [0,T], \end{aligned} \]

حيث \(f_\theta(.,t):\mathbb{R} \to \mathbb{R}\) هو تباين قابل للتفاضل بمعاملات \(\theta\)، و\(W_{\phi(t)}\) حركة براونية مع تغيير زمني (revuz2013continuous). التغيير الزمني \(\phi : \mathbb{R} ^{+} \to \mathbb{R} ^{+}\) هو دالة قابلة للقياس، موجبة ومتزايدة. تضمن خاصتا القياس والإيجابية التعريف الصحيح لـ \(W_{\phi(t)}\)، كما يضمن التزايد وجود جميع اللحظات. وعليه ينبغي أن تنتج الشبكة العصبية الممثلة لـ \(\phi\) دالة موجبة ومتزايدة بطبيعتها. للتغيير الزمني تطبيقات هامة، إذ ينتج منه عائلة من العمليات الغاوسية العامة أكثر من الحركة البراونية. وتؤكد نظرية دوبينز-شوارتز (revuz2013continuous) أن كل مارتينجال محلي هو حركة براونية متغيرة بالزمن.

لذا، عبر جعل العملية الأساسية لحركتنا براونية متغيرة بالزمن يمكننا التقاط جميع حالات المارتينجالات المحلية والسيميمارتينجالات، ومن ثم تعميم إعداد CTFP. في الواقع، يُعطى حل معادلة أورنشتاين-أولينبك بصيغة:

\[ \begin{aligned} Y_t = Y_0e^{-at} + b(1-e^{-at}) + \frac{\sigma e^{-at}}{\sqrt{2a}}W_{e^{2at}-1} \end{aligned} \]

وهذا يمكن نمذجته بكفاءة بواسطة TCNF. كذلك تسع الإصدرات الأعم للأعمال ذات التقلب الزمني الاعتمادي إلى تغيير زمني يمكن تمثيله عبر TCNF. أخيرًا، عند اختيار \(\phi(t) = t\) نستعيد إعداد CTFP التقليدي المناسب للعمليات التي لا تتطلب تغييرًا زمنيًا، مثل الحركة البراونية الهندسية (oksendal2013stochastic).

دالَّة تَغْيِير الوَقْت

لضمان خصائص دالة تغيير الوقت، نستخدم شبكة عصبية محدبة تنتج تدرجًا موجبًا وإخراجًا أحادي الاتجاه. بالتحديد نستخدم بنية (M-MGN) (chaudhari2023learning) المبنية على وحدات معرفة بالصيغ:

\[ \begin{aligned} \begin{split} \Tilde{t}_k &= W_k\times t + b_k, \\ \mathrm{M\mbox{-}MGN}(t) &= a + V^\top V\,t + \sum_{k=1}^K s_k(\Tilde{t}_k)\times W_k^\top \sigma_k(\Tilde{t}_k) \end{split} \end{aligned} \]

حيث \(W_k, b_k \in \mathbb{R} ^{l \times 1}\) متجهات الوزن والانحياز للطبقة الـ\(k\)، و\(\sigma_k:\mathbb{R} ^l \to \mathbb{R} ^l\) دالة تنشيط، و\(s_k :\mathbb{R} ^l \to \mathbb{R}\) مشتقتها العكسية. و\(a \in \mathbb{R}\)، و\(V \in \mathbb{R} ^{l \times 1}\) معاملا شبكة إضافية. وبما أن نتيجة (M-MGN) قد لا تكون موجبة بطبيعتها، نطبق ترجمة للإخراج لضمان إيجابية تغيير الوقت.

خوارزمية التَدْرِيب

الهدف هو تدريب الشبكة الزمنية المشروطة لتعظيم الدالة اللوغاريتمية للاحتمالية لمجموعة البيانات المرصودة \(\{(x_{t_i},t_i)\}_{i=1}^n\):

\[ \begin{aligned} \label{eq:LL} L = \log p_{X_{t_1}, \dots, X_{t_n}}(x_{t_1}, \dots, x_{t_n}) \end{aligned} \]

ولحسابها، نستخدم صيغة تغيير المتغير ونستفيد من استقلالية الزيادات \(W_{\phi(t_i)} - W_{\phi(t_{i-1})}\). بالتالي، تُعبر الإمكانية اللوغاريتمية كما يلي:

\[ \begin{aligned} \begin{split} L = \sum_{i=1}^n & \log p_{W_{\phi(t_i)}\mid W_{\phi(t_{i-1})}}\bigl(w_{\phi(t_i)}\bigr) \\ &- \log \left|\det \frac{\partial f_\theta \bigl(w_{\phi(t_i)},\phi(t_i)\bigr)}{\partial W_{\phi(t_i)}} \right|, \end{split} \end{aligned} \]

حيث \(w_{\phi(t_i)} = f_\theta^{-1}\bigl(x_{t_i}; \phi(t_i)\bigr)\) و\(p_{W_{\phi(t_i)}\mid W_{\phi(t_{i-1})}}\) هو التوزيع الغاوسي الشرطي بمتوسط \(W_{\phi(t_{i-1})}\) وتباين \(\phi(t_i)- \phi(t_{i-1})\). هذا يشكل تمايزًا جوهريًا مقارنة بالإمكانية اللوغاريتمية للتوزيع الزمني المشروط الذي يستخدم نفس المتوسط لكن بتباين \(t_i - t_{i-1}\).

التَجارِب

مَجْمُوعات البَيانات التَجْرِيبِيَّة

لتقييم أداء النموذج المقترح، أجرينا تجارب على ثلاث مجموعات بيانات اصطناعية أحادية البعد دون وحدات. تم توليد تلك المجموعات بأخذ عينات من ثلاث عمليات عشوائية مختلفة، واستخدمنا في تجاربنا بنية مشابهة لبنية نموذج CTFP معتمدة على CNFs.

المجموعة الأولى (Toy-SDE1) نُشئت من عملية OU المعطاة بـ \(dX_t = -\theta(X_t - \mu)dt + \sigma dW_t\)، حيث \(\mu\) و\(\sigma\) هما المعاملان الثابتان للانجراف والتقلب، و\(\theta\) يحدد سرعة تقارب المسار نحو مصطلح الانجراف. تهدف هذه المجموعة إلى اختبار قدرة النموذج على التقاط ديناميكيات ثابتة الزمن.

المجموعة الثانية (Toy-SDE2) بُنيت على المعادلة \(dX_t = -\theta(X_t - \mu)dt + \sigma \sqrt{t}\,dW_t\)، وهي عملية OU بمعامل انتشار معتمد على الزمن، لاختبار قدرة النموذج على التقاط تحولات زمنية معقدة. يُستخدم هذا النوع من SDE في نماذج النقاط الأساسية (yang2022diffusion) حيث تُقدَّم الضوضاء تدريجيًا أثناء التدريب.

المجموعة الثالثة (Toy-SDE3) تتعلق بالحركة البراونية الهندسية المعطاة بـ \(dX_t = \mu X_t dt + \sigma X_t dW_t\)، حيث \(\mu\) و\(\sigma\) هما معاملان ثابتان للانجراف والتقلب. صُممت هذه المجموعة لإظهار قدرة TCNF على التعامل مع SDEs التي لا تحتاج تغيير الزمن، وتعلم الدالة البسيطة \(\phi(t) = t\) بفعالية، مبرزة شمولية إطار CTFP.

تم مقارنة النماذج بمقاييس المتوسط \(m_{X_t}\) والانحراف المعياري \(\sigma_{X_t}\) والمدى بين الربع الأول والثالث IQR (\(Q_{3}-Q_{1}\)) والكثافة \(p_{X_t}\). لكل نموذج حسبنا خطأ المتوسط المطلق (MAE) مقارنةً بالحقائق الأساسية. تم تقدير المتوسط والانحراف والرباعيات بناءً على 1000 مسار عينة عبر 1000 تكرار، بينما استُخدمت شبكة مكانية من 1000 نقطة و500 نقطة زمنية ضمن الفترة \([0, T = 1.5]\) لتقدير الكثافة. تُظهر النتائج المبلغ عنها في الجدول [tab:quant_error_toy12] أن TCNF لا يفقد العمومية في حالات عدم الحاجة لتغيير الزمن، وأن نموذجنا يتفوق في التقاط السلوك المتغير زمنيًا.

مَجْمُوعات البَيانات الواقِعِيَّة

لتقييم قدرة نموذجنا على التقاط ديناميكيات أكثر تعقيدًا، دربناه على مجموعتي بيانات حقيقيتين: تنبؤات العملات المشفرة (Crypto) (g-research-crypto-forecasting) واستهلاك الطاقة الكهربائية (ECL) (zhou2021informer). تحتوي مجموعة Crypto على أسعار تاريخية لعدة عملات مشفرة، وركزنا على عوائد سجل إيثريوم خلال عام 2020. أما مجموعة ECL فشملت بيانات استهلاك الكهرباء لعدة عملاء بفاصل 15 دقيقة، ونمذجنا استهلاك العميل ’200’ عبر امتداد مجمعه الزمني.

تتضمن النتائج أخطاء المتوسط المطلق (MAE) لتقدير المتوسط (\(m_{X_t}\)) والانحراف المعياري (\(\sigma_{X_t}\)) لمجموعة Crypto. واستخدمنا أخطاء نسبية متوسطة (MRE) لمجموعة ECL لملائمة الاختلاف في المقاييس. أُبلغ عن هذه النتائج في الجدول [tab:real-world] ومُقارنتها مع CTFP.

الخُلاصَة

قدمنا نهجًا معمّمًا لنمذجة المعادلات التفاضلية العشوائية عبر الشبكات العصبية الديناميكية وتغيير الزمن. من خلال تحويل حركة وينر عبر الزمن نولد عمليات غاوسية متنوعة تُطابق العملية المرصودة عن طريق تطبيق تدفقات التطبيع. يتيح لنا تغيير الزمن المقترن بالشبكة الديناميكية نمذجة العمليات التي يتعذر التقاطها تقليديًا، مع الحفاظ على مزايا تدفقات التطبيع في تقدير الكثافة الدقيق وأخذ العينات الفعال.

أظهرت التجارب تفوق نموذجنا وقدرته على التعميم. نعتقد أنه بربط تغييرات الزمن بلحظات العملية أو بتباينها التربيعي يمكن تحقيق تحسينات إضافية وتمديد الطريقة لأبعاد أعلى.

``` **تمت مراجعة جميع صيغ LaTeX والتأكد من إغلاق جميع البيئات (`aligned`, `split`، إلخ) بشكل صحيح، وإضافة الأقواس اللازمة حول المعادلات متعددة الأسطر. جميع الصيغ ستعمل بشكل صحيح مع MathJax. لم يتم تغيير أي كلمة من النص الأصلي.**