تَدَفُّقات التَطْبِيعِ المُتَغَيِّرَة زَمَنِيًّا لنمذجة المُعادَلات التَفاضُلِيَّةِ العَشْوائِيَّةِ بِدِقَّةٍ

Naoufal El Bekri, Lucas Drumetz, Franck Vermet

latex

ملخص

أصبحت النماذج التوليدية ذات أهمية متزايدة في تعلم الآلة والتعلم العميق. من بين هذه النماذج التوليدية الشهيرة، تبرز تدفقات التطبيع التي تتيح تقدير الكثافة الاحتمالية بدقة من خلال تحويل توزيع أساسي عبر تحولات ديفيومورفية. كما أدى توسيع إطار عمل تدفقات التطبيع للتعامل مع العمليات المفهرسة بالزمن إلى ظهور تدفقات التطبيع الديناميكية، وهي أداة قوية لنمذجة السلاسل الزمنية والعمليات العشوائية والمعادلات التفاضلية العصشوائية العصبية. في هذا العمل، نقترح نسخة جديدة من تدفقات التطبيع الديناميكية، هي تدفقات التطبيع المتغيرة زمنياً (TCNF)، بالاعتماد على تغيير زمني لحركة براونية، مما يشكل عائلة واسعة ومتنوعة من العمليات الغاوسية. يتيح هذا النهج نمذجة بعض المعادلات التفاضلية العشوائية التي يصعب التقاطها بطرق أخرى، بما في ذلك معادلات قياسية مثل عملية أورنشتاين-أولينبك؛ كما يعمم المناهج السابقة ويحقق نتائج محسنة وقدرة أفضل على الاستدلال والتنبؤ.

مقدمة

تُستخدم الأنظمة الديناميكية على نطاق واسع في مجالات متعددة مثل المالية وعلوم الأرض والفيزياء. ويتضمن تمثيل هذه الأنظمة عادةً معادلات تفاضلية عادية أو معادلات تفاضلية عشوائية (oksendal2013stochastic) عند الأخذ بالضوضاء والاضطرابات إلى جانب المكون الحتمي. وتشمل التطبيقات الهامة نمذجة التقلبات في البيانات المالية وتقدير الشكوك وانتشارها في علوم الأرض. وقد زادت شهرة معالجة هذه الأنظمة مؤخرًا بفضل نماذج تعلم الآلة التوليدية للتنبؤ والتصفية والاستيفاء مع مراعاة عدم اليقين.

تشمل النماذج التوليدية الشائعة الشبكات العصبية التنافسية (conf/nips/GoodfellowPMXWOCB14) والمشفّرات التباينية الذاتية (journals/corr/KingmaW13)، فضلاً عن تدفقات التطبيع (jmlr/PapamakariosNRM21, journals/pami/KobyzevPB21) والنماذج المبنية على الانتشار/التقييم (conf/nips/SongE19). ورغم إمكانية تطبيق هذه النماذج لتوليد السلاسل الزمنية، إلا أنها قد تتعامل مع هذه البيانات كمتجهات في \(\mathbb{R}^{T}\)، حيث \(T\) عدد خطوات الزمن، دون مراعاة البنية السببية. وقد تم تعديل الشبكات التوليدية التنافسية والمشفّرات التباينية الذاتية وتدفقات التطبيع لبيانات السلاسل الزمنية في (conf/nips/YoonJS19, kidger2021neural)، (li2020scalable, zeng2023latent) و(mehrasa2019point, conf/iclr/ShchurBG20) على التوالي. وفي هذا العمل نركز على تدفقات التطبيع لقدرتها على توفير توزيع صريح، وهو أمر حاسم عند تقدير عدم اليقين أو كشف الشذوذ.

تعتمد تدفقات التطبيع على صيغة تغيير المتغيرات المعروفة، التي توفر تعبيرًا عن دالة الكثافة الاحتمالية لتحولات ديفيومورفية لمتغير عشوائي. عن طريق اختيار التحولات بعناية، إذا كانت الكثافة الأولية قابلة للتعامل (تتحلى باحتمال صريح ويسهل أخذ عينات منها، وغالبًا ما تكون غاوسية)، يمكن التلاعب بالكثافة المحوّلة وأخذ العينات منها بسهولة أيضًا، شريطة القدرة على حساب يعقوبي التحويل بفعالية. وعلى المستوى النظري، عند تطبيق عدد لا نهائي من التحولات، نحصل على تدفق التطبيع المستمر (DBLP:conf/iclr/GrathwohlCBSD19). في هذه الحالة، يوصف تدفق التطبيع بمعادلة تفاضلية عادية يمكن دمجها للحصول على الكثافة الناتجة، مما يزيد كفاءة الحساب عبر استبدال حساب يعقوبي محدد بدمج أثره.

تم توسيع إطار تدفقات التطبيع إلى الإعداد الديناميكي عن طريق استخدام تدفق تطبيع مستمر مفهرس بالزمن \(F(\cdot, t)\) مع حركة براونية كعملية أساسية (deng2020modeling)، مما جعل هذا النوع من النماذج أكثر كفاءة لتوليد السلاسل الزمنية. ومع ذلك، أظهر (deng2021continuous) أن هذه النماذج لا تستطيع نظريًا التعامل مع بعض العمليات الأساسية والشائعة، مثل عملية أورنشتاين-أولينبك الكلاسيكية.

وعند تطبيق قاعدة إيتو على \(F(W_t,t)\) لاستنتاج معادلة أورنشتاين-أولينبك، نجد أن \(\partial_x F(W_t,t)=\sigma\) بما يعني \(F(W_t,t)=\sigma W_t+g(t)\) حيث \(g\) دالة قابلة للتفاضل. لكن اشتقاق هذه العلاقة ينتج الشرط التالي:

\[ \frac{dg}{dt}(t) + a\,g(t) - a\,b = -a\,\sigma\,W_t \]

وهذه المعادلة غير قابلة للحل لأن الجانب الأيسر حتمي بينما الجانب الأيمن عشوائي. وبالتالي، تظهر قيود في قدرة تدفق التطبيع المستمر على نمذجة العمليات العشوائية.

في القسم التالي نقترح نموذجًا يعالج هذا القيد ويحقق نتائج محسنة.

تدفق التطبيع الديناميكي مع تغيير الزمن

تدفق التطبيع المتغير بالزمن

نقترح نمذجة عملية عشوائية مرصودة \(X=\{X_t\}_{t\in[0,T]}\) عن طريق دمج تدفق التطبيع مع حركة براونية متغيرة بالزمن لالتقاط السلوك الديناميكي لـ\(X_t\) من سجل زمني مُعطى \(\{(x_{t_i},t_i)\}_{i=1}^n\). في هذا العمل نركز على الحالة أحادية البعد، بينما تتطلب الحالة متعددة الأبعاد تعميمًا مناسبًا لكل بعد. نعرّف تدفق التطبيع المتغير بالزمن (TCNF) كما يلي:

\[ X_t = f_\theta\bigl(W_{\phi(t)},\phi(t)\bigr),\quad \forall t\in[0,T], \]

حيث \(f_\theta(\cdot,t):\mathbb{R}\to\mathbb{R}\) دالة ثنائية الاتجاه قابلة للتفاضل بمعاملات \(\theta\)، و\(W_{\phi(t)}\) حركة براونية متغيرة بالزمن (revuz2013continuous). التغيير الزمني \( \phi:\mathbb{R}^+\to\mathbb{R}^+\) دالة قابلة للقياس، موجبة ومتزايدة؛ حيث تضمن قابلية القياس والإيجابية التعريف الصحيح لـ\(W_{\phi(t)}\)، ويضمن التزايد وجود جميع اللحظات. وعليه ينبغي أن تنتج الشبكة العصبية المُمثلة لـ\(\phi\) دالة موجبة ومتزايدة بطبيعتها. لهذه الطريقة أهمية كبيرة؛ إذ ينتج عنها عائلة أوسع من العمليات الغاوسية مقارنة بالحركة البراونية. وتؤكد نظرية دوبينز-شوارتز (revuz2013continuous) أن كل مارتينجال محلي هو حركة براونية متغيرة بالزمن.

وبذلك يمكننا، عبر جعل العملية الأساسية براونية متغيرة بالزمن، التقاط جميع حالات المارتينجال المحلية وشبه المارتينجالات، وتعميق إطار تدفقات التطبيع الديناميكية. في الواقع، يُعطى حل معادلة أورنشتاين-أولينبك بصيغة:

\[ Y_t = Y_0e^{-at} + b(1-e^{-at}) + \frac{\sigma e^{-at}}{\sqrt{2a}}\,W_{e^{2at}-1} \]

وهذا يمكن نمذجته بكفاءة بواسطة TCNF. وبالمثل، كثير من النماذج الأعم التي تتضمن تقلبات زمنية معتمدة يمكن تمثيلها كتغييرات زمنية ضمن إطار TCNF. وأخيرًا، عند اختيار \(\phi(t)=t\) نستعيد إعداد تدفق التطبيع المستمر التقليدي المناسب للعمليات التي لا تحتاج لتغيير الزمن، مثل الحركة البراونية الهندسية (oksendal2013stochastic).

دالة تغيير الوقت

لضمان خصائص دالة تغيير الوقت، نستخدم شبكة عصبية محدبة تضمن تدرجًا موجبًا وإخراجًا أحادي الاتجاه. بالتحديد، نعتمد بنية (M-MGN) (chaudhari2023learning) المبنية على الوحدات التالية:

\[ \begin{aligned} \widetilde{t}_k &= W_k t + b_k,\\ \mathrm{M\mbox{-}MGN}(t) &= a + V^\top V\,t + \sum_{k=1}^K s_k(\widetilde{t}_k)\,W_k^\top \sigma_k(\widetilde{t}_k). \end{aligned} \]

حيث \(W_k,b_k\in\mathbb{R}^{l\times1}\) أوزان وانحيازات الطبقة الـ\(k\)، و\(\sigma_k:\mathbb{R}^l\to\mathbb{R}^l\) دالة تنشيط، و\(s_k:\mathbb{R}^l\to\mathbb{R}\) مشتقة عكسية، و\(a\in\mathbb{R}\) و\(V\in\mathbb{R}^{l\times1}\) معاملا الشبكة الإضافية. وبما أن ناتج (M-MGN) قد لا يكون موجبًا بذاته، نطبق إزاحة للإخراج لضمان إيجابية تغيير الزمن.

خوارزمية التدريب

الهدف هو تدريب الشبكة الشرطية الزمنية لتعظيم الدالة اللوغاريتمية للاحتمالية لمجموعة البيانات المرصودة \(\{(x_{t_i},t_i)\}_{i=1}^n\):

\[ L = \log p_{X_{t_1},\dots,X_{t_n}}(x_{t_1},\dots,x_{t_n}). \]

لحسابها، نستخدم صيغة تغيير المتغير ونستفيد من استقلالية الزيادات \(\,W_{\phi(t_i)} - W_{\phi(t_{i-1})}\). وبذلك تصبح الإمكانية اللوغاريتمية:

\[ \begin{aligned} L = \sum_{i=1}^n \Bigl[\log p_{W_{\phi(t_i)}\mid W_{\phi(t_{i-1})}}(w_{\phi(t_i)}) - \log\Bigl|\det\frac{\partial f_\theta(w_{\phi(t_i)},\phi(t_i))}{\partial w_{\phi(t_i)}}\Bigr|\Bigr], \end{aligned} \]

حيث \(w_{\phi(t_i)}=f_\theta^{-1}(x_{t_i};\phi(t_i))\) و\(p_{W_{\phi(t_i)}\mid W_{\phi(t_{i-1})}}\) التوزيع الغاوسي الشرطي بمتوسط \(W_{\phi(t_{i-1})}\) وتباين \(\phi(t_i)-\phi(t_{i-1})\). وهذا يشكل فرقًا جوهريًا عن الإمكانية للتوزيع الزمني المشروط التي تستخدم تباين \(t_i-t_{i-1}\).

التجارب

مجموعات البيانات التجريبية

لتقييم أداء النموذج المقترح، أجرينا تجارب على ثلاث مجموعات بيانات اصطناعية أحادية البعد دون وحدات. تم توليد هذه المجموعات بأخذ عينات من ثلاث عمليات عشوائية مختلفة، واستخدمنا بنية مشابهة لنموذج CTFP المعتمد على CNFs.

المجموعة الأولى (Toy-SDE1) نُشئت من عملية OU المعطاة بـ \(dX_t = -\theta(X_t - \mu)\,dt + \sigma\,dW_t\) حيث \(\mu\) و\(\sigma\) المعاملان الثابتان للانجراف والتقلب، و\(\theta\) يحدد سرعة التقارب. تهدف هذه المجموعة إلى اختبار قدرة النموذج على التقاط ديناميكيات ثابتة في الزمن.

المجموعة الثانية (Toy-SDE2) بُنيت على المعادلة \(dX_t = -\theta(X_t - \mu)\,dt + \sigma\,\sqrt{t}\,dW_t\) وهي عملية OU بمعامل انتشار معتمد على الزمن، لاختبار قدرة النموذج على التقاط التحولات الزمنية المعقدة. يُستخدم هذا النوع من SDE في نماذج النقاط الأساسية (yang2022diffusion) حيث تُقدَّم الضوضاء تدريجيًا أثناء التدريب.

المجموعة الثالثة (Toy-SDE3) تتعلق بالحركة البراونية الهندسية المعطاة بـ \(dX_t = \mu X_t\,dt + \sigma X_t\,dW_t\) حيث \(\mu\) و\(\sigma\) المعاملان الثابتان للانجراف والتقلب. صُممت هذه المجموعة لإظهار قدرة TCNF على التعامل مع SDEs التي لا تحتاج تغيير الزمن وتعلم الدالة البسيطة \(\phi(t)=t\) بفعالية، مبرزة شمولية إطار CTFP.

قارنّا النماذج باستخدام مقاييس المتوسط \(m_{X_t}\) والانحراف المعياري \(\sigma_{X_t}\) والمدى بين الربع الأول والثالث (IQR) والكثافة \(p_{X_t}\). لكل نموذج حسبنا الخطأ المطلق المتوسط (MAE) مقارنةً بالحقائق الأساسية. وقدّرنا المتوسط والانحراف والرباعيات بناءً على 1000 مسار عيّن عبر 1000 تكرار، واستخدمنا شبكة مكانية من 1000 نقطة و500 نقطة زمنية ضمن الفترة [0,T=1.5] لتقدير الكثافة. تظهر النتائج في الجدول [tab:quant_error_toy12] تفوق TCNF في التقاط السلوك المتغير زمنياً دون فقدان العمومية في الحالات التي لا تحتاج تغيير الزمن.

مجموعات البيانات الواقعية

لتقييم قدرة نموذجنا على التقاط ديناميكيات أكثر تعقيدًا، دربناه على مجموعتي بيانات حقيقيتين: تنبؤات العملات المشفرة (Crypto) (g-research-crypto-forecasting) واستهلاك الطاقة الكهربائية (ECL) (zhou2021informer). تحتوي مجموعة Crypto على أسعار إيثريوم التاريخية خلال عام 2020، بينما شملت مجموعة ECL بيانات استهلاك الكهرباء لعدة عملاء بفاصل 15 دقيقة، ونمذجنا استهلاك العميل ’200’ على امتداد سجلّه الزمني.

تقدّم النتائج أخطاء المتوسط المطلق (MAE) لتقدير المتوسط (\(m_{X_t}\)) والانحراف المعياري (\(\sigma_{X_t}\)) لمجموعة Crypto. ولتوافق المقاييس استخدمنا الأخطاء النسبية المتوسطة (MRE) لمجموعة ECL. وقد أُبلغ عن هذه النتائج في الجدول [tab:real-world] ومقارنتها مع CTFP.

الخلاصة

قدمنا نهجًا معمّمًا لنمذجة المعادلات التفاضلية العشوائية العصبية باستخدام تدفقات التطبيع الديناميكية مع تغيير الزمن. من خلال تغيير زمن حركة براونية نولد عمليات غاوسية متنوعة تطابق العملية المرصودة عبر تطبيق تدفقات التطبيع. يتيح دمج تغيير الزمن مع الشبكة الديناميكية نمذجة العمليات التي يصعب التقاطها تقليديًا، مع الحفاظ على مزايا تدفقات التطبيع في تقدير الكثافة الدقيقة وأخذ العينات الفعّال.

أظهرت التجارب تفوّق نموذجنا وقدرته على التعميم. ونعتقد أنه بربط تغييرات الزمن بلحظات العملية أو بتباينها التربيعي يمكن تحقيق تحسينات إضافية وتمديد الطريقة لأبعاد أعلى.