latex
أَصْبَحَت النماذج التوليدية ذات أهمية متزايدة في مجال تعلم الآلة والتعلم العميق. من بين هذه النماذج، تتّسم تدفقات التطبيع بقدرتها على تقدير الاحتمال بدقة عبر تحويل توزيع أساسي بواسطة تحويلات قابلة للعكس. وقد توسّع إطار عمل تدفقات التطبيع ليشمل نسخًا مفهرسة زمنيًا، مما أدى إلى ظهور تدفقات التطبيع الديناميكية كنموذج قوي لمُعالجة السلاسل الزمنية والعمليات العشوائية والمعادلات التفاضلية العشوائية العصبية. في هذا العمل، نقدّم نوعًا جديدًا من تدفقات التطبيع الديناميكية، نُسميه تدفق التطبيع المتغيّر زمنيًا (TCNF)، المعتمد على تشويه زمني للحركة البراونية، ليكوِّن عائلة غاوسية عامة. يتيح هذا النهج نمذجة معادلات تفاضلية عشوائية لا يمكن التقاطها بواسطة النماذج السابقة، بما في ذلك المعادلة الكلاسيكية لعملية أورنشتاين–أولينبك، ويُفضي إلى تحسينات في القدرة على الاستدلال والتنبؤ.
تُستخدم النظم الديناميكية في مجالات علمية متعددة مثل المالية وعلوم الأرض والفيزياء. وعادةً ما يُمثَّل سلوك هذه النظم بمعادلات تفاضلية عادية أو عشوائية (oksendal2013stochastic) لإدراج تأثير الضوضاء إلى جانب المكون الحتمي. تشمل تطبيقاتها نمذجة التقلبات في البيانات المالية وتقييم الشكوك في علوم الأرض. وقد أصبح نمذجة هذه الأنظمة عبر السلاسل الزمنية والتعلم الآلي شائعًا، خاصةً باستخدام النماذج التوليدية لأغراض التنبؤ والتصفية والاستيفاء مع مراعاة حالة الشك.
أشهر النماذج التوليدية تشمل الشبكات العصبية التوليدية الخصمية (conf/nips/GoodfellowPMXWOCB14) والمشفرات التلقائية الاختلافية (journals/corr/KingmaW13)، وأيضًا تدفقات التطبيع (jmlr/PapamakariosNRM21, journals/pami/KobyzevPB21) ونماذج الانتشار (conf/nips/SongE19). على الرغم من قابليتها لتوليد السلاسل الزمنية، فإنها عادةً تعالج البيانات كمتجهات في \(\mathbb{R}^T\) دون استغلال البنية السببية. وقد طُوِّرت تكييفات لهذه النماذج للسلاسل الزمنية في (conf/nips/YoonJS19, kidger2021neural), (li2020scalable, zeng2023latent), (mehrasa2019point, conf/iclr/ShchurBG20). في عملنا نركّز على تدفقات التطبيع نظرًا لقدرتها على توفير احتمالات صريحة، وهو أمر أساسي لتقدير الشكوك وكشف الشذوذ.
تعتمد تدفقات التطبيع على صيغة تغيير المتغيرات المعروفة، التي تعطي دالة الكثافة الاحتمالية لتحويل ديفيومورفي قابل للعكس. بالاختيار الدقيق لهذه التحويلات، إذا كان التوزيع الأساسي غاوسيًا (أخذ عينات وسهل الحساب)، فيمكن التعامل بسهولة مع الكثافة المحوّلة وأخذ عينات منها بشرط حساب دالة الدلتا (اليعقوبي) بكفاءة. وفي حدها النظري حيث يتوالى عددٌ لا نهائي من هذه التحويلات، نحصل على تدفق التطبيع المستمر (DBLP:conf/iclr/GrathwohlCBSD19)، الذي يوصف بمعادلة تفاضلية عادية يمكن دمجها للحصول على الكثافة النهائية، مما يقلل من تكلفة حساب اليعقوبي إلى التكامل الزمني.
لاحقًا، تم تعميم تدفقات التطبيع في الإطار الديناميكي باستبدال التوزيع الأساسي بعملية عشوائية قابلة للتعامل، أي حركة براونية (deng2020modeling)، ما جعل النماذج أكثر كفاءة في توليد السلاسل الزمنية. غير أن (deng2021continuous) أظهرت نظريًا عجز هذه النماذج عن تقليد بعض العمليات الأساسية مثل عملية أورنشتاين–أولينبك الكلاسيكية.
بالتالي، نقترح هنا تعميمًا لهذا الإطار باستخدام عائلة واسعة من العمليات الغاوسية كعمليات أساسية بدل الحركة البراونية التقليدية. يتم ذلك عبر تغيير زمني للحركة البراونية المعيارية، فنحصل على نموذج تدفق التطبيع المتغيّر زمنيًا (TCNF) الذي يمتاز بمرونة رياضية تصف ديناميكيات ومعادلات تفاضلية عشوائية لا تستطيع النماذج السابقة التقاطها. نُثبت فعالية هذا النموذج عبر تجارب على عدة عمليات معروفة.
تنقسم بقية الورقة كما يلي: في القسم [background] نراجع معادلات التفاضل العشوائية العصبية ونهج تدفق التطبيع الديناميكي وقيوده. في القسم [tcnf] نقدّم نموذج TCNF وخصائصه وخوارزمية التدريب. ثم نعرض في القسم [quantResults] النتائج الكمية ومقارنتها بغيرها، ونختم في القسم [conclusion].
نعتبر فضاءً احتمالياً مفلترًا \((\Omega, \mathcal{F}, P)\) وأفقًا زمنيًا \(T\). تُعرف عملية الانتشار \(X = \{X_t\}_{t\in [0, T]}\) بمعادلة إيتو SDE:
\[\label{eq:EDS_X} dX_t = \mu(X_t, t)\,dt + \sigma(X_t,t)\,dW_t,\quad t\in [0, T]\]
حيث \(W = \{W_t\}_{t\in [0, T]}\) هي عملية واينر معيارية متكيفة بأبعاد \(m\). الدالتان \(\mu:\mathbb{R}^d\times[0,T]\to\mathbb{R}^d\) و\(\sigma:\mathbb{R}^d\times[0,T]\to\mathbb{R}^{d\times m}\) هما معاملا الانجراف والانتشار. عندما يُمثَّلان بالشبكات العصبية، تُعرف SDE باسم SDE عصبي (tzen2019neural, liu2019neural).
طُرحت العديد من الطرق لتعلُّم SDEs عصبية باستخدام أطر توليدية مثل الـ VAEs (li2020scalable, zeng2023latent) وGANs (kidger2021neural). في هذا العمل نركّز على نموذج تدفق التطبيع.
تدفق التطبيع (jmlr/PapamakariosNRM21, journals/pami/KobyzevPB21, DBLP:conf/iclr/GrathwohlCBSD19) هو تحويل للعينة العشوائية \(X\) يتيح نمذجة الكثافة المعقدة \(p_X\) بواسطة توزيع أساسي \(p_Z\) ودالة قابلة للعكس \(f:\mathbb{R}^d\to\mathbb{R}^d\). باستخدام صيغة تغيير المتغير:
\[\log p_X(x) = \log p_Z(z) - \log\bigl|\det J_f(z)\bigr|\]
حيث \(J_f(z) = \bigl[\partial f_i/\partial z_j\bigr]_{i,j}\) هي المصفوفة اليعقوبية.
سوّقت الأعمال السابقة هذا الإطار للسلاسل الزمنية باستخدام تحويل مستمر مفهرس بالزمن \(F(\cdot,t)\) وحركة براونية كعملية أساسية:
\[X_t = F(W_t,t)\quad(\text{CTFP})\]
واقترح آخرون دمج ديناميكيات أورنشتاين–أولينبك مع تدفق التطبيع (deng2021continuous)، فأظهرت تدفقات التطبيع الديناميكية كفاءةً عالية في التقاط سلوك العمليات العشوائية. مع ذلك، ثبُت نظريًا أن CTFP لا تستطيع نمذجة عملية أورنشتاين–أولينبك الكلاسيكية.
في القسم التالي ننقّح هذا القيد مقدمين نموذجًا يغطيه ويحقق دقة أعلى.
نقترح نمذجة العملية العشوائية المرصودة \(X=\{X_t\}_{t\in[0,T]}\) عبر دمج تدفق التطبيع ودالة تغيير الزمن لتحريك الحركة البراونية، اعتمادًا على البيانات المرصودة \(\{(x_{t_i},t_i)\}_{i=1}^n\). في هذا العمل نعرض الحالة أحادية البعد، مع إشارة إلى أن الإطار يتوسع بسهولة لأبعاد متعددة عبر تغيير زمني لكل بُعد. يُعرَّف نموذج تدفق التطبيع المتغيّر زمنيًا (TCNF) كما يلي:
\[X_t = f_\theta\bigl(W_{\phi(t)},\,\phi(t)\bigr),\quad t\in[0,T],\]
حيث \(f_\theta(\cdot,t):\mathbb{R}\to\mathbb{R}\) دالة قابلة للتفاضل بمعاملات \(\theta\)، و\(W_{\phi(t)}\) حركة براونية بتغيير زمني تحدده الدالة \(\phi:\mathbb{R}^+\to\mathbb{R}^+\)، وهي موجبة ومتزايدة وقابلة للقياس لضمان صحة العملية البراونية.
باختيار التغيير الزمني المناسب، يمكن نمذجة معادلة أورنشتاين–أولينبك المحلولة بالعبارة:
\[Y_t = Y_0e^{-at}+b(1-e^{-at})+\frac{\sigma e^{-at}}{\sqrt{2a}}\,W_{e^{2at}-1},\]
مما يبيّن مرونة TCNF في التقاط العمليات الغاوسية المختلفة، بما في ذلك العمليات ذات التقلب الزمني أو العملية الهندسية. وعندما \(\phi(t)=t\)، يستعيد النموذج إعداد CTFP التقليدي.
لضمان خروج موجب ومتزايد، نمثل دالة تغيير الزمن بشبكة عصبية محدبة (M-MGN) (chaudhari2023learning) مبنية على K وحدات:
\[ \begin{aligned} \tilde t_k &= W_k\,t + b_k,\\ \mathrm{M\text{-}MGN}(t) &= a + V^\top V\,t \;+\;\sum_{k=1}^K s_k(\tilde t_k)\,\bigl(W_k^\top\,\sigma_k(\tilde t_k)\bigr), \end{aligned} \]
حيث \(W_k,b_k\in\mathbb{R}^{l\times1}\) أوزان وانحياز الطبقة k، و\(\sigma_k:\mathbb{R}^l\to\mathbb{R}^l\) دالة تنشيط، و\(s_k\) مشتقتها العكسية. و\(a\in\mathbb{R}\), \(V\in\mathbb{R}^{l\times1}\) معاملات إضافية. نطبق بعد ذلك تحويلاً لضمان أن الإخراج موجب.
نهدف إلى تدريب TCNF لتعظيم اللوغاريتم لدالة الاحتمال المشتركة للبيانات المرصودة \(\{(x_{t_i},t_i)\}\):
\[\label{eq:LL} L = \log p_{X_{t_1},\dots,X_{t_n}}(x_{t_1},\dots,x_{t_n}).\]
باستخدام صيغة تغيير المتغير واستقلالية الزيادات \(W_{\phi(t_i)}-W_{\phi(t_{i-1})}\)، يُعطى اللوغاريتم كما يلي:
\[ \begin{aligned} L = \sum_{i=1}^n &\Bigl[\log p_{W_{\phi(t_i)}\mid W_{\phi(t_{i-1})}}\bigl(w_{\phi(t_i)}\bigr)\;-\;\log\Bigl|\det\tfrac{\partial f_\theta(w_{\phi(t_i)},\phi(t_i))}{\partial W_{\phi(t_i)}}\Bigr|\Bigr], \end{aligned} \]
حيث \(w_{\phi(t_i)}=f_\theta^{-1}(x_{t_i};\phi(t_i))\)، وتكون الزيادة الشرطية غاوسية بمتوسط \(W_{\phi(t_{i-1})}\) وتباين \(\phi(t_i)-\phi(t_{i-1})\). يختلف هذا عن CTFP إذ يستخدم تبايناً \(t_i-t_{i-1}\).
لتقييم النموذج المقترح، أجرينا اختبارات على ثلاث مجموعات بيانات أحادية البعد (بدون وحدات)، نُولت عبر عينات من ثلاث عمليات عشوائية. واعتمدنا هيكلية تشابه هيكلية نموذج النقل المستمر للوقت.
المجموعة الأولى (Toy-SDE1) مشتقة من عملية أورنشتاين–أولينبك المجزأة:
\(dX_t = -\theta(X_t-\mu)\,dt + \sigma\,dW_t\), حيث تمثل المعاملات \(\mu,\sigma,\theta\) الانجراف والتقلب وسرعة التقارب على التوالي. تختبر هذه المجموعة قدرة النموذج على التقاط ديناميكيات التغير الزمني.
المجموعة الثانية (Toy-SDE2) مبنية على:
\(dX_t = -\theta(X_t-\mu)\,dt + \sigma\sqrt{t}\,dW_t\), وهو أورنشتاين–أولينبك بتقلب زمني، لاختبار القدرة على تمثل التعقيد الزمني المتزايد.
المجموعة الثالثة (Toy-SDE3) هي حركة براونية هندسية:
\(dX_t = \mu X_t\,dt + \sigma X_t\,dW_t\), لتبيان أن النموذج يستعيد الحالة التقليدية دون تغيير زمن (\(\phi(t)=t\)).
من الناحية الكمية نقارن المتوسط \(m_{X_t}\)، الانحراف المعياري \(\sigma_{X_t}\)، المدى الربيعي IQR، والكثافة \(p_{X_t}\)، مع الأخطاء المطلقة المتوسطة (MAE) مقابل القيم الحقيقية. استُخدمت 1000 مسارًا و500 نقطة زمنية و1000 نقطة مكانية ضمن الفترة \([0,1.5]\). تُظهر النتائج في الجدول [tab:quant_error_toy12] أن نموذج النقل المستمر للوقت لا يفقد العمومية عند عدم الحاجة إلى تغيير زمني، في حين يتفوّق نموذجنا في التقاط السلوك الزمني المعقد.
للتدقيق في التعقيد، درّبنا النموذج على مجموعتي بيانات واقعية: تنبؤات العملات المشفرة (Crypto) (g-research-crypto-forecasting) واستهلاك الطاقة الكهربائية (ECL) (zhou2021informer). ركّزنا على عوائد إيثريوم في 2020 لبيانات Crypto، واستهلاك العميل «200» بفواصل 15 دقيقة لبيانات ECL.
نبلغ عن MAE لتقدير المتوسط والانحراف المعياري في Crypto، وMRE في ECL. وتظهر النتائج في الجدول [tab:real-world] مع مقارنة نموذجنا بـ CTFP.
عرضنا إطارًا معمّمًا لنمذجة المعادلات التفاضلية العشوائية عبر الشبكات العصبية الديناميكية مع تغيير الزمن. بتحويل الحركة البراونية عبر دالة زمنية، نولّد عمليات غاوسية متنوعة نربطها بالبيانات المرصودة عبر دالة ربط أحادية الاتجاه. يحافظ هذا التوسيع على مزايا تدفقات التطبيع—تقدير دقيق للكثافة وأخذ عينات فعّال—مع قدرة جديدة على نمذجة معادلات لم تكن قابلة للتعبير عنها سابقًا.
أثبتت التجارب تفوّق نموذجنا وقدرته على التعميم. نعتقد أن تخصيص وظائف تغيير زمنية لكل بُعد سيمكّن التوسّع إلى أبعاد أعلى، وأن تحسين معايير هذه الدوال عبر ربطها بلحظات العملية أو بتباينها التربيعي سيزيد من الأداء المستقبلي.