latex
أَصْبَحَت النماذج التوليدية ذات أهمية متزايدة في تعلم الآلة ونماذج التعلم العميق. من بين النماذج التوليدية الشائعة تبرز تدفقات التطبيع، التي تتيح تقدير الاحتمالية الدقيقة من خلال تحويل توزيع أساسي عبر تحولات ديفيومورفية. توسيع إطار عمل تدفقات التطبيع لمعالجة التدفقات المفهرسة زمنيًا أدى إلى ظهور تدفقات التطبيع الديناميكية، وهي أداة قوية لنمذجة السلاسل الزمنية، والعمليات العشوائية، والمعادلات التفاضلية العشوائية العصبية. في هذا العمل، نقترح متغيرًا جديدًا من تدفقات التطبيع الديناميكية، وهو تدفق التطبيع المتغير زمنيًا (TCNF)، بالاعتماد على تشويه زمني لحركة براونية، والذي يشكل عائلة متنوعة وواسعة من العمليات الغاوسية. يتيح لنا هذا النهج نمذجة بعض المعادلات التفاضلية العشوائية التي لا يمكن نمذجتها بطرق أخرى، بما في ذلك تلك القياسية مثل عملية أورنشتاين-أولينبك المعروفة، ويعمم المنهجيات السابقة، ويؤدي إلى نتائج محسنة وقدرة أفضل على الاستدلال والتنبؤ.
تُستخدم الأنظمة الديناميكية على نطاق واسع في مجالات علمية متعددة مثل المالية، وعلوم الأرض، والفيزياء. يتضمن تمثيل هذه الأنظمة عادة معادلات تفاضلية عادية أو معادلات تفاضلية عشوائية (oksendal2013stochastic) عند أخذ الضوضاء والاضطرابات في الاعتبار، بالإضافة إلى المكون الحتمي. تشمل التطبيقات الحاسمة نمذجة التقلبات في البيانات المالية، أو تقدير الشكوك ونشرها في علوم الأرض. لقد شهدت معالجة هذه الأنظمة من خلال نمذجة السلاسل الزمنية وتعلم الآلة زيادة في الشعبية، خاصة مؤخرًا، بفضل النماذج التوليدية، لتطبيقات التنبؤ، التصفية، أو الاستيفاء مع مفهوم الشك في السلاسل المولدة.
تشمل النماذج التوليدية الشائعة الشبكات العصبية التوليدية التنافسية (conf/nips/GoodfellowPMXWOCB14) والمشفّرات التباينية الذاتية (journals/corr/KingmaW13)، وأيضًا مؤخرًا تدفقات التطبيع (jmlr/PapamakariosNRM21, journals/pami/KobyzevPB21) والنماذج المبنية على التشتت/التقييم (conf/nips/SongE19). على الرغم من أن هذه النماذج يمكن تطبيقها لتوليد السلاسل الزمنية، إلا أنها ليست الأنسب لهذه المهمة لأنها تتعامل مع هذه البيانات كمتجهات في \(\mathbb{R}^{T}\)، حيث \(T\) هو عدد خطوات الزمن، دون مراعاة البنية السببية. تم إجراء تكييفات للشبكات العصبية التوليدية التنافسية، والمشفّرات التباينية الذاتية، وتدفقات التطبيع لبيانات السلاسل الزمنية في (conf/nips/YoonJS19, kidger2021neural),(li2020scalable, zeng2023latent),(mehrasa2019point, conf/iclr/ShchurBG20) على التوالي. في هذا العمل، نركز على تدفقات التطبيع لقدرتها على الوصول إلى احتمالات صريحة، وهو أمر حاسم للتطبيقات عندما يكون تقدير الشكوك أو كشف الشذوذ مطلوبًا.
تعتمد تدفقات التطبيع على صيغة تغيير المتغيرات المعروفة التي توفر تعبيرًا عن دالة الكثافة الاحتمالية لتحولات ديفيومورفية لمتغير عشوائي. من خلال اختيار التحولات (أو تراكيبها) بعناية، إذا كانت الكثافة الأولية قابلة للتعامل (احتمال صريح وأخذ عينات سهل، غالبًا ما تكون غاوسية)، يمكن التلاعب بالكثافة المحوّلة وأخذ العينات منها بسهولة أيضًا، بشرط إمكانية حساب يعقوبي التحويل بكفاءة. بالنظر إلى الحد النظري حيث يتم تطبيق عدد لا نهائي من التحولات، يمكننا استنتاج تدفق التطبيع المستمر (DBLP:conf/iclr/GrathwohlCBSD19). في هذه الحالة، يوصف تدفق التطبيع بمعادلة تفاضلية عادية يمكن دمجها للحصول على الكثافة الناتجة. يزيد هذا النهج من كفاءة الحساب لهذه الفئة من النماذج من خلال استبدال يعقوبي محدد بدمج أثره.
تم توسيع تدفقات التطبيع إلى الإعداد الديناميكي من خلال استبدال التوزيع الأساسي القابل للتعامل بعملية احتمالية قابلة للتعامل، أي حركة براونية (deng2020modeling)، مما يجعل هذا النوع من النماذج أكثر كفاءة لتوليد السلاسل الزمنية. ومع ذلك، لوحظ في (deng2021continuous) أن هذه النماذج غير قادرة نظريًا على التعامل مع بعض العمليات الأساسية والشائعة، مثل عملية أورنشتاين-أولينبك الكلاسيكية.
وبالتالي، في هذه الورقة، نقترح تعميمًا لهذا النهج من خلال استخدام عائلة كبيرة من العمليات الغاوسية كعملية أساسية بدلًا من الحركة البراونية التقليدية. تُبنى العمليات الغاوسية من خلال تحويل الحركة البراونية القياسية عبر الزمن، مما يؤدي إلى تدفق التطبيع المتغير بالزمن، وهو نموذج يمتلك خصائص رياضية تمكنه من وصف الديناميكيات والمعادلات التفاضلية الاحتمالية التي لا يمكن للنماذج السابقة المبنية على التدفق التقاطها، مع الحفاظ على تعبيرية تدفقات التطبيع الديناميكية. نؤكد هذه النتائج من خلال تجارب عديدة على عدة عمليات معروفة.
تنظم بقية هذه الورقة على النحو التالي: نقدم أولًا، في القسم [background]، نظرة عامة على معادلات التفاضل الاحتمالية العصبية، حيث كل من الانجراف والانتشار هما شبكات عصبية، ونهج تدفق التطبيع الديناميكي ومناقشة القيود الكامنة في مثل هذه النماذج. بعد ذلك، في القسم [tcnf]، نقدم نموذجنا ونصف خصائصه وخوارزمية التدريب. أخيرًا، يتم تقديم النتائج الكمية في القسم [quantResults] ومقارنتها بنماذج أخرى مبنية على التدفق، وتقديم الملاحظات الختامية في القسم [conclusion].
نعتبر فضاء احتمالي مفلتر \((\Omega, \mathcal{F}, P)\) وأفقًا زمنيًا \(T\). تُعرف عملية الانتشار \(X = \{X_t\}_{t\in [0, T]}\) بواسطة معادلة التفاضل العشوائية لإيتو (SDE): \[\begin{aligned} \label{eq:EDS_X} dX_t = \mu(X_t, t)dt + \sigma(X_t,t)dW_t, t\in [0, T]\end{aligned}\] حيث \(W = \{W_t\}_{t\in [0, T]}\) هي عملية وينر القياسية المتكيفة ذات الأبعاد \(m\). الدالتان \(\mu:\mathbb{R} ^d \times [0,T] \longrightarrow \mathbb{R} ^d\) و \(\sigma:\mathbb{R} ^d \times [0,T] \longrightarrow \mathbb{R} ^{d\times m}\) هما معاملا الانجراف والانتشار على التوالي. عندما يتم تنفيذ \(\mu\) و \(\sigma\) بواسطة الشبكات العصبية، يُسمى SDE عصبي (tzen2019neural, liu2019neural).
تم اقتراح العديد من الأعمال لتعلم SDEs العصبية باستخدام أطر نمذجة توليدية مختلفة بما في ذلك المشفرات التلقائية الاختلافية (li2020scalable, zeng2023latent) والشبكات التوليدية التنافسية (kidger2021neural). في هذه الورقة، نركز بشكل خاص على نموذج تدفق التطبيع.
تدفق التطبيع (jmlr/PapamakariosNRM21, journals/pami/KobyzevPB21, DBLP:conf/iclr/GrathwohlCBSD19) هو تحويل مصمم لنمذجة متغير عشوائي \(X\) وتوزيعه المعقد \(p_X\) من خلال توزيع أساسي \(p_Z\) ودالة ثنائية الاتجاه قابلة للتفاضل \(f:\mathbb{R} ^d \longrightarrow \mathbb{R} ^d\). تسمح هذه النمذجة بتقدير الكثافة الدقيقة والأخذ العيني الفعال، باستخدام صيغة تغيير المتغير لـ \(X=f(Z)\):
\[\log p_X(x) = \log p_Z(z) - \log \left|\det J_{f}(z)\right|\]
حيث يكون اليعقوبي \(J_f(z) = \left[\frac{\partial f_i}{\partial z_j} \right]_{1\leq i,j \leq d}\) هو مصفوفة \(d\times d\) لجميع المشتقات الجزئية لـ \(f\).
لقد قامت الأعمال السابقة بتوسيع هذا الإطار لنمذجة السلاسل الزمنية والعمليات العشوائية من خلال استخدام تباين مستمر مفهرس بالزمن \(F(., t)\)، إلى جانب حركة براونية كعملية أساسية، مما أدى إلى ظهور عملية تدفق الزمن المستمر (deng2020modeling): \[\begin{aligned} X_t = F(W_t, t).\end{aligned}\]
تقترح طريقة أخرى (deng2021continuous) دمج الديناميكيات الكامنة من عملية أورنشتاين-أولينبك مع تدفق التطبيع لنمذجة المعادلات التفاضلية العشوائية بفعالية.
لقد أظهرت هذه النماذج فعالية تدفقات التطبيع الديناميكية في التقاط السلوك المعقد لأنواع مختلفة من العمليات العشوائية والمعادلات التفاضلية العشوائية. ومع ذلك، من المهم التأكيد على أن لهذه النماذج قيودًا ذاتية. تنشأ إحدى القيود عند تطبيق قاعدة إيتو على عملية تدفق الزمن المستمر لاشتقاق عملية أورنشتاين-أولينبك الأحادية الموصوفة بالمعادلة:
\[\begin{aligned} \label{eq:ou} dY_t = -a(Y_t - b)dt + \sigma dW_t\end{aligned}\]
فعند تطبيق قاعدة إيتو على \(F(W_t,t)\) نحصل على: \[\begin{aligned} \label{eq:NF-OU} \begin{split} dF(W_t,t) = & \frac{\partial F}{\partial t}(W_t,t)dt + \frac{\partial F}{\partial x}(W_t,t)dW_t \\ & + \frac{1}{2}\frac{\partial^2 F}{\partial x^2}(W_t,t)dt \end{split}\end{aligned}\]
من خلال المقارنة بين المعادلتين ، نستنتج أنه لنمذجة عملية أورنشتاين-أولينبك، يجب أن يكون \(\frac{\partial F}{\partial x}(W_t,t) = \sigma \)، مما يعني أن \(F(W_t, t) = \sigma W_t + g(t)\)، حيث \(g\) دالة قابلة للتفاضل معطاة. ومع ذلك، فإن التفاضل لهذه العلاقة بالنسبة لـ \(t\) وإدخالها في المعادلة يؤدي إلى الشرط التالي: \[\begin{aligned} \label{OUabsurde} \frac{dg}{dt}(t) +a g(t) -a b= -a\sigma W_t\end{aligned}\] هذه المعادلة غير قابلة للتحقيق حيث أن الجانب الأيسر دالة حتمية في \(t\) بينما الجانب الأيمن دالة عشوائية تعتمد على \(W_t\). وبالتالي، تظهر عملية تدفق الزمن المستمر قيودًا وقصورًا في قدرتها على نمذجة العمليات العشوائية بفعالية.
في القسم التالي، نقترح نموذجًا يمكنه معالجة هذا القيد وتحقيق نتائج محسنة.
نقترح نمذجة عملية عشوائية مراقبة، يُشار إليها بـ \(X = \{X_t\}_{t\in [0, T]}\)، من خلال دمج تدفق تطبيعي وعملية وينر المتغيرة بالزمن لالتقاط السلوك الديناميكي لـ \(X_t\) بناءً على سلسلة زمنية محققة \(\{(x_{t_i},t_i)\}_{i=1}^n\). في هذه الورقة، نتناول صراحة الحالة أحادية البعد، مع تطوير مستمر للحالة العامة التي تتطلب تغييرًا زمنيًا مناسبًا لكل بعد. نقدم مفهوم تدفق التطبيع المتغير بالزمن (TCNF)، المعرّف كما يلي:
\[\begin{aligned} X_t = f_\theta \left(W_{\phi(t)},\phi(t)\right), \quad \forall t \in [0,T],\end{aligned}\]
حيث \(f_\theta(.,t):\mathbb{R} \longrightarrow \mathbb{R}\) هو تباين قابل للتفاضل معلم بـ \(\theta\)، بينما \(W_{\phi(t)}\) تشير إلى حركة براونية مع تغيير زمني (revuz2013continuous). التغيير الزمني معطى بواسطة \(\phi : \mathbb{R} ^{+} \longrightarrow \mathbb{R} ^{+}\)، وهي دالة قابلة للقياس، موجبة ومتزايدة. خاصيتا القابلية للقياس والإيجابية تضمنان التعريف الصحيح لـ \(W_{\phi(t)}\)، بينما تضمن خاصية التزايد وجود اللحظات. وبالتالي، يجب أن تمتلك الشبكة العصبية التي تمثل التغيير الزمني خصائص موجبة ومتزايدة بطبيعتها. للتغيير الزمني تطبيقات هامة حيث ينتج عائلة من العمليات الغاوسية التي هي أكثر عمومية من حركة براونيه. نظرية دوبينز-شوارتز (revuz2013continuous) تؤكد أيضًا هذه الخاصية حيث تنص على أن كل مارتينجال محلي هو ببساطة حركة براونية متغيرة بالزمن.
لذا، من خلال جعل العملية الأساسية لنموذجنا حركة براونية متغيرة بالزمن، يمكننا التقاط جميع حالات المارتينجالات المحلية والسيميمارتينجالات، وبالتالي تعميم إعداد CTFP. في الواقع، يمكن التعبير عن حل المعادلة كما يلي: \[\begin{aligned} Y_t = Y_0e^{-at} + b(1-e^{-at}) + \frac{\sigma e^{-at}}{\sqrt{2a}}W_{e^{2at}-1}\end{aligned}\] والذي يمكن نمذجته بشكل صحيح بواسطة TCNF. الحالات الأكثر عمومية مثل العمليات ذات التقلب المعتمد على الزمن يمكن أيضًا التعبير عنها من خلال تغيير زمني وبالتالي نمذجتها بواسطة TCNF. أخيرًا، بالنسبة لـ \(\phi(t) = t\) نستعيد إعداد CTFP، والذي يناسب نمذجة المعادلات التفاضلية العشوائية التي لا تتطلب تغييرًا زمنيًا مثل الحركة البراونية الهندسية (oksendal2013stochastic).
للتعامل مع دالة تغيير الوقت، نستخدم شبكة عصبية محدبة تضمن تدرجًا موجبًا، مما يضمن إخراجًا أحادي الاتجاه. على وجه التحديد، نستخدم بنية (M-MGN) (chaudhari2023learning) المبنية على وحدات شبكة معرفة بالصيغ التالية: \[\begin{aligned} \begin{split} \Tilde{t}_k &= W_k\times t + b_k, \\ \text{M-MGN}(t) &= a + V^\top V t + \sum_{k=1}^K s_k(\Tilde{t}_k) \times W_k^\top \sigma_k(\Tilde{t}_k) \end{split}\end{aligned}\]
حيث \(W_k, b_k \in \mathbb{R} ^{l \times 1}\) هما على التوالي متجهات الوزن والانحياز للطبقة \(k^{th}\)، \(\sigma_k:\mathbb{R} ^l \longrightarrow \mathbb{R} ^l\) هي دالة التنشيط و\(s_k :\mathbb{R} ^l \longrightarrow \mathbb{R}\) هي المشتقة العكسية لها. \(a \in \mathbb{R}\) و\(V \in \mathbb{R} ^{l \times 1}\) هما معاملات شبكة إضافية. ونظرًا لأن نتيجة (M-MGN) ليست بالضرورة موجبة، نطبق ترجمة للإخراج لضمان أن تغيير الوقت يكون موجبًا.
الهدف هو تدريب شبكة الوظائف الزمنية المشروطة لتعظيم دالة الإمكانية اللوغاريتمية لمجموعة البيانات المرصودة \(\{(x_{t_i},t_i)\}_{i=1}^n\): \[\begin{aligned} \label{eq:LL} L = \log p_{X_{t_1}, ..., X_{t_n}}(x_{t_1}, ..., x_{t_n})\end{aligned}\] لحساب المعادلة ، نستخدم صيغة تغيير المتغير ونستفيد من استقلالية الزيادات \(W_{\phi(t_i)} - W_{\phi(t_{i-1})}\). وبالتالي، يُعبر عن دالة الإمكانية اللوغاريتمية كما يلي: \[\begin{aligned} \begin{split} L = \sum_{i=1}^n & \log p_{W_{\phi(t_i)}|W_{\phi(t_{i-1})}}\left(w_{\phi(t_i)}\right) \\ &- \log \left|\det \frac{\partial f_\theta \left(w_{\phi(t_i)},\phi(t_i)\right)}{\partial W_{\phi(t_i)}} \right|, \end{split}\end{aligned}\] حيث \(w_{\phi(t_i)} = f_\theta ^{-1} \left(x_{t_i}; \phi(t_i)\right)\) و\(p_{W_{\phi(t_i)}|W_{\phi(t_{i-1})}}\) تدل على التوزيع الغاوسي الشرطي بمتوسط \(W_{\phi(t_{i-1})}\) وتباين \(\phi(t_i)- \phi(t_{i-1})\). هذا يشكل اختلافًا بارزًا عن دالة الإمكانية اللوغاريتمية للتوزيع الزمني المشروط الذي يستخدم توزيعًا غاوسيًا بنفس المتوسط ولكن بتباين \(t_i - t_{i-1}\).
لتقييم أداء النموذج المقترح، أجرينا تجارب على ثلاث مجموعات بيانات تجريبية تتألف من سلاسل زمنية أحادية البعد بدون وحدات. تم إنشاء هذه المجموعات من خلال أخذ عينات من ثلاث عمليات عشوائية مختلفة. كما استخدمنا في تجاربنا بنية مماثلة لبنية نموذج CTFP، معتمدين على CNFs.
تم إنشاء المجموعة الأولى (Toy-SDE1) بتقطيع عملية OU، والتي تُعطى بالمعادلة: \(dX_t = -\theta(X_t - \mu)dt + \sigma dW_t\)، حيث يمثل \(\mu\) و \(\sigma\) المعاملين الثابتين لمصطلحي الانجراف والتقلب على التوالي. يلتقط المعامل \(\theta\) سرعة تقارب مسار عينة معينة نحو مصطلح الانجراف. تهدف هذه المجموعة إلى تقييم قدرة النموذج على التقاط ديناميكيات تغيرات الزمن.
تم إنشاء المجموعة الثانية (Toy-SDE2) بناءً على المعادلة: \(dX_t = -\theta(X_t - \mu)dt + \sigma \sqrt{t}dW_t\)، والتي تصف OU بمعامل انتشار معتمد على الزمن، وتستخدم لاختبار قدرة النموذج على التقاط تحولات الزمن ذات التعقيد المتزايد. يُعتبر هذا SDE مهمًا لأنه يُستخدم بشكل شائع في نماذج النقاط الأساسية (yang2022diffusion)، حيث يتم تقديم الضوضاء تدريجيًا خلال عملية التدريب.
أخيرًا، شملت المجموعة الثالثة (Toy-SDE3) حركة براونية هندسية، والتي توصف بالمعادلة: \(dX_t = \mu X_t dt + \sigma X_t dW_t\)، حيث يمثل \(\mu\) و \(\sigma\) المعاملين الثابتين لمصطلحي الانجراف والتقلب على التوالي. تم تصميم هذه المجموعة لعرض قدرة TCNF على التعامل مع SDEs حيث لا يتطلب تغيير الزمن، وتعلم الدالة البسيطة \(\phi(t) = t\) بفعالية. هذا يُظهر أن نهجنا يمكن أن يشمل إطار عمل CTFP.
يتم إجراء المقارنة الكمية من خلال مقارنة تقديرات المتوسط \(m_{X_t}\)، والانحراف المعياري \(\sigma_{X_t}\)، والمدى بين الربع الأول والثالث IQR \(=Q_{3} - Q_{1}\)، والكثافة \(p_{X_t}\) على التوالي. لكل نموذج، نحسب الأخطاء المطلقة المتوسطة (MAE) مقابل قيم الحقيقة الأساسية. يتم تقدير المتوسط، والانحراف المعياري، والرباعيات بناءً على 1000 مسار عينة على مدى 1000 تكرار، بينما يتم تقدير الكثافة بواسطة صيغة تغيير المتغير على شبكة تتكون من 1000 نقطة مكانية و 500 نقطة زمنية ضمن الفترة الزمنية \([0, T = 1.5]\). تُظهر النتائج الكمية المبلغ عنها في الجدول [tab:quant_error_toy12] أولًا أن TCNF لا يظهر أي فقدان في العمومية عند التعامل مع الحالات التي لا يتطلب فيها تغيير الزمن، وثانيًا أن نموذجنا يظهر قدرة تقديرية متفوقة، حيث يمكنه التقاط سلوك الحلول الأساسية المتغيرة زمنيًا.
لتقييم قدرة نموذجنا على التقاط الديناميكيات المعقدة بشكل أكبر، قمنا بتدريبه على مجموعتين من البيانات الواقعية: تنبؤات العملات المشفرة (Crypto) (g-research-crypto-forecasting) واستهلاك الطاقة الكهربائية (ECL) (zhou2021informer). تحتوي مجموعة بيانات العملات المشفرة على أسعار تاريخية لعملات مشفرة متنوعة. ركزنا تحليلنا على نمذجة عوائد السجل لعملة إيثريوم خلال فترة 2020. تتألف مجموعة بيانات استهلاك الطاقة الكهربائية من بيانات استهلاك الكهرباء لعدة عملاء خلال فترات 15 دقيقة. اخترنا نمذجة استهلاك العميل ’200’ لامتداد سلسلته الزمنية.
تتضمن النتائج أخطاء مطلقة متوسطة (MAE) لتقدير المتوسط (\(m_{X_t}\)) والانحراف المعياري (\(\sigma_{X_t}\)) لمجموعة بيانات العملات المشفرة. استخدمنا أخطاء نسبية متوسطة (MRE) لمجموعة بيانات استهلاك الطاقة الكهربائية لتوسيع النتائج بشكل مناسب. تم الإبلاغ عن هذه النتائج في الجدول [tab:real-world] ومقارنتها مع CTFP.
لقد قدمنا نهجًا معمّمًا لنمذجة المعادلات التفاضلية العشوائية من خلال الشبكات العصبية الديناميكية وتغيير الزمن. من خلال تحويل عملية وينر عبر الزمن، نولد عمليات غاوسية متنوعة، والتي يتم بعد ذلك تعيينها إلى العملية المرصودة من خلال تطبيق عملية الإحاطة. يتيح لنا تغيير الزمن المقترن بالشبكة العصبية الديناميكية نمذجة العمليات التي يكون استنتاجها تحديًا بسبب قيود التفاضل والتكامل. من المهم أن هذا التمديد يحتفظ بمزايا الشبكات العصبية الديناميكية، مثل تقدير الكثافة الدقيق وأخذ العينات الفعال.
أظهرت التجارب أن نموذجنا يحقق أداءً أفضل وقدرة على التعميم. نعتقد أن دمج تغييرات الزمن المحددة للأبعاد يمكننا من توسيع الطريقة إلى أبعاد أعلى. بالإضافة إلى ذلك، يمكن تحقيق تحسين في معايير تغيير الزمن من خلال ربطه إما بالتباين التربيعي للعملية أو بلحظاتها.