تحليلات تنبؤية قوية وفعّالة حسابياً وذاكرياً باستخدام البيانات الضخمة

Daniel Menges

Adil Rasheed

معادلات LaTeX

مُلَخَّص

في عصر البيانات الضخمة، أصبحت هذه البيانات ركيزة أساسية للذكاء الاصطناعي، حيث تُستخدم لتطوير نماذج قائمة على البيانات واستخلاص رؤى في مجالات متنوعة. تتناول هذه الدراسة التحديات المرتبطة بعدم اليقين في البيانات وقيود التخزين، إضافةً إلى نمذجة البيانات التنبؤية في سياق البيانات الضخمة. نعتمد في الدراسة على التحليل القوي للمكونات الرئيسية (RPCA) لتقليل الضوضاء وإزالة القيم الشاذة بفعالية، وكذلك على تحديد مواقع الاستشعار الأمثل لضغط البيانات وتخزينها بكفاءة. تتيح هذه التقنيات ضغط البيانات دون فقدان جوهري للمعلومات مع الحدّ من متطلبات الذاكرة. وعلاوةً على ذلك، يشكل التحليل القوي للمكونات الرئيسية بديلاً أكثر متانة من التحليل التقليدي للبيانات عالية الأبعاد، ويمكن توسيعه ليشمل النمذجة في الزمن الحقيقي. ولهذا الغرض، نستخدم شبكات الذاكرة قصيرة وطويلة الأمد (LSTM)، فئة من الشبكات العصبية المتكررة، لنمذجة البيانات والتنبؤ بها استناداً إلى مجموعة فرعية منخفضة الأبعاد تحددها مواقع الاستشعار الأمثل، مما يقلل بشكل كبير من زمن التدريب. وتعدّ شبكات LSTM مناسبة لالتقاط الاعتماديات طويلة المدى في بيانات السلاسل الزمنية؛ ما يجعلها ملائمة للتنبؤ بالحالات المستقبلية للأنظمة الفيزيائية استناداً إلى البيانات التاريخية. وقد قمنا بوضع الأسس النظرية والمحاكاة لجميع الخوارزميات والتحقق من صحتها باستخدام بيانات تصوير حراري حقيقية لمحرك سفينة.

مُقَدِّمَة

في سياق الذكاء الاصطناعي، تتصدر البيانات المشهد في عمليات اتخاذ القرار في العديد من المجالات، من الرعاية الصحية (raghupathi_big_2014) إلى الاقتصاد القياسي (varian_big_2014) والتصنيع (nagorny_big_2017) وغيرها. ومع ذلك، ورغم الإمكانات الهائلة للبيانات الضخمة، من الضروري فهم نقاط قوتها وضعفها؛ فغالباً ما تتضمن البيانات أخطاء ناتجة عن عدم دقة المستشعرات أو أعطال النقل، مما قد يؤدي إلى تفسير خاطئ إذا لم تُعالَج هذه البيانات بشكل سليم، لا سيما عند وجود تشوهات أو قيم ناقصة (pitici_rise_2014). لذا، يُعدّ تطوير تقنيات تحليلية متينة أمراً حيوياً للتعامل بفعالية مع كميات البيانات المتزايدة وتحليلها وتفسيرها.

من بين الأدوات المتعددة لتحليل البيانات، حظي تحليل المكونات الرئيسية (PCA) (jolliffe_principal_2002) باهتمام كبير لما يوفره من خفض الأبعاد مع الحفاظ على معظم المعلومات (abdi_principal_2010). ومع ذلك، فإن PCA التقليدي يتأثر بشدة بالقيم الشاذة وتلف البيانات، مما يضعف أدائه ودقة الاستنتاجات اللاحقة. ولهذا ظهر التحليل القوي للمكونات الرئيسية (RPCA)، النسخة المتقدمة من PCA، ليقدم نتائج أكثر موثوقية عبر فصل المكونات منخفضة الرتبة عن المكونات المتفرقة في وجود قيم شاذة أو بيانات مفقودة (hubert_robpca_2005). وقد فصّل (candes_robust_2011) مفهوم RPCA الذي يفكك مصفوفة البيانات إلى مكون منخفض الرتبة ومكون متفرق، مستخدماً برمجة محدبة تعرف بـ«مطاردة المكونات الرئيسية». وتساهم هذه الطريقة في استعادة الهيكل الأساسي للبيانات حتى عند وجود أخطاء أو قيم مفقودة، مما يفتح آفاقاً جديدة في مجالات مراقبة الفيديو وكشف الأجسام في الخلفيات المعقدة والتعرف على الوجوه لمعالجة الظلال والانعكاسات وغيرها. كما تقدم دراسة (scherl_robust_2019) مقارنة مفصلة بين PCA وRPCA، مبينة الفوائد والقدرة الفائقة للتحليل القوي.

بالتوازي، ومع تصاعد حجم البيانات الضخمة، يظهر تحدٍ رئيسي في كيفية تخزينها ونقلها بفعالية. يأتي مفهوم «وضع المستشعرات الأمثل» (OSP) (manohar_data-driven_2018) كنهج مبتكر يعنى بتموضع المستشعرات استراتيجياً لالتقاط البيانات الأكثر صلة وتجنب التكرار، مما يقلل من حمل التخزين ويسهل عملية النقل. في جوهره، يهدف OSP إلى إنتاج نسخة مضغوطة من البيانات بأقل خسارة في المعلومات.

من خلال استعراض منهجي لـ RPCA وOSP، تهدف هذه الدراسة إلى استكشاف التكامل بين المنهجيتين وتأثيرهما على تعزيز دقة وكفاءة نمذجة البيانات الضخمة.

علاوةً على ذلك، نوسّع هذه الدراسة بدمج نهج تنبؤي معتمد على البيانات باستخدام شبكات الذاكرة قصيرة وطويلة الأمد (LSTM) التي قدمها (hochreiter_long_1997). تتيح بوابات LSTM تعلم الاعتماديات طويلة الأمد في البيانات (chung_gated_2015). وقد حظيت الشبكات العصبية الاصطناعية (ANNs) باهتمام واسع في التنبؤ بفضل قابليتها للتكيف وعدم خطيتها وقدرتها على تمثيل الوظائف المعقدة، رغم أنها تتطلب وقتاً حسابياً كبيراً للتدريب (zhang_forecasting_1998). لذلك نصمم نماذج LSTM استناداً إلى نقاط البيانات المختارة عبر خوارزمية OSP، مما يسرّع بشكل كبير زمن التدريب وييسر تطبيقها في نطاق واسع من التطبيقات. فعند استخدام هذه النماذج للتنبؤ بالقياسات المختارة، نعيد بعد ذلك بناء البعد الكامل للبيانات عبر مفهوم OSP، مما يمكّننا من التنبؤ بدقة بالحالات المستقبلية في الأبعاد الأصلية. يعمل دمج RPCA وOSP وLSTM على تقديم نهج مبتكر لمعالجة البيانات الضخمة يجمع بين القوة الحسابية والقدرة على التوسع في سيناريوهات واقعية متعددة.

طبقنا الخوارزميات في هذه الدراسة على بيانات مستخلصة من كاميرا تصوير حراري لرصد محرك سفينة. توفر الصور الحرارية رؤية فريدة لملامح درجات الحرارة وتقلباتها، مما يتيح فهماً أعمق لسلوك التشغيل وأداء المحرك. تُعد المراقبة الشرطية ضرورية للحفاظ على سلامة العمليات (mohanty_machinery_2014) وتمكّن من تقدير موثوقية المحرك ومكوناته. ومن خلال الكشف المبكر عن الشذوذ، يمكن التنبؤ بعمر المكونات ومنع الأعطال الخطيرة.

التحديات الأساسية

باختصار، تتناول هذه الدراسة ثلاث تحديات أساسية:

كما أشار (inproceedings)، نادراً ما يعتمد القطاع البحري الصيانة التنبؤية، بل تميل أنشطته إلى الصيانة الوقائية، مما يؤدي غالباً إلى تكاليف أعلى جراء استبدال مكونات لا تزال صالحة.

النظرية

يقدم هذا القسم نظرة معمقة على التقنيات الإحصائية المستخدمة في الدراسة. نشرح فيه مفهومي تحليل المكونات الرئيسية (PCA) ونظيره القوي (RPCA) لتنقية البيانات، كما نتناول فكرة تحديد مواقع الاستشعار الأمثل (OSP) لضغط البيانات وإدارة التخزين بكفاءة.

تحليل المكون الرئيسي

تحليل المكون الرئيسي (Principal Component Analysis) إجراء إحصائي يستخدم تحويلاً متعامداً لتحويل مجموعة من الملاحظات لعدة متغيرات مترابطة إلى مجموعة من المتغيرات غير المرتبطة خطياً، وتُسمى هذه المتغيرات بالمكونات الرئيسية. يسمح ذلك بتحديد الاتجاهات التي تتباين فيها البيانات بشكل أكبر. هناك نهجان رئيسيان لحساب PCA: نهج المتجه الذاتي ونهج تحليل القيمة المفردة (Singular Value Decomposition). وتُفصَّل هذه المفاهيم في (shlens_tutorial_2014). وغالباً ما يُفضَّل نهج SVD لكونه أكثر ثباتاً عدديّاً.

نهج تحليل القيمة المفردة

يرتبط تحليل المكون الرئيسي ارتباطاً وثيقاً بتحليل القيمة المفردة، وهو تحليل لمصفوفة حقيقية أو مركبة. لأي مصفوفة حقيقية \(\mathbf{A}\in \mathbb{R}^{m\times n}\)، حيث \(m \geq n\), يوجد تحليل من الشكل \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T,\] حيث \(\mathbf{U}\in \mathbb{R}^{m\times m}\)، و\(\mathbf{\Sigma}\in \mathbb{R}^{m\times n}\)، و\(\mathbf{V}\in \mathbb{R}^{n\times n}\). أعمدة \(\mathbf{U}\) هي متجهات ذاتية متعامدة لـ \(\mathbf{AA}^T\)، وأعمدة \(\mathbf{V}\) هي متجهات ذاتية متعامدة لـ \(\mathbf{A}^T\mathbf{A}\). العناصر القطرية لـ \(\mathbf{\Sigma}\) هي الجذور التربيعية للقيم الذاتية لـ \(\mathbf{A}^T\mathbf{A}\) (أو بالمثل، \(\mathbf{AA}^T\))، وتسمى القيم المفردة لـ \(\mathbf{A}\). لرؤية ذلك، نعتبر أولاً المصفوفة \(\mathbf{A}^T\mathbf{A}\)، وهي مصفوفة متماثلة. بموجب نظرية الطيف، يمكننا تحليلها كما يلي: \[\mathbf{A}^T\mathbf{A} = \mathbf{V} \mathbf{\Sigma}^2\mathbf{V}^T.\] بالمثل، يمكننا تحليل \(\mathbf{AA}^T\) كما يلي: \[\mathbf{AA}^T = \mathbf{U} \mathbf{\Sigma}^2 \mathbf{U}^T.\] باستخدام هاتين الهويتين، يمكن إظهار أن \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T,\] وهو تحليل القيمة المفردة لـ \(\mathbf{A}\).

نفترض أن لدينا مصفوفة بيانات \(\mathbf{X} \in \mathbb{R}^{m \times n}\)، حيث كل صف هو ملاحظة وكل عمود هو متغير، وأن البيانات قد خضعت للتوسيط بطرح متوسطات الأعمدة.

  1. أداء تحليل القيمة المفردة ذو الرتبة المنخفضة: احسب تحليل القيمة المفردة لـ \(\mathbf{X}\) بواسطة \(\mathbf{X} = \mathbf{U}_r\mathbf{\Sigma}_r\mathbf{V}_r^T+\mathbf{E}\). هنا، \(\mathbf{U}_r \in \mathbb{R}^{m \times r}\) و \(\mathbf{V}_r^\top \in \mathbb{R}^{r \times n}\) هما مصفوفتان متعامدتان تحتويان على المتجهات الذاتية اليسرى واليمنى على التوالي، و \(r\) هو عدد المكونات الرئيسية. وتحتوي المصفوفة \(\mathbf{\Sigma}_r \in \mathbb{R}^{r \times r}\) على أكبر \(r\) قيم مفردة بترتيب تنازلي على القطر. أما المصفوفة \(\mathbf{E}\) فتمثل البقايا المتبقية بعد تقليل الأبعاد.

  2. المكونات الرئيسية: تُعطى المكونات الرئيسية لـ \(\mathbf{X}\) بواسطة \(\mathbf{X}\mathbf{V}_r \approx \mathbf{U}_r \mathbf{\Sigma}_r\). العمود \(i\) من \(\mathbf{X}\mathbf{V}_r\) هو إسقاط البيانات على المتجه الذاتي رقم \(i\).

يبين هذا الإجراء كيف يُستنتج PCA من تحليل القيمة المفردة لمصفوفة البيانات، مع ملاحظة أن PCA التقليدي حساس جداً للقيم الشاذة وتلف البيانات.

تحليل المكون الرئيسي القوي

الميزة الأبرز في RPCA مقارنةً بـ PCA التقليدي هي مقاومته للقيم الشاذة. فـ PCA التقليدي حساس للقيم الشاذة لكونه يحاول إيجاد تمثيل منخفض الأبعاد يفسر أكبر قدر من التباين، وقد يحرف هذا التمثيل اتجاهات البيانات الحقيقية عند وجود نقاط متطرفة. أما RPCA فينمذج هذه القيم الشاذة صراحةً، فتتحقق دقة أكبر في استعادة الهيكل الأساسي للبيانات.

في العديد من السيناريوهات، يستطيع RPCA استرجاع الهيكل منخفض الرتبة الحقيقي للبيانات أفضل مما يوفره PCA، خاصة عندما تسيطر التشويشات أو يكون هناك نقص كبير في العينات.

تعتمد الفكرة العامة على تفكيك مصفوفة البيانات \(\mathbf{X}\) إلى مكونين:

\[\mathbf{X} = \mathbf{L} + \mathbf{S}.\]

حيث تصف \(\mathbf{L}\) المكون منخفض الرتبة الذي يلتقط الهيكل الرئيسي للبيانات، وتصف \(\mathbf{S}\) المكون المتفرق الذي يلتقط القيم الشاذة أو التشوهات. والهدف هو إيجاد \(\mathbf{L}\) و\(\mathbf{S}\) اللذين يحلان:

\[ \begin{split} & \underset{\mathbf{L}, \mathbf{S}}{\mathrm{تصغير}}\ \mathrm{rank}(\mathbf{L}) + \|\mathbf{S}\|_0, \\ & \text{خاضع لـ} \ \mathbf{L} + \mathbf{S} = \mathbf{X}, \end{split} \]

ونظراً للطبيعة غير المحدبة لرُتبة \(\mathbf{L}\) وقاعدة الصفر لـ \(\mathbf{S}\)، تصبح هذه المشكلة صعبة الحل عملياً (scherl_robust_2019). للتغلب على ذلك، يُستخدم الاسترخاء المحدب (JMLR:v11:zhang10a) الذي يحول المشكلة إلى:

\[ \begin{split} & \underset{\mathbf{L}, \mathbf{S}}{\mathrm{تصغير}}\ \|\mathbf{L}\|_* + \lambda \|\mathbf{S}\|_1, \\ & \text{خاضع لـ} \ \mathbf{L} + \mathbf{S} = \mathbf{X}, \end{split} \]

حيث يقرب تصغير القاعدة النووية \(\|\mathbf{L}\|_*\) رتبة \(\mathbf{L}\)، ويقرب تصغير قاعدة \(\|\mathbf{S}\|_1\) قاعدة الصفر. تُعرف المشكلة الناتجة باسم «مطاردة المكونات الرئيسية» (PCP)، ويمكن حلها عبر خوارزمية مضاعف لاغرانج المعزَّز (lin_augmented_2010) الموضحة كالآتي:

\resizebox{.93\hsize}{!}{$ \mathcal{L}(\mathbf{L}, \mathbf{S}, \mathbf{\Lambda})=\|\mathbf{L}\|_* + \lambda \|\mathbf{S}\|_1+\langle \mathbf{\Lambda}, \mathbf{X} - \mathbf{L} - \mathbf{S} \rangle + \frac{\mu}{2}\|\mathbf{X}-\mathbf{L}-\mathbf{S}\|_{F}^2$}

حيث \(\mathbf{\Lambda}\) هي مصفوفة مضاعفات لاغرانج و\(\mu\) معامل. ثم يُحدَّث \(\mathbf{\Lambda}\) عبر:

\[\mathbf{\Lambda}_{k+1} = \mathbf{\Lambda}_{k} + \mu(\mathbf{X}-\mathbf{L}_k-\mathbf{S}_k).\]

وبهذه الطريقة، يقوم RPCA بتحليل مصفوفة البيانات \(\mathbf{X}\) إلى مكونات منخفضة الرتبة \(\mathbf{L}\) ومتفرقة \(\mathbf{S}\).

تحديد مواقع الاستشعار الأمثل

تحديد مواقع الاستشعار الأمثل هو أسلوب لاستخلاص أفضل المواقع داخل النظام لوضع المستشعرات. يهدف هذا النهج إلى تعظيم المعلومات المكتسبة (مثل الانتروبيا) مع تقليل عدد المستشعرات.

لتكن \(\boldsymbol{x} \in \mathbb{R}^n\) نقطة بيانات في زمن معين، ويمكن تقريبها كما يلي:

\[\boldsymbol{x} \approx \mathbf{\Psi}_r \boldsymbol{a},\]

حيث \(\boldsymbol{a} \in \mathbb{R}^{r}\) متجه المعاملات الزمني، وأعمدة \(\mathbf{\Psi}_r\) هي الأوضاع الأرثوغونالية منخفضة الرتبة (حيث \(\mathbf{\Psi}_r = \mathbf{U}_r\)). إذا اعتبرنا القياسات كالتالي:

\[\boldsymbol{y} = \mathbf{C}\boldsymbol{x},\]

حيث \(\mathbf{C}\in \mathbb{R}^{s\times n}\) مصفوفة القياس المتناثرة و\(s\) عدد المستشعرات، فإنها تقترب بـ:

\[\boldsymbol{y} \approx \mathbf{C}\mathbf{\Psi}_r \boldsymbol{a}.\]

إذا مثلنا \(\mathbf{\Theta} = \mathbf{C}\mathbf{\Psi}_r\)، يمكن تقدير المعاملات عبر:

\[\boldsymbol{\hat{a}} = \mathbf{\Theta}^\dagger\boldsymbol{y}.\]

وبالتالي يعاد بناء النقطة كالتالي:

\[\boldsymbol{\hat{x}} = \mathbf{\Psi}_r\boldsymbol{\hat{a}} = \mathbf{\Psi}_r(\mathbf{C}\mathbf{\Psi}_r)^\dagger\boldsymbol{y}.\]

وبما أن \(\mathbf{\Psi}_r\) معلوم من تحليل الأبعاد المنخفضة، يبقى \(\mathbf{C}\) مجهولاً. وكما أوضح (manohar_data-driven_2018)، يُحدَّد OSP عبر تحليل QR بالتراجع العمودي على أوضاع \(\mathbf{\Psi}_r\)، مع مراعاة شرط \(s \geq r\).

المنهجية

يصف هذا القسم سير عمل الإطار المقترح لمعالجة البيانات الضخمة، بدءاً من تنقية البيانات ثم ضغطها وصولاً إلى النمذجة المعتمدة على البيانات بكفاءة عالية. يقوم جوهر المنهجية على RPCA وOSP وشبكات LSTM.

تنظيف البيانات

في خطوة تنقية البيانات، نستخدم RPCA كما عرضناه في القسم sec:RPCA. تم اختيار معاملات المزاوجة بحيث \(\lambda = 0.006\) و\(\mu = 10^{-5}\). بعد تفكيك مصفوفة البيانات \(\mathbf{X}\) إلى مصفوفتَي \(\mathbf{L}\) (منخفضة الرتبة) و\(\mathbf{S}\) (متفرقة)، نعيد بناء نسخة نظيفة من البيانات بالاعتماد على \(\mathbf{L}\) التي تمثل الفيزياء الكامنة، بينما تُظهر \(\mathbf{S}\) التشوهات والشوائب. وبذلك نحصل على بيانات صافية مناسبة للمراحل اللاحقة.

ضغط البيانات

لضغط البيانات مع الحفاظ على المعلومات الأساسية للنظام، نطبق خوارزمية OSP الموضحة في القسم تحديد مواقع الاستشعار الأمثل على مصفوفة \(\mathbf{L}\) الناتجة عن المرحلة السابقة. يقوم المبدأ الأساسي على اختيار مواقع حسّاسات تلتقط أكبر قدر من تباين البيانات، مما يسمح بتمثيل \(\mathbf{X}\) بمجموعة أقل من القياسات \(\mathbf{Y}\)، حيث تُكدس \boldsymbol{y}\) في نافذة زمنية محددة. تمثل هذه المجموعة المضغوطة مصفوفة القياس النادرة \(\mathbf{C}\). بتقليل عدد الحساسات، نحد من التكاليف ومتطلبات التخزين دون المساس بدقة التمثيل.

نمذجة القياسات المتناثرة باستخدام شبكات LSTM

في سياق النمذجة المعتمدة على البيانات، أثبتت الشبكات العصبية، ولا سيما LSTM، فعاليتها في العديد من التطبيقات. صُممت LSTM لتحمُّل المعلومات على مدى تسلسلات طويلة، مما يجعلها مثالية لمعالجة بيانات السلاسل الزمنية. غير أن تطبيقها مباشرة على البيانات الضخمة قد يكون مكلفاً حسابياً، لذا نطبق LSTM على مجموعة فرعية منخفضة الأبعاد \(\mathbf{Y}\) المستخرجة من خلال OSP.

يسهم دمج LSTM مع OSP في خفض العبء الحسابي للتدريب بشكل كبير. عند استخدام LSTM لنمذجة هذه القياسات المختارة، نستهدف التقاط الديناميكيات الزمنية الكامنة. وبعد تدريب الشبكات، يمكنها التنبؤ بقيم القياسات المتناثرة، ومن ثم إعادة بناء البيانات بالحجم الكامل باستخدام المعادلة (\ref{eq:OSP_reconstruction}). يتيح ذلك إعادة تخطيط الأبعاد الأصلية للبيانات. تجدر الإشارة إلى أنه عند أخذ العينات بتردد غير منتظم، يمكن لمرحلة الاستيفاء المسبق أن تحسّن دقة النماذج.

تدفق البيانات الضخمة

يسمح نهج التكامل السابق بتدفق عمل متسق لمعالجة البيانات الضخمة، يتكون من المراحل التالية:

  1. تنقية البيانات: يولد RPCA نسخةً نظيفة \(\mathbf{L}\) من مصفوفة البيانات \(\mathbf{X}\). بما أن \(\mathbf{L}\) يحتفظ بالديناميكيات الأساسية للنظام، يمكن نقله إلى المراحل التالية من المعالجة والتحليل.

  2. ضغط البيانات: تمكن خوارزمية OSP من ضغط مكثف لمصفوفة البيانات النظيفة \(\mathbf{L}\). من خلال حساب أوضاع \(\mathbf{\Psi}_r\) وإيجاد مصفوفة القياس النادرة \(\mathbf{C}\)، تصبح مجموعة فرعية صغيرة \(\mathbf{Y}\) كافية لتمثيل البيانات. يجب تخزين \(\mathbf{\Psi}_r\) و\(\mathbf{C}\) لإعادة البناء لاحقاً إلى \(\boldsymbol{\hat{x}}\).

  3. النمذجة المعتمدة على البيانات: نُنشئ نماذج LSTM للمجموعة الفرعية المنقولة \(\mathbf{Y}\). بعد التنبؤ بالمجموعة الفرعية المستقبلية، يُعاد بناء التنبؤ للأبعاد الأصلية \(\mathbf{\hat{X}_{pred}}\) باستخدام \(\mathbf{\Psi}_r\) و\(\mathbf{C}\).

إعداد المحاكاة

اعتمدنا في هذه الدراسة على بياناتٍ حرارية تم الحصول عليها من كاميرا تصوير حراري لرصد محرك عبّارة، وزودت بها شركة Idletechs AS. ونظراً إلى صلاحية البيانات وخلوها من شوائب كبيرة، أضفنا اضطرابات اصطناعية وفقاً للسيناريوهات التالية، كما نصف إعداد شبكة LSTM المستخدمة.

البيانات

سُحبت مجموعة البيانات من صور كاميرا حرارية لمحرك عبّارة، بهدف مراقبة السلوك الحراري خلال مراحل الإقلاع والتشغيل المستقر والتوقف. استمر جمع البيانات على مدار أربعة أيام متتالية، حيث جُمعت نحو 24 ساعة من المراقبة بمعدل أخذ عينات يقارب نصف ثانية بين القيم. تحتوي كل صورة على 19,200 بكسل (120×160)، يلتقط كل بكسل الإشعاعات الحرارية الصادرة عن المحرك، مما يوفر مؤشراً على الأداء الحراري وأي بقع ساخنة محتملة.

الاضطرابات

لتقييم خوارزمياتنا تحت ظروف متباينة، نفذنا أربعة سيناريوهات محاكاة تشمل الضوضاء والشذوذ والتلوث ومزيجاً منها.

السيناريو 1

تم تعكير البيانات بضوضاء غاوسية، حيث وُلدت الضوضاء بمتوسط 0 وانحراف معياري 4، مما يضمن اقتصار معظم القيم ضمن النطاق [-4, 4].

السيناريو 2

تم تعكير البيانات بشذوذ، عبر اختيار عشوائي لـ 100 نقطة بيانات (بكسل) واستبدال قيمها الأصلية بقيم عشوائية ضمن النطاقين [30, 40] و[-40, -30] لمحاكاة شذوذ كبير في القياسات.

السيناريو 3

تم تعكير البيانات بتلوث عشوائي، حيث أضيفت ضوضاء موزعة بالتساوي إلى 10% من عينات البيانات ضمن الفترة [-15, 30] لاختبار متانة خوارزميات PCA وRPCA وOSP.

السيناريو 4

تم تعكير البيانات بمزيج من السيناريوهات السابقة (1 و2 و3)، مما أدى إلى تراكب أنواع الضوضاء والشذوذ والتلوث.

هندسة شبكة الذاكرة طويلة الأمد

لاختيار إعدادات شبكة LSTM، جربنا عدة توليفات للمعاملات، وأخيراً اعتمدنا القيم الموضحة في الجدول [tab:LSTM_parameters]. دربنا الشبكة باستخدام مُحسّن آدم مع معيار الجذر التربيعي للخطأ المتوسط لتقييم الأداء. للتنبؤ، استخدمنا نافذة تاريخية تتألف من 50 عينة واخترنا 100 خطوة زمنية للتنبؤ. تتكوّن بنية الشبكة من طبقة إدخال، وطبقة LSTM، وطبقة كثيفة أمامية، وطبقة إخراج. ولتفادي الإفراط في التخصيص، أضفنا طبقة إسقاط (dropout)، وهي تقنية تحذف بشكل عشوائي بعض الوحدات والروابط خلال التدريب (nitish_srivastava_geoffrey_hinton_alex_krizhevsky_ilya_sutskever_and_ruslan_salakhutdinov_dropout_2014).

النتائج والمناقشة

في ما يلي، نناقش نتائج مراحل التنقية والضغط والنمذجة المعتمدة على البيانات لكل سيناريو من السيناريوهات الأربعة.

تنقية البيانات

تعرض نتائج تنقية البيانات لكل سيناريو من السيناريوهات المذكورة في القسم «الاضطرابات». تظهر مقارنة بين إعادة البناء باستخدام RPCA وPCA أن RPCA يفصل مصفوفة \(\mathbf{L}\) التي تمثل الصورة النظيفة عن مصفوفة \(\mathbf{S}\) التي تجمع التشوهات والشوائب. بينما تعاني PCA التقليدي من تأثير القيم الشاذة بوضوح، يحافظ RPCA على بنية الصورة الأساسية مع إزالة الشوائب، ما يعزز دقة تطبيقات الذكاء الاصطناعي المعتمدة على البيانات الضخمة.

ضغط البيانات

أظهر تطبيق OSP على بيانات الصور الحرارية تخفيضاً كبيراً في الأبعاد، حيث استخدمنا فقط 10 من أصل 19200 قياس بكسل. ورغم هذا الانخفاض الكبير، أمكن إعادة بناء الصور الأصلية بدقة ملحوظة. من منظور ضغط البيانات، يبرز دور OSP في خفض استهلاك الطاقة ومتطلبات الذاكرة؛ فباستخدام مجموعة صغيرة من القياسات نستطيع تمثيل البيانات الكاملة بفقدان معلوماتي ضئيل.

يمثل توفير الذاكرة بالنسبة للبيانات المضغوطة المعادلة التالية:

\[\alpha = \frac{m}{r}.\]

في هذه الدراسة التجريبية، نحصل على \(\alpha = \frac{19200}{10} = 1920\)، ما يعني أنه يمكننا تخزين 1920 مرة أكثر من الصور الحرارية بنفس سعة الذاكرة.

نمذجة تنبؤية معتمدة على البيانات

دربنا شبكة LSTM على الفضاء الفرعي المتناثر \(\mathbf{Y}\) المستخلص عبر OSP، مع استيفاء البيانات المسبق لمعالجة التردد غير المنتظم للعينات. لنبين أثر الاستيفاء، عرضنا قيم RMSE للنماذج مع وبدون استيفاء أولي، إضافةً إلى مقارنة زمن التدريب. تكشف النتائج عن انخفاض ملموس في الخطأ وتوفير كبير في الزمن الحسابي باستخدام النهج المقترح. تؤكد هذه السرعة المحسنة إمكانية التطبيق الفوري والتدريب عبر الإنترنت في الزمن الحقيقي، اعتماداً على عدد العصور والمعايير المختارة.

الخلاصة

في الختام، يعزز تطبيق RPCA جودة بيانات الصور الحرارية بشكل ملحوظ، مما يتيح تحليلات لاحقة أكثر موثوقية. وبفضل متانته وقابليته للتوسع، يصلح هذا الإطار لمجموعة واسعة من التطبيقات المتعلقة بالبيانات الضخمة. كما يقدم OSP وسيلة فعالة لتعظيم كفاءة التخزين وضغط البيانات في البيئات ذات القيود الصارمة. وعن طريق تطبيق شبكات LSTM على فضاء منخفض الأبعاد مشتق من OSP، نحصل على كفاءة حسابية محسنة ودقة تنبؤية عالية. يعمل هذا التكامل بين التقنيات المقدمة على رفع مستويات جودة البيانات والكفاءة الحسابية والذاكرة إضافةً إلى تمكين التنبؤات في الزمن الحقيقي.