تحليلات تنبؤية قوية وفعّالة من حيث الحساب والذاكرة باستخدام البيانات الضخمة

Daniel Menges

Adil Rasheed

مُلخّص

في العصر الراهن، غدت البيانات الضخمة ركيزةً أساسيةً للذكاء الاصطناعي، إذ تُستخدم قاعدةً لتطوير نماذج مُعتمِدة على البيانات وتوليد رؤى في مجالات متنوّعة. تتناول هذه الدراسة التحدّيات المرتبطة بشكوك البيانات، وقيود التخزين، والنمذجة التنبؤية عبر البيانات الضخمة. نعتمد تحليل المكوّنات الرئيسية المتين لتقليل الضوضاء بفعالية والتخلّص من القيم الشاذّة، إضافةً إلى تحديد مواقع الاستشعار الأمثل من أجل ضغط البيانات وتخزينها بكفاءة عالية. تتيح هذه التقنية ضغط البيانات دون فقدان جوهري للمعلومات مع تقليل الحاجة إلى السعة التخزينية. وبالموازاة، يوفّر تحليل المكوّنات الرئيسية المتين بديلاً أشدّ صلابةً من التحليل التقليدي لإدارة البيانات عالية الأبعاد، مع توسيع نطاقه ليشمل النمذجة المتينة للبيانات الضخمة في الزمن الحقيقي. لهذا الغرض، نُطبّق شبكات الذاكرة طويلة وقصيرة الأمد (LSTM)، وهي فئة من الشبكات العصبية المتكرّرة، لنمذجة البيانات والتنبّؤ بها استناداً إلى مجموعة فرعية منخفضة الأبعاد مُستخلصة عبر تحديد مواقع الاستشعار الأمثل، ما يُسرّع بصورة ملحوظة مرحلة التدريب. تُعدّ شبكات LSTM مناسبة لالتقاط الاعتماديات طويلة المدى في بيانات السلاسل الزمنية، ما يجعلها ملائمةً للتنبؤ بالحالات المستقبلية للأنظمة الفيزيائية اعتماداً على البيانات التاريخية. وقد قمنا بصياغة ومحاكاة جميع الخوارزميات والتحقّق من صحّتها باستخدام بيانات تصوير حراري حقيقية لمحرك سفينة.

مُقَدِّمة

في سياق الذكاء الاصطناعي، تتصدّر البيانات المشهد، إذ تؤثّر في عمليات اتخاذ القرار في مجالات عدّة، من الرعاية الصحية (raghupathi_big_2014) إلى الاقتصاد القياسي (varian_big_2014) والتصنيع (nagorny_big_2017) وغيرها. ومع ذلك، ورغم الإمكانات الهائلة للبيانات الضخمة، من الضروري فهم نقاط قوتها وضعفها؛ فهي غالباً ما تتضمّن أخطاء ناتجة عن عدم دقّة المستشعرات أو أعطال النقل، ما قد يؤدّي إلى تفسير خاطئ للبيانات إذا لم تُعالَج على نحو سليم، لا سيّما عند وجود تشوّهات أو بيانات ناقصة (pitici_rise_2014). لذا، فإن القدرة على التعامل بفعالية مع كميات البيانات المتزايدة وتحليلها وتفسيرها تُعدّ أمراً حيوياً، وتستدعي تطوير تقنيات تحليلية متينة.

من بين الأدوات المتعددة لتحليل البيانات، حظي تحليل المكوّنات الرئيسية (PCA) (jolliffe_principal_2002) باهتمام كبير لما يوفّره من تقليل أبعاد مجموعات البيانات مع الحفاظ على معظم المعلومات (abdi_principal_2010). ومع ذلك، فإن PCA التقليدي يتأثر بشدّة بالقيم الشاذّة وتلف البيانات، ما ينعكس على أدائه ودقّة الاستنتاجات اللاحقة. ولهذا برزت تقنيات أشدّ متانة قادرة على التعامل مع هذه الاختلالات. يقدّم تحليل المكوّنات الرئيسية المتين (RPCA)، وهو نسخة متقدمة من PCA، نتائج أكثر موثوقية عبر فصل المكوّن منخفض الرتبة والمكوّن المتناثر في البيانات، حتى في وجود قيم شاذّة أو بيانات مفقودة (hubert_robpca_2005). وقد شُرح مفهوم RPCA لتفكيك مصفوفة البيانات إلى مكوّن منخفض الرتبة وآخر متناثر بتفصيل في (candes_robust_2011)، حيث يُنفَّذ عبر برمجة محدّبة تُعرف بـ «مطاردة المكوّنات الرئيسية» (PCP). تُتيح هذه الطريقة استعادة المكوّنات الرئيسية حتى عند وجود أخطاء أو قيَم مفقودة في البيانات، الأمر الذي يفتح آفاقاً جديدةً في مجالات مراقبة الفيديو وكشف الأجسام في الخلفيات المعقّدة والتعرّف على الوجوه لمعالجة الظلال والانعكاسات وغيرها. وتقدّم دراسة (scherl_robust_2019) مقارنة مفصّلة بين PCA وRPCA، مبيّنةً الفوائد والقدرة العالية لتحليل المكوّنات الرئيسية المتين.

بالتوازي مع ذلك، ومع تصاعد حجم البيانات الضخمة، يبرز تحدٍّ رئيسي في كيفية تخزينها ونقلها بفعالية. يأتي مفهوم «تحديد مواقع الاستشعار الأمثل» (OSP) (manohar_data-driven_2018) كنهج مبتكر يُعنى بتموضع المستشعرات استراتيجياً لالتقاط البيانات الأكثر صلة وتجنّب التكرار، مما يقلّل حمل التخزين ويُيسّر عملية النقل. في جوهره، يهدف OSP إلى إنتاج تمثيل مضغوط للبيانات بأقل خسارة معلوماتية.

من خلال استعراض منهجي لـ RPCA وOSP، تهدف هذه الدراسة إلى استكشاف التكامل بين المنهجيتين وتأثيرهما في تعزيز دقّة وكفاءة نمذجة البيانات الضخمة.

علاوةً على ذلك، نُوسّع هذه الدراسة بدمج نهج تنبّئي معتمد على البيانات باستخدام شبكات الذاكرة طويلة وقصيرة الأمد (LSTM)، التي قدّمها (hochreiter_long_1997). تتيح آليات البوابات في LSTM تعلّم الاعتماديات طويلة الأمد في البيانات (chung_gated_2015). وقد حظيت الشبكات العصبية الاصطناعية (ANNs) باهتمام واسع في التنبؤ بفضل قابليتها للتكيّف ولاخطيّتها وقدرتها على تمثيل الوظائف المعقّدة، رغم أنها تتطلّب وقتاً حسابياً كبيراً للتدريب (zhang_forecasting_1998). لذلك، نصمّم نماذج LSTM استناداً إلى عدد قليل من نقاط البيانات المختارة عبر خوارزمية OSP، مما يُعجّل بصورة كبيرة زمن التدريب ويُيسّر التطبيق واسع النطاق. فعند استخدام هذه النماذج للتنبؤ بالقياسات المختارة، نُعيد بعد ذلك بناء البعد الكامل للبيانات عبر مفهوم OSP، مما يمكّننا من التنبؤ بدقّة بالحالات المستقبلية في الأبعاد الأصلية. إن دمج RPCA وOSP وLSTM يوفّر نهجاً مبتكراً لمعالجة البيانات الضخمة يجمع بين المتانة والكفاءة الحسابية وقابلية التوسّع عبر سيناريوهات واقعية متعددة.

في هذه الدراسة، طبّقنا الخوارزميات على بياناتٍ مُستخلصة من كاميرا حرارية تُصوّر محرك سفينة. توفّر الصور الحرارية رؤية فريدة لملامح درجات الحرارة وتقلباتها، مما يُتيح فهماً أعمق لسلوك التشغيل وأداء المحرك. تُعد المراقبة الشرطية ضروريةً للحفاظ على سلامة العمليات (mohanty_machinery_2014) وتمكّن من تقدير موثوقيّة المحرك ومكوّناته. ومن خلال الكشف المبكّر عن الشذوذ، يمكن التنبّؤ بعمر المكونات ومنع الأعطال الجسيمة.

التحدّيات الأساسية

باختصار، تتناول هذه الدراسة ثلاثة تحدّيات أساسية:

المعالجة المتينة للشكوك مثل القيم الشاذّة وتلف البيانات النابع من قياسات كاميرا حرارية منخفضة الكلفة وغير متطفّلة.
الحاجة إلى تقنيات تخزين فعّالة من حيث استهلاك الذاكرة نظرًا للكمّ الهائل من البيانات المتولّدة.
القدرة على إجراء صيانة استباقية في الزمن الحقيقي عبر نمذجة تنبّؤية معتمدة على البيانات.

كما أشار المرجع (inproceedings)، نادراً ما يعتمد القطاع البحري الصيانة التنبّؤية، بل تميل أنشطته إلى الصيانة الوقائية، مما يؤدّي غالباً إلى تكاليف أعلى نتيجة استبدال مكوّنات لا تزال صالحة.

النظرية

يقدّم هذا القسم نظرة معمّقة على التقنيات الإحصائية المستخدمة في الدراسة. نشرح فيه مفهومي تحليل المكوّنات الرئيسية (PCA) ونظيره المتين (RPCA) لتنقية البيانات، كما نتناول فكرة تحديد مواقع الاستشعار الأمثل (OSP) لضغط البيانات وإدارة التخزين بكفاءة.

تحليل المكوّنات الرئيسية

تحليل المكوّنات الرئيسية (Principal Component Analysis) إجراء إحصائي يستخدم تحويلاً متعامداً لتحويل مجموعة من الملاحظات لعدّة متغيّرات مترابطة إلى مجموعة من المتغيّرات غير المرتبطة خطّياً تُسمّى المكوّنات الرئيسية. يسمح ذلك بتحديد الاتجاهات ذات التباين الأكبر في البيانات. هناك نهجان رئيسيان لحساب PCA: نهج المتجه الذاتي ونهج تحليل القيمة المفردة (Singular Value Decomposition). وتُفصَّل هذه المفاهيم في (shlens_tutorial_2014). وغالباً ما يُفضَّل نهج SVD لكونه أكثر ثباتاً عدديّاً.

نهج تحليل القيمة المفردة

يرتبط تحليل المكوّنات الرئيسية ارتباطاً وثيقاً بتحليل القيمة المفردة، وهو تحليل لمصفوفة حقيقية أو مركّبة. لأي مصفوفة حقيقية \(\mathbf{A}\in \mathbb{R}^{m\times n}\)، حيث \(m \geq n\)، يوجد تحليل من الشكل \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T,\] حيث \(\mathbf{U}\in \mathbb{R}^{m\times m}\)، و\(\mathbf{\Sigma}\in \mathbb{R}^{m\times n}\)، و\(\mathbf{V}\in \mathbb{R}^{n\times n}\). أعمدة \(\mathbf{U}\) هي متجهات ذاتية متعامدة لـ \(\mathbf{AA}^T\)، وأعمدة \(\mathbf{V}\) هي متجهات ذاتية متعامدة لـ \(\mathbf{A}^T\mathbf{A}\). العناصر القُطرية لـ \(\mathbf{\Sigma}\) هي الجذور التربيعية للقيم الذاتية لـ \(\mathbf{A}^T\mathbf{A}\) (أو بالمثل، \(\mathbf{AA}^T\))، وتُسمّى القيمَ المفردة لـ \(\mathbf{A}\). لرؤية ذلك، نعتبر أولاً المصفوفة \(\mathbf{A}^T\mathbf{A}\)، وهي مصفوفة متماثلة. وبموجب نظرية الطيف، يمكننا تحليلها كما يلي: \[\mathbf{A}^T\mathbf{A} = \mathbf{V} \mathbf{\Sigma}^2\mathbf{V}^T.\] بالمثل، يمكننا تحليل \(\mathbf{AA}^T\) كما يلي: \[\mathbf{AA}^T = \mathbf{U} \mathbf{\Sigma}^2 \mathbf{U}^T.\] باستخدام هاتين الهويتين، يمكن إظهار أن \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T\] وهو تحليل القيمة المفردة لـ \(\mathbf{A}\).

لننظر إلى مصفوفة بيانات \(\mathbf{X} \in \mathbb{R}^{m \times n}\)، حيث كل صفّ هو ملاحظة وكل عمود هو متغيّر. نفترض أن البيانات قد تم توسيطها، أي تم طرح متوسطات الأعمدة.

تحليل قيمة مفردة منخفض الرتبة: احسب تحليل القيمة المفردة لـ \(\mathbf{X}\) بواسطة \(\mathbf{X} = \mathbf{U}_r\mathbf{\Sigma}_r\mathbf{V}_r^T+\mathbf{E}\). هنا، \(\mathbf{U}_r \in \mathbb{R}^{m \times r}\) و\(\mathbf{V}_r \in \mathbb{R}^{n \times r}\) مصفوفتان بعموديات متعامدة تحتويان على المتجهات الذاتية اليسرى واليمنى، و\(r\) هو عدد المكوّنات الرئيسية. المصفوفة \(\mathbf{\Sigma}_r \in \mathbb{R}^{r \times r}\) تحتوي على أكبر \(r\) قيَم مفردة بترتيب تنازلي على القطر. بالإضافة إلى ذلك، تحتوي المصفوفة \(\mathbf{E}\) على البواقي غير الممثّلة بسبب تقليل الأبعاد.
المكوّنات الرئيسية: تُعطى المكوّنات الرئيسية لـ \(\mathbf{X}\) بواسطة \(\mathbf{X}\mathbf{V}_r \approx \mathbf{U}_r \mathbf{\Sigma}_r\). العمود \(i\) من \(\mathbf{X}\mathbf{V}_r\) هو إسقاط البيانات على الاتجاه الرئيسي \(i\) (أي المتجه الذاتي \(i\)).

يُظهر هذا الإجراء كيف يمكن استنتاج PCA من تحليل القيمة المفردة لمصفوفة البيانات. ومع ذلك، فإن PCA التقليدي شديد الحساسية للقيم الشاذّة وتلف البيانات.

تحليل المكوّنات الرئيسية المتين

الميزة الأبرز في RPCA مقارنةً بـ PCA التقليدي هي متانته حيال القيم الشاذّة. فـ PCA التقليدي حسّاس للقيم الشاذّة لكونه يحاول إيجاد تمثيل منخفض البعد يفسّر أكبر قدر من التباين، وقد يُحرّف هذا التمثيل اتجاهات البيانات الحقيقية عند وجود نقاط متطرّفة. أمّا RPCA فينمذج هذه القيم الشاذّة صراحةً، فتتحقّق دقّة أكبر في استعادة الهيكل الأساسي للبيانات.

في العديد من السيناريوهات، يستطيع RPCA استرجاع الهيكل منخفض الرتبة الحقيقي للبيانات أفضل ممّا يوفّره PCA، خاصةً عندما تَسود التشويشات أو يكون هناك نقص كبير في العينات.

تعتمد الفكرة العامة على تفكيك مصفوفة البيانات \(\mathbf{X}\) إلى مكوّنين:

\[\mathbf{X} = \mathbf{L} + \mathbf{S}.\]

حيث تصف \(\mathbf{L}\) المكوّن منخفض الرتبة الذي يلتقط الهيكل الرئيسي للبيانات، وتصف \(\mathbf{S}\) المكوّن المتناثر الذي يلتقط القيم الشاذّة أو التشوّهات. والهدف هو إيجاد \(\mathbf{L}\) و\(\mathbf{S}\) اللذين يحلّان:

\[ \begin{aligned} & \underset{\mathbf{L}, \mathbf{S}}{\mathrm{تصغير}}\ \mathrm{rank}(\mathbf{L}) + \|\mathbf{S}\|_0, \\ & \text{خاضع لـ}\ \ \mathbf{L} + \mathbf{S} = \mathbf{X}, \end{aligned} \]

نظراً للطبيعة غير المحدّبة لرُتبة \(\mathbf{L}\) و«شبه-المعيار» \(\|\mathbf{S}\|_0\)، تُصبح هذه المشكلة صعبة الحل عملياً (scherl_robust_2019). للتغلّب على ذلك، يُستخدم «الاسترخاء المحدّب» (JMLR:v11:zhang10a) الذي يحوّل المشكلة إلى:

\[ \begin{aligned} & \underset{\mathbf{L}, \mathbf{S}}{\mathrm{تصغير}}\ \|\mathbf{L}\|_* + \lambda \|\mathbf{S}\|_1, \\ & \text{خاضع لـ}\ \ \mathbf{L} + \mathbf{S} = \mathbf{X}, \end{aligned} \]

حيث يُمثّل تصغير «المعيار النووي» \(\|\mathbf{L}\|_*\) استبدالاً محدّباً لتصغير الرتبة، ويُمثّل تصغير «معيار» \(\|\mathbf{S}\|_1\) استبدالاً محدّباً لـ \(\|\mathbf{S}\|_0\). تُعرَف المشكلة الناتجة باسم «مطاردة المكوّنات الرئيسية» (PCP)، ويمكن حلّها عبر خوارزمية مُضاعِف لاغرانج المُعزَّز (lin_augmented_2010)، التي تُصاغ كالآتي:

\[ \mathcal{L}(\mathbf{L}, \mathbf{S}, \mathbf{\Lambda})=\|\mathbf{L}\|_* + \lambda \|\mathbf{S}\|_1+\langle \mathbf{\Lambda}, \mathbf{X} - \mathbf{L} - \mathbf{S} \rangle + \frac{\mu}{2}\|\mathbf{X}-\mathbf{L}-\mathbf{S}\|_{F}^2 \]

حيث \(\mathbf{\Lambda}\) مصفوفة مُضاعِفات لاغرانج و\(\mu\) معامل الضبط. ثم يُحدَّث \(\mathbf{\Lambda}\) عبر:

\[\mathbf{\Lambda}_{k+1} = \mathbf{\Lambda}_{k} + \mu(\mathbf{X}-\mathbf{L}_k-\mathbf{S}_k).\]

وبهذه الطريقة، يُحلّل RPCA مصفوفة البيانات \(\mathbf{X}\) إلى مكوّنات منخفضة الرتبة \(\mathbf{L}\) ومتناثرة \(\mathbf{S}\).

تحديد مواقع الاستشعار الأمثل

تحديد مواقع الاستشعار الأمثل أسلوب لاستخلاص أفضل المواضع داخل النظام لوضع المستشعرات. يهدف هذا النهج إلى تعظيم المعلومات المُكتسَبة (مثل الإنتروبيّا) مع تقليل عدد المستشعرات.

لتكن \(\boldsymbol{x} \in \mathbb{R}^n\) نقطة بيانات في زمن معيّن، ويمكن تقريبها كما يلي:

\[\boldsymbol{x} \approx \mathbf{\Psi}_r \boldsymbol{a},\]

حيث \(\boldsymbol{a} \in \mathbb{R}^{r}\) متجه المعاملات الزمني، وأعمدة \(\mathbf{\Psi}_r\) هي الأوضاع الأرثوغونالية منخفضة الرتبة (حيث \(\mathbf{\Psi}_r = \mathbf{U}_r\)). إذا اعتبرنا القياسات:

\[\boldsymbol{y} = \mathbf{C}\boldsymbol{x},\]

حيث \(\mathbf{C}\in \mathbb{R}^{s\times n}\) مصفوفة قياس متناثرة و\(s\) عدد المستشعرات، فإنها تقرّب بـ:

\[\boldsymbol{y} \approx \mathbf{C}\mathbf{\Psi}_r \boldsymbol{a}.\]

إذا مثّلنا \(\mathbf{\Theta} = \mathbf{C}\mathbf{\Psi}_r\)، يمكن تقدير المعاملات عبر:

\[\boldsymbol{\hat{a}} = \mathbf{\Theta}^\dagger\boldsymbol{y}.\]

ومن ثمّ تُعاد بناء النقطة كالتالي:

\[\boldsymbol{\hat{x}} = \mathbf{\Psi}_r\boldsymbol{\hat{a}} = \mathbf{\Psi}_r(\mathbf{C}\mathbf{\Psi}_r)^\dagger\boldsymbol{y}.\]

وبما أن \(\mathbf{\Psi}_r\) معلوم من تحليل الأبعاد المنخفضة، يبقى \(\mathbf{C}\) مجهولاً. وكما أوضح (manohar_data-driven_2018)، يُحدَّد OSP عبر تحليل QR مع تبديل الأعمدة على \(\mathbf{\Psi}_r^T\)، مع مراعاة شرط \(s \geq r\).

المنهجية

يصف هذا القسم سير عمل الإطار المقترَح لمعالجة البيانات الضخمة، بدءاً من تنقية البيانات ثم ضغطها وصولاً إلى النمذجة المعتمدة على البيانات بكفاءة حسابية عالية. يقوم جوهر المنهجية على RPCA وOSP وشبكات LSTM.

تنقية البيانات

في خطوة تنقية البيانات، نستخدم RPCA كما عُرض في قسم تحليل المكوّنات الرئيسية المتين. تم اختيار ثوابت الضبط بحيث \(\lambda = 0.006\) و\(\mu = 10^{-5}\). بعد تفكيك مصفوفة البيانات \(\mathbf{X}\) إلى مصفوفتَي \(\mathbf{L}\) (منخفضة الرتبة) و\(\mathbf{S}\) (متناثرة)، نُعيد بناء نسخة نظيفة من البيانات بالاعتماد على \(\mathbf{L}\) التي تمثّل الفيزياء الكامنة، بينما تُظهر \(\mathbf{S}\) التشوّهات والشوائب. وبذلك نحصل على بيانات مُصقَّاة مناسبة للمراحل اللاحقة.

ضغط البيانات

لضغط البيانات مع الحفاظ على المعلومات الأساسية للنظام، نُطبّق خوارزمية OSP الموضّحة في قسم تحديد مواقع الاستشعار الأمثل على مصفوفة \(\mathbf{L}\) الناتجة عن المرحلة السابقة. يقوم المبدأ الأساسي على اختيار مواقع مستشعرات تلتقط أكبر قدر من تباين البيانات، مما يسمح بتمثيل \(\mathbf{X}\) بمجموعة أقل من القياسات \(\mathbf{Y}\)، حيث تُكدّس \(\boldsymbol{y}\) في نافذة زمنية محدّدة. تُمثَّل هذه المجموعة المضغوطة بمصفوفة قياس متناثرة \(\mathbf{C}\). بتقليل عدد المستشعرات، نحدّ من التكاليف وسعة التخزين المطلوبة دون المساس بدقّة التمثيل.

نمذجة القياسات المتناثرة باستخدام شبكات LSTM

في سياق النمذجة المعتمدة على البيانات، أثبتت الشبكات العصبية، ولا سيّما LSTM، فعاليتها في العديد من التطبيقات. صُمّمت LSTM لتحمّل المعلومات على مدى تسلسلات طويلة، مما يجعلها مثالية لمعالجة بيانات السلاسل الزمنية. غير أن تطبيقها مباشرةً على البيانات الضخمة قد يكون مُكلِفاً حسابياً، لذا نُطبّق LSTM على مجموعة فرعية منخفضة الأبعاد \(\mathbf{Y}\) المُستخرجة عبر OSP.

يسهم دمج LSTM مع OSP في خفض العبء الحسابي للتدريب بصورة كبيرة. عند استخدام LSTM لنمذجة هذه القياسات المختارة، نستهدف التقاط الديناميكيات الزمنية الكامنة. وبعد تدريب الشبكات، يمكنها التنبؤ بقِيَم القياسات المتناثرة، ومن ثم إعادة بناء البيانات بالحجم الكامل باستخدام المعادلة \(\boldsymbol{\hat{x}} = \mathbf{\Psi}_r(\mathbf{C}\mathbf{\Psi}_r)^\dagger\boldsymbol{y}\). يتيح ذلك إعادة إسقاط التنبؤات على الأبعاد الأصلية للبيانات. وتجدر الإشارة إلى أنه عند أخذ العينات بفواصل زمنية غير منتظمة، قد تُحسّن مرحلةُ الاستيفاء المُسبق دقّة النماذج.

تدفق البيانات الضخمة

يسمح نهج التكامل السابق بتدفّق عمل متّسق لمعالجة البيانات الضخمة، يتكوّن من المراحل التالية:

تنقية البيانات: يُولّد RPCA نسخةً نظيفة \(\mathbf{L}\) من مصفوفة البيانات \(\mathbf{X}\). وبما أنّ \(\mathbf{L}\) يحافظ على الديناميكيات الأساسية للنظام، يمكن نقلها إلى المراحل اللاحقة من المعالجة والتحليل.
ضغط البيانات: تُتيح خوارزمية OSP ضغطاً مكثّفاً لمصفوفة البيانات النظيفة \(\mathbf{L}\). عبر حساب أوضاع \(\mathbf{\Psi}_r\) وإيجاد مصفوفة القياس \(\mathbf{C}\)، تُصبح مجموعة فرعية صغيرة \(\mathbf{Y}\) كافية لتمثيل البيانات. يجب تخزين \(\mathbf{\Psi}_r\) و\(\mathbf{C}\) لإعادة البناء لاحقاً إلى \(\boldsymbol{\hat{x}}\).
النمذجة المعتمدة على البيانات: نُنشئ نماذج LSTM للمجموعة الفرعية المُقاسة \(\mathbf{Y}\). بعد التنبؤ بالمجموعة الفرعية المستقبلية، يُعاد بناء التنبؤ للأبعاد الأصلية \(\mathbf{\hat{X}_{pred}}\) باستخدام \(\mathbf{\Psi}_r\) و\(\mathbf{C}\).

إعداد المحاكاة

في هذه الدراسة، اعتَمَدنا بياناتٍ مُلتقطة بكاميرا حرارية لرصد محرك سفينة، وقد زوّدتنا بها شركة Idletechs AS. ونظراً لجودة البيانات وخلوّها من شوائب كبيرة، قمنا بإضافة اضطرابات اصطناعية وفق السيناريوهات التالية. كما نصف إعداد شبكة LSTM المستخدمة.

البيانات

سُحِبت مجموعة البيانات من صور كاميرا حرارية تُظهر محرك سفينة عَبّارة، بهدف مراقبة السلوك الحراري خلال مراحل الإقلاع والتشغيل المستقر والتوقّف. استمر جمع البيانات على مدار أربعة أيام متتالية، إذ جُمعت نحو 24 ساعة من المراقبة بفاصل زمني وسطي قدره 0.5 ثانية بين القياسات. تحتوي كل صورة على 19,200 بكسل (120×160)، حيث يلتقط كل بكسل الإشعاعات الحرارية الصادرة عن المحرك، مما يوفّر مؤشراً على الأداء الحراري وأي بقع ساخنة محتملة.

الاضطرابات

لتقييم خوارزمياتنا تحت ظروف متباينة، نفّذنا أربعة سيناريوهات محاكاة تشمل الضوضاء، والشذوذ، والتلوّث، ومزيجاً منها.

السيناريو 1

تم تشويش البيانات بضوضاء غاوسيّة ذات متوسّط 0 وانحراف معياري 4، مما يضمن انحصار معظم القيم ضمن النطاق [-4, 4].

السيناريو 2

تم إدخال شذوذات عبر اختيار عشوائي لـ 100 نقطة بيانات (بكسل) واستبدال قيمها الأصلية بقيم عشوائية ضمن النطاقين [30, 40] و[-40, -30]، لمحاكاة شذوذ كبير في القياسات.

السيناريو 3

تم تلويث البيانات عشوائياً، حيث أُضيفت ضوضاء موزّعة بانتظام إلى 10% من عينات البيانات ضمن الفترة [-15, 30]، لاختبار متانة خوارزميات PCA وRPCA وOSP.

السيناريو 4

تم تشويش البيانات بمزيج من السيناريوهات السابقة (1 و2 و3)، مما أدّى إلى تراكب أنواع الضوضاء والشذوذ والتلوّث.

هندسة شبكة الذاكرة طويلة الأمد

لاختيار إعدادات شبكة LSTM، جُرّبت عدّة توليفات للمعاملات، واعتمدنا في النهاية مُحسِّن «آدم» لتدريب الشبكة، مع استخدام مقياس الجذر التربيعي للخطأ المتوسط (RMSE) لتقييم الأداء. للتنبؤ، استخدمنا نافذة تاريخية مكوّنة من 50 عيّنة، مع أفق تنبّؤي قدره 100 خطوة زمنية. تتكوّن بنية الشبكة من طبقة إدخال، وطبقة LSTM، وطبقة كثيفة (Dense)، وطبقة إخراج. ولتفادي الإفراط في التخصيص، أُضيفت طبقة إسقاط (dropout)، وهي تقنية تحذف بشكل عشوائي بعض الوحدات والوصلات أثناء التدريب (nitish_srivastava_geoffrey_hinton_alex_krizhevsky_ilya_sutskever_and_ruslan_salakhutdinov_dropout_2014).

النتائج والمناقشة

فيما يلي، نعرض نتائج مراحل التنقية والضغط والنمذجة المعتمدة على البيانات لكل سيناريو من السيناريوهات الأربعة.

تنقية البيانات

تُظهر نتائج تنقية البيانات لكل سيناريو من السيناريوهات الواردة في قسم «الاضطرابات» أن RPCA يفصل مصفوفة \(\mathbf{L}\) التي تمثّل الصورة النظيفة عن مصفوفة \(\mathbf{S}\) التي تجمع التشوّهات والشوائب. وبينما يُعاني PCA التقليدي من تأثير القيم الشاذّة بصورة واضحة، يحافظ RPCA على بنية الصورة الأساسية مع إزالة الشوائب، ما يعزّز دقّة تطبيقات الذكاء الاصطناعي المعتمدة على البيانات الضخمة.

ضغط البيانات

أظهر تطبيق OSP على بيانات الصور الحرارية تخفيضاً كبيراً في الأبعاد، حيث استُخدم فقط 10 قياسات بكسل من أصل 19200. ورغم هذا الانخفاض الكبير، أمكن إعادة بناء الصور الأصلية بدقّة ملحوظة. من منظور ضغط البيانات، يتّضح دور OSP في خفض استهلاك الطاقة ومتطلّبات الذاكرة؛ فباستخدام مجموعة صغيرة من القياسات يمكن تمثيل البيانات الكاملة بفقدان معلوماتي ضئيل.

ويُمثَّل توفير الذاكرة بالنسبة للبيانات المضغوطة بالمعادلة:

\[\alpha = \frac{m}{s}.\]

في هذه الدراسة التجريبية، نحصل على \[\alpha = \frac{19200}{10} = 1920\]، ما يعني إمكان تخزين عدد صور أكبر بنحو 1920 مرّة ضمن السعة نفسها.

نمذجة تنبؤية معتمدة على البيانات

دُرِّبت شبكة LSTM على الفضاء الفرعي منخفض الأبعاد \(\mathbf{Y}\) المُستخلص عبر OSP، مع استيفاء البيانات المُسبق لمعالجة عدم انتظام الفواصل الزمنية للعينات. ولإبراز أثر الاستيفاء، عُرضت قيم RMSE للنماذج مع وبدون استيفاء أولي، إلى جانب مقارنة زمن التدريب. تكشف النتائج عن انخفاض ملموس في الخطأ وتوفير كبير في الزمن الحسابي باستخدام النهج المقترح. وتؤكّد هذه السرعة المحسّنة إمكانية التطبيق الفوري والتدريب عبر الإنترنت في الزمن الحقيقي، اعتماداً على عدد العصور ومعايير التدريب المختارة.

الخلاصة

في الختام، يُحسّن تطبيق RPCA جودة بيانات الصور الحرارية بصورة ملحوظة، مما يُتيح تحليلات لاحقة أكثر موثوقية. وبفضل متانته وقابليته للتوسّع، يصلح هذا الإطار لمجموعة واسعة من التطبيقات المرتبطة بالبيانات الضخمة. كما يقدّم OSP وسيلة فعّالة لتعظيم كفاءة التخزين وضغط البيانات في البيئات ذات القيود الصارمة. وعن طريق تطبيق شبكات LSTM على فضاء منخفض الأبعاد مُشتق من OSP، نحصل على كفاءة حسابية مُحسّنة ودقّة تنبؤية عالية. إن هذا التكامل بين التقنيات المقدّمة يرفع مستويات جودة البيانات والكفاءة الحسابية والذاكرة، ويُمكّن من تحقيق تنبؤات في الزمن الحقيقي.