تحليلات تنبؤية قوية وفعالة من حيث الحساب والذاكرة باستخدام البيانات الضخمة

Daniel Menges

Adil Rasheed

latex

مُلَخَّص

في عصر البيانات المكثفة الحالي، أصبحت البيانات الضخمة أصلاً هاماً للذكاء الاصطناعي، حيث تُستخدم كأساس لتطوير النماذج المعتمدة على البيانات وتوفير الرؤى في مجالات متعددة غير معروفة. تتناول هذه الدراسة التحديات المتعلقة بشكوك البيانات، وقيود التخزين، ونمذجة البيانات التنبؤية باستخدام البيانات الضخمة. نستخدم تحليل المكونات الرئيسية القوي لتقليل الضوضاء بفعالية والقضاء على القيم الشاذة، وتحديد مواقع الاستشعار المثلى لضغط البيانات بكفاءة وتخزينها. تمكن تقنية تحديد مواقع الاستشعار المثلى من ضغط البيانات دون فقدان كبير للمعلومات مع تقليل الحاجة إلى التخزين في الوقت نفسه. بينما يقدم تحليل المكونات الرئيسية القوي بديلاً محسناً لتحليل المكونات الرئيسية التقليدي لإدارة البيانات ذات الأبعاد العالية، يمتد نطاق هذا العمل لاستخدامه، مع التركيز على النمذجة المعتمدة على البيانات القوية والملائمة لمجموعات البيانات الضخمة في الوقت الفعلي. لهذا الغرض، يتم تطبيق شبكات الذاكرة القصيرة والطويلة الأمد، وهي نوع من الشبكات العصبية المتكررة، لنمذجة البيانات والتنبؤ بها استناداً إلى مجموعة فرعية منخفضة الأبعاد تم الحصول عليها من تحديد مواقع الاستشعار المثلى، مما يؤدي إلى تسريع حاسم في مرحلة التدريب. تعتبر شبكات الذاكرة القصيرة والطويلة الأمد مناسبة لالتقاط الاعتماديات طويلة المدى في بيانات السلاسل الزمنية، مما يجعلها ملائمة بشكل خاص للتنبؤ بالحالات المستقبلية للأنظمة الفيزيائية استناداً إلى البيانات التاريخية. تم تنظير جميع الخوارزميات المقدمة ومحاكاتها والتحقق منها باستخدام بيانات التصوير الحراري الحقيقية التي ترسم محرك سفينة.

مُقَدِّمَة

في سياق الذكاء الاصطناعي، أصبحت البيانات تحتل مركز الصدارة، مؤثرة في عمليات اتخاذ القرار في العديد من المجالات، من الرعاية الصحية (raghupathi_big_2014) إلى الاقتصاد القياسي (varian_big_2014)، والتصنيع (nagorny_big_2017)، وغيرها. ومع ذلك، بينما تقدم البيانات الضخمة إمكانات هائلة، من الضروري فهم نقاط قوتها وعيوبها الكامنة، خاصة أن البيانات قد تكون خاطئة بسبب عوامل مختلفة مثل عدم دقة المستشعرات وأخطاء النقل. لذلك، قد تُفسر البيانات أحياناً بشكل خاطئ إذا لم يتم استخدامها بشكل مناسب، خاصة عندما تكون البيانات الأساسية معيبة أو غير دقيقة (pitici_rise_2014). القدرة على التعامل بفعالية مع هذه الأحجام المتزايدة من البيانات وتحليلها وتفسيرها أمر ضروري. لذلك، فإن تطوير ونشر تقنيات تحليل البيانات القوية أمر بالغ الأهمية.

من بين الأدوات المختلفة المتاحة لتحليل البيانات، اكتسب تحليل المكونات الرئيسية (PCA) (jolliffe_principal_2002) اهتماماً كبيراً بسبب قدرته على تقليل أبعاد مجموعات البيانات مع الاحتفاظ بمعظم المعلومات الأساسية (abdi_principal_2010). ومع ذلك، فإن تحليل المكونات الرئيسية التقليدي يتأثر بشكل كبير بالقيم الشاذة والتلف في البيانات، مما يمكن أن يؤثر بشكل كبير على أدائه ودقة التحليلات اللاحقة. ونتيجة لذلك، هناك حاجة إلى تقنيات أكثر قوة يمكنها التعامل مع مثل هذه الاختلالات. تحليل المكونات الرئيسية القوي (RPCA)، وهو نسخة متقدمة من تحليل المكونات الرئيسية، يقدم نتائج أكثر موثوقية من خلال فصل قوي للمكونات منخفضة الرتبة والمتفرقة في البيانات، حتى في وجود قيم شاذة وتلف (hubert_robpca_2005). يتم وصف مفهوم تحليل المكونات الرئيسية القوي لتحليل مصفوفة البيانات إلى مكون منخفض الرتبة ومكون متفرق بدقة في (candes_robust_2011). تُستخدم المكونات المحللة ببرنامج محدب يُسمى مطاردة المكونات الرئيسية. الطريقة، التي يمكنها استعادة المكونات الرئيسية حتى عندما تكون إدخالات البيانات تالفة أو مفقودة، لها تطبيقات في مراقبة الفيديو لاكتشاف الأجسام، في الخلفيات المزدحمة والتعرف على الوجوه لإزالة الظلال، في الانعكاسات، وأكثر. يتم تقديم مقارنة مفصلة بين تحليل المكونات الرئيسية وتحليل المكونات الرئيسية القوي في (scherl_robust_2019)، مما يُظهر فوائد وقوة تحليل المكونات الرئيسية القوي.

بالتوازي، مع الحاجة المتزايدة للبيانات الضخمة، يظهر أحد التحديات الرئيسية وهو التخزين الفعال ونقل هذه الأحجام الهائلة من البيانات. نهج جديد لهذه المشكلة هو مفهوم وضع المستشعرات الأمثل (OSP) (manohar_data-driven_2018). يتضمن وضع المستشعرات الأمثل تموضعاً استراتيجياً للمستشعرات لالتقاط البيانات الأكثر صلة، مما يقلل بشكل كبير من الازدواجية ويسهل التخزين الفعال للبيانات ونقلها. في جوهره، يهدف وضع المستشعرات الأمثل إلى الحصول على نسخة مضغوطة من البيانات دون فقدان كبير للمعلومات.

من خلال فحص شامل لتحليل المكونات الرئيسية القوي ووضع المستشعرات الأمثل، تهدف هذه الدراسة إلى استكشاف التآزر بين هذه المنهجيات وتأثيرها الجماعي في تحسين دقة وكفاءة نمذجة وتحليل البيانات الضخمة.

علاوة على ذلك، نوسع هذا العمل من خلال دمج نهج نمذجة مدفوع بالبيانات للتنبؤات الفورية باستخدام شبكات الذاكرة القصيرة والطويلة الأمد (LSTM)، التي اقترحت لأول مرة من قبل (hochreiter_long_1997). يسمح تصميم شبكات الذاكرة القصيرة والطويلة الأمد، بآليات بواباتها، لها بتعلم الاعتماديات طويلة الأمد في البيانات (chung_gated_2015). لقد اكتسبت الشبكات العصبية الاصطناعية (ANNs) اهتماماً كبيراً في مختلف مجالات التنبؤ بسبب قابليتها للتكيف، وعدم الخطية، والقدرة على تمثيل الوظائف التعسفية. ومع ذلك، فإنها تتطلب الكثير من الوقت الحاسوبي للتدريب (zhang_forecasting_1998). لذلك، نقوم بإنشاء نماذج شبكات الذاكرة القصيرة والطويلة الأمد استناداً إلى عدد قليل من نقاط البيانات المختارة التي تم الحصول عليها من خلال خوارزمية وضع المستشعرات الأمثل. تسرع هذه الطريقة بشكل كبير من مرحلة التدريب، مما يجعل النهج المقترح قابلاً للتكيف مع مجموعة واسعة من التطبيقات. بمجرد التنبؤ بهذه النقاط القليلة (القياسات) باستخدام شبكات الذاكرة القصيرة والطويلة الأمد، نعيد بناء البعد الكامل للبيانات من خلال مفهوم وضع المستشعرات الأمثل، مما يسمح بالتنبؤ بالحالات المستقبلية بدقة ملحوظة في البعد الكامل. يقدم دمج تحليل المكونات الرئيسية القوي، ووضع المستشعرات الأمثل، وشبكات الذاكرة القصيرة والطويلة الأمد نهجاً جديداً لنمذجة البيانات الضخمة، ويعد بالقوة والقدرة على التوسع في مختلف السيناريوهات الواقعية.

في هذه الدراسة، طبقنا الخوارزميات على مجموعة بيانات من كاميرا حرارية ترسم خريطة لمحرك سفينة. وقدمت الصور الحرارية رؤية فريدة لملفات درجات الحرارة وتقلباتها، مما يوفر منظوراً فريداً على سلوك التشغيل والأداء لمحرك السفينة. المراقبة الشرطية ضرورية للحفاظ على العمليات بأمان (mohanty_machinery_2014) ويمكن أن توفر رؤى حول موثوقية محرك السفينة ومكوناته. من خلال تحديد الشذوذ مبكراً، من الممكن التنبؤ بعمر هذه المكونات ومنع الأعطال الكبيرة.

التحديات الأساسية

في الخلاصة، تتناول هذه الدراسة ثلاث تحديات أساسية:

المعالجة القوية للشكوك مثل القيم الشاذة والتلف في البيانات بسبب استخدام قياسات الكاميرا الحرارية غير المتطفلة ومنخفضة التكلفة.
الحاجة إلى تقنيات تخزين فعالة من حيث استخدام الذاكرة بسبب الكم الهائل من البيانات المولدة.
القدرة على الصيانة الاستباقية في الوقت الفعلي من خلال النمذجة التنبؤية المعتمدة على البيانات.

كما أشار (inproceedings)، نادراً ما يستخدم القطاع البحري الصيانة التنبؤية. بدلاً من ذلك، تميل أنشطة الصيانة في السفن إلى أن تكون وقائية. وهذا يؤدي غالباً إلى تكاليف أعلى حيث أن الأجزاء المستبدلة قد تكون لديها قدرة تحمل قابلة للاستخدام لفترة أطول.

النظرية

يوفر هذا القسم نظرة مفصلة عن التقنيات الإحصائية المستخدمة في هذه الدراسة. نقدم مفهوم تحليل المكونات الرئيسية (Principal Component Analysis) ونظيره القوي، تحليل المكونات الرئيسية القوي (Robust Principal Component Analysis)، لتنظيف البيانات. علاوة على ذلك، يغطي القسم فكرة تحديد مواقع الاستشعار الأمثل (Optimal Sensor Placement) المستخدمة لضغط البيانات بفعالية وإدارة التخزين.

تحليل المكون الرئيسي

تحليل المكون الرئيسي (Principal Component Analysis) هو إجراء إحصائي يستخدم تحويلاً متعامداً لتحويل مجموعة من الملاحظات لمتغيرات محتملة الارتباط إلى مجموعة من المتغيرات غير المرتبطة خطياً، والتي تُسمى المكونات الرئيسية. يسمح هذا الإجراء بتحديد الاتجاهات (المكونات الرئيسية) التي تتفاوت فيها البيانات بشكل أكبر. هناك نهجان رئيسيان لحساب تحليل المكون الرئيسي: نهج المتجه الذاتي ونهج تحليل القيمة المفردة (Singular Value Decomposition). توصف المفاهيم العامة بالتفصيل في (shlens_tutorial_2014). غالباً ما يتم اختيار نهج تحليل القيمة المفردة لأنه أكثر قوة من الناحية العددية.

نهج تحليل القيمة المفردة

يرتبط تحليل المكون الرئيسي ارتباطاً وثيقاً بتحليل القيمة المفردة، وهو تحليل لمصفوفة حقيقية أو مركبة. لأي مصفوفة حقيقية $\mathbf{A}\in \mathbb{R}^{m\times n}$، حيث $m \geq n$، يوجد تحليل من الشكل \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T,\] حيث $\mathbf{U}\in \mathbb{R}^{m\times m}$، و$\mathbf{\Sigma}\in \mathbb{R}^{m\times n}$، و$\mathbf{V}\in \mathbb{R}^{n\times n}$. أعمدة $\mathbf{U}$ هي متجهات ذاتية متعامدة لـ $\mathbf{AA}^T$، وأعمدة $\mathbf{V}$ هي متجهات ذاتية متعامدة لـ $\mathbf{A}^T\mathbf{A}$. العناصر القطرية لـ $\mathbf{\Sigma}$ هي الجذور التربيعية للقيم الذاتية لـ $\mathbf{A}^T\mathbf{A}$ (أو بالمثل، $\mathbf{AA}^T$)، وتسمى القيم المفردة لـ $\mathbf{A}$. لرؤية ذلك، نعتبر أولاً المصفوفة $\mathbf{A}^T\mathbf{A}$، وهي مصفوفة متماثلة. بموجب نظرية الطيف، يمكننا تحليلها كما يلي: \[\mathbf{A}^T\mathbf{A} = \mathbf{V} \mathbf{\Sigma}^2\mathbf{V}^T.\] بالمثل، يمكننا تحليل $\mathbf{AA}^T$ كما يلي: \[\mathbf{AA}^T = \mathbf{U} \mathbf{\Sigma}^2 \mathbf{U}^T.\] باستخدام هاتين الهويتين، يمكن إظهار أن \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T,\] وهو تحليل القيمة المفردة لـ $\mathbf{A}$.

ننظر إلى مصفوفة بيانات $\mathbf{X} \in \mathbb{R}^{m \times n}$، حيث كل صف هو ملاحظة وكل عمود هو متغير. نفترض أن البيانات قد تم توسيطها، أي تم طرح متوسطات الأعمدة.

أداء تحليل القيمة المفردة ذو الرتبة المنخفضة: احسب تحليل القيمة المفردة لـ $\mathbf{X}$ بواسطة $\mathbf{X} = \mathbf{U}_r\mathbf{\Sigma}_r\mathbf{V}_r^T+\mathbf{E}$. هنا، $\mathbf{U}_r \in \mathbb{R}^{m \times r}$ و $\mathbf{V}_r^\top \in \mathbb{R}^{r \times n}$ هما مصفوفتان متعامدتان تحتويان على المتجهات الذاتية اليسرى واليمنى و $r$ هو عدد المكونات الرئيسية، على التوالي. المصفوفة $\mathbf{\Sigma}_r \in \mathbb{R}^{r \times r}$ تحتوي على أكبر $r$ قيم مفردة بترتيب تنازلي على القطر. بالإضافة إلى ذلك، تحتوي المصفوفة $\mathbf{E}$ على البقايا غير الممثلة بسبب تقليل الأبعاد.
المكونات الرئيسية: أخيراً، تُعطى المكونات الرئيسية لـ $\mathbf{X}$ بواسطة $\mathbf{X}\mathbf{V}_r \approx \mathbf{U}_r \mathbf{\Sigma}_r$. العمود $i$ من $\mathbf{X}\mathbf{V}_r$ هو إسقاط البيانات على الاتجاه الرئيسي $i$ (أي المتجه الذاتي $i$).

يُظهر هذا الإجراء كيف يمكن استنتاج تحليل المكون الرئيسي من تحليل القيمة المفردة لمصفوفة البيانات. ومع ذلك، فإن تحليل المكون الرئيسي التقليدي حساس للغاية للقيم الشاذة وتلف البيانات.

تحليل المكون الرئيسي القوي

الميزة الأكثر أهمية لتحليل المكون الرئيسي القوي عن تحليل المكون الرئيسي القياسي هي مقاومته للقيم الشاذة. يكون تحليل المكون الرئيسي القياسي حساساً للقيم الشاذة لأنه يحاول إيجاد تمثيل ذو بعد أقل يفسر بشكل أفضل التباين في البيانات. إذا كانت هناك قيم شاذة، قد يتأثر تحليل المكون الرئيسي بشكل كبير بها، مما يؤدي إلى تمثيل لا يعكس بدقة معظم الهيكل الأساسي للبيانات. من ناحية أخرى، يقوم تحليل المكون الرئيسي القوي بنمذجة هذه القيم الشاذة بشكل صريح، مما يؤدي إلى تمثيل أكثر دقة وقوة للهيكل الأساسي للبيانات.

في سياقات معينة، يمكن لتحليل المكون الرئيسي القوي أن يستعيد بشكل أفضل الهيكل منخفض الرتبة الحقيقي للبيانات مقارنة بتحليل المكون الرئيسي، خاصة عندما تكون البيانات مفسدة بشكل كبير أو عندما يكون هناك نقص كبير في البيانات.

يعمل تحليل المكون الرئيسي القوي عن طريق تحليل مصفوفة البيانات إلى مصفوفة ذات رتبة منخفضة ومصفوفة متفرقة. تلتقط المصفوفة ذات الرتبة المنخفضة المكونات الرئيسية، وتلتقط المصفوفة المتفرقة القيم الشاذة أو الشوائب. يمكن أن يكون هذا الفصل مفيداً جداً في العديد من التطبيقات، مثل معالجة الصور والفيديو، حيث يمكن أن يتوافق المكون ذو الرتبة المنخفضة مع الخلفية والمكون المتفرق يتوافق مع الأجسام المتحركة. الفكرة العامة هي تحليل مصفوفة البيانات $\mathbf{X}$ إلى مكونين يعبر عنهما بالمعادلة \[\mathbf{X} = \mathbf{L} + \mathbf{S}.\] هنا، تصف المصفوفة $\mathbf{L}$ المصفوفة ذات الرتبة المنخفضة التي تلتقط الهيكل الرئيسي للبيانات، بينما المصفوفة $\mathbf{S}$ متفرقة وتلتقط القيم الشاذة والتلفيات. لذلك، الهدف هو إيجاد $\mathbf{L}$ و $\mathbf{S}$ اللذين يحققان \[\begin{split} & \underset{\mathbf{L}, \mathbf{S}}{\text{تصغير}} \hspace{0.5cm}\mathrm{rank}(\mathbf{L}) + \|\mathbf{S}\|_0, \\ & \text{خاضع لـ} \hspace{0.5cm} \mathbf{L} + \mathbf{S} = \mathbf{X}, \end{split} \label{eq:RPCA_ideal}\] حيث يصف $\|\mathbf{S}\|_0$ قاعدة الصفر لـ $\mathbf{S}$، و $\mathrm{rank}(\mathbf{L})$ يحدد رتبة $\mathbf{L}$. ومع ذلك، بسبب الطبيعة غير المحدبة لكل من الرتبة($\mathbf{L}$) و $\|\mathbf{S}\|_0$، تصبح مشكلة التحسين هذه غير قابلة للتنفيذ (scherl_robust_2019). للتغلب على هذه المشكلة، يوفر الاسترخاء المحدب (JMLR:v11:zhang10a) نهجاً لتقريب القابلية للتحدب للمشاكل غير المحدبة. يسمح الاسترخاء المحدب بتحويلها إلى \[\begin{split} & \underset{\mathbf{L}, \mathbf{S}}{\text{تصغير}} \hspace{0.5cm}\|\mathbf{L}\|_* + \lambda \|\mathbf{S}\|_1, \\ & \text{خاضع لـ} \hspace{0.5cm} \mathbf{L} + \mathbf{S} = \mathbf{X}, \end{split} \label{eq:PCP}\] حيث $\|\cdot\|_1$ هو قاعدة $L_1$ المعطاة بمجموع القيم المطلقة لإدخالات المصفوفة، $\|\cdot\|_*$ هو القاعدة النووية المعطاة بمجموع القيم الذاتية، و $\lambda$ هو معامل. بينما يؤدي تصغير $\|\mathbf{S}\|_1$ إلى تقريب تصغير $\|\mathbf{S}\|_0$، يؤدي تصغير $\|\mathbf{L}\|_*$ إلى تقريب أدنى رتبة ممكنة لـ $\mathrm{rank}(\mathbf{L})$. المشكلة الموصوفة هنا محدبة وتعرف باسم مطاردة المكون الرئيسي (PCP). لحل هذه المشكلة المحدبة، يقترح خوارزمية مضاعف لاغرانج المعزز (lin_augmented_2010). يمكن صياغة مضاعف لاغرانج المعزز كما يلي \[\hspace{-0.7em}\resizebox{.93\hsize}{0.012\vsize}{$\mathcal{L}(\mathbf{L}, \mathbf{S}, \mathbf{\Lambda})=\|\mathbf{L}\|_* + \lambda \|\mathbf{S}\|_1+\langle \mathbf{\Lambda}, \mathbf{X} - \mathbf{L} - \mathbf{S} \rangle + \frac{\mu}{2}\|\mathbf{X}-\mathbf{L}-\mathbf{S}\|_{F}^2$}, \label{eq:ALM}\] حيث $\mathbf{\Lambda}$ هي مصفوفة مضاعفات لاغرانج، $\mu$ هو معامل، $\langle \cdot \rangle$ يدل على الجداء الداخلي، و $\|\cdot\|_F$ هو قاعدة فروبينيوس، المعروفة أيضاً باسم القاعدة الأوروبية، وهي مقياس للحجم أو الطول لمصفوفة. بعد ذلك، نقوم بتصغير $\mathcal{L}$ لحل $\mathbf{L}_k$ و $\mathbf{S}_k$ في الخطوة الزمنية $k$، حيث يتم تحديث مصفوفة مضاعفات لاغرانج بواسطة \[\mathbf{\Lambda}_{k+1} = \mathbf{\Lambda}_{k} + \mu(\mathbf{X}-\mathbf{L}_k-\mathbf{S}_k).\] نتيجة لذلك، يقوم تحليل المكون الرئيسي القوي بتحليل مصفوفة البيانات $\mathbf{X}$ إلى مكون ذو رتبة منخفضة $\mathbf{L}$ ومكون متفرق $\mathbf{S}$.

تحديد مواقع الاستشعار الأمثل

تحديد مواقع الاستشعار الأمثل هو طريقة لتحديد أكثر المواقع فائدة داخل نظام ما لوضع المستشعرات. يمكن لهذه الطريقة أن تعظم اكتساب القياسات للمعلومات (الانتروبيا) مع تقليل عدد المستشعرات المطلوبة. هنا، تصف الانتروبيا وفرة المعلومات داخل النظام.

ليكن $\boldsymbol{x} \in \mathbb{R}^n$ نقطة بيانات واحدة في الزمن، والتي يمكن تقريبها كالتالي \[\boldsymbol{x} \approx \mathbf{\Psi}_r \boldsymbol{a},\] حيث $\boldsymbol{a} \in \mathbb{R}^{r}$ تحتوي على المعاملات التي تتغير مع الزمن بينما أعمدة $\mathbf{\Psi}_r$ هي أوضاع التحليل الأرثوغونالي الصحيح منخفض الرتبة. التحليل الأرثوغونالي الصحيح مشابه جداً لتحليل المكونات الرئيسية. ومع ذلك، لا يتم توزيع أوضاع التحليل الأرثوغونالي الصحيح بواسطة مصفوفة القيم الفردية $\mathbf{\Sigma}$، مثل المكونات الرئيسية لتحليل المكونات الرئيسية. لذلك، $\mathbf{\Psi}_r = \mathbf{U}_r$. إذا افترضنا أن القياسات يمكن التعبير عنها بواسطة \[\boldsymbol{y} = \mathbf{C}\boldsymbol{x},\] مع $\mathbf{C}\in \mathbb{R}^{s\times n}$ كونها مصفوفة قياس متناثرة و$s$ عدد المستشعرات، يمكن تقريب القياسات بواسطة \[\boldsymbol{y} \approx \mathbf{C}\mathbf{\Psi}_r \boldsymbol{a}.\] إذا دللنا $\mathbf{\Theta} = \mathbf{C}\mathbf{\Psi}_r$، يمكن تمثيل المعاملات المقدرة بواسطة \[\boldsymbol{\hat{a}} = \mathbf{\Theta}^\dagger\boldsymbol{y}. \label{eq:a_est}\] وبالتالي، يمكننا استنتاج تقدير لـ$\boldsymbol{x}$ ينتج \[\boldsymbol{\hat{x}} = \mathbf{\Psi}_r\boldsymbol{\hat{a}} = \mathbf{\Psi}_r(\mathbf{C}\mathbf{\Psi}_r)^\dagger\boldsymbol{y}. \label{eq:OSP_reconstruction}\] بما أن $\mathbf{\Psi}_r$ يمكن تحديدها باستخدام تحليل القيم الفردية منخفض الرتبة، فإن الكيان الوحيد المجهول هو مصفوفة القياس المتناثرة $\mathbf{C}$. كما وصف (manohar_data-driven_2018)، يمكن تحقيق تحديد مواقع الاستشعار الأمثل عن طريق تطبيق تحليل QR مع الاستدلال العمودي على أوضاع التحليل الأرثوغونالي الصحيح $\mathbf{\Psi}_r$. في هذا الصدد، من المهم ملاحظة أن عدد المستشعرات $s$ يجب أن يحقق $s \geq r$.

المنهجية

تصف هذه الفقرة إمكانية تدفق عمل البيانات الضخمة لتنظيف البيانات، ضغط البيانات، والنمذجة المدفوعة بالبيانات بكفاءة حسابية. يتم بناء جوهر الإطار المقترح بواسطة تحليل المكون الرئيسي القائم على القوة، البرمجة المثلى، وشبكات الذاكرة طويلة الأمد.

تنظيف البيانات

نستخدم تحليل المكونات الرئيسية القائم على القوة لتنظيف البيانات، كما تم تقديمه في القسم [sec:RPCA]. تم اختيار معاملات التوليف الموصوفة بحيث $\lambda = 0.006$ و $\mu = 10^{-5}$. بعد الحصول على تحليل مصفوفة البيانات $\mathbf{X}$ إلى $\mathbf{L}$ (مصفوفة ذات رتبة منخفضة) و $\mathbf{S}$ (مصفوفة متفرقة)، يمكن إعادة بناء نسخة نظيفة من البيانات. تمثل المصفوفة ذات الرتبة المنخفضة $\mathbf{L}$ الفيزياء الكامنة، بينما تحتوي المصفوفة المتفرقة $\mathbf{S}$ على الشوائب والاضطرابات. نتيجة لذلك، تمثل المصفوفة $\mathbf{L}$ نسخة نظيفة من مصفوفة البيانات $\mathbf{X}$.

ضغط البيانات

لضغط البيانات مع الاحتفاظ في الوقت نفسه بالمعلومات الأساسية حول النظام الأساسي، نطبق الاستشعار الأمثل الموضح في القسم [sec:OSP] على مصفوفة البيانات المنظفة $\mathbf{L}$ المستخلصة من تحليل المكونات الرئيسية القائم على القوة. المبدأ الأساسي وراء الاستشعار الأمثل هو تعظيم دقة البيانات مع تقليل عدد الحساسات أو نقاط البيانات. من خلال وضع الحساسات في المواقع التي تلتقط أكبر قدر من التباين أو المعلومات في البيانات، يمكننا تمثيل البيانات الأصلية ذات الأبعاد العالية $\mathbf{X}$ بمجموعة أصغر بكثير من القياسات $\mathbf{Y}$، حيث تحتوي $\mathbf{Y}$ على $\boldsymbol{y}$ مكدسة على نافذة تاريخية محددة. يتم تمثيل هذه المجموعة الأصغر من القياسات بواسطة مصفوفة القياسات المتفرقة $\mathbf{C}$. القياسات أو الحساسات المختارة تنتج نسخة مضغوطة من البيانات الأصلية. من خلال تقليل عدد الحساسات المطلوبة، يمكن للاستشعار الأمثل أن يؤدي إلى توفير كبير في التكاليف في السيناريوهات التي يكون فيها نشر الحساسات مكلفاً.

نمذجة القياسات المتناثرة باستخدام شبكات LSTM

في مجال النمذجة المعتمدة على البيانات، تم إثبات قوة الشبكات العصبية، وخاصة شبكات LSTM، في العديد من التطبيقات. تم تصميم شبكات LSTM لتذكر الأنماط على مدى تسلسلات طويلة، مما يجعلها مناسبة لنمذجة بيانات السلاسل الزمنية. ومع ذلك، قد لا تكون شبكات LSTM مناسبة من الناحية الحسابية لمجموعات البيانات الكبيرة. لذلك، نطبق LSTM على مجموعة فرعية ذات أبعاد أقل $\mathbf{Y}$ المستخلصة من OSP.

يمكن أن يقلل الجمع بين شبكات LSTM و OSP من التكاليف الحسابية المطلوبة لتدريب شبكات LSTM بشكل كبير. عندما نستخدم شبكات LSTM لنمذجة هذه القياسات المتناثرة المختارة بواسطة OSP، نهدف إلى التقاط الديناميكيات الزمنية الكامنة. بمجرد تدريب هذه الشبكات، يمكن استخدامها للتنبؤ بنقاط البيانات المتناثرة. من خلال تطبيق خوارزمية إعادة البناء المعطاة بواسطة ، يمكننا تحويل هذه التنبؤات المتناثرة إلى مساحة الاستشعار بالحجم الكامل، مما يعيد تخطيط أبعاد البيانات الأصلية. لاحظ أنه إذا تم أخذ العينات من البيانات بتردد غير متسق، فإن الاستيفاء الأولي للبيانات يمكن أن يؤدي إلى نماذج أكثر دقة.

تدفق البيانات الضخمة

النهج الموصوف سابقاً يمكن أن تتفاعل لدمج قوتها في تدفق بيانات ضخمة محسّن. نوضح فيما يلي إطار عمل محتمل، قابل للتطبيق على تطبيقات متنوعة لمعالجة البيانات المسبقة، والضغط، والنمذجة. يتكون التدفق من الهيكل التالي:

تنظيف البيانات: يولد تحليل المكونات الرئيسية القوي نسخة نظيفة $\mathbf{L}$ من مصفوفة البيانات $\mathbf{X}$. بما أن $\mathbf{L}$ يحتوي على المعلومات ذات الاهتمام (مثل الديناميكيات الأساسية للنظام)، يمكن نقل $\mathbf{L}$ إلى طرق المعالجة والتحليل اللاحقة.
ضغط البيانات: تمكن خوارزمية الاستشعار المثالي القوي من ضغط شديد لمصفوفة البيانات النظيفة $\mathbf{L}$. من خلال حساب أوضاع تحليل المكونات الرئيسية $\mathbf{\Psi}_r$ لـ $\mathbf{L}$ وإيجاد مصفوفة القياس النادرة $\mathbf{C}$، يمكن أن تكون مجموعة فرعية صغيرة $\mathbf{Y}$ كافية لتخزين البيانات. يمكن إرسال المجموعة الفرعية $\mathbf{Y}$ للتحليل والنمذجة المستمرة. لاحظ أنه يجب أيضاً تخزين $\mathbf{\Psi}_r$ و $\mathbf{C}$ لتوسيع المجموعة الفرعية $\boldsymbol{y}$ إلى بعدها الأصلي $\boldsymbol{\hat{x}}$ (انظر ).
النمذجة المدفوعة بالبيانات: في هذه الخطوة، يتم بناء نماذج مدفوعة بالبيانات للمجموعة الفرعية المنقولة $\mathbf{Y}$ باستخدام شبكة عصبية مبنية على الذاكرة طويلة الأمد. يمكن بعد ذلك استخدام النماذج المدفوعة بالبيانات المبنية للمجموعة الفرعية للتنبؤ بالحالات المستقبلية. بعد التنبؤ بالمجموعة الفرعية المستقبلية، يمكن حساب التنبؤات لبعد البيانات الأصلي $\mathbf{\hat{X}_{pred}}$ باستخدام $\mathbf{\Psi}_r$ و $\mathbf{C}$ من خوارزمية الاستشعار المثالي القوي.

إعداد المحاكاة

تستخدم هذه الدراسة بيانات تم الحصول عليها من كاميرا حرارية ترسم خريطة لمحرك سفينة. تم توفير البيانات بواسطة Idletechs AS. نظراً لأن البيانات كانت غير مفسدة وخالية من القيم الشاذة، قمنا بمحاكاة اضطرابات اصطناعية تؤثر على البيانات المحددة أدناه. بالإضافة إلى ذلك، نصف إعداد شبكة الذاكرة طويلة الأمد العصبية التي اخترناها لهذه الدراسة.

البيانات

تم استخراج مجموعة البيانات من صور الكاميرا الحرارية، التي تلتقط صورة لمحرك سفينة، وتحديداً محرك عبارة. الغرض الأساسي من الحصول على هذه الصور كان لمراقبة السلوك الحراري للمحرك خلال حالات التشغيل المختلفة، بما في ذلك الإقلاع، القيادة المستقرة، والرسو.

استمرت عملية جمع البيانات لمدة أربعة أيام متتالية. في كل يوم، تمت مراقبة المحرك بشكل مستمر لمدة تقارب ست ساعات، مما أسفر عن فترة مراقبة إجمالية تبلغ 24 ساعة على مدار الأيام الأربعة. ومع ذلك، لم يكن تردد أخذ العينات متسقاً. يبلغ متوسط الوقت بين العينات المتتالية حوالي 0.5 ثانية.

كل صورة مأخوذة من الكاميرا الحرارية تحتوي على 19,200 بكسل، بأبعاد تبلغ 120x160 بكسل. يلتقط كل بكسل الإشعاعات الحرارية من المحرك، والتي يمكن أن تقدم رؤى حول أداء المحرك الحراري للسفينة وأي أنماط غير طبيعية أو بقع ساخنة قد تظهر أثناء تشغيله.

الاضطرابات

لتقييم الطرق تحت ظروف مختلفة، قمنا بأداء أربع سيناريوهات محاكاة تشمل الشذوذ، التلوث، الضوضاء، ومزيجاً منها.

السيناريو 1

تم تعكير البيانات بواسطة ضوضاء غاوسية، حيث تم توليد الضوضاء بمتوسط 0 وانحراف معياري 4، مما يضمن تركيز قيم الضوضاء بشكل رئيسي ضمن النطاق [-4, 4].

السيناريو 2

تم تعكير البيانات بواسطة شذوذ. تم إدخال هذه الشذوذ من خلال اختيار عشوائي لـ 100 نقطة بيانات (بكسل) واستبدال قيمها الأصلية بقيم مولدة عشوائياً ضمن النطاق [30, 40] و [-40, -30]. تم اختيار هذا النطاق لضمان أن حجم الشذوذ يختلف بشكل كبير عن ذلك الخاص بالمتغيرات الفعلية لمحاكاة الشذوذ الشديد في عمليات القياس.

السيناريو 3

تم تعكير البيانات بواسطة تلوث. تم محاكاة هذا التلوث بإضافة ضوضاء عشوائية موزعة بالتساوي إلى 10% من مجموعة البيانات على الفترة [-15, 30]. تم اختيار هذه الفترة لضمان حجم كبير للتلوث، لمحاكاة التشويه، ولتوفير اختبار صارم لمتانة خوارزميات تحليل المكونات الرئيسية (PCA)، وتحليل المكونات الرئيسية القوي (RPCA)، وخوارزميات OSP.

السيناريو 4

تم تعكير البيانات بمزيج من السيناريوهات المذكورة سابقاً 1، 2، و3، مما أدى إلى تراكب جميع السيناريوهات.

هندسة شبكة الذاكرة طويلة الأمد

لتدريب شبكة الذاكرة طويلة الأمد، تم اختبار تعديلات مختلفة للمعاملات. وأخيراً، تم اختيار المعاملات الموضحة في الجدول [tab:LSTM_parameters]. تم تدريب الشبكة باستخدام محسن آدم، حيث تم تعيين الخطأ التربيعي الجذري المتوسط كمقياس لتقييم أداء النموذج أثناء التدريب. للتنبؤات، تم تدريب الشبكة بحجم نافذة يتكون من 50 عينة تاريخية، وتم اختيار زمن التنبؤ ليكون 100 خطوة زمنية. تتكون هيكلية الشبكة من طبقة إدخال، وطبقة الذاكرة طويلة الأمد، وطبقة تغذية أمامية كثيفة، وطبقة إخراج. نظراً لأن الشبكات العصبية العميقة ذات المعاملات الكثيرة غالباً ما تعاني من التخصيص الزائد، فقد تم إدخال طبقة إسقاط. الإسقاط هو تقنية لمعالجة التخصيص الزائد حيث يتم، أثناء التدريب، حذف وحدات عشوائية واتصالاتها (nitish_srivastava_geoffrey_hinton_alex_krizhevsky_ilya_sutskever_and_ruslan_salakhutdinov_dropout_2014).

النتائج والمناقشة

فيما يلي، تتم مناقشة نتائج الطرق المستقلة فيما يتعلق بتنظيف البيانات، ضغط البيانات، والنمذجة المعتمدة على البيانات.

تنظيف البيانات

تُظهر مرحلة تنظيف البيانات في السيناريوهات الأربعة المختلفة الموصوفة في القسم Section: Perturbations. لاحظ أن الصورة غير المضطربة تعكس الحقيقة الأساسية. تتم مقارنة نتائج تحليل المكونات الرئيسية القوي منخفض الرتبة (RPCA) مع تلك الخاصة بتحليل المكونات الرئيسية (PCA). يُظهر كيف يقوم RPCA بتحليل بيانات الصورة الحرارية إلى المصفوفات $\mathbf{L}$ و $\mathbf{S}$. تصور المصفوفة $\mathbf{L}$ بوضوح الصورة غير المضطربة، بينما تلتقط المصفوفة $\mathbf{S}$ المكونات المتناثرة للبيانات، والتي تحتوي بشكل رئيسي على جميع الشظايا والشوائب غير المرغوب فيها. على النقيض من ذلك، فإن إعادة بناء الصورة باستخدام PCA التقليدي تكون عرضة بشكل خاص للتلف الشديد والقيم الشاذة. لذلك، تعتبر قدرة RPCA على تحليل البيانات إلى مصفوفة منخفضة الرتبة $\mathbf{L}$ ومصفوفة متناثرة $\mathbf{S}$ تحسيناً لدقة العديد من تطبيقات الذكاء الاصطناعي التي تستخدم البيانات الضخمة.

ضغط البيانات

تطبيق OSP على بيانات الصور الحرارية يمكن أن يقلل بشكل كبير من أبعاد البيانات. في هذه الدراسة، استخدمنا فقط 10 من أصل 19200 قياس بكسل. كما هو موضح، من الواضح أنه يمكن إعادة بناء الصور الحرارية الأصلية باستخدام مجموعة مخفضة بشكل كبير من قياسات البكسل.

من وجهة نظر ضغط البيانات، تبرز القدرة على إعادة بناء الصور الحرارية الشاملة باستخدام قياسات بكسل محدودة كفاءة الطاقة والذاكرة لـ OSP. هذا التمثيل المخفض لا يعني فقط تخفيضاً كبيراً في حجم البيانات، ولكنه يعني أيضاً أن الميزات والخصائص الأساسية للصور الحرارية يتم التقاطها بفقدان ضئيل للمعلومات. ونتيجة لذلك، يمكن لهذا النهج في ضغط البيانات من تسريع أوقات المعالجة، وتقليل متطلبات الذاكرة، وخفض استهلاك الطاقة في التطبيقات الواقعية أو السيناريوهات التي تعاني من قيود النطاق الترددي.

يمكن اعتبار توفير الذاكرة على النحو التالي. بفرض وجود مصفوفة بيانات $\mathbf{X}\in \mathbb{R}^{m\times n}$، حيث $m$ هو البعد المكاني و$n$ يعبر عن البعد الزمني، بينما تمتد مصفوفة القياسات ذات الأبعاد المنخفضة $\mathbf{Y}\in \mathbb{R}^{r\times n}$ ببعد منخفض $r$، فإن نسبة توفير الذاكرة تُعطى بالمعادلة \[\alpha = \frac{m}{r}.\] في هذه الدراسة التجريبية، تؤدي نسبة توفير الذاكرة إلى \[\alpha = \frac{19200}{10} = 1920.\] هذا يعني أنه، بالنظر إلى ذاكرة متساوية، يمكننا تخزين 1920 مرة أكثر من الصور الحرارية.

نمذجة تنبؤية معتمدة على البيانات

تم تدريب شبكة LSTM باستخدام فضاء فرعي متناثر $\mathbf{Y}$، تم الحصول عليه من خلال OSP. نظراً لأن هذه الدراسة تعاملت مع بيانات تحتوي على عينات زمنية غير متسقة، قمنا باستيفاء البيانات قبل بناء نماذج معتمدة على البيانات عبر شبكات LSTM. لإظهار تأثير الاستيفاء المسبق للبيانات، نصور RMSE لتنبؤات النموذج بالنسبة للنموذج المعتمد على البيانات مع وبدون استيفاء أولي. RMSE مرتبط بالصور المعاد بناؤها لحجم الصورة الأصلي (19,200 بكسل) باستخدام تنبؤات النموذج من القياسات القليلة لـ OSP (10 بكسل). علاوة على ذلك، يتم عرض مقارنة للوقت الحسابي لمرحلة التدريب في الشكل المذكور، مما يُظهر تحسن كفاءة النهج المقترح بشكل هائل. للمقارنة، تم استخدام هيكل الشبكة ومعايير التدريب من الجدول المذكور. تؤكد الكفاءة الحسابية على العملية العملية للطريقة، خاصة عند النظر في التطبيقات الفعلية. بمجرد التدريب، تصبح قدرة النموذج على إجراء التنبؤات فورية، مما يسمح بإجراء توقعات في الوقت الفعلي في أجزاء من الثانية. بالإضافة إلى ذلك، اعتماداً على التطبيق والمعايير المختارة للتدريب (مثل عدد العصور)، يمكن للنهج المقترح تمكين التدريب عبر الإنترنت في الوقت الفعلي.

الخلاصة

في الختام، تطبيق تحليل المكونات الرئيسية القوي على بيانات الصور الحرارية يعزز بشكل كبير جودة البيانات، مما يسمح بإجراء تحليلات لاحقة أكثر فائدة. نظراً لمتانته وتنوعه، يمكن توسيع هذه الطريقة لتشمل تطبيقات بيانات متنوعة، مما يوسع من أهميتها وتأثيرها المحتمل عبر مجالات متعددة. علاوة على ذلك، يقدم استخدام تحديد مواقع الحساسات الأمثل نهجاً واعداً لأولئك الذين يتطلعون إلى تعظيم كفاءة استراتيجيات تخزين وضغط البيانات لديهم، خاصة في البيئات التي تكون فيها مساحة التخزين وقدرات نقل البيانات محدودة. يمكن لتطبيق الشبكات العصبية طويلة الأمد على فضاء ذي أبعاد أقل تم الحصول عليه بواسطة تحديد مواقع الحساسات الأمثل أن يحسن الكفاءة الحسابية ويعزز دقة التنبؤات الزمنية. تفاعل النهج المقدمة يعمل على تحسين كل من معالجة البيانات والتحليلات اللاحقة، مما يمكن أن يحسن جودة البيانات والكفاءة الحسابية وكفاءة الذاكرة مع تمكين القدرات التنبؤية في الوقت الفعلي.