```html شَبَكَةٌ عَصَبِيَّةٌ ذاتُ مدخلاتٍ مُتَناثِرَةٍ بِاِسْتِخْدامِ تَنْظِيمٍ مُقَعَّرٍ جَماعِيٍّ

شَبَكَةٌ عَصَبِيَّةٌ ذاتُ مدخلاتٍ مُتَناثِرَةٍ بِاِسْتِخْدامِ تَنْظِيمٍ مُقَعَّرٍ جَماعِيٍّ

Bin Luo

Susan Halabi

latex

مُلَخَّص

تُعَدُّ عمليَّةُ اختيارِ الميزاتِ وتقديرِ الدالةِ غيرِ الخطيَّةِ في آنٍ واحدٍ تحديًا حقيقيًا، خاصةً في الإعداداتِ عاليةِ الأبعادِ حيثُ يتجاوزُ عددُ المتغيِّراتِ حجمَ العيِّنةِ المتاحةِ للدراسة. في هذهِ المقالةِ، نستكشفُ مشكلةَ اختيارِ الميزاتِ في الشبكاتِ العصبيَّةِ وتداعياتِها. على الرَّغمِ من استخدامِ LASSO الجماعيِّ لاختيارِ المتغيِّراتِ في التعلمِ مع الشبكاتِ العصبيَّةِ، فإنه يميلُ إلى انتقاءِ متغيِّراتٍ غيرِ مهمةٍ في النموذجِ لتعويضِ الانكماشِ الزائد. للتغلُّبِ على هذهِ القيودِ، نقترحُ إطارًا للشبكاتِ العصبيَّةِ ذاتِ المدخلاتِ المتناثرةِ مع تنظيمٍ مقعَّرٍ جماعيٍّ لاختيارِ الميزاتِ، سواءً في الإعداداتِ منخفضةِ الأبعادِ أو عاليةِ الأبعادِ. تكمنُ الفكرةُ الرئيسيَّةُ في تطبيقِ عقوبةٍ مقعَّرةٍ مناسبةٍ على معيارِ \(l_2\) لأوزانِ جميعِ الاتِّصالاتِ الخارجيَّةِ لكلِّ عقدةِ إدخالٍ، وبذلك نحصلُ على شبكةٍ عصبيَّةٍ تستخدمُ فقط مجموعةً فرعيَّةً صغيرةً من الميزاتِ الأصليَّةِ. بالإضافةِ إلى ذلك، طورنا خوارزميَّةً فعَّالةً تعتمدُ على التحسينِ العكسيِّ المساريِّ بهدفِ الحصولِ على مساراتِ حلٍّ مستقرةٍ، مواجِهةً التعقيدَ الطبيعيَّ للمناظرِ الأمثليةِ. تُظْهِرُ دراساتُ المحاكاةِ الواسعةُ النطاقِ وأمثلةُ البياناتِ الحقيقيَّةُ التي أجريناها أداءً مرضيًا في ظلِّ العيّناتِ المحدودةِ للمقدرِ المقترحِ، سواءً في اختيارِ الميزاتِ أو تنبُّؤِ النتائجِ المستمرةِ والثنائيَّةِ وزمنِ الحَدَثِ.

مُقَدِّمَة

في العَقْدِ الماضي، أَدَّت التَطَوُّراتُ في الاِخْتِباراتِ الجُزَيْئِيَّةِ والتَصْوِيرِ وغَيْرِها من الاِخْتِباراتِ المَخْبَرِيَّةِ إلى زِيادَةِ الاِهْتِمامِ بِتَحْلِيلِ البَياناتِ ذاتِ الأَبْعادِ العالِيَةِ. تُشِيرُ البَياناتُ ذاتُ الأَبْعادِ العالِيَةِ إلى مَجْمُوعَةِ بَياناتٍ تَحْتَوِي على عَدَدٍ كَبِيرٍ من المُتَغَيِّراتِ المُلاحَظَةِ مُقارَنَةً بِحَجْمِ العَيِّنَةِ الصَغِيرِ، مِمّا يُشَكِّلُ تَحَدِّيًا كَبِيرًا في بِناءِ نَماذِجَ دَقِيقَةٍ وقابِلَةٍ لِلتَفْسِيرِ. على سَبِيلِ المِثالِ، في عِلْمِ الأَحْياءِ الحَيَوِيِّ، يُسْتَخْدَمُ مِئاتُ الآلافِ من تَعْبِيراتِ الحَمْضِ النَوَوِيِّ الرِيبِيِّ، وبَياناتِ دِراسَةِ الاِرْتِباطِ الجيني الشامِلِ، وبَياناتِ الميكروأري لِفَهْمِ بِيُولُوجِيَّةِ الأَمْراضِ، مع مُشارَكَةِ مِئاتِ المَرْضَى فَقَط (visscher2012five, hertz2016pharmacogenetic, kim2016high, beltran2017impact). لِمُعالَجَةِ لَعْنَةِ الأَبْعادِ، أَصْبَحَ اِخْتِيارُ المِيزاتِ خَطْوَةً حاسِمَةً في تَحْلِيلِ البَياناتِ ذاتِ الأَبْعادِ العالِيَةِ. من خِلالَ تَحْدِيدِ المِيزاتِ الأَكْثَرَ تَمْثِيلًا لِتَوْصِيفِ بِيُولُوجِيَّةِ الأَمْراضِ أو النَتائِجِ، يُمْكِنُ لِطُرُقِ اِخْتِيارِ المِيزاتِ زِيادَةُ قابِلِيَّةِ تَفْسِيرِ النَمُوذَجِ وتَحْسِينِ تَعْمِيمِهِ.

هُناكَ طُرُقٌ مُخْتَلِفَةٌ لاِخْتِيارِ المِيزاتِ، بِما في ذلك طُرُقُ الفِلْتَرَةِ (koller1996toward, guyon2003introduction, gu2012generalized)، وطُرُقُ الغِلافِ (kohavi1997wrappers, inza2004filter, tang2014feature)، والطُرُقُ المُضَمَّنَةُ (tibshirani1996regression,zou2006adaptive, fan2001variable,zhang2010nearly). من بينها، أَصْبَحَت طُرُقُ الاِنْحِدارِ المُعاقِبِ شائِعَةً جِدًّا في تَحْلِيلِ البَياناتِ ذاتِ الأَبْعادِ العالِيَةِ مُنْذُ تَقْدِيمِ مَشْغِلِ الاِنْكِماشِ والاِخْتِيارِ المُطْلَقِ الأَدْنَى (tibshirani1996regression). يُمْكِنُ لِطَرِيقَةِ الاِنْحِدارِ المُعاقِبِ أَنْ تُؤَدِّي تَقْدِيرَ المُعامَلاتِ واِخْتِيارَ المِيزاتِ في نَفْسِ الوَقْتِ من خِلالَ تَقْلِيصِ بَعْضِ مُعامَلاتِ المُعَلِّماتِ إلى أصفارٍ دَقِيقَةٍ. بَيْنَما تَمَّ اِسْتِخْدامُ LASSO على نِطاقٍ واسِعٍ لِلحُصُولِ على تَقْدِيراتٍ مُتَناثِرَةٍ في التَعَلُّمِ الآلِيِّ والإِحْصاء، فَإِنَّهُ يَمِيلُ إلى اِخْتِيارِ مُتَغَيِّراتٍ غَيْرِ مُهِمَّةٍ لِتَعْويضِ الاِنْكِماشِ الزائِدِ للمُتَغَيِّراتِ ذاتِ الصِلَةِ (zou2006adaptive). لِمُعالَجَةِ التَحَيُّزِ وعَدَمِ اِتِّساقِ اِخْتِيارِ المِيزاتِ لِـ LASSO، تَمَّ اِقْتِراحُ عِدَّةِ طُرُقٍ، بِما في ذلك LASSO التكيفي (zou2006adaptive)، وعُقُوبَةِ الحَدِّ الأَدْنَى المُقَعَّر (MCP) (zhang2010nearly)، والاِنْحِرافِ المُطْلَقِ المَقْطُوعِ بِسَلاسَةٍ (SCAD) (fan2001variable).

ومع ذلك، فإنَّ مُعظمَ هذهِ الطُّرقِ المُعاقِبةِ تَفْتَرِضُ خَطّيَّةً في العَلاقةِ بين المتغيِّراتِ والنتائجِ، في حينِ قد لا تَكُونُ الصيغةُ الوظيفيَّةُ الفعليَّةُ للعلاقةِ متاحةً في العديدِ من التطبيقاتِ. تمَّ اقتراحُ بعضِ التوسعاتِ غيرِ البارامتريَّةِ الإضافيَّةِ لحلِّ هذهِ المشكلةِ (cosso,ravikumar2009sparse,meier2009high)، لكن نماذجَها تَعتمدُ على مجاميعِ وظائفِ أحاديَّةِ البُعدِ أو منخفضةِ البُعدِ وقد لا تكونُ قادرةً على التقاطِ التفاعلاتِ المعقَّدةِ بين المتغيِّراتِ المتعددةِ. يقترحُ (yamada2014high) نهجًا HSIC-LASSO يستفيدُ من تعلُّمِ النواةِ لاختيارِ الميزاتِ مع كشفِ التفاعلاتِ غيرِ الخطّيَّةِ للميزاتِ، غير أنه يعاني من التوسّعِ التربيعيِّ في التعقيدِ الحسابيِّ كلما زاد عددُ الملاحظاتِ.

تُعَدُّ الشبكاتُ العصبيَّةُ أدواتٍ قويَّةً لنمذجةِ العلاقاتِ المعقَّدةِ في مجموعةٍ واسعةٍ من التطبيقاتِ، من التعرفِ على الصورِ (krizhevsky2017imagenet, he2016deep) والتعرفِ على الكلامِ (graves2013speech, chan2016listen) إلى معالجةِ اللغةِ الطبيعيةِ (young2018recent, devlin2018bert) والتنبؤِ الماليِّ (fischer2018deep). تمَّ تحقيقُ أدائها المتطوّرِ بفضلِ المواردِ الحسابيَّةِ القويَّةِ واستخدامِ أحجامِ عيناتٍ كبيرةٍ. على الرَّغمِ من ذلك، فإنَّ البياناتَ عاليةَ الأبعادِ لا تزالُ تؤدِّي إلى التركيبِ الزائدِ وضعفِ أداءِ التعميمِ للشبكاتِ العصبيَّةِ (liu2017deep). في الآونةِ الأخيرةِ، ظهرتْ تطوّراتٌ جديدةٌ في استخدامِ الشبكاتِ العصبيَّةِ المنظَّمةِ لاختيارِ الميزاتِ أو تحليلِ البياناتِ عاليةِ الأبعادِ. تُركِّزُ سلسلةٌ من الأبحاثِ على استخدامِ الشبكاتِ العصبيَّةِ المنظَّمةِ، خاصَّةً باستخدامِ تقنيةِ LASSO الجماعيّةِ لتعزيزِ التشتتِ بين عقدِ الإدخالِ (liu2017deep, scardapane2017group, feng2017sparse). تعتبرُ هذهِ الطرقُ جميعَ الاتصالاتِ الصادرةِ من عصَبونِ إدخالٍ واحدٍ كمجموعةٍ وتطبقُ عقوبةَ LASSO على القاعدةِ \(l_2\) لمتّجهاتِ الوزنِ لكلِّ مجموعةٍ. يمكنُ العثورُ على شبكاتٍ عصبيَّةٍ أخرى منظَّمةٍ بـ LASSO في أعمالٍ (li2016deep) و(lemhadri2021lassonet). ومع ذلك، فإنَّ الشبكاتِ العصبيَّةَ المنظَّمةَ التي تضمُّ LASSO تعاني من ميلٍ إلى الانكماشِ الزائدِ لأوزانِ المتغيِّراتِ ذاتِ الصلةِ غيرِ الصفريةِ وتشملُ العديدَ من الإيجابياتِ الخاطئةِ في النموذجِ المختارِ. تمَّ استخدامُ LASSO التكيفيِّ لتخفيفِ هذهِ المشكلةِ (dinh2020consistent)، إلا أنَّ نتائجهِ محدودةٌ على البياناتِ المستمرةِ وتفترضُ أنَّ دالةَ الوسيطِ الشرطيِّ هي بالتحديدِ شبكةٌ عصبيةٌ. تجاوزَ العملُ في (yamada2020feature) تنظيمَ \(l_1\) من خلال إدخالِ بوَّاباتٍ عشوائيةٍ إلى طبقةِ الإدخالِ للشبكاتِ العصبيَّةِ. اعتبروا تنظيمًا شبيهًا بـ \(l_0\) استنادًا إلى استرخاءٍ مستمرٍّ لتوزيعِ برنولي، ومع ذلك تتطلبُ طريقتهم قيمةَ قطعٍ لاختيارِ المتغيّراتِ ذاتِ الإشاراتِ الضعيفةِ، ولا تستطيعُ البوَّابةُ العشوائيَّةُ استبعادَ المتغيّراتِ غيرِ المختارةِ بالكاملِ خلالَ مراحلِ التدريبِ والتنبؤِ للنموذجِ.

في هذهِ الورقةِ، نقترحُ إطارًا جديدًا للشبكاتِ العصبيَّةِ ذاتِ الإدخالِ المتناثرِ باستخدامِ تنظيمٍ مقعَّرٍ جماعيٍّ للتغلُّبِ على قيودِ طرقِ اختيارِ الميزاتِ الحاليَّةِ. على الرَّغمِ من أنَّ العقوباتِ المقعَّرةَ مثل MCP وSCAD أظهرت أداءً جيدًا في الإعداداتِ النظريةِ والعدديةِ لاختيارِ الميزاتِ والتنبؤِ، فإنها لم تحظَ بنفسِ مستوى الاهتمامِ مثل LASSO في سياقِ التعلمِ الآليِّ. يهدفُ إطارُنا المقترحُ إلى لفتِ الانتباهِ إلى الإمكاناتِ غيرِ المستغلةِ للعقوبةِ المقعَّرةِ لاختيارِ الميزاتِ في الشبكاتِ العصبيَّةِ، من خلال توفيرِ نهجٍ شاملٍ لاختيارِ الميزاتِ وتقديرِ الوظائفِ في كِلا الإعداداتِ منخفضةِ الأبعادِ وذاتِ الأبعادِ العاليةِ. بشكلٍ خاصٍّ، تعتبرُ طريقتُنا المقترحةُ جميعَ الاتصالاتِ الصادرةِ من عصَبونِ إدخالٍ واحدٍ كمجموعةٍ وتطبِّقُ عقوبةً مقعَّرةً مناسبةً على القاعدةِ \(l_2\) للأوزانِ لكلِّ مجموعةٍ. من خلال تقليصِ جميعِ الأوزانِ لمجموعاتٍ معينةٍ إلى أصفارٍ دقيقةٍ، فإنها تحصُلُ على شبكةٍ عصبيَّةٍ تستخدمُ مجموعةً صغيرةً فقط من المتغيِّراتِ. بالإضافةِ إلى ذلك، طورنا خوارزميةً فعَّالةً استنادًا إلى التحسينِ العكسيِّ للمسارِ الذي يُنتِجُ مساراتِ حلٍّ مستقرةٍ، لمواجهةِ تحدِّي المناظرِ الطبيعيةِ المعقدةِ للتحسينِ. تُظْهِرُ دراساتُ المحاكاةِ لدينا وأمثلةُ البياناتِ الحقيقيةِ الأداءَ المُرضِيَ للعينةِ المحدودةِ للتنظيمِ المقعَّرِ الجماعيِّ، الذي يتفوَّقُ على الطرقِ الحاليةِ من حيثِ اختيارِ الميزاتِ ودقةِ التنبؤِ في نمذجةِ النتائجِ المستمرةِ والثنائيةِ وزَمنِ الحدثِ.

تُنظَّمُ بقيةُ هذهِ المقالةِ على النحوِ التاليِ. في القسمِ 2، نصوغُ مشكلةَ اختيارِ الميزاتِ لنموذجٍ غيرِ بارامتريٍّ عامٍّ ونُقدِّمُ طريقتنا المقترحةَ. يتمُّ تقديمُ تنفيذِ الطريقةِ، بما في ذلك خوارزميةُ الانحدارِ التدرُّجيِّ المركَّبِ والتحسينِ العكسيِّ للمسارِ، في القسمِ 3.

القسم 4

نجري دراساتِ محاكاةٍ واسعةِ النطاقِ لإظهارِ أداءِ الطريقةِ المقترحةِ.

القسم 5

يتمُّ تقديمُ تطبيقِ الطريقةِ على مجموعاتِ بياناتٍ واقعيَّةٍ.

القسم 6

أخيرًا، نناقشُ النتائجَ وتأثيراتها.

``` **Latex issues fixed and checked:** - All math is inside `\( ... \)` for inline math, which is correct for MathJax. - All LaTeX expressions use valid syntax: `\(l_2\)`, `\(l_1\)`, `\(l_0\)`. - No block math or complex equations present that would require `\[ ... \]` or `$$ ... $$`. - No missing or unclosed math delimiters. - No invalid LaTeX commands or symbols. - All text and math is preserved and will render correctly with MathJax. **No further changes needed.**