شَبَكَةٌ عَصَبِيَّةٌ ذاتُ مدخلاتٍ مُتَناثِرَةٍ بِاِسْتِخْدامِ تَنْظِيمٍ مُقَعَّرٍ جَماعِيٍّ

Bin Luo

Susan Halabi

latex

مُلَخَّص

تُعَدُّ عمليّةُ اختيارِ الميزاتِ وتقديرِ الدالةِ غيرِ الخطيّةِ في آنٍ واحدٍ تحديًا حقيقيًا، خاصةً في الإعداداتِ عاليةِ الأبعادِ حيثُ يتجاوزُ عددُ المتغيّراتِ حجمَ العيّنةِ المتاحةِ للدراسة. في هذهِ المقالةِ نستكشفُ مشكلةَ اختيارِ الميزاتِ في الشبكاتِ العصبيّةِ وتحدياتِها. على الرّغمِ من استخدامِ LASSO الجمعيّ لاختيارِ المتغيّراتِ في تعلمِ الشبكاتِ العصبيّةِ، إلّا أنّه يميلُ إلى انتقاءِ متغيّراتٍ قليلةِ الأهمّيّةِ لتعويضِ الانكماشِ الزائد. للتغلّبِ على هذهِ القيودِ، نقترحُ إطارًا للشبكاتِ العصبيّةِ ذاتِ المدخلاتِ المتناثرةِ باستخدامِ تنظيمٍ مقعّرٍ جمعيّ لاختيارِ الميزاتِ، في الإعداداتِ منخفضةِ وعاليةِ الأبعادِ. تقومُ فكرتنا الرئيسيّةُ على تطبيقِ عقوبةٍ مقعّرةٍ ملائمةٍ على معيارِ \(l_2\) لأوزانِ جميعِ الاتصالاتِ الخارجيّةِ لكلّ عصَبونِ إدخالٍ، ممّا ينتجُ شبكةً عصبيّةً تستخدمُ فقط مجموعةً فرعيّةً صغيرةً من الميزاتِ الأصليّةِ. بالإضافةِ إلى ذلك، طورنا خوارزميّةً فعّالةً تستندُ إلى التحسينِ العكسيّ للمسارِ لاستنتاجِ مساراتِ حلٍّ مستقرةٍ، مواجِهةً التعقيدَ الطبيعيَّ لمشكلةِ الأمثليةِ. تُظْهِرُ دراساتُ المحاكاةِ الواسعةُ وأمثلةُ البياناتِ الحقيقيّةُ أداءً مُرضيًا للطريقةِ المقترحةِ في ظلِّ العيناتِ المحدودةِ، سواءً في اختيارِ الميزاتِ أو في التنبّؤِ بالنتائجِ المستمرةِ والثنائيّةِ وزمنِ الحدثِ.

مُقَدِّمَة

في العَقْدِ الماضي، أَدَّت التَطَوُّراتُ في الاِخْتِباراتِ الجُزَيْئِيَّةِ والتَصْوِيرِ وغَيْرِها من الاِخْتِباراتِ المَخْبَرِيَّةِ إلى زِيادَةِ الاِهْتِمامِ بِتَحْلِيلِ البَياناتِ ذاتِ الأَبْعادِ العالِيَةِ. تُشِيرُ البَياناتُ ذاتُ الأَبْعادِ العالِيَةِ إلى مَجْمُوعَةِ بَياناتٍ تَحْتَوِي على عَدَدٍ كَبِيرٍ من المُتَغَيِّراتِ المُلاحَظَةِ مُقارَنَةً بِحَجْمِ العَيِّنَةِ الصَغِيرِ، مِمّا يُشَكِّلُ تَحَدِّيًا كَبِيرًا في بِناءِ نَماذِجَ دَقِيقَةٍ وقابِلَةٍ لِلتَفْسِيرِ. على سَبِيلِ المِثالِ، في علمِ الأحياءِ الحيويِّ، يُسْتَخْدَمُ مِئاتُ الآلافِ من تَعْبِيراتِ الحمضِ النَوَوِيِّ الرِيبِيِّ، وبَياناتِ دِراسَةِ الاِرْتِباطِ الجيني الشاملِ، وبَياناتِ الميكروأري لِفَهْمِ بِيُولُوجِيَّةِ الأَمْراضِ، مع مُشارَكَةِ مِئاتِ المَرْضَى فَقَطٍ (visscher2012five, hertz2016pharmacogenetic, kim2016high, beltran2017impact). لِمُعالَجَةِ لَعْنَةِ الأَبْعادِ، أَصْبَحَ اِخْتِيارُ المِيزاتِ خَطْوَةً حاسِمَةً في تَحْلِيلِ البَياناتِ ذاتِ الأَبْعادِ العالِيَةِ. من خِلالَ تَحْدِيدِ المِيزاتِ الأَكْثَرَ تَمْثِيلًا لِتَوْصِيفِ بِيُولُوجِيَّةِ الأَمْراضِ أو النَتائِجِ، يُمْكِنُ لِطُرُقِ اِخْتِيارِ المِيزاتِ زِيادَةُ قابِلِيَّةِ تَفْسِيرِ النَمُوذَجِ وتَحْسِينِ تَعْمِيمِهِ.

هُناكَ طُرُقٌ مُخْتَلِفَةٌ لاِخْتِيارِ المِيزاتِ، بِمَا في ذلك طُرُقُ الفِلْتَرَةِ (koller1996toward, guyon2003introduction, gu2012generalized)، وطُرُقُ الغِلافِ (kohavi1997wrappers, inza2004filter, tang2014feature)، والطُرُقُ المُضَمَّنَةُ (tibshirani1996regression,zou2006adaptive, fan2001variable,zhang2010nearly). من بينها، أَصْبَحَت طُرُقُ الاِنْحِدارِ المُعاقِبِ شائِعَةً جِدًّا في تَحْلِيلِ البَياناتِ ذاتِ الأَبْعادِ العالِيَةِ مُنْذُ تَقْدِيمِ مَشْغِلِ الاِنْكِماشِ والاِخْتِيارِ المُطْلَقِ الأَدْنَى (tibshirani1996regression). يُمْكِنُ لِطَرِيقَةِ الاِنْحِدارِ المُعاقِبِ أَنْ تُؤَدِّي تَقْدِيرَ المُعامَلاتِ واِخْتِيارَ المِيزاتِ في نَفْسِ الوَقْتِ من خِلالَ تَقْلِيصِ بَعْضِ مُعامَلاتِ المُعَلِّماتِ إلى أصفارٍ دَقِيقَةٍ. بَيْنَما تَمَّ اِسْتِخْدامُ LASSO على نِطاقٍ واسِعٍ لِلحُصُولِ على تَقْدِيراتٍ مُتَناثِرَةٍ في التَعَلُّمِ الآلِيِّ والإِحْصاء، فَإِنَّهُ يَمِيلُ إلى اِخْتِيارِ مُتَغَيِّراتٍ غَيْرِ مُهِمَّةٍ لِتَعْويضِ الاِنْكِماشِ الزائِدِ للمُتَغَيِّراتِ ذاتِ الصِلَةِ (zou2006adaptive). لِمُعالَجَةِ التَحَيُّزِ وعَدَمِ اِتِّساقِ اِخْتِيارِ المِيزاتِ لِـ LASSO، تَمَّ اِقْتِراحُ عِدَّةِ طُرُقٍ، بِمَا في ذلك LASSO التكيفي (zou2006adaptive)، وعُقُوبَةِ الحَدِّ الأَدْنَى المُقَعَّر (MCP) (zhang2010nearly)، والاِنْحِرافِ المُطْلَقِ المَقْطُوعِ بِسَلاسَةٍ (SCAD) (fan2001variable).

ومع ذلك، فإنَّ مُعظمَ هذهِ الطُّرُقِ المُعاقِبةِ تَفْتَرِضُ خَطّيَّةً في العَلاقةِ بين المتغيِّراتِ والنتائجِ، في حينِ قد لا تَكُونُ الصيغةُ الوظيفيَّةُ الفعليَّةُ للعلاقةِ متاحةً في العديدِ من التطبيقاتِ. تمَّ اقتراحُ بعضِ التوسعاتِ غيرِ البارامِتريةِ الإضافيةِ لحلِّ هذهِ المشكلةِ (cosso,ravikumar2009sparse,meier2009high)، لكن نماذجَها تَعتمدُ على مجاميعِ وظائفٍ أحاديَّةِ البُعدِ أو منخفضةِ البُعدِ وقد لا تكونُ قادرةً على التقاطِ التفاعلاتِ المعقَّدةِ بين المُتغيِّراتِ المتعددةِ. يقترحُ (yamada2014high) نهجًا HSIC-LASSO يستفيدُ من تعلُّمِ النواةِ لاختيارِ الميزاتِ مع كشفِ التفاعلاتِ غيرِ الخطّيَّةِ للميزاتِ، غيرَ أنّهُ يعاني من التوسّعِ التربيعيِّ في التعقيدِ الحسابيِّ كلما زاد عددُ الملاحظاتِ.

تُعَدُّ الشبكاتُ العصبيَّةُ أدواتٍ قويَّةً لنمذجةِ العلاقاتِ المعقَّدةِ في مجموعةٍ واسعةٍ من التطبيقاتِ، من التعرفِ على الصورِ (krizhevsky2017imagenet, he2016deep) والتعرفِ على الكلامِ (graves2013speech, chan2016listen) إلى معالجةِ اللغةِ الطبيعيةِ (young2018recent, devlin2018bert) والتنبؤِ الماليِّ (fischer2018deep). تمَّ تحقيقُ أدائها المتطوّرِ بفضلِ المواردِ الحسابيَّةِ القويَّةِ واستخدامِ أحجامِ عيناتٍ كبيرةٍ. على الرَّغمِ من ذلك، فإنَّ البياناتَ عاليةَ الأبعادِ لا تزالُ تؤدِّي إلى الإفراطِ في التركيبِ وضعفِ أداءِ التعميمِ للشبكاتِ العصبيَّةِ (liu2017deep). في الآونةِ الأخيرةِ، ظهرتْ تطوّراتٌ جديدةٌ في استخدامِ الشبكاتِ العصبيَّةِ المنظَّمةِ لاختيارِ الميزاتِ أو تحليلِ البياناتِ عاليةِ الأبعادِ. تُركِّزُ سلسلةٌ من الأبحاثِ على استخدامِ الشبكاتِ العصبيَّةِ المنظَّمةِ، خاصَّةً باستخدامِ تقنيةِ LASSO الجماعيَّةِ لتعزيزِ التشتتِ بينِ عصَبوناتِ الإدخالِ (liu2017deep, scardapane2017group, feng2017sparse). يمكنُ العثورُ على شبكاتٍ عصبيَّةٍ منظَّمةٍ بـ LASSO أيضًا في أعمالٍ (li2016deep) و(lemhadri2021lassonet). ومع ذلك، فإنَّ هذهِ الشبكاتِ المنظَّمةَ تعاني من ميلٍ إلى الانكماشِ الزائدِ لأوزانِ المتغيِّراتِ ذاتِ الصِّلةِ غيرِ الصفريةِ وتوليدِ العديدِ من الإيجابياتِ الخاطئةِ في النموذجِ المختارِ. تمَّ استخدامُ LASSO التكيفيِّ لتخفيفِ هذهِ المشكلةِ (dinh2020consistent)، إلا أنَّ نتائجهِ محدودةٌ على البياناتِ المستمرةِ وتفترضُ أنَّ دالةَ الوسيطِ الشرطيِّ هي تحديدًا شبكةٌ عصبيةٌ. تجاوزَ العملُ في (yamada2020feature) تنظيمَ \(l_1\) من خلال إدخالِ بوَّاباتٍ عشوائيةٍ إلى طبقةِ الإدخالِ، مع اعتمادِ استرخاءٍ مستمرٍّ لتوزيعِ برنولي، إلا أنّه يتطلّبُ قيمةَ قطعٍ لاختيارِ المتغيِّراتِ ضعيفة الإشارةِ، ولا تستطيعُ البوَّابةُ العشوائيةُ استبعادَ المتغيِّراتِ غيرِ المختارةِ بالكاملِ خلالَ مراحلِ التدريبِ والتنبؤِ.

في هذهِ الورقةِ، نقترحُ إطارًا جديدًا للشبكاتِ العصبيَّةِ ذاتِ المدخلاتِ المتناثرةِ باستخدامِ تنظيمٍ مقعّرٍ جمعيٍّ للتغلّبِ على قيودِ طرقِ اختيارِ الميزاتِ الحاليةِ. على الرّغمِ من أنّ العقوباتَ المقعّرةَ مثلَ MCP وSCAD أظهرت أداءً مميزًا في البيئاتِ النظريةِ والعدديةِ لاختيارِ الميزاتِ والتنبّؤِ، فإنّها لم تحظَ بالاهتمامِ نفسهِ الذي تحظى به LASSO في سياقِ التعلّمِ الآليّ. يهدفُ إطارُنا المقترحُ إلى تسليطِ الضوءِ على الإمكاناتِ غيرِ المستغلّةِ لعقوبةِ التقويسِ الجمعيّةِ لاختيارِ الميزاتِ في الشبكاتِ العصبيّةِ، من خلال توفيرِ منهجٍ شاملٍ لاختيارِ الميزاتِ وتقديرِ الوظائفِ في الإعداداتِ منخفضةِ وعاليةِ الأبعادِ. بوجهٍ خاصٍّ، تعتبرُ طريقتُنا المقترحةُ الاتصالاتِ الصادرةَ من عصَبونِ إدخالٍ واحدٍ كمجموعةٍ وتطبّقُ عقوبةً مقعّرةً ملائمةً على معيارِ \(l_2\) لأوزانِ كلّ مجموعةٍ. من خلال تقليصِ أوزانٍ معيّنةٍ بأكملِها إلى أصفارٍ تامّةٍ، نحصلُ على شبكةٍ عصبيّةٍ تستخدمُ مجموعةً صغيرةً من الميزاتِ فقط. بالإضافةِ إلى ذلك، طورنا خوارزميّةً فعّالةً استنادًا إلى التحسينِ العكسيّ للمسارِ الذي يولّدُ مساراتِ حلٍّ مستقرةٍ، ما يساعدُ على التعاملِ مع التّحدّياتِ الناتجةِ عن الطبيعةِ المعقّدةِ لمشكلةِ الأمثليةِ. تُظْهِرُ دراساتُ المحاكاةِ وأمثلةُ البياناتِ الحقيقيّةِ أداءً ممتازًا للطريقةِ المقترحةِ، متفوّقةً على الطرقِ الحاليةِ في اختيارِ الميزاتِ ودقّةِ التنبّؤِ للنتائجِ المستمرةِ والثنائيّةِ وزمنِ الحدثِ.

تُنظَّمُ بقيةُ هذهِ المقالةِ على النحوِ التاليِ. في القسمِ 2، نصوغُ مشكلةَ اختيارِ الميزاتِ لنموذجٍ غيرِ بارامتريٍّ عامٍّ ونُقدِّمُ طريقتنا المقترحةَ. يتمُّ تقديمُ تنفيذِ الطريقةِ، بما في ذلك خوارزميةُ الانحدارِ التدرُّجيِّ المركَّبِ والتحسينِ العكسيِّ للمسارِ، في القسمِ 3.

القسم 4

نجري دراساتِ محاكاةٍ واسعةِ النطاقِ لإظهارِ أداءِ الطريقةِ المقترحةِ.

القسم 5

يتمُّ تقديمُ تطبيقِ الطريقةِ على مجموعاتِ بياناتٍ واقعيَّةٍ.

القسم 6

أخيرًا، نناقشُ النتائجَ وتأثيراتها.