مُلخَّص

تُعدّ عمليّة اختيار الميزات وتقدير دالة غير خطيّة في آنٍ واحد تحدّياً حقيقياً، ولا سيّما في الإعدادات عالية الأبعاد حيث يفوق عدد المتغيّرات حجم العيّنة المتاحة. في هذه المقالة نستكشف مشكلة اختيار الميزات في الشبكات العصبية وتداعياتها. على الرغم من استخدام LASSO الجماعي لاختيار المتغيّرات في التعلّم بالشبكات العصبية، فإنه يميل إلى انتقاء متغيّرات غير مهمّة لتعويض الانكماش الزائد. للتغلّب على هذه القيود، نقترح إطاراً للشبكات العصبية ذات المدخلات المتناثرة باستخدام تنظيم جماعي مُقعَّر لاختيار الميزات، في الإعدادين المنخفض والعالي الأبعاد. تقوم فكرتنا الرئيسة على فرض عقوبة مُقعَّرة مناسبة على معيار \(l_2\) لأوزان جميع التوصيلات الخارجة من كل عقدة إدخال، وبذلك نحصل على شبكة عصبية لا تستخدم إلا مجموعة فرعيّة صغيرة من الميزات. إضافةً إلى ذلك، طوّرنا خوارزمية فعّالة تعتمد على تتبّع مسارٍ عكسيّ للتحسين تهدف إلى الحصول على مسارات حلّ مستقرة، لمواجهة تعقيد مشهد التحسين. تُظهر دراسات المحاكاة واسعة النطاق وأمثلة البيانات الحقيقيّة التي أجريناها أداءً مُرضياً في العينات المحدودة للمقدِّر المقترح، سواء في اختيار الميزات أو في التنبّؤ بالنتائج المستمرّة والثنائية وزمن الحدث.

مُقدِّمة

خلال العقد الماضي، أدّت التطوّرات في الاختبارات الجزيئية والتصوير وغيرهَا من الاختبارات المخبرية إلى زيادة الاهتمام بتحليل البيانات عالية الأبعاد. تشير البيانات عالية الأبعاد إلى مجموعات بيانات تحتوي على عدد كبير من المتغيّرات مقارنةً بحجم عيّنة صغير، ما يطرح تحدّيات كبيرة في بناء نماذج دقيقة وقابلة للتفسير. على سبيل المثال، في علم الأحياء الحيوي يُستفاد من مئات الآلاف من تعبيرات الحَمض النووي الريبِي، وبيانات دراسات الارتباط على نطاق الجينوم، وبيانات الميكروأري لفهم بيولوجيا الأمراض، مع مشاركة مئات المرضى فقط (visscher2012five, hertz2016pharmacogenetic, kim2016high, beltran2017impact). ولمواجهة لعنة الأبعاد، أصبح اختيار الميزات خطوة حاسمة في تحليل البيانات عالية الأبعاد. فمن خلال تحديد الميزات الأكثر تمثيلاً لوصف بيولوجيا الأمراض أو النتائج، يُمكن لأساليب اختيار الميزات تعزيز قابلية تفسير النموذج وتحسين تعميمه.

هناك أساليب مختلفة لاختيار الميزات، بما في ذلك أساليب الفِلترة (koller1996toward, guyon2003introduction, gu2012generalized)، وأساليب الغلاف (kohavi1997wrappers, inza2004filter, tang2014feature)، والأساليب المُضمَّنة (tibshirani1996regression, zou2006adaptive, fan2001variable, zhang2010nearly). ومن بينها، أصبحت أساليب الانحدار المُعاقَب شائعة جدّاً في تحليل البيانات عالية الأبعاد منذ تقديم مُشغّل الانكماش والاختيار بالقدر المطلق الأدنى (LASSO) (tibshirani1996regression). تُمكِّن هذه الأساليب من تقدير المعاملات واختيار الميزات في الوقت نفسه عبر تقليص بعض المعاملات إلى أصفار دقيقة. وعلى الرغم من الاستخدام الواسع لـ LASSO للحصول على تقديرات متناثرة في التعلّم الآلي والإحصاء، فإنه يميل إلى اختيار متغيّرات غير مهمّة لتعويض الانكماش الزائد على المتغيّرات ذات الصلة (zou2006adaptive). ولمعالجة التحيّز وعدم اتساق اختيار الميزات في LASSO، اقتُرحت عدّة أساليب، بما في ذلك LASSO التكيفي (zou2006adaptive)، وعقوبة MCP (zhang2010nearly)، وSCAD (fan2001variable).

مع ذلك، تفترض معظم هذه الأساليب المُعاقِبة خطّيّة العلاقة بين المتغيّرات والنتائج، بينما قد لا تكون الصيغة الوظيفية الفعلية للعلاقة متاحة في العديد من التطبيقات. وقد اقتُرحت امتدادات غير معلمية لمعالجة هذه المشكلة (cosso, ravikumar2009sparse, meier2009high)، غير أنّ نماذجها تعتمد على مجاميع وظائف أحادية البعد أو منخفضة البعد، وقد تعجز عن التقاط التفاعلات المعقّدة بين متغيّرات متعدّدة. يقترح yamada2014high نهج HSIC-LASSO الذي يستفيد من تعلّم النواة لاختيار الميزات مع كشف التفاعلات غير الخطيّة، لكنه يعاني من تزايد تربيعي في التعقيد الحسابي مع عدد الملاحظات.

تُعدّ الشبكات العصبية أدوات قوية لنمذجة العلاقات المعقّدة في طيف واسع من التطبيقات، من التعرّف على الصور (krizhevsky2017imagenet, he2016deep) والتعرّف على الكلام (graves2013speech, chan2016listen) إلى معالجة اللغة الطبيعية (young2018recent, devlin2018bert) والتنبؤ المالي (fischer2018deep). وقد أمكن تحقيق أدائها المتقدّم بفضل الموارد الحاسوبية القوية وتوفّر أحجام عينات كبيرة. ومع ذلك، تظلّ البيانات عالية الأبعاد سبباً في الإفراط في المواءمة وضعف تعميم الشبكات العصبية (liu2017deep). وقد ظهرت حديثاً تطوّرات في استخدام الشبكات العصبية المُنظَّمة لاختيار الميزات أو لتحليل البيانات عالية الأبعاد. تركّز سلسلة من الأبحاث على استخدام LASSO الجماعي لفرض التناثر على مستوى عُقَد الإدخال (liu2017deep, scardapane2017group, feng2017sparse)؛ إذ تُعامِل هذه الأساليب جميع التوصيلات الخارجة من عقدة إدخال واحدة كـ “مجموعة” وتُطبّق عقوبة LASSO على معيار \(l_2\) لمتّجهات الأوزان لكل مجموعة. ويمكن العثور على شبكات عصبية منظَّمة أخرى قائمة على LASSO في (li2016deep) و(lemhadri2021lassonet). غير أنّ الشبكات العصبية المُنظَّمة بـ LASSO تعاني ميلاً إلى الانكماش الزائد لأوزان المتغيّرات ذات الصلة وغير الصفرية، ما يقود إلى إدراج الكثير من الإيجابيات الكاذبة في النموذج المختار. استُخدم LASSO التكيفي للتخفيف من هذه المشكلة (dinh2020consistent)، لكن نتائجه كانت محدودة على البيانات المستمرّة وتفترض أن دالة المتوسّط الشرطي هي تحديداً شبكة عصبية. وتجاوز العمل في (yamada2020feature) تنظيم \(l_1\) بإدخال بوّابات عشوائية إلى طبقة الإدخال للشبكات العصبية. وقد اعتبروا تنظيماً شبيهاً بـ \(l_0\) استناداً إلى استرخاء مستمر لتوزيع برنولي؛ ومع ذلك تتطلّب طريقتهم قيمة عتبة لاختيار المتغيّرات ضعيفة الإشارة، كما أنّ البوّابة العشوائية لا تستبعد المتغيّرات غير المختارة بالكامل أثناء مرحلتي التدريب والتنبؤ.

في هذه الورقة نقترح إطاراً جديداً للشبكات العصبية ذات الإدخال المتناثر باستخدام تنظيم جماعي مُقعَّر لتجاوز قيود أساليب اختيار الميزات الحالية. ورغم أنّ العقوبات المُقعَّرة مثل MCP وSCAD قد أظهرت أداءً جيداً في الإعدادات النظرية والعددية لكلٍّ من اختيار الميزات والتنبؤ، فإنها لم تنل القدر نفسه من الاهتمام الذي حظي به LASSO في سياق التعلّم الآلي. يهدف إطارنا المقترح إلى إبراز الإمكانات غير المستثمرة للعقوبات المُقعَّرة في اختيار الميزات داخل الشبكات العصبية، عبر توفير نهج موحّد لاختيار الميزات وتقدير الدوال في الإعدادين المنخفض والعالي الأبعاد. على نحو خاص، تُعامِل طريقتنا جميع التوصيلات الخارجة من عقدة إدخال واحدة على أنها مجموعة، وتُطبّق عقوبة مُقعَّرة مناسبة على معيار \(l_2\) لأوزان كل مجموعة. ومن خلال تقليص جميع الأوزان لبعض المجموعات إلى أصفار دقيقة، نحصل على شبكة عصبية تستخدم مجموعة صغيرة فقط من المتغيّرات. إضافةً إلى ذلك، طوّرنا خوارزمية فعّالة قائمة على تتبّع مسار عكسي للتحسين تُنتِج مسارات حلّ مستقرة، لمواجهة تعقيد مشهد التحسين. وتُظهر دراسات المحاكاة لدينا وأمثلة البيانات الحقيقية أداءً مُرضياً في العينات المحدودة للتنظيم الجماعي المُقعَّر، مُتفوّقاً على الأساليب السائدة من حيث اختيار الميزات ودقة التنبؤ في نمذجة النتائج المستمرّة والثنائية وزمن الحدث.

هيكلة المقالة

تُنظَّم بقية المقالة على النحو الآتي:

في القسم 2 نصوغ مشكلة اختيار الميزات لنموذج غير معلمي عام ونقدّم طريقتنا المقترحة.
في القسم 3 نعرض تفاصيل التنفيذ، بما في ذلك خوارزمية النزول التدرّجي المُركَّب وتتبّع المسار العكسي للتحسين.
في القسم 4 نجري دراسات محاكاة واسعة النطاق لإظهار أداء الطريقة المقترحة.
في القسم 5 نقدّم تطبيق الطريقة على مجموعات بيانات واقعية.
في القسم 6 نناقش النتائج واستتباعاتها.