مُلَخَّص
تُعَدّ عمليّة اختيار الميزات وتقدير الدوالّ غير الخطيّة في آنٍ واحد تحدّياً، ولا سيّما في سياقات الأبعاد العالية حيث يفوق عددُ المتغيّرات حجمَ العيّنة المتاحة في دراسات الترصيد. في هذه المقالة نستكشف مشكلة اختيار الميزات في الشبكات العصبيّة. على الرغم من استخدام group LASSO لاختيار المتغيّرات مع الشبكات العصبيّة، فإنّه يميلُ إلى اختيار متغيّرات غير مهمّة لتعويض الانكماش الزائد. للتغلّب على هذا القيد، نقترح إطاراً للشبكات العصبيّة ذات المدخلات المتناثرة باستخدام تنظيم مُقَعَّر جَماعي لاختيار الميزات في الإعدادات المنخفضة والعالية الأبعاد. الفكرة الرئيسة هي تطبيقُ عقوبةٍ مُقَعَّرة مناسبة على معيار \(l_2\) لأوزان جميع الوصلات الخارجة من كلّ عُقدة إدخال، بما يؤول إلى شبكةٍ عصبيّة تستخدم مجموعةً فرعيّة صغيرة من المتغيّرات الأصليّة. بالإضافة إلى ذلك، نُطوِّر خوارزميّةً فعّالةً قائمةً على التحسين المَسَاريّ العكسي لإنتاج مسارات حلٍّ مُستقرّة، لمواجهة التحدّيات الناجمة عن الطبيعة المعقّدة لمسألة التحسين. تُظهِر دراساتُ المحاكاة الواسعة وأمثلةُ البيانات الحقيقيّة التي أجريناها أداءً قويّاً في ظلّ عيناتٍ محدودة للمُقدِّر المقترَح، سواء في اختيار الميزات أو دقّة التنبّؤ لنمذجة النتائج المستمرّة والثنائيّة ووقت الحدث.
مُقَدِّمَة
في العقد الماضي، أدّت التطوّراتُ في الاختبارات الجزيئيّة والتصوير وسواهما من التقنيات المخبريّة إلى زيادة الاهتمام بتحليل البيانات عالية الأبعاد. تشير هذه البيانات إلى مجموعاتٍ تحتوي على عددٍ هائلٍ من المتغيّرات مقارنةً بحجم العيّنة المحدود، ما يشكّل تحدّياً كبيراً في بناء نماذج دقيقة وقابلة للتفسير. على سبيل المثال، في علم الأحياء الحيوي تُستخدم مئات الآلاف من قياسات تعبير الحمض النووي الريبي وبيانات دراسات الارتباط على مستوى الجينوم وشرائح الميكروأري لفهم بيولوجيا الأمراض، مع إشراك مئات المرضى فقط (visscher2012five, hertz2016pharmacogenetic, kim2016high, beltran2017impact). ولمعالجة لعنة الأبعاد، أصبح اختيارُ الميزات خطوةً حاسمةً في تحليل البيانات عالية الأبعاد. فمن خلال تحديد الخصائص الأكثر تمثيلاً لبيولوجيا المرض أو للنتائج، يمكن لأساليب اختيار الميزات زيادةُ قابليّة تفسير النموذج وتعزيزُ قدرته على التعميم.
هناك استراتيجياتٌ متعدّدة لاختيار الميزات، تشمل أساليب الفِلترة (koller1996toward, guyon2003introduction, gu2012generalized)، وطرائق التغليف (kohavi1997wrappers, inza2004filter, tang2014feature)، والطرائق المُضمّنة (tibshirani1996regression, zou2006adaptive, fan2001variable, zhang2010nearly). من بينها، أصبحت طرائق الانحدار المُعاقَب شائعةً جدّاً في تحليل البيانات عالية الأبعاد منذ تقديم مُشغِّل الانكماش والاختيار لأصغر مجموع مطلق القيم (LASSO) (tibshirani1996regression). تُتيح هذه الطرائقُ تقديرَ المعاملات واختيارَ الميزات معاً عبر تصفير بعض المعاملات تماماً. ومع أنّ LASSO يُستَخدم على نطاق واسع للحصول على تمثيلاتٍ متناثرة في التعلّم الآلي والإحصاء، فإنّه يعاني ميلاً إلى اختيار متغيّرات غير مهمّة لتعويض الانكماش الزائد في المتغيّرات ذات الأثر الحقيقي (zou2006adaptive). وللتغلّب على التحيّز وعدم اتّساق اختيار الميزات في LASSO، قُدِّمت عدّةُ توسعات، مثل LASSO التكيّفي (zou2006adaptive)، وعقوبة MCP (zhang2010nearly)، وSCAD (fan2001variable).
لكنّ معظم هذه الطرائق تفترض علاقةً خطيّة بين المتغيّرات والنتائج، بينما قد تكون العلاقةُ الفعليّة غيرَ خطيّة في كثيرٍ من التطبيقات. طُرِحت بعضُ التوسعات اللامعلَميّة (cosso, ravikumar2009sparse, meier2009high)، غير أنّ نماذجها ترتكز على مجموعات دوالّ أحاديّة أو قليلة الأبعاد، ما قد يُعيق قدرتها على التقاط التفاعلات المعقّدة بين المتغيّرات. كما اقترحت أعمالٌ مثل (yamada2014high) منهج HSIC-LASSO الذي يستفيد من تعلّم النواة لكشف التفاعلات غير الخطيّة للميزات، لكنّه يُعاني تعقيداً حسابيّاً تربيعيّاً في عدد المشاهدات.
تُعَدّ الشبكاتُ العصبيّة أدواتٍ قويّةً لنمذجة العلاقات المعقّدة في تطبيقاتٍ عدّة، من التعرّف على الصور (krizhevsky2017imagenet, he2016deep) والكلام (graves2013speech, chan2016listen) إلى معالجة اللغة الطبيعيّة (young2018recent, devlin2018bert) والتنبّؤ المالي (fischer2018deep). ويُعزَى أداؤها المتفوّق إلى الموارد الحسابيّة الكبيرة وأحجام العينات الضخمة. مع ذلك، قد تؤدّي البياناتُ عاليةُ الأبعاد إلى الإفراط في التخصيص وضعف قدرة الشبكات العصبيّة على التعميم (liu2017deep). ومؤخّراً برزت أساليبُ تعتمد على تنظيم الشبكات العصبيّة لاختيار الميزات في سياق البيانات عالية الأبعاد، مع تركيزٍ خاص على group LASSO لتعزيز تقلّص الوصلات الخارجة من عُقد الإدخال (liu2017deep, scardapane2017group, feng2017sparse). تنظر هذه الأساليب إلى الوصلات الخارجة من كلّ عصبونِ إدخالٍ كمجموعة، وتُطبّق عقوبة LASSO على معيار \(l_2\) لمتجهات الوزن. وفي أعمالٍ أخرى (li2016deep, lemhadri2021lassonet) جرى دمجُ هذه الفكرة لاختيار الميزات في الشبكات العصبيّة. غير أنّ التنظيمَ القائمَ على LASSO يُعاني انكماشاً مفرطاً للأوزان الحقيقيّة ويولِّد إيجابيّاتٍ كاذبة. ولتخفيف هذه المشكلة استُخدم LASSO التكيّفي (dinh2020consistent)، لكنه ظلّ محدوداً بحالات النتائج المستمرّة ويفترض أنّ المتوسّط الشرطي مُعبَّرٌ عنه بشبكةٍ عصبيّة دقيقة. كما حاولت دراساتٌ أخرى (yamada2020feature) إدخال بوّابات عشوائيّة لتقريب تنظيم \(l_0\)، غير أنّها تتطلّب قيمةَ قطعٍ لتمييز الإشارات الضعيفة، ولا تستبعد بعضَ المتغيّرات تماماً خلال التدريب والتنبّؤ.
في هذه الورقة نقترح إطاراً جديداً للشبكات العصبيّة ذات المدخلات المتناثرة باستخدام تنظيم مُقَعَّر جَماعي لتجاوز قيود أساليب اختيار الميزات الراهنة. وعلى الرغم من أنّ عقوبات التقعّر مثل MCP وSCAD أظهرت أداءً جيّداً في الإعدادات النظريّة والعدديّة لاختيار الميزات والتنبّؤ، إلّا أنّها لم تحظَ بالاهتمام نفسِه مقارنةً بـLASSO في أوساط التعلّم الآلي. يهدف إطارُنا إلى تسليط الضوء على الإمكانات غير المستثمَرة للعقوبات المُقَعَّرة لاختيار الميزات في الشبكات العصبيّة، عبر تقديم مقاربةٍ شاملة تجمع بين اختيار الميزات وتقدير الدوالّ في الإعدادات منخفضة وعالية الأبعاد. وبوجهٍ خاص، نعدّ الوصلات الخارجة من كلّ عصبونِ إدخالٍ مجموعةً واحدة ونُطبّق عقوبةً مُقَعَّرة على معيار \(l_2\) لمتجه الوزن في كلّ مجموعة. فعند تقليص أوزان مجموعاتٍ معيّنة إلى الصفر تماماً، نحصل على شبكةٍ عصبيّة تُشغَّل على مجموعةٍ محدودة من المتغيّرات. وإضافةً إلى ذلك طوّرنا خوارزميّةً فعّالةً قائمةً على التحسين المَسَاريّ العكسي لإنتاج مساراتِ حلٍّ مُستقرّة، نظراً لوعورةِ المشهدِ الأمثلِيّ لمسألة التحسين. وتُظهِر دراساتُ المحاكاة وأمثلةُ البيانات الحقيقيّة أداءً مُتميّزاً للمُقدِّر المقترح، متفوّقاً على الأساليب الحالية في اختيار الميزات ودقّة التنبّؤ لنمذجة النتائج المستمرّة والثنائيّة ووقت الحدث.
تُنظَّم بقيّةُ المقالة كما يلي: في القسم 2 نصوغُ مشكلةَ اختيار الميزات لنموذجٍ لا معلَمي عام، ونقدّم طريقتنا المقترحة. ويأتي تنفيذُ الطريقة، بما في ذلك خوارزميّةُ الانحدار التدرّجي المُركَّب والتحسين المَسَاريّ العكسي، في القسم 3.
القسم 4
نجري دراساتِ محاكاةٍ واسعةَ النطاق لإظهار أداء الطريقة المقترحة.
القسم 5
نُقدِّم تطبيقَ الطريقة على مجموعات بياناتٍ واقعيّةٍ متنوّعة.
القسم 6
وأخيراً، نناقش النتائجَ واستنتاجاتِها وتأثيراتِها المحتملة.
الطريقة
إعداد المشكلة
لنفترض أنّ \(X \in \mathbb{R}^d\) متجهٌ عشوائيّ ذو بُعد \(d\) و\(Y\) متغيّرُ الاستجابة. نفترض أنّ التوزيعَ الشرطي \(P_{Y|X}\) يعتمد على الشكل \(f(X_S)\) حيث \(f \in F\) ومجموعةٌ فرعيّة من المتغيّرات \(S \subseteq \{1, \dots, d\}\). نبتغي تحديد المجموعة الحقيقيّة \(S\) للمتغيّرات المؤثِّرة وتقدير الدالّة \(f\) بحيث يمكن التنبّؤ بـ\(Y\) اعتماداً على المتغيّرات المختارة \(X_S\).
على مستوى المجتمع، نهدف إلى تقليل الخسارة \[ \min_{f\in F, S} \mathbb{E}_{X, Y} \,\ell\bigl(f(X_S), Y\bigr) \] حيث تمثّل \(\ell\) دالّةَ خسارةٍ مناسبةً للمهمّة. عمليّاً، غالباً لا يُعرَف توزيع \( (X, Y)\)، ويُتاح بدلاً منه عيّناتٌ مستقلةٌ ومُتطابقة التوزيع بحجم \(n\)، مكوّنة من أزواج \(\{(X_i, Y_i)\}_{i=1}^n\). وعندما يكون \(d\) كبيراً، يصبح البحثُ على جميع المجموعات الفرعيّة متعذّراً عمليّاً. وإضافةً إلى ذلك لا نفترض شكلاً محدّداً للدالة المجهولة \(f\)، بل نسعى إلى تمثيلها على نحوٍ لا معلَمي باستخدام الشبكات العصبيّة. وبناءً عليه، هدفُنا تطويرُ طريقةٍ فعّالة تختار في الوقت نفسه مجموعةً فرعيّة من المتغيّرات \(S\) وتقرّب الدالّة \(f\) باستخدام شبكةٍ عصبيّة ذات مدخلاتٍ مُتناثرة.
الإطار المقترح
نفترض شبكةً عصبيّةً أماميّة تنتمي إلى الفئة \(\mathcal{F}_n\)، إذ يُمثَّل كلُّ نموذجٍ فيها بالتابع \(f_\mathbf{w}: \mathbb{R}^d \to \mathbb{R}\) بمعاملات \(\mathbf{w}\). وتتكوّن الشبكةُ متعدّدةُ الطبقات (MLP) من تركيب دوالّ خطيّة وتنشيط:
\[ f_\mathbf{w}(x) = L_D \circ \sigma \circ L_{D-1} \circ \sigma \circ \cdots \circ \sigma \circ L_1 \circ \sigma \circ L_0(x), \]
حيث \(L_i(x) = \mathbf{W}_i x + b_i\)، و\(\mathbf{W}_i \in \mathbb{R}^{d_{i+1} \times d_i}\) مصفوفةُ الأوزان، و\(b_i \in \mathbb{R}^{d_{i+1}}\) متّجهُ الانحياز للطبقة \(i\)، ودالّةُ التنشيط \(\sigma(\cdot)\). وتجمع \(\mathbf{w}\) جميعَ المعاملات \(\{\mathbf{W}_i, b_i: i=0,\dots,D\}\) بحيث يكون البُعدُ الكُلّي \(P\). نُعرِّف الخسارةَ التجريبيّة:
\[ \mathcal{L}_n(\mathbf{w}) = \frac{1}{n} \sum_{i=1}^n \ell\bigl(f_\mathbf{w}(X_i), Y_i\bigr). \]
السيناريو المثالي وجودُ شبكةٍ ذات مدخلاتٍ متناثرة \(f_\mathbf{w}\) تقرأ إشاراتٍ فقط من المتغيّرات المهمّة، أي أنّ \(\mathbf{W}_{0,j} = \mathbf{0}\) لكل \(j \notin S\)، حيث \(\mathbf{W}_{0,j}\) العمودُ رقم \(j\) من \(\mathbf{W}_0\). ولتحفيز الندرة في \(\mathbf{W}_0\) مع تقليل الخسارة التجريبيّة، نُدرِّب الشبكةَ بحلّ المسألة:
\[ \hat{\mathbf{w}} = \arg\min_{\mathbf{w} \in \mathbb{R}^P} \left\{ \mathcal{L}_n(\mathbf{w}) + \sum_{j=1}^d \rho_\lambda\!\left(\,\|\mathbf{W}_{0,j}\|_2\,\right) + \alpha \|\mathbf{w}\|_2^2 \right\}, \]
حيث يدلّ \(\|\cdot\|_2\) على المعيار الإقليدي.
تتكوّن الدالةُ الهدف في المعادلة أعلاه من ثلاثة مكوّنات:
\(\mathcal{L}_n(\mathbf{w})\) الخسارةُ التجريبيّة، مثل متوسِّط مربّعات الخطأ للانحدار، وخسارة الإنتروبيا المتقاطعة للتصنيف، والاحتمال الجزئيّ السلبيّ في نموذج المخاطر النسبيّة. انظر الملحق لمزيدٍ من التفاصيل.
\(\rho_\lambda\) دالّةُ عقوبةٍ مُقَعَّرة بمعامل \(\lambda \ge 0\). نعدّ الوصلاتِ الخارجة من كلّ عصبونِ إدخالٍ مجموعةً واحدة، ونُطبّق \(\rho_\lambda\) على معيار \(l_2\) لمتّجه الوزن لتقليص مجموعاتٍ معيّنة من الأوزان إلى الصفر، ما يؤدّي إلى اختيارٍ فرعيّ لمجموعة المتغيّرات الأصليّة.
\(\alpha \|\mathbf{w}\|_2^2\) مع \(\alpha > 0\) تمثّل تنظيماً تربيعيّاً (Ridge) للحيلولة دون الإفراط في التخصيص. تعتمدُ عمليّةُ اختيار الميزات فقط على \(\rho_\lambda\) في طبقة الإدخال، بينما يُوازِن التنظيمُ التربيعيّ الأوزانَ عبر الطبقات ويُعزِّز ثبات النموذج.
عندما يكون عددُ الطبقات المخفيّة \(D=0\)، ينحصر النموذجُ في دالّةٍ خطيّة، ويصير الإطارُ أعلاه هو إطارَ «الشبكة المرنة» (Elastic Net) (zou2005regularization)، وSCAD-\(L_2\) (zeng2014group)، وMnet (huang2016mnet) تبعاً لاختيار عقوبة \(\rho_\lambda\) لتكون على التوالي: LASSO، وSCAD، وMCP.
تنظيمُ التقعُّر
هناك عقوباتٌ شائعة لتعزيز الندرة، منها ما هو مُحدَّب مثل LASSO (tibshirani1996regression)، ومنها ما هو مُقَعَّر مثل SCAD (fan2001variable) وMCP (zhang2010nearly). وعند تطبيق أيٍّ منها على معيار \(l_2\) لمعاملات كلّ مجموعة متغيّرات، نحصل على نسخٍ جماعيّة (بالِغَةِ الأثر على اختيار الميزات) مثل:
تنظيم المجموعات بـ LASSO (group LASSO) (yuan2006model): \[ \rho_\lambda(t) = \lambda\, t, \qquad t \ge 0. \]
تنظيم المجموعات بـ SCAD (group SCAD) (guo2015model): \[ \rho_\lambda(t) = \begin{cases} \lambda\, t, & 0 \le t \le \lambda, \\ \dfrac{-\bigl(t^2 - 2a\lambda\, t + \lambda^2\bigr)}{2(a-1)}, & \lambda < t \le a\lambda, \\ \dfrac{(a+1)\lambda^2}{2}, & t > a\lambda, \end{cases} \qquad a>2. \]
تنظيم المجموعات بـ MCP (group MCP) (huang2012selective): \[ \rho_\lambda(t) = \lambda \int_{0}^{t} \left(1 - \frac{z}{\lambda a}\right)_+ \, dz, \qquad t \ge 0,\ a>1, \] حيث \((u)_+ = \max(u,0)\).
أظهرت دراساتٌ نظريّة وتجريبيّة أنّ العقوبات المُقَعَّرة مثل SCAD وMCP تتفوّق على LASSO في دقّة اختيار الميزات والتنبّؤ (fan2001variable, zhang2010nearly). فبعكس LASSO المُحدَّبة التي تتحيّز نحو تقليلٍ مفرط للمعاملات الكبيرة وتُفضي إلى اختيارٍ غير متّسقٍ للميزات، تُقلِّل العقوباتُ المُقَعَّرة من التحيّز وتُحسِّن دقّة النموذج عبر خفضٍ تدريجيّ في مُشتقّ العقوبة حتى ينعدمَ عندما \(t > a\lambda\). لذلك نقترح استخدامَ تنظيمِ المجموعات المُقَعَّر ضمن إطارنا لاختيار الميزات وتقدير الدالّة في آنٍ واحد.