latex
تُعَدّ عملية اختيار الميزات وتقدير الدوال غير الخطية في آن واحد تحديًا، خاصة في سياقات الأبعاد العالية حيث يتجاوز عدد المتغيرات حجم العيّنة المتاحة في دراسات التنميط. في هذه المقالة نستكشف مشكلة اختيار الميزات في الشبكات العصبية. على الرغم من استخدام الـLASSO الجماعي لاختيار المتغيرات في الشبكات العصبية، إلا أنه يميل إلى اختيار متغيرات غير مهمة لتعويض الانكماش الزائد. للتغلب على هذا القيد، نقترح إطارًا للشبكات العصبية ذات المدخلات المتناثرة باستخدام تنظيم مقعَّر جماعي لاختيار الميزات في الإعدادات منخفضة وعالية الأبعاد. الفكرة الرئيسية هي تطبيق عقوبة مقعَّرة مناسبة على قاعدة \(l_2\) لأوزان جميع الاتصالات الخارجة من كل عقدة إدخال، مما يؤدي إلى شبكة عصبية تستخدم فقط مجموعة فرعية صغيرة من المتغيرات الأصلية. بالإضافة إلى ذلك، نطور خوارزمية فعالة استنادًا إلى التحسين المساري العكسي لإنتاج مسارات حل مستقرة، لمواجهة التحديات الناجمة عن الطبيعة المعقدة لمسألة التحسين. وقد أظهرت دراسات المحاكاة الواسعة وأمثلة البيانات الحقيقية أداءً متميزًا للمقدر المقترح، سواء في اختيار الميزات أو في دقة التنبؤ لنمذجة النتائج المستمرة والثنائية وزمن الحدث.
في العقد الماضي، أدت التطورات في الاختبارات الجزيئية والتصوير وغيرها من التقنيات المخبرية إلى زيادة الاهتمام بتحليل البيانات عالية الأبعاد. تشير هذه البيانات إلى مجموعات تحتوي على عدد هائل من المتغيرات مقارنة بحجم العيّنة المحدود، مما يشكل تحديًا كبيرًا في بناء نماذج دقيقة وقابلة للتفسير. على سبيل المثال، في علم الأحياء الحيوي تُستخدم مئات الآلاف من قياسات تعبير الحمض النووي الريبي وبيانات دراسة الارتباط الجيني والميكروأري لفهم بيولوجيا الأمراض، مع مشاركة مئات المرضى فقط (visscher2012five, hertz2016pharmacogenetic, kim2016high, beltran2017impact). لمعالجة لعنة الأبعاد، أصبح اختيار الميزات خطوة حاسمة في تحليل البيانات ذات الأبعاد العالية. من خلال تحديد الخصائص الأكثر تمثيلًا لبيولوجيا الأمراض أو للنتائج، يمكن لأساليب اختيار الميزات زيادة قابلية تفسير النموذج وتعزيز قدرته على التعميم.
هناك استراتيجيات مختلفة لاختيار الميزات، بما في ذلك أساليب التصفية (koller1996toward, guyon2003introduction, gu2012generalized)، وطرق التغليف (kohavi1997wrappers, inza2004filter, tang2014feature)، والأساليب المضمنة (tibshirani1996regression, zou2006adaptive, fan2001variable, zhang2010nearly). من بينها، أصبحت طرق الانحدار المعاقب شائعة جدًا في تحليل البيانات عالية الأبعاد منذ تقديم مشغل الانكماش والاختيار المطلق الأدنى (LASSO) (tibshirani1996regression). تتيح هذه الطرق تقدير المعاملات واختيار الميزات في آن واحد عن طريق تحجيم بعض معاملات المعلمات إلى الصفر. ومع أن الـLASSO يستخدم على نطاق واسع للحصول على تمثيلات متناثرة في التعلم الآلي والإحصاء، إلا أنه يعاني من ميل لاختيار متغيرات غير مهمة لتعويض الانكماش الزائد للمتغيرات ذات الأثر الحقيقي (zou2006adaptive). وللتغلب على التحيّز وعدم الاتساق في اختيار الميزات باستخدام الـLASSO، تم اقتراح عدة توسيعات مثل الـLASSO التكيفي (zou2006adaptive)، وعقوبة الحد الأدنى المقعَّر (MCP) (zhang2010nearly)، والانحراف المُقطعي المطلق السلس (SCAD) (fan2001variable).
ومع ذلك، تفترض معظم هذه الأساليب علاقة خطية بين المتغيرات والنتائج، في حين قد تكون العلاقة الفعلية غير خطية في العديد من التطبيقات. طُرحت بعض التوسعات غير البارامترية (cosso, ravikumar2009sparse, meier2009high)، لكن نماذجها تعتمد على مجموعات دوال أحادية أو قليلة الأبعاد، مما قد يحدّ من قدرتها على التقاط التفاعلات المعقدة بين المتغيرات. كما اقترحت أعمال مثل (yamada2014high) منهج HSIC-LASSO الذي يستفيد من تعلم النوى لكشف التفاعلات غير الخطية للميزات، إلا أنه يواجه تعقيدًا حسابيًا تربيعيًا في عدد الملاحظات.
تُعَدّ الشبكات العصبية أدوات قوية لنمذجة العلاقات المعقدة في تطبيقات عدة، من التعرف على الصور (krizhevsky2017imagenet, he2016deep) والكلام (graves2013speech, chan2016listen) إلى معالجة اللغة الطبيعية (young2018recent, devlin2018bert) والتنبؤ المالي (fischer2018deep). ويعزى أداؤها المتفوق إلى الموارد الحسابية الكبيرة وأحجام العينات الضخمة. مع ذلك، قد تؤدي البيانات عالية الأبعاد إلى الإفراط في التخصيص وضعف قدرة الشبكات العصبية على التعميم (liu2017deep). مؤخرًا، برزت أساليب تعتمد على تنظيم الشبكات العصبية لاختيار الميزات في سياق البيانات عالية الأبعاد، مع تركيز خاص على الـLASSO الجماعي لتعزيز تفرق الاتصالات من عقد الإدخال (liu2017deep, scardapane2017group, feng2017sparse). تنظر هذه الأساليب إلى الاتصالات الخارجة من كل خلية عصبية مدخلة كمجموعة وتطبق عقوبة الـLASSO على قاعدة \(l_2\) لمتجهات الوزن. وفي أعمال أخرى (li2016deep, lemhadri2021lassonet) تم دمج هذه الفكرة لاختيار الميزات في الشبكات العصبية. غير أن التنظيم القائم على الـLASSO يعاني من انكماش مفرط في الأوزان الحقيقية وظهور نتائج إيجابية خاطئة. ولتخفيف هذه المشكلة، استُخدم الـLASSO التكيفي (dinh2020consistent)، لكنه ظل محدودًا بالنتائج المستمرة ويفترض أن دالة الوسيط الشرطي معبَّر عنها بشبكة عصبية دقيقة. كما حاولت دراسات أخرى (yamada2020feature) إدخال بوابات عشوائية لتقريب تنظيم \(l_0\)، لكنها تتطلب تحديد قيمة قطع لتمييز الإشارات الضعيفة ولا تستبعد بعض المتغيرات تمامًا خلال التدريب والتنبؤ.
في هذه الورقة، نقترح إطارًا جديدًا للشبكات العصبية ذات المدخلات المتناثرة باستخدام تنظيم مقعَّر جماعي للتغلب على قيود أساليب اختيار الميزات الحالية. على الرغم من أن عقوبات التقعر مثل الـMCP والـSCAD أظهرت أداءً جيدًا في الإعدادات النظرية والعددية لاختيار الميزات والتنبؤ، إلا أنها لم تحظَ بنفس القدر من الاهتمام مقارنةً بالـLASSO في أوساط التعلم الآلي. يهدف إطارنا إلى تسليط الضوء على الإمكانات غير المستغلة لعقوبات التقعر في اختيار الميزات داخل الشبكات العصبية، من خلال تقديم مقاربة شاملة تجمع بين اختيار الميزات وتقدير الدوال في الإعدادات منخفضة وعالية الأبعاد. بوجه خاص، تعتبر طريقتنا الاتصالات الخارجة من كل عصبون إدخال كمجموعة واحدة وتطبق عقوبة مقعَّرة على قاعدة \(l_2\) لمتجهات الوزن لكل مجموعة. فعند تقليص الأوزان لمجموعة معينة إلى الصفر، نحصل على شبكة عصبية تعمل بمجموعة محدودة من المتغيرات. بالإضافة إلى ذلك، طورنا خوارزمية فعالة استنادًا إلى التحسين المساري العكسي لإنتاج مسارات حل مستقرة، لمواجهة الطبيعة المعقدة لمسألة التحسين. وتظهر دراسات المحاكاة وأمثلة البيانات الحقيقية أداءً متميزًا للمقدر المقترح، متفوقًا على الأساليب الحالية في اختيار الميزات ودقة التنبؤ لنمذجة النتائج المستمرة والثنائية وزمن الحدث.
يتم تنظيم بقية هذه المقالة على النحو التالي. في القسم 2 نصوغ مشكلة اختيار الميزات لنموذج غير بارامتري عام ونقدم طريقتنا المقترحة. نعرض تنفيذ الطريقة، بما في ذلك خوارزمية الانحدار التدرجي المركب والتحسين المساري العكسي، في القسم 3.
نجري دراسات محاكاة واسعة النطاق لإظهار أداء الطريقة المقترحة.
نقدّم تطبيق الطريقة على مجموعات بيانات واقعية متنوعة.
أخيرًا نناقش النتائج واستنتاجاتها وتأثيراتها المحتملة.
لنفترض أن \(X \in \RR^d\) متجه عشوائي ذي بُعد \(d\) و\(Y\) متغير الاستجابة. نفترض أن التوزيع الشرطي \(P_{Y|X}\) يعتمد على الشكل \(f(X_S)\) حيث \(f \in F\) و\(S \subseteq \{1, \dots, d\}\). نريد تحديد المجموعة الحقيقية \(S\) للمتغيرات المؤثرة وتقدير الدالة \(f\) بحيث يمكن التنبؤ بـ\(Y\) اعتمادًا على المتغيرات المختارة \(X_S\).
على مستوى السكان، نهدف إلى تقليل الخسارة \[\min_{f\in F, S} \EE_{X, Y} \ell(f(X_S), Y)\] حيث تمثل \(\ell\) دالة خسارة مناسبة للمهمة. عمليًا، غالبًا لا يُعرف توزيع \( (X, Y)\)، وتتوفّر بدلًا عنه عينات i.i.d. بحجم \(n\) مكوّنة من أزواج \(\{(X_i, Y_i)\}_{i=1}^n\). وعندما يكون \(d\) كبيرًا، يصبح البحث عن جميع المجموعات الفرعية غير عملي. بالإضافة إلى ذلك، لا نفترض شكلًا محددًا للدالة المجهولة \(f\)، بل نسعى لتمثيلها بطريقة غير معلمية عبر الشبكات العصبية. بناءً عليه، هدفنا تطوير طريقة فعالة تختار في الوقت نفسه مجموعة فرعية من المتغيرات \(S\) وتقرّب الدالة \(f\) باستخدام شبكة عصبية ذات مدخلات متناثرة.
نفترض شبكة عصبية أمامية تنتمي إلى فئة \(\mathcal{F}_n\)، إذ يعبر كل نموذج عنها بالتابع \(f_\bw: \RR^d \to \RR\) بمعاملات \(\bw\). تتكوَّن الشبكة متعددة الطبقات (MLP) من تركيب دوال خطية وتنشيط:
\[f_\bw(x)=L_D\circ\sigma\circ L_{D-1}\circ\sigma\circ\cdots\circ \sigma\circ L_1\circ\sigma\circ L_0(x),\]
حيث \(L_i(x)=\bW_i x + b_i\)، و\(\bW_i\in\RR^{d_{i+1}\times d_i}\) مصفوفة الأوزان، و\(b_i\in\RR^{d_{i+1}}\) متجه الانحياز للطبقة \(i\)، ودالة التنشيط \(\sigma(\cdot)\). يُجمع متجه \(\bw\) في جميع معاملات \(\{\bW_i,b_i: i=0,\dots,D\}\) ليكوّن فضاء الأبعاد \(P\). نعرّف الخسارة التجريبية:
\[\mL_n(\bw)=\frac{1}{n}\sum_{i=1}^n\ell\bigl(f_\bw(X_i),Y_i\bigr).\]
السيناريو المثالي هو وجود شبكة بعناصر إدخال متناثرة \(f_\bw\) تقرأ إشارات فقط من المتغيرات المهمة، أي أن \(\bW_{0,j}=\b0\) لكل \(j\notin S\)، حيث \(\bW_{0,j}\) العمود الرأسي رقم \(j\) من \(\bW_0\). ولتحفيز التفرق في \(\bW_0\) وتقليل الخسارة التجريبية، ندرب الشبكة على تعظيم الدقة مع ضبط أوزان الإدخال عن طريق حل:
\[\label{eq:obj} \hat{\bw}=\argmin_{\bw\in\RR^P}\Bigl\{\mL_n(\bw)+\sum_{j=1}^d\rho_\lambda\bigl(\|\bW_{0,j}\|_2\bigr)+\alpha\|\bw\|_2^2\Bigr\},\]
حيث تشير \(\|\cdot\|_2\) إلى القاعدة الإقليدية.
تتكون الدالة الهدف في ([eq:obj]) من ثلاثة مكونات:
\(\mL_n(\bw)\) الخسارة التجريبية، مثل متوسط مربعات الخطأ للانحدار، أو خسارة الانتروبيا المتقاطعة للتصنيف، أو الاحتمال الجزئي السلبي لنماذج المخاطر النسبية. انظر الملحق [appendix:loss] لمزيد من التفاصيل.
\(\rho_\lambda\) دالة عقوبة مقعَّرة بمعامل \(\lambda\ge0\). نجمع الاتصالات الخارجة من كل خلية عصبية مدخلة كمجموعة، ونطبق \(\rho_\lambda\) على القاعدة \(l_2\) لمتجه الوزن لتقليص مجموعات أوزان معينة إلى الصفر، مما يؤدي إلى اختيار فرعي لمجموعة المتغيرات الأصلية.
\(\alpha\|\bw\|_2^2\) مع \(\alpha>0\) تمثل تنظيمًا شائكًا لمنع الإفراط في التخصيص. يعتمد اختيار الميزات فقط على \(\rho_\lambda\) في طبقة الإدخال، بينما يوازن التنظيم الشائك الأوزان عبر الطبقات ويعزز ثبات النموذج.
عندما تكون عدد الطبقات المخفية \(D=0\)، يتحول النموذج إلى دالة خطية، ويصبح ([eq:obj]) إطار عمل الشبكة المرنة (zou2005regularization)، SCAD-\(L_2\) (zeng2014group)، وMnet (huang2016mnet) باختيار عقوبة \(\rho_\lambda\) على التوالي لتكون LASSO، SCAD، وMCP.
توجد عدة عقوبات تقعُّرية لتعزيز الندرة، مثل الانتقاء المطلق الأقل شمولًا (LASSO) (tibshirani1996regression)، والانتقاء المطلق المتقارب (SCAD) (fan2001variable)، والانتقاء المطلق المتعدد (MCP) (zhang2010nearly). عند تطبيق أيٍّ منها على القاعدة \(l_2\) لمعاملات كل مجموعة متغيرات، تنتج طرق تنظيم المجموعات مثل:
تنظيم المجموعات بـ LASSO (group LASSO) (yuan2006model): \[\rho_\lambda(t)=\lambda|t|.\]
تنظيم المجموعات بـ SCAD (group SCAD) (guo2015model): \[ \rho_\lambda(t)= \begin{cases} \lambda|t|, & |t|\le\lambda,\\ -\frac{t^2-2a\lambda|t|+\lambda^2}{2(a-1)}, & \lambda<|t|\le a\lambda,\\ \frac{(a+1)\lambda^2}{2}, & |t|>a\lambda, \end{cases} \] حيث \(a>2\).
تنظيم المجموعات بـ MCP (group MCP) (huang2012selective): \[\rho_\lambda(t)=\mathrm{sign}(t)\,\lambda\int_{0}^{|t|}\Bigl(1-\frac{z}{\lambda a}\Bigr)_+dz,\] حيث \(a>0\).
أثبتت الدراسات النظرية والتجريبية أن العقوبات التقعُّرية مثل SCAD وMCP تتفوق على LASSO في دقة اختيار الميزات والتنبؤ (fan2001variable, zhang2010nearly). بعكس LASSO المحدبة التي تنحاز نحو التقليل المفرط للمعاملات الكبيرة وتؤدي إلى اختيار غير متسق للميزات، تقلل العقوبات التقعُّرية التحيّز وتُعزّز دقة النموذج عبر تقليل تدريجي لمعدل العقوبة حتى ينعدم عند \(t>a\lambda\). لذا نقترح استخدام تنظيم المجموعات التقعُّرية في إطار عملنا لاختيار الميزات وتقدير الدالة في آن واحد.