latex
مُلَخَّص
تُعَدّ عملية اختيار الميزات وتقدير الدوال غير الخطية في آنٍ واحد تحديًا، خاصة في سياقات الأبعاد العالية حيث يتجاوز عدد المتغيرات حجم العينة المتاحة في دراسات التنميط. في هذه المقالة، نستكشف مشكلة اختيار الميزات في الشبكات العصبية. على الرغم من استخدام LASSO الجماعي لاختيار المتغيرات في التعلم مع الشبكات العصبية، إلا أنه يميل إلى اختيار متغيرات غير مهمة في النموذج لتعويض انكماشه الزائد. للتغلب على هذا القيد، نقترح إطارًا للشبكات العصبية ذات المدخلات المتناثرة باستخدام تنظيم مقعر جماعي لاختيار الميزات في الإعدادات منخفضة وعالية الأبعاد. الفكرة الرئيسية هي تطبيق عقوبة مقعرة مناسبة على قاعدة \(l_2\) للأوزان من جميع الاتصالات الخارجة لكل عقدة إدخال، بما يؤدي إلى شبكة عصبية تستخدم فقط مجموعة فرعية صغيرة من المتغيرات الأصلية. بالإضافة إلى ذلك، نطور خوارزمية فعالة استنادًا إلى التحسين المساري العكسي لإنتاج مسارات حل مستقرة، لمواجهة التحديات الناجمة عن الطبيعة المعقدة لمسألة التحسين. تظهر دراسات المحاكاة الواسعة وأمثلة البيانات الحقيقية التي أجريناها أداءً مرضيًا في ظل عينات محدودة للمقدر المقترح، سواء في اختيار الميزات أو في دقة التنبؤ لنمذجة النتائج المستمرة والثنائية ووقت الحدث.
مُقَدِّمَة
في العقد الماضي، أدت التطورات في الاختبارات الجزيئية والتصوير وغيرها من التقنيات المخبرية إلى زيادة الاهتمام بتحليل البيانات عالية الأبعاد. تشير هذه البيانات إلى مجموعات تحتوي على عدد هائل من المتغيرات مقارنة بحجم العينة المحدود، مما يشكل تحديًا كبيرًا في بناء نماذج دقيقة وقابلة للتفسير. على سبيل المثال، في علم الأحياء الحيوي، تُستخدم مئات الآلاف من قياسات تعبير الحمض النووي الريبي وبيانات دراسة الارتباط الجيني وميكروأري لفهم بيولوجيا الأمراض، مع مشاركة مئات المرضى فقط (visscher2012five, hertz2016pharmacogenetic, kim2016high, beltran2017impact). لمعالجة لعنة الأبعاد، أصبح اختيار الميزات خطوة حاسمة في تحليل البيانات ذات الأبعاد العالية. من خلال تحديد الخصائص الأكثر تمثيلًا لبيولوجيا الأمراض أو للنتائج، يمكن لأساليب اختيار الميزات زيادة قابلية تفسير النموذج وتعزيز قدرته على التعميم.
هناك استراتيجيات مختلفة لاختيار الميزات، بما في ذلك أساليب الفلترة (koller1996toward, guyon2003introduction, gu2012generalized)، وطرق التغليف (kohavi1997wrappers, inza2004filter, tang2014feature)، والطرق المضمنة (tibshirani1996regression, zou2006adaptive, fan2001variable, zhang2010nearly). من بينها، أصبحت طرق الانحدار المعاقب شائعة جدًا في تحليل البيانات عالية الأبعاد منذ تقديم مشغل الانكماش والاختيار المطلق الأدنى (LASSO) (tibshirani1996regression). تتيح هذه الطرق إجراء تقدير المعاملات واختيار الميزات في آن واحد عن طريق تحجيم بعض معاملات المعلمات إلى صفر دقيق. ومع أن LASSO يستخدم على نطاق واسع للحصول على تمثيلات متناثرة في التعلم الآلي والإحصاء، فإنه يعاني من ميل لاختيار متغيرات غير مهمة لتعويض الانكماش الزائد للمتغيرات ذات الأثر الحقيقي (zou2006adaptive). وللتغلب على التحيز وعدم اتساق اختيار الميزات في LASSO، تم اقتراح عدة توسيعات، مثل الـLASSO التكيفي (zou2006adaptive)، وعقوبة الحد الأدنى المقعر (MCP) (zhang2010nearly)، وانحراف الانقطاع المطلق السلس (SCAD) (fan2001variable).
ومع ذلك، تفترض معظم هذه الطُرُق علاقة خطية بين المتغيرات والنتائج، في حين قد تكون العلاقة الفعلية غير خطية في كثير من التطبيقات. طُرِحَت بعض التوسعات غير البارامترية (cosso, ravikumar2009sparse, meier2009high)، لكن نماذجها تعتمد على مجموعات دوال أحادية أو قليلة الأبعاد، مما قد يعيق قدرتها على التقاط التفاعلات المعقدة بين المتغيرات. كما اقترحت أعمال مثل (yamada2014high) منهج HSIC-LASSO الذي يستفيد من تعلم النواة لكشف التفاعلات غير الخطية للميزات، إلا أنه يعاني من تعقيد حسابي تربيعي في عدد الملاحظات.
تُعَدّ الشبكات العصبية أدوات قوية لنمذجة العلاقات المعقدة في تطبيقات عدة، من التعرف على الصور (krizhevsky2017imagenet, he2016deep) والكلام (graves2013speech, chan2016listen) إلى معالجة اللغة الطبيعية (young2018recent, devlin2018bert) والتنبؤ المالي (fischer2018deep). ويعزى أداؤها المتفوق إلى الموارد الحسابية الكبيرة وأحجام العينات الضخمة. مع ذلك، قد تؤدي البيانات عالية الأبعاد إلى الإفراط في التخصيص وضعف قدرة الشبكات العصبية على التعميم (liu2017deep). مؤخرًا، برزت أساليب تعتمد على تنظيم الشبكات العصبية لاختيار الميزات في سياق البيانات عالية الأبعاد، مع تركيز خاص على LASSO الجماعي لتعزيز تفرق الاتصالات من عقد الإدخال (liu2017deep, scardapane2017group, feng2017sparse). تنظر هذه الأساليب إلى الاتصالات الخارجة من كل خلية عصبية مدخلة كمجموعة وتطبق عقوبة LASSO على قاعدة \(l_2\) لمتجهات الوزن. وفي أعمال أخرى (li2016deep, lemhadri2021lassonet) تمّ دمج هذه الفكرة لاختيار الميزات في الشبكات العصبية. غير أن التنظيم القائم على LASSO يعاني من انكماش مفرط في الأوزان الحقيقية وغير ذلك من الإيجابيات الخاطئة. ولتخفيف هذه المشكلة، استُخدم LASSO التكيفي (dinh2020consistent)، لكنه ظل محدودًا بالنتائج المستمرة ويفترض أن دالة الوسيط الشرطي مُعَبَّرٌ عنها بشبكة عصبية دقيقة. كما حاولت دراسات أخرى (yamada2020feature) إدخال بوابات عشوائية لتقريب تنظيم \(l_0\)، لكنها تتطلب قيمة قطع لتمييز الإشارات الضعيفة ولا تستبعد بعض المتغيرات تمامًا خلال التدريب والتنبؤ.
في هذه الورقة، نقترح إطارًا جديدًا للشبكات العصبية ذات المدخلات المتناثرة باستخدام تنظيم مقعر جماعي للتغلب على قيود أساليب اختيار الميزات الحالية. على الرغم من أن عقوبات التقعر مثل MCP وSCAD قد أظهرت أداءً جيدًا في الإعدادات النظرية والعددية لاختيار الميزات والتنبؤ، إلا أنها لم تحظَ بنفس القدر من الاهتمام مقارنة بـLASSO في أوساط التعلم الآلي. يهدف إطارنا إلى تسليط الضوء على الإمكانات غير المستغلة للعقوبات التقعرية لاختيار الميزات في الشبكات العصبية، من خلال تقديم مقاربة شاملة تجمع بين اختيار الميزات وتقدير الدوال في الإعدادات منخفضة وعالية الأبعاد. بوجه خاص، تعتبر طريقتنا الاتصالات الخارجة من كل عصبون إدخال كمجموعة واحدة وتطبق عقوبة مقعرة على قاعدة \(l_2\) لمتجهات الوزن لكل مجموعة. فعند تقليص الأوزان لمجموعات معينة إلى صفر دقيق، نحصل على شبكة عصبية تشتغل على مجموعة محدودة من المتغيرات. بالإضافة إلى ذلك، طورنا خوارزمية فعالة استنادًا إلى التحسين المساري العكسي لإنتاج مسارات حل مستقرة، لما يفرضه المنظر الطبيعي المعقد لمسألة التحسين. وتظهر دراسات المحاكاة وأمثلة البيانات الحقيقية أداءً متميزًا للمقدر المقترح، متفوقًا على الأساليب الحالية في اختيار الميزات ودقة التنبؤ لنمذجة النتائج المستمرة، والثنائية، ووقت الحدث.
يتم تنظيم بقية هذه المقالة على النحو التالي. في القسم 2، نصوغ مشكلة اختيار الميزات لنموذج غير بارامتري عام ونقدم طريقتنا المقترحة. يتم طرح تنفيذ الطريقة، بما في ذلك خوارزمية الانحدار التدرجي المركب والتحسين المساري العكسي، في القسم 3.
القسم 4
نجري دراسات محاكاة واسعة النطاق لإظهار أداء الطريقة المقترحة.
القسم 5
نقدّم تطبيق الطريقة على مجموعات بيانات واقعية متنوعة.
القسم 6
أخيرًا، نناقش النتائج واستنتاجاتها وتأثيراتها المحتملة.
الطريقة
إعداد المشكلة
لنفترض أن \(X \in \mathbb{R}^d\) متجه عشوائي ذي بُعد \(d\) و\(Y\) متغير الاستجابة. نفترض أن التوزيع الشرطي \(P_{Y|X}\) يعتمد على الشكل \(f(X_S)\) حيث \(f \in F\) ومجموعة فرعية من المتغيرات \(S \subseteq \{1, \dots, d\}\). نريد تحديد المجموعة الحقيقية \(S\) للمتغيرات المؤثرة وتقدير الدالة \(f\) بحيث يمكن التنبؤ بـ\(Y\) اعتمادًا على المتغيرات المختارة \(X_S\).
على مستوى السكان، نهدف إلى تقليل الخسارة \[ \min_{f\in F, S} \mathbb{E}_{X, Y} \ell(f(X_S), Y) \] حيث تمثل \(\ell\) دالة خسارة مناسبة للمهمة. عمليًا، غالبًا لا يُعرف توزيع \( (X, Y)\)، ويتوفر بدلًا عنه عيّنات i.i.d. بحجم \(n\)، مكوّنة من أزواج \(\{(X_i, Y_i)\}_{i=1}^n\). وعندما يكون \(d\) كبيرًا، يصبح البحث عن جميع المجموعات الفرعية ممكنًا غير عملي. بالإضافة لذلك، لا نفترض شكلًا محددًا للدالة المجهولة \(f\)، بل نسعى لتمثيلها بطريقة غير معلمية عن طريق الشبكات العصبية. بناءً عليه، هدفنا تطوير طريقة فعالة تختار في الوقت نفسه مجموعة فرعية من المتغيرات \(S\) وتقرّب الدالة \(f\) باستخدام شبكة عصبية ذات مدخلات متناثرة.
الإطار المقترح
نفترض شبكة عصبية أمامية تنتمي إلى فئة \(\mathcal{F}_n\)، إذ يعبر كل نموذج عنها بالتابع \(f_\mathbf{w}: \mathbb{R}^d \to \mathbb{R}\) بمعاملات \(\mathbf{w}\). تتكوَّن الشبكة متعددة الطبقات (MLP) من تركيب دوال خطية وتنشيط:
\[ f_\mathbf{w}(x) = L_D \circ \sigma \circ L_{D-1} \circ \sigma \circ \cdots \circ \sigma \circ L_1 \circ \sigma \circ L_0(x), \]
حيث \(L_i(x) = \mathbf{W}_i x + b_i\)، و\( \mathbf{W}_i \in \mathbb{R}^{d_{i+1} \times d_i}\) مصفوفة الأوزان، و\(b_i \in \mathbb{R}^{d_{i+1}}\) متجه الانحياز للطبقة \(i\)، ودالة التنشيط \(\sigma(\cdot)\). يُجمع متجه \(\mathbf{w}\) في جميع معاملات \(\{\mathbf{W}_i, b_i: i=0,\dots,D\}\) ليكوّن فضاء الأبعاد \(P\). نعرّف الخسارة التجريبية:
\[ \mathcal{L}_n(\mathbf{w}) = \frac{1}{n} \sum_{i=1}^n \ell\bigl(f_\mathbf{w}(X_i), Y_i\bigr). \]
السيناريو المثالي هو وجود شبكة بعناصر إدخال متناثرة \(f_\mathbf{w}\) تقرأ إشارات فقط من المتغيرات المهمة، أي أن \(\mathbf{W}_{0,j} = \mathbf{0}\) لكل \(j \notin S\)، حيث \(\mathbf{W}_{0,j}\) العمود الرأسي رقم \(j\) من \(\mathbf{W}_0\). ولتحفيز التفرق في \(\mathbf{W}_0\) وتقليل الخسارة التجريبية، ندرب الشبكة على تعظيم الدقة مع ضبط أوزان الإدخال عن طريق حل:
\[ \hat{\mathbf{w}} = \arg\min_{\mathbf{w} \in \mathbb{R}^P} \left\{ \mathcal{L}_n(\mathbf{w}) + \sum_{j=1}^d \rho_\lambda\left( \|\mathbf{W}_{0,j}\|_2 \right) + \alpha \|\mathbf{w}\|_2^2 \right\}, \]
حيث تشير \(\|\cdot\|_2\) إلى القاعدة الإقليدية.
تتكون الدالة الهدف في المعادلة أعلاه من ثلاثة مكونات:
\(\mathcal{L}_n(\mathbf{w})\) الخسارة التجريبية، مثل متوسط مربعات الخطأ للانحدار، وخسارة الانتروبيا المتقاطعة للتصنيف، والاحتمال الجزئي السلبي لنماذج المخاطر النسبية. انظر الملحق [appendix:loss] لمزيد من التفاصيل.
\(\rho_\lambda\) دالة عقوبة مقعرة بمعامل \(\lambda \ge 0\). نجمع الاتصالات الخارجة من كل خلية عصبية مدخلة كمجموعة، ونطبق \(\rho_\lambda\) على قاعدة \(l_2\) لمتجه الوزن لتقليص مجموعات أوزان معينة إلى صفر، مما يؤدي إلى اختيار فرعي لمجموعة المتغيرات الأصلية.
\(\alpha \|\mathbf{w}\|_2^2\) مع \(\alpha > 0\) تمثل تنظيمًا شائكًا لمنع الإفراط في التخصيص. تعتمد عملية اختيار الميزات فقط على \(\rho_\lambda\) في طبقة الإدخال، بينما يوازن التنظيم الشائك بين الأوزان عبر الطبقات ويعزز ثبات النموذج.
عندما تكون عدد الطبقات المخفية \(D=0\)، يقل النموذج إلى دالة خطية، ويصبح الإطار أعلاه هو إطار عمل الشبكة المرنة (zou2005regularization)، SCAD-\(L_2\) (zeng2014group)، وMnet (huang2016mnet) باختيار عقوبة \(\rho_\lambda\) على التوالي لتكون LASSO، SCAD، وMCP.
تنظيم التقعر
توجد عدة عقوبات تقعرية لتعزيز الندرة، مثل الانتقاء المطلق الأقل شمولاً (LASSO) (tibshirani1996regression)، والانتقاء المطلق المتقارب (SCAD) (fan2001variable)، والانتقاء المطلق المتعدد (MCP) (zhang2010nearly). عند تطبيق أيٍّ منها على قاعدة \(l_2\) لمعاملات كل مجموعة متغيرات، تنتج طرق تنظيم المجموعات مثل:
تنظيم المجموعات بـ LASSO (group LASSO) (yuan2006model): \[ \rho_\lambda(t) = \lambda |t|. \]
تنظيم المجموعات بـ SCAD (group SCAD) (guo2015model): \[ \rho_\lambda(t) = \begin{cases} \lambda |t|, & |t| \leq \lambda, \\ \frac{-(t^2 - 2a\lambda|t| + \lambda^2)}{2(a-1)}, & \lambda < |t| \leq a\lambda, \\ \frac{(a+1)\lambda^2}{2}, & |t| > a\lambda, \end{cases} \] حيث \(a > 2\).
تنظيم المجموعات بـ MCP (group MCP) (huang2012selective): \[ \rho_\lambda(t) = \mathrm{sign}(t)\, \lambda \int_{0}^{|t|} \left(1 - \frac{z}{\lambda a}\right)_+ dz, \] حيث \(a > 0\).
أثبتت دراسات نظرية وتجريبية أن العقوبات التقعرية مثل SCAD وMCP تتفوق على LASSO في دقة اختيار الميزات والتنبؤ (fan2001variable, zhang2010nearly). بعكس LASSO المحدبة التي تنحاز نحو التقليل المفرط للمعاملات الكبيرة وتؤدي إلى اختيار غير متسق للميزات، تقلل العقوبات التقعرية من التحيز وتُعزّز دقة النموذج عبر تقليل تدريجي في معدل العقوبة حتى ينعدم عند \(t > a\lambda\). لذا، نقترح استخدام تنظيم المجموعات التقعري في إطار عملنا لاختيار الميزات وتقدير الدالة في آنٍ واحد.