شَبَكَة عَصَبِيَّة ذات مدخلات مُتَناثِرَة باستخدام تَنْظِيم مُقَعَّر جَماعِيّ

Bin Luo

Susan Halabi

latex

مُلَخَّص

تُعَدّ عَمَلِيَّة اختيار الميزات وتقدير الدوال غير الخطية في آنٍ واحد تحديًا، خاصة في السياقات ذات الأبعاد العالية حيث يتجاوز عدد المتغيرات حجم العينة المتاحة في التنميط. في هذه المقالة، نستكشف مشكلة اختيار الميزات في الشبكات العصبية. على الرغم من استخدام LASSO الجماعي لاختيار المتغيرات في التعلم مع الشبكات العصبية، إلا أنه يميل إلى اختيار متغيرات غير مهمة في النموذج لتعويض تقليصه الزائد. للتغلب على هذا القيد، نقترح إطارًا للشبكات العصبية ذات المدخلات المتناثرة باستخدام تنظيم مقعر جماعي لاختيار الميزات في الإعدادات ذات الأبعاد المنخفضة والعالية. الفكرة الرئيسية هي تطبيق عقوبة مقعرة مناسبة على قاعدة \(l_2\) للأوزان من جميع الاتصالات الخارجة لكل عقدة إدخال، وبالتالي الحصول على شبكة عصبية تستخدم فقط مجموعة فرعية صغيرة من المتغيرات الأصلية. بالإضافة إلى ذلك، نطور خوارزمية فعالة تعتمد على التحسين المساري العكسي لإنتاج مسارات حل مستقرة، من أجل التعامل مع تحدي المناظر الطبيعية المعقدة للتحسين. تظهر دراسات المحاكاة الواسعة وأمثلة البيانات الحقيقية التي أجريناها أداءً مرضيًا للعينات المحدودة للمقدر المقترح، في اختيار الميزات والتنبؤ لنمذجة النتائج المستمرة والثنائية ووقت الحدث.

مُقَدِّمَة

في العقد الماضي، أدت التطورات في الاختبارات الجزيئية والتصوير وغيرها من الاختبارات المخبرية إلى زيادة الاهتمام بتحليل البيانات ذات الأبعاد العالية. تشير البيانات ذات الأبعاد العالية إلى مجموعة بيانات تحتوي على عدد كبير من المتغيرات الملحوظة مقارنة بحجم العينة الصغير، مما يشكل تحديًا كبيرًا في بناء نماذج دقيقة وقابلة للتفسير. على سبيل المثال، في علم الأحياء الحيوي، يتم استخدام مئات الآلاف من تعبيرات الحمض النووي الريبي وبيانات دراسة الارتباط الجيني الواسعة وبيانات الميكروأري لفهم بيولوجيا الأمراض، مع مشاركة مئات المرضى فقط (visscher2012five, hertz2016pharmacogenetic, kim2016high, beltran2017impact). لمعالجة لعنة الأبعاد، أصبح اختيار الميزات خطوة حاسمة في تحليل البيانات ذات الأبعاد العالية. من خلال تحديد الميزات الأكثر تمثيلاً لوصف بيولوجيا الأمراض أو النتائج، يمكن لطرق اختيار الميزات زيادة قابلية تفسير النموذج وتحسين تعميم النموذج.

هناك طرق مختلفة لاختيار الميزات، بما في ذلك طرق الفلترة (koller1996toward, guyon2003introduction, gu2012generalized)، وطرق التغليف (kohavi1997wrappers, inza2004filter, tang2014feature)، والطرق المضمنة (tibshirani1996regression,zou2006adaptive, fan2001variable,zhang2010nearly). من بينها، أصبحت طرق الانحدار المعاقب شائعة جدًا في تحليل البيانات ذات الأبعاد العالية منذ تقديم مشغل الانكماش والاختيار المطلق الأدنى (LASSO) (tibshirani1996regression). يمكن لطريقة الانحدار المعاقب أن تؤدي تقدير المعاملات واختيار الميزات في آن واحد من خلال تقليص بعض معاملات المعلمات إلى أصفار دقيقة. بينما تم استخدام LASSO على نطاق واسع للحصول على تقديرات متناثرة في التعلم الآلي والإحصاء، فإنه يميل إلى اختيار متغيرات غير مهمة لتعويض الانكماش الزائد للمتغيرات ذات الصلة (zou2006adaptive). لمعالجة التحيز وعدم اتساق اختيار الميزات لـ LASSO، تم اقتراح عدة طرق، بما في ذلك LASSO التكيفي (zou2006adaptive)، وعقوبة الحد الأدنى المقعر (MCP) (zhang2010nearly)، وانحراف الانقطاع المطلق السلس (SCAD) (fan2001variable).

ومع ذلك، فإن معظم هذه الطرق المعاقبة تفترض خطية في العلاقة بين المتغيرات والنتائج، بينما قد لا تكون الصيغة الوظيفية الفعلية للعلاقة متاحة في العديد من التطبيقات. تم اقتراح بعض التوسعات غير البارامترية الإضافية لحل هذه المشكلة (cosso,ravikumar2009sparse,meier2009high)، ولكن نماذجها تعتمد على مجموعات الدوال أحادية البعد أو منخفضة البعد وقد لا تكون قادرة على التقاط التفاعلات المعقدة بين المتغيرات المتعددة. يقترح (yamada2014high) نهج HSIC-LASSO الذي يستفيد من تعلم النواة لاختيار الميزات مع كشف التفاعلات غير الخطية للميزات. ومع ذلك، فإنه يعاني من التوسع التربيعي في التعقيد الحسابي بالنسبة لعدد الملاحظات.

تُعَدّ الشبكات العصبية أدوات قوية لنمذجة العلاقات المعقدة في مجموعة واسعة من التطبيقات، من التعرف على الصور (krizhevsky2017imagenet, he2016deep) والتعرف على الكلام (graves2013speech, chan2016listen) إلى معالجة اللغة الطبيعية (young2018recent, devlin2018bert) والتنبؤ المالي (fischer2018deep). تم تحقيق أدائها المتقدم من خلال الموارد الحسابية القوية واستخدام أحجام عينات كبيرة. على الرغم من ذلك، فإن البيانات ذات الأبعاد العالية لا تزال يمكن أن تؤدي إلى التركيب الزائد وضعف أداء التعميم للشبكات العصبية (liu2017deep). مؤخرًا، كانت هناك تطورات جديدة في استخدام الشبكات العصبية المنتظمة لاختيار الميزات أو تحليل البيانات ذات الأبعاد العالية. تركز سلسلة من الأبحاث على استخدام الشبكات العصبية المنتظمة، وخاصة باستخدام تقنية LASSO الجماعية لتعزيز التفرق بين عقد الإدخال (liu2017deep, scardapane2017group, feng2017sparse). تعتبر هذه الطرق جميع الاتصالات الصادرة من عصبون إدخال واحد كمجموعة وتطبق عقوبة LASSO على قاعدة \(l_2\) لمتجهات الوزن لكل مجموعة. يمكن العثور على شبكات عصبية أخرى منتظمة بـ LASSO في اختيار الميزات في أعمال (li2016deep) و(lemhadri2021lassonet). ومع ذلك، فإن الشبكات العصبية المنتظمة التي تدمج LASSO تعاني من ميل إلى الانكماش الزائد لوزن المتغيرات ذات الصلة غير الصفرية وتضم العديد من الإيجابيات الخاطئة في النموذج المختار. تم استخدام LASSO التكيفي لتخفيف هذه المشكلة (dinh2020consistent)، ومع ذلك، فإن نتائجهم محدودة بالنتائج المستمرة وتفترض أن وظيفة الوسيط الشرطي هي بالضبط شبكة عصبية. تجاوز العمل في (yamada2020feature) تنظيم \(l_1\) من خلال إدخال بوابات عشوائية إلى طبقة الإدخال للشبكات العصبية. اعتبروا تنظيمًا شبيهًا بـ \(l_0\) استنادًا إلى استرخاء مستمر لتوزيع برنولي. ومع ذلك، تتطلب طريقتهم قيمة قطع لاختيار المتغيرات ذات الإشارات الضعيفة، ولا تستطيع البوابة العشوائية استبعاد المتغيرات غير المختارة بشكل كامل خلال مراحل التدريب والتنبؤ للنموذج.

في هذه الورقة، نقترح إطارًا جديدًا للشبكات العصبية ذات الإدخال المتناثر باستخدام تنظيم مقعر جماعي للتغلب على قيود طرق اختيار الميزات الحالية. على الرغم من أن العقوبات المقعرة مثل MCP وSCAD قد أظهرت أداءً جيدًا في الإعدادات النظرية والعددية لاختيار الميزات والتنبؤ، إلا أنها لم تتلق نفس مستوى الاهتمام مثل LASSO في سياق التعلم الآلي. يهدف إطارنا المقترح إلى لفت الانتباه إلى الإمكانات غير المستغلة للعقوبة المقعرة لاختيار الميزات في الشبكات العصبية، من خلال توفير نهج شامل لاختيار الميزات وتقدير الدوال في كل من الإعدادات منخفضة الأبعاد وذات الأبعاد العالية. على وجه الخصوص، تعتبر طريقتنا المقترحة جميع الاتصالات الصادرة من عصبون إدخال واحد كمجموعة وتطبق عقوبة مقعرة مناسبة على قاعدة \(l_2\) للأوزان لكل مجموعة. من خلال تقليص جميع الأوزان لمجموعات معينة إلى أصفار دقيقة، فإنه يحصل على شبكة عصبية تستخدم مجموعة صغيرة فقط من المتغيرات. بالإضافة إلى ذلك، طورنا خوارزمية فعالة استنادًا إلى التحسين المساري العكسي الذي ينتج مسارات حل مستقرة، لمواجهة تحدي المناظر الطبيعية المعقدة للتحسين. تظهر دراسات المحاكاة لدينا وأمثلة البيانات الحقيقية أداء العينة المحدودة المرضي للتنظيم المقعر الجماعي، والذي يتفوق على الطرق الحالية من حيث اختيار الميزات ودقة التنبؤ لنمذجة النتائج المستمرة والثنائية ووقت الحدث.

يتم تنظيم بقية هذه المقالة على النحو التالي. في القسم 2، نصيغ مشكلة اختيار الميزات لنموذج غير بارامتري عام ونقدم طريقتنا المقترحة. يتم تقديم تنفيذ الطريقة، بما في ذلك خوارزمية الانحدار التدرجي المركب والتحسين المساري العكسي، في القسم 3.

القسم 4

نجري دراسات محاكاة واسعة النطاق لإظهار أداء الطريقة المقترحة.

القسم 5

يتم تقديم تطبيق الطريقة على مجموعات بيانات واقعية.

القسم 6

أخيرًا، نناقش النتائج وتأثيراتها.

الطريقة

إعداد المشكلة

لنفترض أن \(X \in \RR^d\) هو متجه عشوائي ذو بعد \(d\) و\(Y\) هو متغير الاستجابة. نفترض أن التوزيع الشرطي \(P_{Y|X}\) يعتمد على شكل \(f(X_S)\) بدالة \(f \in F\) ومجموعة فرعية من المتغيرات \(S \subseteq \{1, \cdots, d\}\). نحن مهتمون بتحديد المجموعة الحقيقية \(S\) للمتغيرات الهامة وتقدير الدالة \(f\) بحيث يمكننا التنبؤ بـ\(Y\) استنادًا إلى المتغير المختار \(X_S\).

على مستوى السكان، نهدف إلى تقليل الخسارة \[\min_{f\in F, S} \EE_{X, Y} \ell(f(X_S), Y)\] حيث \(\ell\) هي دالة خسارة مصممة لمشكلة محددة. في الإعدادات العملية، غالبًا ما يكون توزيع \((X, Y)\) غير معروف، وبدلاً من ذلك يتوفر عينة عشوائية مستقلة ومتطابقة التوزيع (i.i.d.) بحجم \(n\)، تتكون من أزواج من الملاحظات \({(X_i, Y_i)}_{i=1}^n\). بالإضافة إلى ذلك، إذا كان عدد المتغيرات \(d\) كبيرًا، فإن البحث الشامل عن جميع المجموعات الفرعية الممكنة \(S\) يصبح غير قابل للتطبيق من الناحية الحسابية. علاوة على ذلك، لا نفترض أي شكل محدد للدالة المجهولة \(f\) ونهدف إلى تقريب \(f\) بطريقة غير معلمية باستخدام الشبكات العصبية. وبالتالي، هدفنا هو تطوير طريقة فعالة يمكنها في الوقت نفسه اختيار مجموعة فرعية من المتغيرات \(S\) وتقريب الحل \(f\) لأي فئة معينة من الدوال باستخدام شبكة عصبية ذات مدخلات متناثرة.

الإطار المقترح

ننظر في مقدرات الدوال المبنية على الشبكات العصبية الأمامية. لنفترض أن \(\mathcal{F}_n\) هي فئة من الشبكات العصبية الأمامية \(f_\bw: \RR^d \mapsto \RR\) بمعامل \(\bw\). يمكن التعبير عن بنية الشبكة العصبية متعددة الطبقات (MLP) كتركيب لسلسلة من الدوال \[f_\bw(x)=L_D \circ \sigma \circ L_{D-1} \circ \sigma \circ \cdots \circ \sigma \circ L_{1} \circ \sigma \circ L_{0}(x), x \in \RR^d,\] حيث يشير \(\circ\) إلى تركيب الدوال و\(\sigma(x)\) هي دالة التنشيط المحددة لكل مكون من \(x\). بالإضافة إلى ذلك، \[L_i(x) = \bW_ix + b_i, i=0, 1, \dots, \mD,\] حيث \(\bW_i \in \RR^{d_{i+1} \times d_{i} }\) هي مصفوفة الوزن، \(D\) هو عدد الطبقات المخفية، \(d_i\) هو العرض المحدد كعدد الخلايا العصبية للطبقة \(i\)-th بحيث \(d_0=d\)، و\(b_i \in \RR^{d_{i+1}}\) هو متجه الانحياز في التحويل الخطي \(i\)-th \(L_i\). لاحظ أن المتجه \(\bw \in \RR^P\) هو تجميع الأعمدة لجميع المعاملات في \(\{\bW_i, b_i: i=0, 1, \dots, \mD\}\). نعرف الخسارة التجريبية لـ \(f_\bw\) كما يلي \[\mL_n(\bw)= \frac{1}{n} \sum_{i=1}^n \ell(f_\bw(X_i), Y_i).\]

السيناريو المثالي هو أن يكون لدينا شبكة عصبية بمدخلات متناثرة \(f_\bw\) تأخذ الإشارات فقط من المتغيرات المهمة، بمعنى أن \(\bW_{0,j}=\b0\) لـ \(j \notin S\)، حيث \(\bW_{0,j}\) يشير إلى المتجه العمودي \(j\)-th من \(\bW_0\). من أجل تقليل الخسارة التجريبية \(\mL_n(\bw)\) مع تحفيز التفرقة في \(\bW_0\)، نقترح تدريب الشبكة العصبية بتقليل الخسارة التجريبية المنتظمة للمجموعة التالية

\[\label{eq:obj} \hat{\bw} = \argmin_{\bw \in \RR^P} \left \{\mL_n(\bw) + \sum_{j=1}^d \rho_\lambda(\|\bW_{0,j}\|_2)+ \alpha \|\bw\|_2^2 \right\},\]

حيث \(\|\cdot\|_2\) تشير إلى القاعدة الإقليدية لمتجه.

تتكون الدالة الهدف في المعادلة ([eq:obj]) من ثلاثة مكونات:

لاحظ أنه عندما يكون عدد الطبقات المخفية \(D=0\)، تتقلص الدالة \(f_\bw\) إلى دالة خطية، ويصبح مشكلة التحسين في المعادلة ([eq:obj]) إطار عمل الشبكة المرنة (zou2005regularization)، SCAD-\(L_2\) (zeng2014group)، وMnet (huang2016mnet)، مع اختيار \(\rho_{\lambda}\) ليكون LASSO، SCAD، وMCP، على التوالي.

تنظيم التقعر

هناك العديد من دوال العقوبة المستخدمة بشكل شائع والتي تشجع على الندرة في الحل، مثل الانتقاء المطلق الأقل شمولاً (Least Absolute Shrinkage and Selection Operator) (tibshirani1996regression)، والانتقاء المطلق المتقارب (Smoothly Clipped Absolute Deviation) (fan2001variable)، والانتقاء المطلق المتعدد (Minimax Concavity Penalty) (zhang2010nearly). عند تطبيقها على قاعدة \(l_2\) للمعاملات المرتبطة بكل مجموعة من المتغيرات، تؤدي هذه دوال العقوبة إلى طرق تنظيم المجموعات، بما في ذلك تنظيم المجموعات للانتقاء المطلق الأقل شمولاً (group Least Absolute Shrinkage and Selection Operator) (yuan2006model)، وتنظيم المجموعات للانتقاء المطلق المتقارب (group Smoothly Clipped Absolute Deviation) (guo2015model)، وتنظيم المجموعات للانتقاء المطلق المتعدد (group Minimax Concavity Penalty) (huang2012selective). على وجه التحديد، يتم تعريف الانتقاء المطلق الأقل شمولاً، والانتقاء المطلق المتقارب، والانتقاء المطلق المتعدد كما يلي.

لقد تم إثبات، نظريًا وعدديًا، أن طرق تنظيم التقعر مثل الانتقاء المطلق المتقارب والانتقاء المطلق المتعدد تظهر أداءً قويًا من حيث اختيار الميزات والتنبؤ (fan2001variable, zhang2010nearly). على عكس عقوبة الانتقاء المطلق الأقل شمولاً المحدبة، التي تميل إلى التنظيم الزائد للمصطلحات الكبيرة وتوفير اختيار ميزات غير متسق، يمكن للتنظيم التقعري تقليل تحيز الانتقاء المطلق الأقل شمولاً وتحسين دقة اختيار النموذج. الأساس وراء العقوبة التقعرية يكمن في سلوك مشتقاتها. على وجه التحديد، يُطبق الانتقاء المطلق المتقارب والانتقاء المطلق المتعدد في البداية نفس مستوى العقوبة كما في الانتقاء المطلق الأقل شمولاً، ولكن يقلل تدريجيًا من معدل العقوبة حتى ينخفض إلى الصفر عندما \(t > a\lambda\). نظرًا لفوائد العقوبة التقعرية، نقترح استخدام تنظيم المجموعات التقعري في إطار عملنا لاختيار الميزات وتقدير الدالة في آن واحد.