```html نحو استغلال AutoML للتعلم العميق المستدام: نهج تحسين الفعالية متعددة الأهداف على شبكات العصبونات العميقة المتغيرة

نحو استغلال AutoML للتعلم العميق المستدام: نهج تحسين الفعالية متعددة الأهداف على شبكات العصبونات العميقة المتغيرة

Leona Hennig, Tanja Tornede, Marius Lindauer

latex

مُلَخَّص

ساهم التعلم العميق في تقدم العديد من المجالات من خلال القدرة على استخراج الأنماط المعقدة من مجموعات البيانات الضخمة. ومع ذلك، فإن المتطلبات الحسابية الكبيرة لنماذج التعلم العميق تفرض تحديات بيئية واقتصادية تتعلق بالموارد. تقدم شبكات العصبونات العميقة المتغيرة حلاً من خلال استغلال عمليات الإزاحة لتقليل التعقيد الحسابي أثناء الاستدلال. استناداً إلى الرؤى المستخلصة من الشبكات العصبية التقليدية، نركز على استثمار الإمكانات الكاملة لهذه الشبكات عبر تقنيات AutoML. ندرس تأثير تحسين المعلمات الفائقة لتعظيم أداء الشبكات المتغيرة مع تقليل استهلاك الموارد. ونظراً لأن هذا يأخذ في الاعتبار كلاً من الدقة واستهلاك الطاقة كأهداف متنافسة، نقترح الجمع بين تحسين المعلمات الفائقة متعدد الأوجه والتحسين متعدد الأهداف. تظهر النتائج التجريبية فعالية نهجنا، حيث تؤدي إلى نماذج تصل دقتها إلى أكثر من 80% مع تكلفة حسابية منخفضة. بشكل عام، تُسرع طريقتنا عملية تطوير نماذج فعالة وتُمكّن تطبيقات الذكاء الاصطناعي المستدامة.

مقدمة

يُعَد التعلم العميق من أكثر النهج الواعدة لاستخراج المعلومات من مجموعات البيانات الكبيرة ذات الهياكل المعقدة. ويشمل ذلك إجراء الحسابات في بيئات إنترنت الأشياء وعلى أجهزة الحافة (DBLP:journals/network/LiOD18, DBLP:journals/pieee/ZhouCLZLZ19). مع الزيادة المستمرة في حجم وأداء هذه النماذج نتيجة التقدم في العلوم والصناعة، ينتج عنها تكلفة حسابية مرتفعة (DBLP:journals/pieee/SzeCYE17). تقليل هذه التكلفة يؤثر مباشرة على الأثر البيئي للنموذج (DBLP:journals/cacm/SchwartzDSE20)، وبالتالي يتاح تحرير الموارد لاستخدامها في مهام أخرى، مثل التطبيقات محدودة الموارد (DBLP:journals/corr/HowardZCKWWAA17). يسهم نهجنا في توسيع استخدام التعلم العميق في هذه البيئات ذات الموارد المحدودة.

تقدم شبكات العصبونات العميقة المتغيرة إمكانات كبيرة في تقليل استهلاك الطاقة مقارنة بنماذج التعلم العميق التقليدية (DBLP:conf/cvpr/ElhoushiCSTL21). بدلاً من العمليات الحسابية العائمة، تستفيد هذه الشبكات من عمليات الإزاحة—وتحديداً إزاحة البت—كوحدة حسابية، مما يعزز الكفاءة عبر استبدال عمليات الضرب المكلفة في الشبكات التلافيفية. نعتقد أن تكوين هذه الشبكات له تأثير واضح على كل من الأداء والكفاءة الحسابية.

أحد التحديات الرئيسية مع شبكات العصبونات العميقة المتغيرة هو تحديد مستوى الدقة المناسب لعمليات الإزاحة لتقليل أخطاء الكمية دون زيادة العبء الحسابي بشكل مفرط. في هذه الدراسة، نستفيد من شبكات العصبونات المتغيرة إلى جانب التعلم الآلي المؤتمت لاكتشاف التكوين الأمثل في إطار التعلم الآلي الأخضر (DBLP:journals/jair/TornedeTHMWH23). نعتمد على تحسين المعلمات الفائقة باستخدام إطار العمل SMAC3 الذي اقترح (DBLP:journals/jmlr/LindauerEFBDBRS22)، والذي يؤتمت البحث عن التكوينات المثلى. يسهّل دمج تقنيات التحسين متعدد الدقة ومتعدد الأهداف (Belakaria2020-re) استكشاف مساحة المعلمات الفائقة مع إعطاء الأولوية للأداء واستهلاك الطاقة في آن واحد (Deb2014). يؤدي تنفيذ SMAC للتحسين متعدد الأهداف إلى موازنة فعّالة بين تحقيق دقة تنبؤية عالية وتقليل استهلاك الطاقة. كما يسمح الجانب متعدد الدقة باستخدام الموارد الحسابية بكفاءة عبر تقييم التكوينات على مستويات متفاوتة من الدقة. ويوفر استخدام أدوات مثل CodeCarbon (DBLP:journals/corr/abs-1910-09700, DBLP:journals/corr/abs-1911-08354) خلال مراحل التدريب والتقييم رؤى في الوقت الفعلي عن استهلاك الطاقة وانبعاثات الكربون لكل تكوين نموذج.

بشكل عام، نقدم المساهمات التالية:

  1. فضاء تكوين مفصّل لشبكات العصبونات العميقة المتغيرة،

  2. نهج تعلم آلي أخضر لبناء نماذج موجهة نحو الكفاءة،

  3. رؤى حول قرارات التصميم لتحقيق توازن مثالي بين الدقة وكفاءة الطاقة، و

  4. دمج تقنيات التحسين متعدد الدقة ومتعدد الأهداف في SMAC لتعزيز فعالية التحسين واستخدام الموارد الحسابية.

الخلفية

يقدم هذا الفصل المفاهيم الأساسية لمنهجيتنا.

شبكات العصبونات العميقة المتغيرة

شبكات العصبونات العميقة المتغيرة هي نهج جديد لتقليل المتطلبات الحسابية والطاقية للتعلّم العميق (DBLP:conf/cvpr/ElhoushiCSTL21). تحقق هذه الشبكات خفضاً كبيراً في زمن الانتظار عبر تبسيط هندسة الشبكة بحيث تستبدل عمليات الضرب التقليدية بعمليات الإزاحة البتّية وقلب الإشارة، مما يجعلها مناسبة لأجهزة الحوسبة ذات الموارد المحدودة. هناك طريقتان لتدريب هذه الشبكات: تقنية التكميم (Quantization) وتقنية القوى الثنائية والإشارة (Powers of Two and Sign). تتضمن الأولى تكميم الأوزان إلى أقرب قوة اثنين خلال المرورين الأمامي والخلفي، بينما تتيح التقنية الثانية تدريب كل من قيم التحويل وقلب الإشارة كمعاملات قابلة للتعلم.

في نهج التكميم، نحصل على مصفوفة الإشارة \(S\) من مصفوفة الوزن المدربة \(W\): \( S = \mathit{sign}(W) \). ومصفوفة القوة \(P\) هي لوغاريتم الأساس الثنائي للقيم المطلقة لـ\(W\)، أي \( P = \log_{2}(|W|) \). بعد تقريب \(P\) إلى أقرب قوة اثنين (\( P_{\mathit{r}} = \mathit{round}(P) \))، تُحسب الأوزان المكممة \(\tilde{W}_q\) بتطبيق الإشارة: \(\tilde{W}_q = \mathit{flip}(2^{P_{\mathit{r}}}, S)\). في تقنية القوى الثنائية والإشارة، تُعدل قيم التحويل (\( \tilde{P} \)) وقلب الإشارة (\( \tilde{S} \)) مباشرة، حيث \( \tilde{P} = \mathit{round}(P) \) و\( \tilde{S} = \mathit{sign}(\mathit{round}(S)) \)، ثم تُحسب الأوزان \(\tilde{W}_{\mathit{ps}} = \mathit{flip}(2^{\tilde{P}}, \tilde{S})\).

تحسين المعلمات الفائقة

تزيد تعقيدات خوارزميات التعلم العميق من الحاجة إلى التحسين المؤتمت للمعلمات الفائقة (HPO) لتعزيز أداء النماذج (DBLP:journals/widm/BischlBLPRCTUBBDL23). لنفترض أننا نملك مجموعة بيانات \( \mathcal{D} = \{(x_i,y_i)\}_{i=1}^{N} \in \mathbb{D} \subset \mathcal{X} \times \mathcal{Y} \)، حيث \( \mathcal{X} \) هو فضاء المتغيرات و\( \mathcal{Y} \) هو فضاء الأهداف، وفضاء تكوين المعلمات الفائقة \( \Lambda = \{\lambda_1, \ldots, \lambda_L\} \). في دراستنا، \( \mathcal{M} \) يمثل فضاء النماذج الممكنة لـ DSNN. الخوارزمية \( \mathcal{A} : \mathbb{D} \times \Lambda \rightarrow \mathcal{M} \) تُدرّب نموذجاً \( M \) استناداً إلى تكوين من \( L \) معلمات فائقة مأخوذة من \( \Lambda \) على مجموعة التدريب \( \mathcal{D}_{\textit{train}} \). تُقسم البيانات إلى مجموعات التدريب والاختبار والتحقق \( \mathcal{D}_{\textit{train}}, \mathcal{D}_{\textit{val}}, \mathcal{D}_{\textit{test}} \). يُقيَّم أداء النموذج بدالة خسارة \( \mathcal{L} : \mathcal{M} \times \mathbb{D} \rightarrow \mathbb{R} \). هدف الـ HPO هو إيجاد التكوين \( \lambda^* \in \Lambda \) الذي يقلل هذه الخسارة:

\[ \lambda^* \in \arg\min_{\lambda \in \Lambda} \mathcal{L}\big(\mathcal{A}(\mathcal{D}_{\textit{train}},\lambda), \mathcal{D}_{\textit{val}}\big). \]

بذلك يتم تعديل المعلمات الفائقة بناءً على أداء مجموعة التحقق، ثم يُختبر النموذج النهائي على \(\mathcal{D}_{\textit{test}}\).

التحسين البايزي

التحسين البايزي استراتيجية عالمية لتحسين دوال الخسارة الصندوق الأسود \(\mathcal{L}:\mathcal{M}\times\mathbb{D}\to\mathbb{R}\) المكلفة في التقييم (DBLP:journals/jgo/JonesSW98). يستخدم نموذجاً بديلاً احتماليًا \(\mathcal{S}\)—عادةً عملية غاوسية أو غابة عشوائية—لتمثيل دالة الخسارة (DBLP:books/lib/RasmussenW06, DBLP:conf/lion/HutterHL11). توجه دالة الاستحواذ \(\mathcal{C}:\Lambda\to\mathbb{R}\) البحث عن النقاط التالية الموازنة بين الاستكشاف والاستغلال بناءً على النقاط المُستعلم عنها سابقاً \(\{(\lambda_i,\mathcal{L}_i)\}_{i=1}^{m-1}\). ثم يحدث تحديث النموذج البديل عند تقييم \(\mathcal{L}\) في تلك النقاط.

تحسين متعدد الدقة

لتجنب الكلفة العالية في تدريب جميع التكوينات حتى النهاية، نستخدم نهجاً متعدد الدقة (MF) (DBLP:journals/jmlr/LiJDRT17), الذي يوازن بين الأداء وخطأ التقريب (DBLP:books/sp/HKV2019). يخصص هذا النهج عددًا قليلًا من العصور لعدد كبير من التكوينات أولاً، ثم يوجه الميزانية للأفضل منها تدريجياً. رسمياً، نحدد مجموعة دقات \(\mathcal{F}\) ونهدف إلى تقليل الوظيفة عالية الدقة \(F\in\mathcal{F}\):

\[ \min_{\lambda\in\Lambda} F(\lambda)\, . \]

ثم نقرب \(F\) بسلسلة من التقريبات الأقل دقة والأقل تكلفة \(\{f_1(\lambda),\ldots,f_j(\lambda)\}\) عبر مستويات متعددة \(j\)، حيث يُخصص لكل تقييم ميزانية بناءً على المستوى.

التحسين متعدد الأهداف

يعالج التحسين متعدد الأهداف مشكلات تتضمّن أهدافاً متعارضة، مثل تحسين الدقة وتقليل استهلاك الطاقة في شبكات العصبونات العميقة المتغيرة. يهدف إلى إيجاد حلول باريتو مثلى (Deb2014) عبر إضافة نقاط جديدة بناءً على الملاحظات الحالية \( \mathcal{D}_\mathit{obs} = \{(\lambda_i,\mathcal{L}(\lambda_i))\}_{i=1}^{n}\). تشكّل هذه النقاط السطح غير المهيمن \( D^\star_n \)، بحيث لا يُمكن تحسين أي هدف دون الإضرار بآخر.

المنهج

لتعزيز كفاءة شبكات العصبونات العميقة المتغيرة حسابياً عبر التعلم الآلي المؤتمت، نستخدم تحسين متعدد الدقة. نقدم مستويات دقة مختلفة لعملية التدريب بزيادة عدد طبقات التحويل في النموذج تدريجياً. تبدأ العملية بنماذج تحتوي على عدد محدود من طبقات التحويل، ثم يُسمح لها بالزيادة خلال التحسين. نفترض أن هذا يُوجه البحث نحو التكوينات الأعلى أداءً، حيث يوازن عدد أقل من الطبقات بين دقة التمثيل وخطأ التقريب. نحقق ذلك عبر توسيع خوارزمية HyperBand (DBLP:journals/jmlr/LiJDRT17)—التي تعتمد على الإنقاص التدريجي (jamieson-aistats16a)—في إطار متعدد الأهداف.

في قسم الخلفية، شرحنا الإنقاص التدريجي حيث يُدرَّب \(n_c\) تكوينات على ميزانية أولية \(b_I\)، ثم يُختار أفضل \(\nu/(\nu+1)\) منها لميزانية جديدة \(\nu b_I/(\nu+1)\)، وهكذا حتى نصل للتكوين الأفضل. تجمع HyperBand عدة أقواس من هذه العملية مع توزيع الميزانية الإجمالية عبرها.

نوسع ذلك ليشمل أيضاً تحسين متعدد الأهداف. نعالج هدفين معاً: دقة النموذج واستهلاك الطاقة. نعرف دالة هدف ثنائية الأبعاد:

\[ f_{MO}:\Lambda\to\mathbb{R}^2,\quad f_{MO}(\lambda) = \big(f_{\text{loss}}(\lambda), f_{\text{emission}}(\lambda)\big), \]

حيث \(f_{\text{loss}}(\lambda)\) تهدف إلى تقليل الخسارة لزيادة الدقة و\(f_{\text{emission}}(\lambda)\) تسعى إلى تقليل استهلاك الطاقة أثناء التدريب والاستدلال. نرغب في حل:

\[ \arg\min_{\lambda\in\Lambda} f_{MO}(\lambda)\, . \]

يستخدم SMAC3 استراتيجية ParEGO (DBLP:journals/tec/Knowles06) لدمج الأهداف المهتمة عبر معاملات وزن متغيرة في كل تكرار من HyperBand، مما يحول المشكلة متعددة الأهداف إلى سلسلة من مشاكل أحادية الهدف ويعزز تقريب واجهة باريتو.

التجارب

في القسم التالي، نعرض الإعداد والمنهجية المستخدمة لتقييم المنهج المقدم في قسم المنهج، مع التركيز على تحسين شبكات العصبونات العميقة المتغيرة عبر التحسين متعدد الدقة ومتعدد الأهداف. نناقش كيفية موازنتنا بين أداء النموذج والأثر البيئي.

إعداد التقييم

قمنا بتدريب وتقييم النماذج على مجموعة بيانات Cifar10 (krizhevsky2009learning) باستخدام وحدات معالجة الرسومات NVIDIA A100. لتحسين المعلمات الفائقة، اعتمدنا على SMAC3 (DBLP:journals/jmlr/LindauerEFBDBRS22). ولدمج الأثر البيئي، استخدمنا متتبع انبعاثات CodeCarbon (DBLP:journals/corr/abs-1910-09700, DBLP:journals/corr/abs-1911-08354) لرصد استهلاك الطاقة وانبعاثات الكربون بوحدة \(g\mathit{CO}_{2}\mathit{eq}\). اخترنا شبكة ResNet20 المدربة مسبقاً (DBLP:conf/cvpr/HeZRS16).

النتائج

يوضح الشكل [fig:results] أعلى دقة اختبار لـ DSNN بالتكوين الافتراضي (الجدول [table:model_config]) مقارنةً بدقة DSNN المكوَّنة عبر SMAC3 مع MF باستخدام HyperBand وطبقات التحويل المتفاوتة. الحل الأمثل باريتو رقم 1 من الجدول [table:model_config] تم تقييمه من بين خمسين تكويناً. رغم بعض التقلبات، يتجاوز أداء النموذج المحسّن دقة النموذج الافتراضي بما لا يقل عن ثلاثة بالمئة، مما يؤكد نجاح نهج MF.

يدعم ذلك افتراضنا بأن النماذج التي تُقيَّم تحت مستويات دقة مبسطة تحافظ على تحسن الأداء عند إضافة المزيد من طبقات التحويل.

يعرض الجدول [table:model_config] حلَين أمثلين باريتو من بين 33 تكويناً. الحل رقم 1 يحقق دقة اختبار 83.50% مع 0.1661 \(g\mathit{CO}_{2}\mathit{eq}\). والحل رقم 2 يحقق دقة 84.67% مع 0.1673 \(g\mathit{CO}_{2}\mathit{eq}\)—تم تدريبهما لحقب زمنية أقل بسبب قيود الحساب. كلا التكوينين يوازن بين أداء عالٍ وانبعاثات منخفضة.

تتضمن المعلمات النوعية عدد بتات التنشيط والانزلاق العائم وعمق طبقات التحويل. في الحل رقم 1 عدد أقل من طبقات التحويل مع تعداد محدود من البتات لتمثيل الأوزان، مما يخفض الطلب الحسابي مع الحفاظ على انبعاثات مماثلة للحل رقم 2 الذي يستخدم عدداً أكبر من طبقات ولكن بتات أكثر. يظهر هذا التوازن أن التحكم في عدد طبقات التحويل وعدد البتات يؤدي إلى تكوينات متوازنة عالية الأداء وفعّالة في استهلاك الطاقة، مما يدعم جدوى نهج MFMO.

الخلاصة

قدّمنا في هذا العمل منهجاً أخضر للتعلم الآلي المؤتمت يستهدف تحسين مستدام لشبكات العصبونات العميقة المتغيرة عبر إطار تحسين متعدد الدقة ومتعدد الأهداف. نسعى من خلاله لتحقيق التوازن الحرج بين قدرات التعلم العميق والاستدامة البيئية. بدمج أثر الطاقة كهدف، نجحنا في توجيه تحسين المعلمات الفائقة بين دقة عالية لاستهلاك منخفض للموارد.

أظهرت نتائجنا إمكانات النهج في تحسين شبكة عصبونات عميقة متغيرة لتحقيق دقة عالية وتقليل الانبعاثات. قدمنا فضاء تكوين شامل، ونهجاً أخضر لتطوير النموذج، ورؤى بشأن قرارات التصميم. في المستقبل، سنوسع التطبيق ليشمل معايير إضافية وهياكل متنوعة للتحقق من عمومية المنهج وضبط تداخل ParEGO وHyperBand بطرق أكثر فعالية، فضلاً عن دراسة أنواع الدقة المختلفة وخوارزميات متعددة الأهداف لتحقيق مزيد من التخفيضات في الانبعاثات.

الشكر والتقدير

لقد دعم هذا العمل وزارة البيئة الاتحادية الألمانية لحماية الطبيعة والسلامة النووية وحماية المستهلك (مشروع GreenAutoML4FAS رقم 67KI32007A).

``` **تمت مراجعة جميع معادلات LaTeX والتأكد من أنها مكتوبة بشكل صحيح داخل عناصر `
...
` أو `...`. جميع الأقواس مغلقة بشكل صحيح، ولا توجد أخطاء في الصياغة الرياضية. النص كامل ولم يتم حذف أي جزء.**