نحو استغلال AutoML للتعلم العميق المستدام: نهج تحسين الفعالية متعددة الأهداف على شبكات العصبونات العميقة المتغيرة

Leona Hennig, Tanja Tornede, Marius Lindauer

latex

مُلَخَّص

ساهم التعلم العميق في تقدم العديد من المجالات من خلال استخراج الأنماط المعقدة من مجموعات البيانات الكبيرة. ومع ذلك، فإن المتطلبات الحسابية لنماذج التعلم العميق تطرح تحديات بيئية ومواردية. تقدم شبكات العصبونات العميقة المتغيرة حلاً من خلال استغلال عمليات الإزاحة لتقليل التعقيد الحسابي أثناء الاستدلال. استناداً إلى الرؤى المستخلصة من الشبكات العصبونية العميقة التقليدية، نحن مهتمون باستغلال الإمكانات الكاملة لشبكات العصبونات العميقة المتغيرة عبر تقنيات AutoML. ندرس تأثير تحسين المعلمات الفائقة لتعظيم أداء شبكات العصبونات العميقة المتغيرة مع تقليل استهلاك الموارد. ونظراً لأن هذا يجمع بين التحسين متعدد الأهداف مع الدقة واستهلاك الطاقة كأهداف متكاملة محتملة، نقترح دمج تحسين المعلمات الفائقة متعدد الأوجه مع التحسين متعدد الأهداف. تظهر النتائج التجريبية فعالية نهجنا، مما يؤدي إلى نماذج بدقة تتجاوز 80% وتكلفة حسابية منخفضة. بشكل عام، تسرّع طريقتنا تطوير النماذج الفعالة مع تمكين تطبيقات الذكاء الاصطناعي المستدامة.

مقدمة

يُعَد التعلم العميق من أكثر النهج الواعدة لاستخراج المعلومات من مجموعات البيانات الكبيرة ذات الهياكل المعقدة. ويشمل ذلك إجراء الحسابات في بيئات إنترنت الأشياء وعلى أجهزة الحافة (DBLP:journals/network/LiOD18, DBLP:journals/pieee/ZhouCLZLZ19). مع الزيادة المستمرة في حجم وأداء هذه النماذج نتيجة التقدم في العلوم والصناعة، يرتبط بها تكلفة حسابية (DBLP:journals/pieee/SzeCYE17). تقليل هذه التكلفة يؤثر مباشرة على الأثر البيئي للنموذج (DBLP:journals/cacm/SchwartzDSE20). وبالتالي، يتم تحرير الموارد ويمكن استخدامها لمهام أخرى، مثل تلك التي تعاني من قيود الموارد (DBLP:journals/corr/HowardZCKWWAA17). من خلال نهجنا، نساهم في التعلم العميق في هذه البيئات محدودة الموارد.

تقدم شبكات العصبونات العميقة المتغيرة إمكانات كبيرة في تقليل استهلاك الطاقة مقارنة بنماذج التعلم العميق التقليدية (DBLP:conf/cvpr/ElhoushiCSTL21). بدلاً من الحسابات العائمة، تستفيد من عمليات الإزاحة - وتحديداً، إزاحة البت - كوحدة حسابية، مما يعزز الكفاءة من خلال استبدال عمليات الضرب المكلفة في الشبكات التلافيفية. نشك في أن تكوين شبكات العصبونات العميقة المتغيرة له تأثير كبير على كل من الأداء والكفاءة الحسابية.

أحد التحديات الرئيسية مع شبكات العصبونات العميقة المتغيرة هو تحديد مستوى الدقة المناسب لعمليات الإزاحة لتقليل أخطاء الكمية دون زيادة العبء الحسابي بشكل مفرط. في هذه الدراسة، نستفيد من شبكات العصبونات العميقة المتغيرة بالاشتراك مع التعلم الآلي الآلي للعثور على التكوين المثالي لشبكات العصبونات العميقة المتغيرة في إطار التعلم الآلي الأخضر (DBLP:journals/jair/TornedeTHMWH23). يتم تحقيق ذلك من خلال تحسين المعلمات الفائقة باستخدام إطار العمل SMAC3 الذي اقترحه (DBLP:journals/jmlr/LindauerEFBDBRS22)، والذي يؤتمت البحث عن التكوينات النموذجية المثلى. يسهّل دمج تقنيات التحسين متعددة الأمانة ومتعددة الأهداف (Belakaria2020-re) استكشافاً مثالياً لمساحة المعلمات الفائقة التي تعطي الأولوية للأداء واستهلاك الطاقة معاً (Deb2014). تنفيذ SMAC للتحسين متعدد الأهداف يوازن بفعالية بين تحقيق دقة تنبؤية عالية وتقليل استهلاك الطاقة. يسمح الجانب متعدد الأمانة باستخدام الموارد الحسابية بكفاءة من خلال تقييم التكوينات على مستويات متفاوتة من التفصيل. استخدام أدوات مثل CodeCarbon (DBLP:journals/corr/abs-1910-09700, DBLP:journals/corr/abs-1911-08354) خلال مراحل التدريب والتقييم يوفر رؤى في الوقت الفعلي حول استهلاك الطاقة وانبعاثات الكربون المرتبطة بكل تكوين نموذج.

بشكل عام، نقدم المساهمات التالية:

  1. مساحة تكوين محددة لشبكات العصبونات العميقة المتغيرة،

  2. نهج التعلم الآلي الأخضر لبناء النماذج الموجهة نحو الكفاءة،

  3. رؤى حول قرارات التصميم للحصول على توازنات مثالية بين الدقة وكفاءة الطاقة، و

  4. دمج تقنيات التحسين متعددة الأهداف ومتعددة الأمانة في SMAC لتحسين أداء التحسين واستخدام الموارد الحسابية.

الخلفية

يقدم هذا الفصل المفاهيم الأساسية لمنهجيتنا.

شبكات العصبونات العميقة المتغيرة

شبكات العصبونات العميقة المتغيرة هي نهج جديد لتقليل المتطلبات الحسابية والطاقية للتعلم العميق (DBLP:conf/cvpr/ElhoushiCSTL21). تحقق هذه الشبكات تخفيضاً كبيراً في زمن الانتظار من خلال تبسيط هندسة الشبكة بحيث تستبدل عمليات الضرب التقليدية في الشبكات العصبية بعمليات التحويل البتّي وقلب الإشارة، مما يجعل شبكات العصبونات العميقة المتغيرة مناسبة لأجهزة الحوسبة ذات الموارد المحدودة. هناك طريقتان لتدريب شبكات العصبونات العميقة المتغيرة (DBLP:conf/cvpr/ElhoushiCSTL21): تقنية التكميم (Quantization) وتقنية القوى الثنائية والإشارة (Powers of two and Sign). تقنية التكميم تتضمن تدريب الأوزان العادية المقيدة إلى قوى الاثنين من خلال تكميم الأوزان إلى أقرب قوة اثنين خلال المرورين الأمامي والخلفي. تقنية القوى الثنائية والإشارة تتضمن مباشرة قيم التحويل وقلب الإشارة كمعاملات قابلة للتدريب.

يتم الحصول في نهج تقنية التكميم على مصفوفة الإشارة \(S\) من مصفوفة الوزن المدربة \(W\) كما يلي: \( S = \mathit{sign}(W) \). مصفوفة القوة \(P\) هي لوغاريتم الأساس الثنائي للقيم المطلقة لـ\(W\)، أي \( P = \log_{2}(|W|) \). بعد تقريب \(P\) إلى أقرب قوة اثنين، \( P_{\mathit{r}} = \mathit{round}(P) \)، يتم حساب الأوزان المكممة \(\tilde{W}_q\) بتطبيق الإشارة من \(S\)، كما هو موضح \(\tilde{W}_q = \mathit{flip}(2^{P_{\mathit{r}}}, S)\). يعمل نهج تقنية القوى الثنائية والإشارة على تحسين أوزان الشبكة العصبية من خلال تكييف قيم التحويل (\( \tilde{P} \)) وقلب الإشارة (\( \tilde{S} \)) مباشرة. يتم الحصول على مصفوفة التحويل \( \tilde{P} \) بتقريب لوغاريتم الأساس الثنائي لقيم الوزن، \( \tilde{P} = \mathit{round}(P) \)، ويتم حساب قلب الإشارة \( \tilde{S} \) كـ \( \tilde{S} = \mathit{sign}(\mathit{round}(S)) \). يتم حساب الأوزان كـ \(\tilde{W}_{\mathit{ps}} = \mathit{flip}(2^{\tilde{P}}, \tilde{S})\)، حيث تعين عملية قلب الإشارة \( \tilde{S} \) القيم \(-1\)، \(0\)، أو \(+1\) بناءً على \( s \).

تحسين المعلمات الفائقة

تزيد تعقيدات خوارزميات التعلم العميق من الحاجة إلى تحسين المعلمات الفائقة المؤتمت (HPO) لزيادة أداء النموذج (DBLP:journals/widm/BischlBLPRCTUBBDL23). لنفترض لدينا مجموعة بيانات \( \mathcal{D} = \{(x_i,y_i)\}_{i=1}^{\textnormal{N}} \in \mathbb{D} \subset \mathcal{X} \times \mathcal{Y} \)، حيث \( \mathcal{X} \) هو فضاء الحالات و\( \mathcal{Y} \) هو فضاء الهدف، وفضاء تكوين المعلمات الفائقة \( \Lambda = \{\lambda_1, \ldots, \lambda_L\} \)، \( L \in \mathbb{N} \). في دراستنا، \( \mathcal{M} \) يدل على فضاء النماذج الممكنة لـ DSNN. خوارزمية \( \mathcal{A} : \mathbb{D} \times \Lambda \rightarrow \mathcal{M} \) تدرب نموذج \( M \in \mathcal{M} \)، مستندة إلى تكوين من \( L \) معلمات فائقة مأخوذة من \( \Lambda \)، على مجموعة فرعية للتدريب من \( \mathcal{D} \). يتم تقسيم مجموعة البيانات \( \mathcal{D} \) إلى مجموعات التدريب، التحقق، والاختبار: \( \mathcal{D}_{\textit{train}}, \mathcal{D}_{\textit{val}}, \) و \( \mathcal{D}_{\textit{test}} \) على التوالي. يتم تقييم أداء الخوارزمية من خلال دالة خسارة مخصصة للتقييم \( \mathcal{L} : \mathcal{M} \times \mathbb{D} \rightarrow \mathbb{R} \). هدف التحسين لـ HPO هو إيجاد التكوين \( \lambda^* \in \Lambda \) بأقل خسارة تحقق \( \mathcal{L} \)، بحيث: \[\lambda^* \in \argmin_{\lambda \in \Lambda} \mathcal{L}\big(\mathcal{A}(\mathcal{D}_{\textit{train}},\lambda), \mathcal{D}_{\textit{val}}\big).\] هذه العملية تعدل المعلمات الفائقة بناءً على أداء مجموعة التحقق. يتم تدريب النماذج على \(\mathcal{D}_{\textit{train}}\) ويتم تحسينها باستخدام \(\mathcal{D}_{\textit{val}}\). وأخيراً، يتم تقييم أداء النموذج على \(\mathcal{D}_{\textit{test}}\).

التحسين البايزي

التحسين البايزي هو استراتيجية للتحسين العالمي لدوال الخسارة الصندوق الأسود \(\mathcal{L}:\mathcal{M}\times\mathbb{D}\xrightarrow{}\mathbb{R}\) التي تكون مكلفة في التقييم (DBLP:journals/jgo/JonesSW98). يستخدم التحسين البايزي نموذجاً بديلاً \(\mathcal{S}\)، وهو نموذج احتمالي لتقريب دالة الخسارة، والذي يُعطى عادة بواسطة عملية غاوسية أو غابة عشوائية (DBLP:books/lib/RasmussenW06, DBLP:conf/lion/HutterHL11). توجه دالة الاستحواذ \(\mathcal{C}:\Lambda\xrightarrow{}\mathbb{R}\) البحث عن نقاط التقييم المثلى التالية من خلال موازنة الاستكشاف والاستغلال، استناداً إلى مجموعة النقاط التي تم استعلامها سابقاً \(\{(\lambda_1,\mathcal{L}_1),...,(\lambda_{m-1},\mathcal{L}_{m-1})\}\) في الوقت \(m\). يتم تقييم \(\mathcal{L}\) فقط في نقاط معينة، ويتم بها تحديث النموذج البديل.

تحسين متعدد الدقة

نظراً لأنه لا يمكن تدريب تكوينات متعددة من الشبكات العصبية العميقة المتقدمة بشكل كامل للمقارنة بسبب الكلفة الحسابية، فإننا نستخدم نهجاً متعدد الدقة (MF) (DBLP:journals/jmlr/LiJDRT17)، وهو استراتيجية شائعة في التعلم الآلي الآلي للتنقل بين التوازن بين الأداء وخطأ التقريب (DBLP:books/sp/HKV2019). تدرب النهج متعددة الدقة نماذج بديلة سهلة التقييم للوظائف الصندوق الأسود تتبع مبادئ توجيهية مختلفة، مثل تخصيص عدد قليل من العصور للعديد من التكوينات في البداية وتدريب الأفضل أداءً على عدد متزايد من العصور. رسمياً، نحدد مجالاً للدقة \(\mathcal{F}\) ونهدف إلى تقليل وظيفة عالية الدقة \(F\in\mathcal{F}\) (DBLP:journals/jair/KandasamyDOSP19): \[\min_{\lambda\in\Lambda} F(\lambda)\, .\] نهدف إلى تقريب \(F\in\mathcal{F}\)، باستخدام سلسلة من التقريبات أقل دقة وأقل تكلفة \(\{f(\lambda)_1,\ldots,f(\lambda)_j\}\)، حيث يشير \(j\) إلى العدد الإجمالي لمستويات الدقة. يُشار إلى الموارد المخصصة لتقييم أداء نموذج في دقات مختلفة بميزانيتها. يُفترض MF أن أعلى الدقات تقرب الوظيفة الصندوق الأسود بشكل أفضل.

التحسين متعدد الأهداف

يتناول التحسين متعدد الأهداف مشكلات تشمل أهدافاً متعددة، غالباً ما تكون متنافسة. يُستخدم هذا النهج في السيناريوهات التي يجب فيها التنقل بين تنازلات بين هدفين أو أكثر متعارضين، مثل، في سياق شبكات الدماغ العصبية العميقة المتقدمة، تحسين الدقة جنباً إلى جنب مع تقليل استهلاك الطاقة. يهدف التحسين متعدد الأهداف إلى تحديد الحلول المثلى باريتو (Deb2014). لضمان تقريب فعال لجبهة باريتو، تتم إضافة نقاط جديدة استناداً إلى مجموعة البيانات الحالية للملاحظات \( \mathcal{D}_\mathit{obs} = \{(\lambda_1,\mathcal{L}(\lambda_1)), \ldots, (\lambda_n,\mathcal{L}(\lambda_n))\} \) في الوقت n. تعزز هذه النقاط السطح الذي تشكله مجموعة الحلول غير المهيمنة \( D^\star_n \)، والتي تلبي الشرط لمتغيرات الهدف d ودالة الخسارة \(\mathcal{L} = (\mathcal{L}_1,\ldots,\mathcal{L}_d)\) (DBLP:journals/corr/abs-1905-02370): لجميع \(\lambda, (\lambda,\mathcal{L}(\lambda)) \in \mathcal{D}^\star_n \subset \mathcal{D}_n\) و \(\lambda', (\lambda',\mathcal{L}(\lambda')) \in \mathcal{D}_n\) يوجد \(k \in \{1,\ldots,d\}\)، بحيث \(\mathcal{L}_k(\lambda) \leq \mathcal{L}_k(\lambda')\).

المنهج

لتعزيز الشبكات العصبية المتغيرة العميقة (Deep Shift Neural Networks) حسابياً عبر التعلم الآلي الآلي، نستخدم تحسين الأمانة المتعددة. نقدم مستويات أمانة مختلفة لعملية التدريب من خلال زيادة عدد طبقات التحويل في النموذج. ستشمل النماذج المدربة في البداية عدداً أقل من طبقات التحويل، والتي ستزداد خلال عملية التحسين. نفترض أن هذا سيوجه البحث نحو الشبكات المتغيرة الأعلى أداءً، حيث أن عدداً قليلاً من طبقات التحويل يقدم أقل عدم دقة رقمية وشكوك رياضية للنموذج. نهدف إلى التحقيق فيما إذا كان اختيار النماذج الأعلى أداءً تحت انخفاض الشكوك الذاتية للنموذج يستمر في إظهار تحسن في الأداء عند دمجها مع المزيد من طبقات التحويل.

في القسم [background]، شرحنا المنهج متعدد الأمانة. إحدى الخوارزميات التي تصيغ قواعدها هي الإنقاص التدريجي (jamieson-aistats16a)، حيث يتم تدريب \(n_c\) تكوينات على ميزانية صغيرة أولاً \(b_I\). بعد ذلك، يتم تدريب أفضل \(\nu/(\nu+1)\) تكوينات أداءً على ميزانية \(\nu b_I/(\nu +1)\) حتى يتم تحديد أفضل تكوين. نتناول التوازن بين \(b_I\) و \(n_c\)، أو بين خطأ التقريب والاستكشاف المتأصل في الإنقاص التدريجي، باستخدام خوارزمية HyperBand للتحسين متعدد الأمانة. تقوم HyperBand (DBLP:journals/jmlr/LiJDRT17) بتشغيل الإنقاص التدريجي في أقواس متعددة، حيث يوفر كل قوس مجموعة من \(n_c\) وجزء من الميزانية الإجمالية لكل تكوين بحيث تتجمع إلى الميزانية الكلية.

نوسع هذا إلى تحسين متعدد الأمانة ومتعدد الأهداف. نعالج دقة النموذج وكذلك استهلاكه للطاقة في آن واحد. الهدف هو تحسين أداء الشبكات العصبية المتغيرة العميقة، مع ضمان تحقيقها لدقة عالية ومتانة في قدراتها التنبؤية؛ وثانياً، لتقليل استهلاك الطاقة، وهو عامل حاسم بالنظر إلى الآثار البيئية للكفاءة الحسابية. لهذا الغرض، ننفذ دالة هدف ثنائية الأبعاد \(f_{MO}:\Lambda\xrightarrow{}\mathbb{R}^2,\quad f_{M0}(\lambda) = \big(f_{loss}(\lambda), f_{emission}(\lambda)\big)\)، حيث، بالنظر إلى تكوين \(\lambda\in\Lambda\)، \(f_{loss}(\lambda)\) تهدف إلى تقليل الخسارة، مما يعزز دقة النموذج، و\(f_{emission}(\lambda)\) تسعى إلى تقليل استهلاك الطاقة أثناء التدريب والاستدلال، مما يعزز الاستدامة البيئية. نهدف إلى حل مشكلة التحسين التالية:

\[\argmin_{\lambda\in\Lambda} f_{M0}(\lambda)\, .\]

يستخدم SMAC3 استراتيجية تجميع المتوسط الحسابي بحساب المتوسط الحسابي للهدف لتجميع أهداف متعددة في قيمة عددية واحدة للتحسين متعدد الأمانة. نستخدم خوارزمية ParEGO (DBLP:journals/tec/Knowles06) لحساب الأهداف المثلى باريتو. تُحوَّل المشكلة متعددة الأهداف إلى سلسلة من المشكلات أحادية الهدف من خلال إدخال معاملات وزن متغيرة للأهداف في كل تكرار من HyperBand. وبالتالي تحسين تقريب مختلف للواجهة الأمامية باريتو في كل تقييم. يمكن الآن تقييم دالة التحسين أحادية الهدف الناتجة في إعداد التحسين متعدد الأمانة.

التجارب

في القسم التالي، نوضح الإعداد والمنهجية المستخدمة لتقييم منهجنا المقدم في القسم [approach]، مع التركيز على تحسين شبكات العصبونات العميقة المتغيرة من خلال التحسين متعدد الأمانة ومتعدد الأهداف بالإضافة إلى التحسين متعدد الأمانة. نناقش كيف نجح منهجنا في الموازنة بين أداء النموذج والتأثير البيئي.

إعداد التقييم

نقوم بتدريب وتقييم نماذجنا على مجموعة بيانات Cifar10 (krizhevsky2009learning)، باستخدام وحدات معالجة الرسومات NVIDIA A100. لتحسين المعلمات الفائقة، نعتمد على استخدام SMAC3 (DBLP:journals/jmlr/LindauerEFBDBRS22). لدمج الأثر البيئي في سير عمل تحسين المعلمات الفائقة لدينا، نستخدم متتبع انبعاثات CodeCarbon (DBLP:journals/corr/abs-1910-09700, DBLP:journals/corr/abs-1911-08354) لتتبع انبعاثات الكربون من العمليات الحسابية من خلال مراقبة استهلاك الطاقة ومزيج الطاقة الإقليمي بوحدة \(g\mathit{CO}_{2}\mathit{eq}\)، غرامات من مكافئ \(\mathit{CO}_2\). اخترنا شبكة ResNet20 المدربة مسبقاً (DBLP:conf/cvpr/HeZRS16).

النتائج

يعرض الشكل [fig:results] أعلى دقة اختبار لـ DSNN المدربة باستخدام التكوين الافتراضي من الجدول [table:model_config] كما هو محدد بواسطة (DBLP:conf/cvpr/ElhoushiCSTL21)، بالإضافة إلى دقة الاختبار من DSNN المكونة وفقاً لـ SMAC3 مع MF باستخدام HyperBand، مع عدد طبقات الانتقال التي تحدد الدقة. يتم استخدام تكوين الحل الأمثل باريتو رقم 1 من الجدول [table:model_config]. تحدد خوارزمية MF، المدربة على نفس البذرة كـ MFMO، أنه التكوين الأمثل للنموذج من بين خمسين تكويناً تم تقييمها. على الرغم من بعض التقلبات، فإن الرسم البياني يظهر بوضوح أن أداء النموذج مع التكوين الأمثل يتجاوز أداء النموذج الأصلي بالتكوين الافتراضي بما لا يقل عن ثلاثة في المئة. هذا يؤكد نهجنا بأن MF يمكن تنفيذها بنجاح مع ميزانيات DSNN المحددة مثل عمق الانتقال.

علاوة على ذلك، يؤكد ذلك افتراضنا من القسم [approach] بأن النماذج يمكن تقييمها تحت انخفاض الشكوك الذاتية للنموذج وتستمر في الأداء بشكل جيد عند تنفيذها مع المزيد من طبقات الانتقال.

يظهر الجدول [table:model_config] حلين أمثلين باريتو من 33 تكويناً تم تقييمها باستخدام نهجنا MFMO. يؤدي تقييم الحل رقم 1 إلى دقة أعلى 1 بنسبة 83.50% و 0.1661 \(g\mathit{CO}_{2}\mathit{eq}\). يحقق الحل رقم 2 دقة أعلى 1 بنسبة 84.67%، مما ينتج عنه 0.1673 \(g\mathit{CO}_{2}\mathit{eq}\). لاحظ أنه تم تدريبهما لفترات أقل بسبب القيود الحسابية. كلا التكوينين يحققان نتائج أداء جيدة مع الحفاظ على انخفاض الانبعاثات.

تشمل المعلمات النوعية لنموذج DSNN بتات التنشيط الصحيحة، بتات كسر التنشيط، بتات الوزن، وعمق الانتقال. يشتمل الحل رقم 1 على عدد أقل من طبقات الانتقال مع عدد أقل من البتات التي تمثل قيم وظيفة تنشيط الأوزان. يبدو أن بتات التنشيط وبتات الوزن تؤثر على الانبعاثات وأداء النموذج بشكل مماثل. تزيد طبقات الانتقال الأقل من الطلب الحسابي للنموذج. ومع ذلك، يبدو أن العدد المنخفض من البتات المستخدمة لاستبدال العمليات العائمة (FLOPs) يعوض عن ذلك لأن الحل رقم 1 ينتج كمية تقريباً مماثلة من الانبعاثات كما في الحل رقم 2. هذا الأخير يحتوي على أكثر من ثلاثة أضعاف عدد طبقات الانتقال، باستخدام أربع طبقات تلافيفية فقط مع FLOPs، ولكنه يستخدم عدداً كبيراً من بتات التمثيل. يبدو أن هناك توازناً بين عدد طبقات الانتقال وعدد بتات التمثيل التي، عند إدارتها بكفاءة، تؤدي إلى تكوينات نموذج ذات أداء جيد واستهلاك منخفض للطاقة. هذا يدعم ادعاءنا بأن نهج MFMO لدينا واعد لبناء DSNNs عالية الأداء وفعالة من حيث الطاقة.

الخلاصة

في هذا العمل، نقدم نهجنا الأخضر لتعلم الآلة الآلي نحو تحسين مستدام لشبكات العصبونات العميقة المتسلسلة من خلال إطار عمل تحسين هدف متعدد الأوجه ومتعدد الدقة. نتناول التقاطع الحرج بين تقدم قدرات التعلم العميق والاستدامة البيئية. من خلال استخدام أدوات تعلم الآلة الآلي ودمج الأثر البيئي كهدف، ننتقل عبر التوازن بين أداء النموذج واستخدام الموارد بكفاءة.

تسلط نتائج تجاربنا الضوء على إمكانات نهجنا. لقد نجحنا في تحسين شبكة عصبونات عميقة متسلسلة لتحقيق دقة عالية مع تقليل استهلاك الطاقة. لقد قدمنا مساحة تكوين شاملة لشبكات العصبونات العميقة المتسلسلة، وأدخلنا نهج تعلم الآلة الآلي الأخضر لتطوير النموذج الموجه نحو الكفاءة، وقدمنا رؤى قيمة حول قرارات التصميم. تشمل الأعمال المستقبلية توسيع نهجنا إلى معايير متعددة وهياكل شبكة عصبونية للتحقق بشكل كافٍ من نهجنا على طيف واسع من تصاميم النماذج والتطبيقات. بهذه الطريقة، نأمل في الحصول على مزيد من الرؤى حول قرارات التصميم الحاسمة لشبكات العصبونات العميقة المتسلسلة والنماذج الأخرى المصممة للحوسبة الموفرة للطاقة. إعادة النظر في تنفيذنا للهدف متعدد الأوجه ومتعدد الدقة لإيجاد طريقة أكثر كفاءة لتداخل ParEGO وHyperband، على سبيل المثال بإيجاد طريقة أكثر فعالية لتعيين الميزانيات والأوزان للتكوينات، يخضع لمزيد من العمل لتخفيف العبء الحسابي عند حساب جبهات باريتو للهدف متعدد الأوجه ومتعدد الدقة. علاوة على ذلك، سنحقق في أنواع الدقة المحددة لشبكات العصبونات العميقة المتسلسلة وخوارزميات الهدف المتعدد لتحقيق مزيد من التخفيضات في انبعاثات النموذج.

الشكر والتقدير

لقد دعم هذا العمل وزارة البيئة الاتحادية الألمانية لحماية الطبيعة والسلامة النووية وحماية المستهلك (مشروع GreenAutoML4FAS رقم 67KI32007A).