مُلخَّص
أسهم التعلُّم العميق في تقدُّم العديد من المجالات بفضل قدرته على استخلاص الأنماط المعقّدة من مجموعات بيانات ضخمة. ومع ذلك، فإن المتطلّبات الحاسوبيّة الكبيرة لنماذجه تُثير تحدّيات بيئيّة واقتصاديّة متعلّقة بالموارد. تُقدِّم شبكات الإزاحة العميقة (Deep Shift Neural Networks, DSNN) حَلًّا عبر استغلال عمليات الإزاحة—وخاصةً إزاحة البِتّ—لتخفيض التعقيد الحاسوبي أثناء الاستدلال. واستنادًا إلى رؤى من الشبكات العصبيّة التقليديّة، نركّز على استثمار الإمكانات الكاملة لهذه الشبكات عبر تقنيات AutoML. نَدْرس تأثير تحسين المعاملات الفائقة لتعظيم أداء شبكات الإزاحة مع تقليل استهلاك الموارد. ونظرًا لأن هذا يوازن بين الدقّة واستهلاك الطاقة كهدفين متنافِسَيْن، نقترح الجمع بين تحسين المعاملات الفائقة مُتعدِّد الأوجه والتحسين مُتعدِّد الأهداف. تُظهر النتائج التجريبيّة فعاليّة نهجنا، إذ تقود إلى نماذج تبلغ دقّتها أكثر من 80% مع كلفة حاسوبيّة منخفضة. إجمالًا، تُسرِّع طريقتنا تطوير نماذج فعّالة وتمكّن تطبيقات ذكاء اصطناعي مُستدامة.
مقدّمة
يُعَدّ التعلُّم العميق من أكثر النُهُج وُعودًا لاستخراج المعلومات من مجموعات بيانات كبيرة ذات بُنى معقّدة، بما يشمل إجراء الحسابات في بيئات إنترنت الأشياء وعلى أجهزة الحافّة (DBLP:journals/network/LiOD18, DBLP:journals/pieee/ZhouCLZLZ19). ومع الزيادة المستمرّة في حجم هذه النماذج وأدائها نتيجة التقدّم العلمي والصناعي، ترتفع كلفتها الحاسوبيّة (DBLP:journals/pieee/SzeCYE17). إن تقليل هذه الكلفة يؤثّر مباشرةً في الأثر البيئي للنموذج (DBLP:journals/cacm/SchwartzDSE20)، كما يحرّر موارد لاستخدامها في مهام أخرى، مثل التطبيقات محدودة الموارد (DBLP:journals/corr/HowardZCKWWAA17). يُسهم نهجُنا في توسيع استخدام التعلُّم العميق في هذه البيئات المحدودة الموارد.
تُقدِّم شبكات الإزاحة العميقة إمكانات كبيرة لخفض استهلاك الطاقة مقارنةً بنماذج التعلُّم العميق التقليديّة (DBLP:conf/cvpr/ElhoushiCSTL21). فبدلًا من العمليات العائمة المكثّفة، تستفيد هذه الشبكات من عمليات الإزاحة البِتّية وعكس الإشارة بوصفها وحدةً حسابيّة، ما يُعزّز الكفاءة عبر استبدال عمليات الضرب المكلفة في الشبكات الالتفافيّة. نرى أن تكوين هذه الشبكات يؤثّر بوضوح في الأداء والكفاءة الحاسوبيّة معًا.
من التحدّيات الرئيسة في شبكات الإزاحة العميقة تحديد مستوى الدقّة المناسب لعمليات الإزاحة للحدّ من أخطاء التكميم دون زيادة العبء الحاسوبي زيادةً مُفرِطة. في هذه الدراسة، نستثمر شبكات الإزاحة إلى جانب التعلُّم الآلي المؤتمت لاكتشاف التكوين الأمثل ضمن إطار التعلُّم الآلي الأخضر (DBLP:journals/jair/TornedeTHMWH23). نعتمد على تحسين المعاملات الفائقة باستخدام إطار SMAC3 (DBLP:journals/jmlr/LindauerEFBDBRS22)، الذي يؤتمت البحث عن التكوينات المثلى. ويُسهِّل دمج تقنيات التحسين مُتعدِّد الدقّات ومُتعدِّد الأهداف (Belakaria2020-re) استكشاف فضاء المعاملات الفائقة مع إيلاء الأولويّة للأداء واستهلاك الطاقة في آنٍ معًا (Deb2014). ويُتيح تنفيذ SMAC للتحسين مُتعدِّد الأهداف موازنةً فعّالة بين تحقيق دقّة تنبُّئيّة عالية وتقليل استهلاك الطاقة. كما يسمح الجانب مُتعدِّد الدقّات باستخدام الموارد الحاسوبيّة بكفاءة عبر تقييم التكوينات على مستويات متفاوتة من الدقّة. ويوفّر استخدام أدوات مثل CodeCarbon (DBLP:journals/corr/abs-1910-09700, DBLP:journals/corr/abs-1911-08354) خلال مرحلتي التدريب والتقييم رُؤى فوريّة عن استهلاك الطاقة وانبعاثات الكربون لكل تكوين.
بوجهٍ عام، نُقدِّم المساهمات الآتية:
فضاء تكوين مُفصَّل لشبكات الإزاحة العميقة،
نهج تعلُّم آليّ أخضر لبناء نماذج مُوجَّهة نحو الكفاءة،
رُؤى حول قرارات التصميم لتحقيق توازن مثاليّ بين الدقّة وكفاءة الطاقة، و
دمج تقنيات التحسين مُتعدِّد الدقّات ومُتعدِّد الأهداف في SMAC لتعزيز فعاليّة التحسين واستخدام الموارد الحاسوبيّة.
الخلفيّة
يقدّم هذا القسم المفاهيم الأساسيّة لمنهجيّتنا.
شبكات الإزاحة العميقة
شبكات الإزاحة العميقة تُعدّ نهجًا حديثًا لتقليل المتطلّبات الحاسوبيّة والطاقيّة للتعلُّم العميق (DBLP:conf/cvpr/ElhoushiCSTL21). تُحقِّق هذه الشبكات خفضًا كبيرًا في زمن الانتظار عبر تبسيط معماريّة الشبكة باستبدال عمليات الضرب التقليديّة بعمليات الإزاحة البِتّية وعكس الإشارة، ما يجعلها مناسبة لأجهزة الحوسبة محدودة الموارد. وهناك طريقتان شائعتان لتدريب هذه الشبكات: تقنية التكميم (Quantization) وتقنية «قوى 2 والإشارة» (Powers of Two and Sign). تتضمّن الأولى تكميم الأوزان إلى أقرب قوّة للعدد 2 خلال المرورَيْن الأمامي والخلفي، بينما تتيح الثانية تدريب كلٍّ من الأُسّ (قوّة 2) وإشارة الوزن بوصفهما معاملات قابلة للتعلُّم.
في نهج التكميم، نستخرج مصفوفة الإشارة \(S\) من مصفوفة الأوزان المدربة \(W\): \( S = \mathit{sign}(W) \). وتكون مصفوفة الأُسّ \(P\) هي لوغاريتم الأساس الثنائي للقيم المطلقة لـ\(W\)، أي \( P = \log_{2}(|W|) \). بعد تقريب \(P\) إلى أقرب عدد صحيح (\( P_{\mathit{r}} = \mathit{round}(P) \))، تُحسب الأوزان المُكمَّمة \(\tilde{W}_q\) بتطبيق الإشارة: \(\tilde{W}_q = \mathit{flip}(2^{P_{\mathit{r}}}, S)\). أمّا في تقنية «قوى 2 والإشارة»، فتُعدَّل قِيَم الأُسّ (\( \tilde{P} \)) وقِيَم الإشارة (\( \tilde{S} \)) مباشرةً، حيث \( \tilde{P} = \mathit{round}(P) \) و\( \tilde{S} = \mathit{sign}(\mathit{round}(S)) \)، ثم تُحسب الأوزان \(\tilde{W}_{\mathit{ps}} = \mathit{flip}(2^{\tilde{P}}, \tilde{S})\).
تحسين المعاملات الفائقة
تزيد تعقيدات خوارزميّات التعلُّم العميق الحاجةَ إلى التحسين المؤتمت للمعاملات الفائقة (HPO) لتعزيز أداء النماذج (DBLP:journals/widm/BischlBLPRCTUBBDL23). لنفترض أنّ لدينا مجموعة بيانات \( \mathcal{D} = \{(x_i,y_i)\}_{i=1}^{N} \in \mathbb{D} \subset \mathcal{X} \times \mathcal{Y} \)، حيث \( \mathcal{X} \) فضاء المُدخلات و\( \mathcal{Y} \) فضاء المُخرجات، ولدينا فضاء تكوين المعاملات الفائقة \( \Lambda = \{\lambda_1, \ldots, \lambda_L\} \). في دراستنا، يمثِّل \( \mathcal{M} \) فضاء النماذج الممكنة لـDSNN. وتقوم الخوارزميّة \( \mathcal{A} : \mathbb{D} \times \Lambda \rightarrow \mathcal{M} \) بتدريب نموذج \( M \) استنادًا إلى تكوين يحوي \(L\) معلمة فائقة مأخوذة من \( \Lambda \) على مجموعة التدريب \( \mathcal{D}_{\textit{train}} \). تُقسَّم البيانات إلى مجموعات التدريب والتحقّق والاختبار \( \mathcal{D}_{\textit{train}}, \mathcal{D}_{\textit{val}}, \mathcal{D}_{\textit{test}} \). ويُقيَّم أداء النموذج بدالّة خسارة \( \mathcal{L} : \mathcal{M} \times \mathbb{D} \rightarrow \mathbb{R} \). هدف الـHPO هو إيجاد التكوين \( \lambda^* \in \Lambda \) الذي يُقلِّل هذه الخسارة:
وبعد اختيار التكوين الأفضل بناءً على أداء مجموعة التحقّق، يُعاد تدريب النموذج النهائي ويُختبَر على \(\mathcal{D}_{\textit{test}}\).
التحسين البايزيّ
التحسين البايزيّ استراتيجية عالميّة لتحسين دوالّ خسارة صندوقٍ أسود \(\mathcal{L}:\mathcal{M}\times\mathbb{D}\to\mathbb{R}\) مُكلفة التقييم (DBLP:journals/jgo/JonesSW98). يُوظِّف نموذجًا بَديلًا احتماليًّا \(\mathcal{S}\)—عادةً عملية غاوسيّة أو غابةً عشوائيّة—لتمثيل دالّة الخسارة (DBLP:books/lib/RasmussenW06, DBLP:conf/lion/HutterHL11). وتوجّه دالّة الاقتناء \(\mathcal{C}:\Lambda\to\mathbb{R}\) البحثَ عن النقاط التالية، مُوازِنةً بين الاستكشاف والاستغلال استنادًا إلى القيَم المُلاحظة سابقًا \(\{(\lambda_i,\mathcal{L}_i)\}_{i=1}^{m-1}\)، ثم يُحدَّث النموذج البَديل بعد تقييم \(\mathcal{L}\) عند تلك النقاط.
التحسين مُتعدِّد الدقّات
لتجنّب كُلفة تدريب جميع التكوينات حتى النهاية، نستخدم نهجًا مُتعدِّد الدقّات (MF) (DBLP:journals/jmlr/LiJDRT17) يوازن بين الأداء وخطأ التقريب (DBLP:books/sp/HKV2019). يُخصِّص هذا النهج عددًا قليلًا من الحِقَب لعدد كبير من التكوينات أولًا، ثم يوجّه الميزانيّة تدريجيًّا إلى الأفضل منها. صوريًّا، نُحدِّد مجموعة مستويات الدقّة \(\mathcal{F}\) ونهدف إلى تقليل الدالّة عالية الدقّة \(F\in\mathcal{F}\):
ثم نُقرِّب \(F\) بسلسلة من التقريبات الأقل دقّة والأقل كُلفة \(\{f_1(\lambda),\ldots,f_j(\lambda)\}\) عبر مستويات متعددة \(j\)، حيث تُخصَّص لكل تقييم ميزانيّة تناسب مستواه.
التحسين مُتعدِّد الأهداف
يعالج التحسين مُتعدِّد الأهداف مسائل تتضمّن أهدافًا متعارِضة، مثل رفع الدقّة وتقليل استهلاك الطاقة في شبكات الإزاحة العميقة. يهدف إلى إيجاد حلول باريتو المثلى (Deb2014) عبر إضافة نقاط جديدة استنادًا إلى المُشاهدات الحاليّة \( \mathcal{D}_\mathit{obs} = \{(\lambda_i,\mathcal{L}(\lambda_i))\}_{i=1}^{n}\). تُشكِّل هذه النقاط السطح غير المُهيمَن عليه \( D^\star_n \)، بحيث لا يمكن تحسين أيّ هدف دون الإضرار بآخر.
المنهج
لتعزيز كفاءة شبكات الإزاحة العميقة حاسوبيًّا عبر التعلُّم الآلي المؤتمت، نعتمد التحسين مُتعدِّد الدقّات. نقدّم مستويات دقّة مختلفة لعملية التدريب بزيادة عدد طبقات الإزاحة في النموذج تدريجيًّا. تبدأ العملية بنماذج تحتوي على عددٍ محدود من طبقات الإزاحة، ثم نسمح بزيادتها خلال التحسين. نفترض أنّ ذلك يوجّه البحث نحو التكوينات الأعلى أداءً، إذ يُوازِن عددٌ أقل من الطبقات بين دقّة التمثيل وخطأ التقريب. نُحقِّق ذلك عبر توسيع خوارزمية HyperBand (DBLP:journals/jmlr/LiJDRT17)—المعتمدة على «التنصيف التعاقبي» (jamieson-aistats16a)—ضمن إطار مُتعدِّد الأهداف.
كما شرحنا في الخلفيّة، يُدرَّب في «التنصيف التعاقبي» \(n_c\) تكوينًا على ميزانيّة أوليّة \(b_I\)، ثم يُنتقَى أفضل \(\nu/(\nu+1)\) منها لميزانيّة جديدة مقدارها \(\nu b_I/(\nu+1)\)، وهكذا حتى نصل إلى أفضل تكوين. وتجمع HyperBand عدّة أقواس من هذه العملية مع توزيع الميزانيّة الإجماليّة عبرها.
نوسِّع ذلك ليشمل التحسين مُتعدِّد الأهداف. نعالج هدفين معًا: دقّة النموذج واستهلاك الطاقة. نُعرِّف دالّة هدف ثنائيّة البُعد:
حيث \(f_{\text{loss}}(\lambda)\) تُقلِّل الخسارة لرفع الدقّة، و\(f_{\text{emission}}(\lambda)\) تُقلِّل استهلاك الطاقة أثناء التدريب والاستدلال. نرغب في حلّ:
يستخدم SMAC3 استراتيجية ParEGO (DBLP:journals/tec/Knowles06) لدمج الأهداف عبر أوزانٍ متغيّرة في كل تكرار ضمن HyperBand، ما يُحوِّل المشكلة مُتعدِّدة الأهداف إلى سلسلة من مسائل أحاديّة الهدف ويُحسِّن تقريب واجهة باريتو.
التجارب
نعرض في ما يأتي الإعداد والمنهجيّة المُستخدمة لتقييم المنهج المُقدَّم في قسم المنهج، مع التركيز على تحسين شبكات الإزاحة العميقة عبر التحسين مُتعدِّد الدقّات ومُتعدِّد الأهداف. ونناقش كيف وازنّا بين أداء النموذج وأثره البيئي.
إعداد التقييم
قمنا بتدريب النماذج وتقييمها على مجموعة بيانات CIFAR-10 (krizhevsky2009learning) باستخدام وحدات معالجة الرسوميات NVIDIA A100. ولتحسين المعاملات الفائقة، اعتمدنا على SMAC3 (DBLP:journals/jmlr/LindauerEFBDBRS22). ولإدخال الأثر البيئي في الحسبان، استخدمنا متتبّع الانبعاثات CodeCarbon (DBLP:journals/corr/abs-1910-09700, DBLP:journals/corr/abs-1911-08354) لرصد استهلاك الطاقة وانبعاثات الكربون بوحدة \(g\mathit{CO}_{2}\mathit{eq}\). واخترنا شبكة ResNet-20 مُدرَّبة مُسبقًا (DBLP:conf/cvpr/HeZRS16).
النتائج
يُوضّح الشكل [fig:results] أعلى دقّة اختبار لـDSNN بالتكوين الافتراضي (الجدول [table:model_config]) مقارنةً بدقّة DSNN المُكوَّنة عبر SMAC3 مع MF باستخدام HyperBand وطبقات إزاحة متفاوتة. وقد جرى تقييم حلّ واجهة باريتو الأمثل رقم 1 من الجدول [table:model_config] من بين خمسين تكوينًا. وعلى الرغم من بعض التقلّبات، يتجاوز أداء النموذج المُحسَّن دقّة النموذج الافتراضي بما لا يقل عن ثلاثة بالمئة، ما يؤكّد نجاح نهج MF.
ويدعم ذلك افتراضَنا بأن النماذج المُقيَّمة تحت مستويات دقّة مبسّطة تُحافظ على تحسّن الأداء عند إضافة المزيد من طبقات الإزاحة.
يعرض الجدول [table:model_config] حلَّيْن أمثلَيْن من واجهة باريتو من بين 33 تكوينًا. يحقّق الحل رقم 1 دقّة اختبار قدرها 83.50% مع 0.1661 \(g\mathit{CO}_{2}\mathit{eq}\)، بينما يحقّق الحل رقم 2 دقّة 84.67% مع 0.1673 \(g\mathit{CO}_{2}\mathit{eq}\)—وقد دُرِّبا لعددٍ أقل من الحِقَب بسبب قيودٍ حاسوبيّة. ويُوازِن كلا التكوينَيْن بين أداءٍ عالٍ وانبعاثاتٍ منخفضة.
تشمل المعاملات الرئيسة عدد بِتّات التفعيل، ودقّة الفاصلة العائمة، وعمق طبقات الإزاحة. في الحل رقم 1 يوجد عدد أقل من طبقات الإزاحة مع عدد محدود من البِتّات لتمثيل الأوزان، ما يُخفِّض الطلب الحاسوبي مع الحفاظ على انبعاثاتٍ مماثلة للحل رقم 2 الذي يستخدم طبقاتٍ أكثر وبِتّاتٍ أكثر. ويُظهِر هذا التوازن أنّ التحكُّم في عدد طبقات الإزاحة وعدد البِتّات يُفضي إلى تكوينات متوازنة عالية الأداء وفعّالة طاقيًّا، بما يدعم جدوى نهج MFMO.
الخلاصة
قدّمنا في هذا العمل نهجًا أخضر للتعلُّم الآلي المؤتمت يستهدف تحسينًا مُستدامًا لشبكات الإزاحة العميقة عبر إطار تحسين مُتعدِّد الدقّات ومُتعدِّد الأهداف، سعيًا إلى تحقيق توازنٍ دقيق بين قدرات التعلُّم العميق والاستدامة البيئيّة. وبإدراج أثر الطاقة كهدف، نجحنا في توجيه تحسين المعاملات الفائقة نحو دقّةٍ عالية مع انخفاض استهلاك الموارد.
أظهرت نتائجنا إمكانات النهج في تحسين شبكة إزاحة عميقة لتحقيق دقّة مرتفعة وتقليل الانبعاثات. وقد قدّمنا فضاء تكوين شاملًا، ونهجًا أخضر لتطوير النموذج، ورُؤى بشأن قرارات التصميم. مستقبلًا، سنوسّع التطبيق ليشمل مقاييس إضافيّة وبُنى متنوّعة للتحقّق من عموميّة المنهج، وضبط التفاعل بين ParEGO وHyperBand بطرائق أكثر فعاليّة، فضلًا عن دراسة مستويات دقّة مختلفة وخوارزميّات مُتعدِّدة الأهداف لتحقيق مزيدٍ من خفض الانبعاثات.
الشكر والتقدير
دعم هذا العملَ وزارةُ البيئة الاتحاديّة الألمانيّة لحماية الطبيعة والسلامة النوويّة وحماية المستهلك (مشروع GreenAutoML4FAS رقم 67KI32007A).