مُلَخَّص

يُعَدُّ الانتشار الواسع لبُنى الشبكات العصبية، ولا سيّما نماذج التعلُّم العميق، تحدّياً من حيث التدريب كثيف الموارد. فقد غدت قيود ذاكرة وحدات معالجة الرسوميّات عائقاً رئيساً أمام تدريب هذه النماذج الكبيرة. تُقدِّم الاستراتيجيات الراهنة، ومن بينها توازي البيانات، وتوازي النموذج، وتوازي خطّ الأنابيب، وتوازي البيانات المُجزَّأة بالكامل، حلولاً جزئية. يتيح توازي النموذج، على وجه الخصوص، توزيع النموذج كلّه عبر وحدات معالجة رسوميّات عدّة، غير أنّ الاتصالات بين هذه الأجزاء تُبطِئ عملية التدريب. إضافةً إلى ذلك، يُثقل كاهل الذاكرة على كل وحدة معالجة رسوميّات بسبب تخزين حالات المُحسِّن وسائر المعاملات المساعدة. بدلاً من استخدام النموذج كاملاً أثناء التدريب، تقترح هذه الدراسة تقسيم النموذج عبر الوحدات وتوليد تسميات وسيطة اصطناعية لتدريب الأجزاء منفردة. تساعد هذه التسميات، المُنشأة بعملية عشوائية، في تخفيف عبء الذاكرة والحِمل الحسابي. يفضي هذا النهج إلى عملية تدريب أكفأ تقلّ فيها الاتصالات مع الحفاظ على دقّة النموذج. وللتحقُّق من الفكرة، تُقسم شبكة عصبية مُتصلة بالكامل مكوّنة من 6 طبقات إلى قسمين ويُقوَّم أداؤها على مجموعة بيانات MNIST الموسّعة. تُشير النتائج التجريبية إلى أنّ النهج المقترح يحقق دقّة اختبار مماثلة لطرق التدريب التقليدية، مع خفضٍ كبير في متطلبات الذاكرة والحساب. تُسهم هذه الأعمال في تخفيف كثافة الموارد اللازمة لتدريب الشبكات العصبية الكبيرة، وتُمَهِّد الطريق لنماذج تعلُّم عميق أكفأ.

مُقَدِّمَة

في السنوات الأخيرة برزت الشبكات العصبية، ولا سيّما نماذج التعلُّم العميق، كأدوات قويّة لحلّ مهام معقّدة في مجالات شتّى. وقد نمت هذه الشبكات كثيراً حجماً وتعقيداً، ما أتاح إنجازات في مجالات كالتعرُّف على الصور، ومعالجة اللغات الطبيعية، وتوليد الكلام. لكن هذا النموّ ولّد تحدِّياً كبيراً للمستخدمين: تدريب الشبكات العميقة والكبيرة جدّاً. على سبيل المثال، تتطلّب نماذج اللغة مثل GPT-3، بما تحويه من مليارات المعاملات، موارد حسابية هائلة وخبرة متخصصة لتدريبها بفاعلية. وبصورة خاصّة، تُشكِّل متطلبات ذاكرة وحدة معالجة الرسوميّات عقبةً أمام تدريب الشبكات الكبيرة.

وإدراكاً لأهمية الذاكرة الشحيحة في التعلُّم العميق، يستكشف الباحثون والممارسون طرائق مختلفة لجعل هذه التكنولوجيا أيسر منالاً (Sutton09,Shiram19,Fu2021,Yao2018,Meng2017TrainingDM). ومن الوسائل البسيطة والفعّالة خفضُ دقة معاملات النموذج: فبدلاً من استخدام نوع بيانات النقطة العائمة ب32-بت، يمكن استخدام BFLOAT16 الذي يستهلك 16 بت (8 للأسّ و7 للكَسْر) (URL_BFLOAT16). ورغم أنّ هذا النهج يُنصِّف استهلاك الذاكرة، إلّا أنّه يأتي على حساب دقّة معاملات النموذج. كما أن العائد محدود: فالانتقال إلى أنواع بيانات ب8-بت، على سبيل المثال، يؤدي عادةً إلى تدهورٍ ملحوظ في الدقة.

ومن الطرائق الواعدة لتقليل استهلاك ذاكرة وحدة المعالجة الرسوميّة اعتمادُ أشكالٍ من التقسيم الموازي: توازي البيانات، وتوازي النموذج، وتوازي خطّ الأنابيب (jia2018data). في توازي البيانات (DP) تُقسَّم دفعات التدريب إلى مجموعات فرعية وتُوزّع عبر أجهزة متعددة، فيُجرى الأمام والخلف بالتوازي ثم تُجمع التدرُّجات. أمّا توازي النموذج (MP) فيقسِّم النموذج عمودياً أو داخلياً إلى مكونات أصغر تُعالَج على أجهزة مختلفة ثم تُدمَج. ويقسِّم توازي خطّ الأنابيب (PP) الشبكة عبر العمق إلى مراحل متتابعة تعمل على دفعات صُغرى. وقد حظيت هذه الأشكال من التوازي باهتمام واسع لِما تعد به من تقليل متطلبات الحوسبة والذاكرة عند تدريب نماذج التعلُّم العميق الكبيرة.

في توازي البيانات يمكن أن يتّسع النموذج داخل وحدة معالجة رسوميّات واحدة؛ إذ يُنسَخ النموذج ومعاملات التدريب إلى وحدات عدّة وتُقسَّم البيانات بينها. ويُجرى المروران الأمامي والخلفي على كل وحدة على حدة، ثم تُزامَن التدرجات لتحديث معاملات النموذج على جميع الوحدات. ورغم فاعلية هذه الطريقة حسابياً، إلّا أنّها لا تُقلِّل متطلبات الذاكرة لكل جهاز. ويُستخدم توازي البيانات على نحوٍ واسع في PyTorch تحت اسم التوازي الموزّع للبيانات (DDP) (URL_DDP)؛ ويمكن العثور على تحقيق شامل له في (Li20). ومع أنّ DDP حلٌّ مرن طالما اتّسع النموذج في ذاكرة جهاز واحد، فإنّه لا يكفي وحده حين يفوق حجم النموذج ذاكرة وحدة المعالجة الرسوميّة.

وقد يكون توازي خطّ الأنابيب مفيداً عندما يمكن تقسيم الشبكة على امتداد عمقها إلى مراحل، كما في تطبيقات الرؤية الحاسوبية. ومن الأمثلة المعروفة G-Pipe الذي اقترحه Huang et al. (huang2019gpipe)، حيث تُقسَّم الدفعة الكبيرة إلى دفعات صُغرى متساوية وتُجمع التدرُّجات في نهاية كل دفعة صغرى لتحديث المعاملات. ومن عيوب هذا الأسلوب فقاعةُ الأنبوب الناجمة عن عدم توازن العمل أو التبعيات بين المراحل، كما تتطلب تسوية الإحصاءات في طبقات التطبيع الدفعي بين المراحل معالجةً خاصة.

أمّا توازي النموذج فهو أساسي حين يفوق حجم النموذج ومعاملات التدريب (مثل التدرجات، وحالات المُحسِّن، والمتغيرات المؤقتة) ذاكرةَ وحدة المعالجة الرسوميّة (Castello19,Wanwu2022). وقد اقترح Rajbhandari et al. أسلوباً لتقسيم النموذج ومكوّنات التدريب مع تجنُّب التكرار غير الضروري عبر الأجهزة (rajbhandari2020zero). وتطوّر هذا لاحقاً إلى توازي البيانات المُجزَّأة بالكامل (FSDP) مع تنفيذ في PyTorch (zhao2023pytorch): إذ تُقسّم البيانات بين الأجهزة، وكذلك تُقسّم معاملات النموذج وحالات المُحسِّن من دون تداخل. وبعد المرورين الأمامي والخلفي بصورة متوازية، تُزامَن التدرجات مركزياً ثم يُجرى التحديث. ومؤخراً، اقترح Mlodozeniec et al. الجمعَ بين توازي النموذج وتوازي البيانات حيث تُحسَّن كلُّ شريحة من النموذج على قِطع بيانات مخصصة (mlodozeniec2023). كما اقترح Akintoye et al. تقسيم الطبقات (akintoye2022) لتقليل كلفة الاتصالات بين الأجهزة وبصمة الذاكرة أثناء التدريب. ويشيع التقسيم النموذجي أيضاً في الشبكات العصبية البيانية (liao2018graph) وفي الأنظمة الحافّة كشبكات الأشياء (IoT) (Na22,Oliveira19,parthasarathy2023).

وعلاوةً على أشكال التوازي السابقة، طُرحت طرائق أخرى لخفض الطلب على الذاكرة أثناء التدريب. فاقترح Jain et al. ترميز خرائط الميزات لتوفير الذاكرة (Jain18)، واقترح Wang et al. عُصبونات فائقة مع تخصيص ديناميكي لمساحات العمل التحويلية (Wang18). كما أنّ طرائق التحسين التكيفية تُضيف عبئاً ذاكرّياً كبيراً، وقد خفّضت دراساتٌ هذا العبء بتبسيط نماذج المُحسِّن (anil19memoryefficient,shazeer2018adafactor)، مع مخاطرة بالتأثير في تقارب التدريب.

في هذه الدراسة نطوّر منهجية تدريب جديدة للشبكات العصبية نُسميها تدريب الشبكات العصبية المُقسَّمة (PNN). نُقسِّم الشبكة إلى شبكتين فرعيتين أو أكثر. وبدلاً من تدريب النموذج كاملاً، نُدرّب هذه الأقسام على نحوٍ مستقل باستخدام بياناتٍ أصلية وتسمياتٍ وسيطة اصطناعية. وبما أنّ كل قسم يُدرَّب منفصلاً، تنتفي الحاجة إلى تبادل مخرجات المرور الأمامي أو التدرجات مع الأقسام الأخرى أو عبر المُضيف، فتتقلّص كلفة الاتصالات مقارنةً بتوازي النموذج التقليدي. كذلك يتيح الفصل ضبط فرط المعاملات لكل قسم على حدة، بما يقلّل الطلب الحسابي الإجمالي مع الحفاظ على الدقّة.

التدريب المنفصل لأقسام النموذج

يساعد التدريب المنفصل لأقسام النموذج أيضاً في التخفيف من مشكلة تلاشي التدرُّجات، وهي أشيع ملاحظةً في الشبكات العصبية العميقة (Kolbusz2017vanishing).

الطريقة المقترحة

تعتمد الفكرة على ملاحظة أنّ أوزان الطبقات الوسطى في الشبكات العصبية تُظهِر قدراً من العشوائية بطبيعتها؛ إذ تنبع من التهيئة العشوائية الأولى للأوزان ومن طبيعة عملية التدريب التكرارية (Maennel20). وبناءً عليه تختلف قيم الأوزان في الطبقات المتوسطة بحسب التهيئة الأولية العشوائية (franchi2021tradi). لذا نفترض أنّه عند تقسيم الشبكة يمكن تدريب القطاعات منفردة باستخدام تسميات وسيطة اصطناعية أو خرائط ميزات تُنشَأ بعملية عشوائية.

ولإظهار الطابع العشوائي لمعاملات الشبكة بعد التدريب، نُدرِّب شبكة متصلة بالكامل مراراً على مجموعة بيانات المعهد الوطني للمعايير والتكنولوجيا (deng2012mnist). تتألف الشبكة من ثلاث طبقات بعدد عصبونات 100 و50 و10. في كل تكرار نُعيد تهيئة الأوزان عشوائياً بإعادة إنشاء الشبكة. التهيئة افتراضية في PyTorch (URL_torch_init_linear). نُدرِّب لِـ15 دورة بحجم دفعة 256 ونحفظ النموذج بعد كل دورة. وبعد تكرار التدريب 300 مرة نرسم قيماً لثلاث إحصاءات من أوزان الطبقة الوسطى: الحد الأقصى والحد الأدنى والفارق بينهما. تُظهِر الرسوم أنّ الأوزان تبقى عشوائيةً إلى حدٍّ ما حتى بعد التدريب، نتيجة التهيئة العشوائية. وبالتبعية ستُظهِر خرائط التنشيط الوسطيّة قدراً كبيراً من العشوائية، ما يفتح الباب لتقسيم الشبكة وتدريبها باستعمال تسميات وسيطة اصطناعية مُولَّدة عشوائياً.

تبدأ الطريقة بتقسيم النموذج إلى شبكتين فرعيتين: قسم أيسر وقسم أيمن. ورغم إمكان التقسيم إلى أكثر من شبكتين، نعرض الفكرة بافتراض قسمين لِلبساطة. نُدرِّب أولاً القسم الأيسر من دون استخدام القسم الأيمن. ولتحقيق ذلك نُنشئ تسمياتٍ اصطناعية للقسم الأيسر تُسمّى التسميات الوسيطة الاصطناعية (SIL). بافتراض أنّ عدد عصبونات الطبقة النهائية في القسم الأيسر \(N_P\) وعدد الفئات \(M\)، نُنشئ \(M\) متجهات بحجم \([N_P\times1]\). يمكن تمثيل التسميات الوسيطة الاصطناعية بمصفوفة \(SIL \in \mathbb{R}^{N_P\times M}\) حيث يمثّل كل عمود فئة. تُنشأ عناصر المصفوفة عشوائياً من التوزيع الموحد \((0,1)\) ثم تُضبَط بمعامل قياس \(\kappa\) وفق: \[ SIL_{i,j} \sim \kappa \, U(0,1) \] حيث \(U(0,1)\) هو التوزيع المنتظم على \((0,1)\) و\(i \in \{1,2,\ldots,N_P\}\) و\(j \in \{1,2,\ldots,M\}\) مؤشّرا الصف والعمود.

باستخدام مُدخلات مجموعة التدريب الأصلية وSIL نُدرِّب القسم الأيسر على مدى \(N_L\) دورات تدريبية من دون خلط المُدخلات. في هذه المرحلة لا يُستخدم القسم الأيمن إطلاقاً. بعد \(N_L\) دورة نُنهي تدريب القسم الأيسر ونحفظ مخرجه النهائي (استجابة الدورة الأخيرة).

في المرحلة الثانية نُدرِّب القسم الأيمن على مُدخل هو المخرج النهائي المحفوظ للقسم الأيسر، مع استخدام تسميات مجموعة البيانات الأصلية. يجري التدريب على مدى \(N_R\) دورات، وبعدها تُدمَج الأقسام لاستخدام الشبكة كاملةً.

يمكن توسيع الطريقة بسهولة عندما يُقسَّم النموذج إلى أكثر من شبكتين فرعيتين. عندها يلزم وجود تسمية وسيطة اصطناعية مميّزة لكل طبقة وسيطة، وتبقى مزايا النهج المقترح قائمة.

يمكن كذلك التخلي عن الطابع التسلسلي وتدريب كل شبكة فرعية على نحوٍ متزامن باستخدام تسميات وسيطة اصطناعية كمدخلات وتسميات. تتضمّن هذه البنية أقساماً وسطى تُدرَّب بمدخلات وتسميات مُنشأة عشوائياً. وقد أُثبت سابقاً إمكانُ الوصول إلى خسارة تدريب صفرية بشبكة تُدرَّب على بيانات عشوائية إذا كثرَت الدورات والمعاملات بما يكفي (zhang2017understanding). غير أنّ ذلك يتطلّب عدداً كبيراً من الدورات لكل قسم لتحقيق دقة مقبولة، ما يرفع الكلفة الحسابية ويجعلُه غير عملي.

المزايا مقارنةً بتوازي النموذج القياسي

يتطلّب توازي النموذج التقليدي قدراً كبيراً من الاتصالات بين الأجهزة. فعلى عقدة تضم وحدات معالجة رسوميّات مترابطة تكون الاتصالات من الجهاز إلى المُضيف وبالعكس ضرورية لنقل الاستجابات والتدرّجات وتحديثات المعاملات (Jain20, zhuang2022optimizing). ومع ازدياد عدد الوحدات يتعاظم الحمل الزائد للاتصالات، ما يضع سقفاً للأداء الكلي (rajbhandari2020zero).

يُيسِّر النهج المقترح تدريب كل قسم داخل وحدة معالجته الرسوميّة الخاصة. ويقتصر الحمل الزائد للاتصالات أثناء التدريب على نقل مخرجات القسم السابق بوصفها مُدخلات للقسم الجاري تدريبه. تُسهم هذه الاستراتيجية في خفض الاتصالات، مُقدِّمةً نهجاً فعّالاً ودقيقاً للتدريب.

وتنطبق ملاحظة مشابهة عند استخدام معالجات بمساحات كبيرة من ذاكرة المُخبّأ من المستوى الثالث (L3)، مثل AMD EPYC-9684X بسعة 1152 ميغابايت (URL_epyc). وعلى خلاف توازي النموذج، فإن الطريقة المقترحة تسلسلية ويمكن تطبيقها حتى عند توافر جهاز واحد فقط بذاكرةٍ أصغر من حجم النموذج؛ بينما يكون توازي النموذج القياسي بطيئاً في مثل هذه الظروف أو غير قابلٍ للتطبيق.

يسمح التدريب المنفصل لكل قسم بتخصيص فرط المعاملات، مثل حجم الدفعة وعدد الدورات ومعدّل التعلُّم. على سبيل المثال، بدلاً من إخضاع الشبكة كاملةً لِـ40 دورة، يمكن تخصيص 5 دورات للقسم الأيسر و80 دورة للقسم الأيمن. وسنرى في قسم النتائج والمناقشة أنّ دقّة القسم الأيسر تتقارب خلال عددٍ محدود من الدورات، ما يُبرز ميزة هذه الاستراتيجية.

تنفيذ على الشبكات المتصلة بالكامل

نُطبّق الخوارزمية على شبكة تصنيف متصلة بالكامل. تُستخدم مجموعة بيانات الأحرف الموسّعة المتوازنة (EMNIST) (cohen2017emnist) التي تتضمن 47 فئة تشمل الأرقام والحروف الكبيرة والصغيرة. المُدخلات صور رمادية بحجم \(28\times28\) تُسطَّح إلى متجهات بحجم \(784\times1\).

الشبكة الأساسية (غير المُقسّمة) شبكة متصلة بالكامل ذات ست طبقات مع انحياز: تبدأ بطبقة مُدخلات بحجم 784، ثم طبقات بعدد عصبونات 80، 60، 60، 60، وأخيراً طبقة مخرجات 47. يجري التقسيم عند الطبقة الثالثة؛ وعليه يضم القسم الأيسر الطبقات حتى طبقة 60 الثالثة (بعدد إجمالي 140 عصبوناً مخفيّاً)، ويضم القسم الأيمن الطبقات اللاحقة (167 عصبوناً مخفيّاً ومخرَجاً). ونظراً إلى أنّ حجم المُدخلات 784، فإن عدد معاملات القسم الأيسر أكبر بكثير: \((784+1)\times80 + (80+1)\times60 = 67660\) معلمة، بينما في القسم الأيمن \((60+1)\times60 + (60+1)\times60 + (60+1)\times47 = 10187\) معلمة. ويتناسب عدد عمليات الضرب-والجمع (MACs) مع عدد المعاملات في شبكة متصلة بالكامل. وباستخدام مكتبة عدّاد MACs (ptflops)، تُقدَّر MACs للقسمين الأيسر والأيمن على التوالي بـ67800 و10307، ما يجعل تدريبَ القسم الأيسر أثقل حسابياً.

تُولَّد التسميات الوسيطة الاصطناعية وفق المعادلة أعلاه مع \(\kappa=10\). أبعاد مصفوفة التسميات \(60\times47\) حيث 47 عدد الفئات و60 عدد عصبونات طبقة التقسيم. يبلغ عدد صور التدريب 112800. التسمية لكل صورة مُدخلة متجه بحجم \(60\times1\) مأخوذ من مصفوفة SIL. وبما أنّ المُدخلات لا تُخلط أثناء التدريب، تُرتَّب التسميات اللازمة لتدريب القسم الأيسر (112800 تسمية بحجم \(60\times1\)) وتُحمَّل إلى وحدة المعالجة الرسوميّة على دفعات. نستخدم طريقة التدرّج العشوائي مع معدّل تعلُّم 0.01 وزَخَم 0.9 للتحسين. دالّة التنشيط في كل طبقة هي ReLU، باستثناء الطبقة النهائية حيث تُستخدم دالّة الهوية. حجم الدفعة 1410. نُفِّذت العمليات على بطاقة رسوميات AMD Radeon RX 7600.

النتائج والمناقشة

نُقارن في هذا القسم دقّة النهج المقترح بوصفها دالةً للحِمل الحسابي، مقابل التدريب الأساسي. في خط الأساس نستخدم مجموعة البيانات نفسها لتدريب الشبكة ذات الطبقات الست غير المُقسّمة وبفرط المعاملات وحجم الدفعة نفسيهما.

نحسب الحِمل الحسابي بعدد عمليات MACs لكلٍّ من القسم الأيسر والقسم الأيمن والنموذج غير المُقسّم. يُضيف النهج المقترح كلفةَ اتصال لنقل مصفوفة SIL إلى وحدة المعالجة الرسوميّة، وكذلك نقل مخرجات القسم الأيسر لاستخدامها مُدخلاتٍ للقسم الأيمن؛ وكلا النقلين يحدث مرّة واحدة فقط، ولذلك استُثنيا من التحليل.

لِحالة محدّدة (من دون إرفاق شكل)، عددُ الدورات هو \(N_L = 5\) للأيسر و\(N_R = 160\) للأيمن و\(N_B = 40\) لخط الأساس، مع \(\kappa=10\). أُجري التدريب لكلٍّ من خط الأساس والشبكة المُقسَّمة 10 مرّات؛ عُرض المتوسط بعلامات دائرية ونطاق الانحراف المعياري (\(68\%\)) بأشرطة خطأ.

تُظهر النتائج بوضوح أنّ النهج المقترح يحقق دقّة اختبار مماثلة للتدريب التقليدي (71.5% للشبكة المُقسَّمة و76.2% لخط الأساس) مع استهلاكٍ حسابي أقلّ بكثير. وعلى الرغم من تدريب القسم الأيمن لِـ160 دورة، فإن دقته تتقارب خلال عددٍ قليل من الدورات. ويُلاحظ أيضاً أنّ القسم الأيسر، الذي دُرِّب لِـ5 دورات فقط، يُسهم كثيراً في خفض الحِمل الحسابي الإجمالي.

تُشير النتائج إلى إمكان ضبط معلمات مثل عدد الدورات ومعامل القياس \(\kappa\) لتحسين كفاءة التدريب ودقّته. يُبيّن تأثير \(N_L\) (من دون إرفاق شكل) أنّ نحو 5 دورات للقسم الأيسر تكفي لنتائج متقاربة، وأن تأثير \(N_L\) يزداد بزيادة \(\kappa\). ويمثّل التدريب غير المتناظر للقسمين (\(N_L = 5\) و\(N_R = 160\)) سمةً فارقة لِـPNN؛ فمن خلال تحسين عدد الدورات وسائر الفرط لكل قسم يمكن خفض الزمن الحسابي الإجمالي إلى حدٍّ كبير، وهو ما يتعذّر تحقيقه في توازي النموذج التقليدي.

تعزيز الدقة من خلال مراحل التعافي

على الرغم من مزايا النهج المقترح، تُظهِر النتائج أنّ دقّة الاختبار أدنى بقليل من خط الأساس. ويمكن التخفيف من ذلك بمتابعة التدريب بعد اكتمال الطريقة المقترحة: إذ يُدرَّب القسم الأيسر، الذي تلقّى عدداً قليلاً من الدورات، لِعدّة دورات إضافية مع تجميد أوزان القسم الأيمن. يُشبه هذا الضبطَ الدقيق (أو تعلُّماً نقليّاً جزئياً) ويُحسِّن الدقة.

عند تطبيق مرحلة تعافٍ من 10 دورات إضافية بالتكوين نفسه (من دون إرفاق شكل)، بلغت دقّة الاختبار المتوسّطة 72% عند نهاية تدريب القسم الأيمن، وارتفعت إلى 77.5% بعد التعافي. وبذلك لا يوفّر النهج مكاسبَ كفاءة فحسب، بل يقدّم أيضاً مساراً لتحسين الدقة عبر تدريبٍ ممتد.

الاستنتاجات والآفاق المستقبلية

ختاماً، يقدّم هذا البحث منهجية جديدة لمواجهة تحدّيات تدريب الشبكات العصبية الضخمة. فبدمج توازي النموذج مع التسميات الوسيطة الاصطناعية، طوّرنا نهجاً يعزّز كفاءة التدريب بصورةٍ كبيرة من دون التضحية بدقّة النموذج.

وتؤكّد التجارب على EMNIST فاعلية النهج المقترح: إذ إنّ تقسيم شبكةٍ ذات 6 طبقات إلى أقسام، مقروناً بتسميات وسيطة اصطناعية، يحافظ على دقّة اختبار قريبة من الطرق التقليدية مع خفضٍ واضح في الذاكرة والمتطلبات الحسابية. يحمل ذلك آفاقاً واسعة بوصفه حلاً عملياً لقيود الموارد في التعلُّم العميق الحديث، ويمهّد الطريق إلى نماذج أيسر وصولاً وأعلى كفاءة.

وعلاوةً على ذلك، يُنتظَر أن تستكشف الأبحاثُ المقبلة تعميم المنهجية إلى ما وراء الشبكات المتصلة بالكامل، لتشمل الشبكات الالتفافية (CNNs) والمتكرّرة (RNNs) وبُنى المُحوِّلات. وبمواءمة الطريقة مع هذه العائلات المتنوعة يمكن التحقّق من تعميمها وفاعليتها على طيفٍ أوسع من نماذج التعلُّم العميق، دافعاً بالمجال نحو نماذج أكثر سلاسةً ويُسراً في الوصول.