تَدْرِيبِ الشَبَكَةِ العَصَبِيَّةِ المُقَسَّمَةِ بِاِسْتِخْدامِ العَلاماتِ الوَسِيطَة الاِصْطِناعِيَّةِ

Cevat V. Karadağ وَ Nezih Topaloğlu

مُلَخَّص

الاِنتشار الواسع لهياكل الشبكات العصبية، وخاصة نماذج التعلم العميق، يمثل تحدياً من حيث التدريب المكثف للموارد. أصبحت قيود ذاكرة وحدة معالجة الرسومات عائقاً رئيسياً في تدريب هذه النماذج الكبيرة. تقدم الاستراتيجيات الحالية، بما في ذلك التوازي في البيانات، والتوازي في النموذج، والتوازي في الأنابيب، والتوازي الكامل في البيانات المجزأة، حلولاً جزئية. التوازي في النموذج، على وجه الخصوص، يمكّن من توزيع النموذج بالكامل عبر وحدات معالجة رسومات متعددة، لكن التواصل بين هذه الأقسام يبطئ عملية التدريب. بالإضافة إلى ذلك، يزيد العبء الكبير على الذاكرة المطلوب لتخزين المعلمات المساعدة على كل وحدة معالجة رسومات من المتطلبات الحسابية. بدلاً من استخدام النموذج بالكامل للتدريب، تدعو هذه الدراسة إلى تقسيم النموذج عبر وحدات معالجة الرسومات وتوليد العلامات الوسيطة الاصطناعية لتدريب الأجزاء الفردية. تساعد هذه العلامات، المنتجة من خلال عملية عشوائية، في تخفيف العبء على الذاكرة والحمل الحسابي. يؤدي هذا النهج إلى عملية تدريب أكثر كفاءة تقلل من التواصل مع الحفاظ على دقة النموذج. للتحقق من هذه الطريقة، يتم تقسيم شبكة عصبية متصلة بالكامل مكونة من 6 طبقات إلى جزأين ويتم تقييم أدائها على مجموعة بيانات MNIST الموسعة. تشير النتائج التجريبية إلى أن النهج المقترح يحقق دقة اختبار مماثلة لطرق التدريب التقليدية، مع تقليل كبير في متطلبات الذاكرة والحساب. تساهم هذه الأعمال في التخفيف من كثافة الموارد اللازمة لتدريب الشبكات العصبية الكبيرة، مما يمهد الطريق لتطوير نماذج تعلم عميق أكثر كفاءة.

مُقَدِّمَة

في السنوات الأخيرة، ظهرت الشبكات العصبية، وخاصة نماذج التعلم العميق، كأدوات قوية لحل المهام المعقدة في مختلف المجالات. لقد نمت هذه الشبكات بشكل كبير في الحجم والتعقيد، مما أتاح إنجازات في مجالات مثل التعرف على الصور، ومعالجة اللغات الطبيعية، وتوليد الكلام. ومع ذلك، فقد أدى هذا النمو أيضاً إلى تحدٍ كبير للمستخدم العادي: تدريب الشبكات العميقة والكبيرة جداً. على سبيل المثال، تتطلب نماذج اللغة مثل GPT-3، التي تحتوي على مليارات المعاملات، موارد حسابية كبيرة وخبرة متخصصة لتدريبها بفعالية. بشكل خاص، تشكل متطلبات ذاكرة وحدة معالجة الرسومات (GPU) للشبكات الكبيرة عقبة في تدريبها.

مع الاعتراف بأهمية موارد الذاكرة النادرة في التعلم العميق، كان الباحثون والممارسون يستكشفون بنشاط مناهج مختلفة لجعل التكنولوجيا أكثر سهولة في الوصول (Sutton09,Shiram19,Fu2021,Yao2018,Meng2017TrainingDM). إحدى الطرق البسيطة والفعالة هي تقليل دقة معاملات النموذج. بدلاً من استخدام نوع بيانات النقطة العائمة ب32-بت، يمكن استخدام BFLOAT16، الذي يستهلك 16 بت (8 بت للأس و7 بت للكسر) (URL_BFLOAT16). على الرغم من أن هذا النهج يقلل من استهلاك الذاكرة إلى النصف، إلا أنه يأتي بدقة أقل لمعاملات النموذج. بالإضافة إلى ذلك، فإن التحسين الذي يوفره محدود: استخدام أنواع البيانات ب8-بت، على سبيل المثال، سيؤدي إلى تدهور كبير في الدقة.

إحدى الطرق الواعدة التي تقلل من استهلاك ذاكرة وحدة معالجة الرسومات تتضمن تقسيم البيانات، أو النموذج، أو الأنابيب، وتسمى التوازي (jia2018data). يتضمن التوازي البياني (DP) تقسيم دفعات التدريب إلى مجموعات فرعية أصغر وتوزيعها عبر مستخدمين أو أجهزة متعددة، مما يسمح بالتدريب التعاوني دون الحاجة إلى بنية تحتية مركزية. من ناحية أخرى، يركز التوازي النموذجي (MP) على تقسيم النموذج عمودياً إلى مكونات أصغر يمكن تدريبها بشكل مستقل ثم دمجها لتشكيل شبكة أكبر. يتيح هذا النهج التدريب الموزع، حيث يمكن معالجة أجزاء مختلفة من الشبكة في وقت واحد بواسطة أجهزة أو أفراد مختلفين. التوازي الأنبوبي (PP)، من ناحية أخرى، يقسم الشبكة أفقياً على وحدات حوسبة مختلفة. لقد حظيت جميع طرق التوازي بالكثير من الاهتمام وتعتبر مواضيع ساخنة في سعيها لتقليل متطلبات الحوسبة والذاكرة لتدريب التعلم العميق، حيث تقدم حلولاً محتملة للتخفيف من التحديات التي تفرضها تدريب الشبكات العميقة والكبيرة جداً.

في التوازي البياني، يمكن أن يتناسب النموذج داخل وحدة معالجة رسوميات واحدة. يتم نسخ النموذج ومعاملات التدريب إلى وحدات معالجة رسوميات متعددة ويتم تقسيم البيانات إلى عدد الوحدات المتاحة. يتم أيضاً إجراء التقدم والتراجع المتوازي في كل وحدة معالجة رسوميات على حدة. ثم تتم مزامنة التدرجات المحسوبة في كل وحدة معالجة رسوميات ويتم تحديث معاملات النموذج في كل وحدة معالجة رسوميات وفقاً لذلك. بينما هذه الطريقة فعالة من حيث الحساب، فإنها لا تقلل من متطلبات الذاكرة لكل جهاز. يتم استخدام التوازي البياني بنشاط في PyTorch ويعرف باسم التوازي البياني الموزع (DDP) (URL_DDP). يمكن العثور على تحقيق شامل لـDDP في PyTorch في (Li20). على الرغم من أن DDP هو حل متعدد الاستخدامات عندما يتناسب النموذج داخل وحدة معالجة رسوميات واحدة، إلا أنه لا ينطبق بمفرده عندما يكون حجم النموذج أكبر من ذاكرة وحدة معالجة الرسوميات.

يمكن أن يكون التوازي الأنبوبي مفيداً عندما يمكن تقسيم النموذج أفقياً، مثل في تطبيقات معالجة الصور. مثال شهير هو G-Pipe، الذي اقترحه Huang et al. (huang2019gpipe). اقترحوا استراتيجية توازي أنبوبي للدفعات الصغيرة، من خلال تقسيم الدفعة الكبيرة إلى دفعات صغيرة متساوية. في نهاية كل دفعة صغيرة، يتم تجميع التدرجات وتطبيقها لتحديث معاملات النموذج. أحد العيوب الرئيسية للتوازي الأنبوبي هو فقاعة الأنبوب، بسبب عدم التوازن في العمل أو التبعيات بين الأنابيب. بالإضافة إلى ذلك، تتطلب عملية التطبيع الدفعي عبر الأنابيب اهتماماً خاصاً.

التوازي النموذجي هو استراتيجية رئيسية عندما يكون حجم النموذج ومعاملات التدريب، مثل التدرجات، وحالات المحسن، والمتغيرات المؤقتة الأخرى أكبر من ذاكرة وحدة معالجة الرسوميات (Castello19,Wanwu2022). اقترح Rajbhandari et al. طريقة لتقسيم النموذج ومعاملات التدريب، مدفوعة بتحقيق عدم تداخل البيانات بين وحدات معالجة الرسوميات (rajbhandari2020zero). تم تحسين الطريقة مؤخراً كتوازي البيانات المقسمة بالكامل (FSDP)، مع تنفيذ في PyTorch (zhao2023pytorch). مرة أخرى، يتم تقسيم البيانات بين وحدات معالجة الرسوميات، ولكن هذه المرة يتم أيضاً تقسيم النموذج ومعاملات التدريب، مع عدم وجود تداخل. بعد إجراء التمريرات الأمامية والخلفية بطريقة متوازية، تتم مزامنة التدرجات بشكل مركزي ويتم بعد ذلك تنفيذ تحديث النموذج. مؤخراً، اقترح Mlodozenie et al. التوازي النموذجي والبياني، حيث يتم تحسين كل قسم من النموذج لشرائح بيانات محددة (mlodozeniec2023). تم تعريف دالة خسارة بناءً على شرائح البيانات التي لم ترها الشبكة الفرعية. اقترح Akintoye et al. تقسيم النموذج طبقياً (akintoye2022)، لتقليل النفقات العامة للاتصال بين الأجهزة وتكلفة الذاكرة أثناء التدريب. يتم تقسيم الطبقات باستخدام وحدات معالجة الرسوميات ثم دمجها. التقسيم النموذجي شائع أيضاً بين الشبكات العصبية الرسومية (liao2018graph) وضمن الأنظمة التي تشمل أجهزة الحافة، مثل شبكات الأشياء (IoT) (Na22,Oliveira19,parthasarathy2023).

بخلاف التوازي البياني والنموذجي والأنبوبي، اقترح الباحثون طرقاً أخرى لتقليل الطلب على الذاكرة لتدريب الشبكات العصبية. اقترح Jain et al. تشفير خرائط الميزات لتوفير الذاكرة (Jain18). اقترح Wang et al. الخلايا العصبية الفائقة التي تتميز بتحسين الذاكرة من خلال تخصيص الذاكرة بشكل ديناميكي لمساحات العمل التحويلية (Wang18). الطلب على الذاكرة لطريقة التحسين التكيفية كبير أيضاً. قامت بعض الدراسات بتقليل هذه البصمة الذاكرية من خلال تبسيط نماذج المحسن (anil19memoryefficient,shazeer2018adafactor). تحمل هذه الطرق خطر التأثير على تقارب النموذج.

في هذه الدراسة، تم تطوير منهجية تدريب شبكة عصبية جديدة، تسمى تدريب الشبكة العصبية المقسمة (PNN). يتم تقسيم الشبكة إلى شبكتين فرعيتين أو أكثر. بدلاً من تدريب الشبكة بالكامل، يتم تدريب هذه الأقسام بشكل منفصل باستخدام البيانات الاصطناعية وبيانات التدريب الأصلية. نظراً لأن كل قسم يتم تدريبه بشكل منفصل، يتم القضاء على التواصل لمخرجات التغذية الأمامية والتدرجات إلى أقسام أخرى أو جهاز مضيف. وبالتالي، يتم تقليل النفقات العامة للاتصال بشكل كبير مقارنة بطرق التوازي النموذجي الأخرى. بالإضافة إلى ذلك، يسمح التدريب المنفصل للأقسام بضبط معلمات التدريب الفائقة لكل قسم. يتيح هذا النهج تقليل الطلب الحسابي الإجمالي مع الحفاظ على الدقّة.

التدريب المنفصل لأقسام النموذج

أخيراً، يُعد التدريب المنفصل لأقسام النموذج فعالاً أيضاً في التخفيف من مشكلة تلاشي التدرجات، والتي يُرجح ملاحظتها أكثر في الشبكات العصبية العميقة (Kolbusz2017vanishing).

الطريقة المقترحة

تعتمد الطريقة على الملاحظة بأن أوزان الطبقات المتوسطة في الشبكة العصبية تظهر بعض العشوائية بطبيعتها. تنبع هذه العشوائية من التهيئة العشوائية الأولية للأوزان داخل الشبكة العصبية، بالإضافة إلى الطبيعة التكرارية لعملية التدريب (Maennel20). ونتيجة لذلك، ستختلف قيمة الأوزان في الطبقة المتوسطة وستكون معتمدة على الأوزان العشوائية الأولية (franchi2021tradi). لذا، نفترض أنه عند تقسيم شبكة، يمكن تدريب القطاعات الفردية بشكل مستقل باستخدام تسميات صناعية أو خرائط ميزات تم إنشاؤها من خلال عملية عشوائية.

لإظهار الطبيعة العشوائية لمعاملات الشبكة بعد التدريب، يتم تدريب شبكة متصلة بالكامل بشكل متكرر باستخدام مجموعة بيانات المعهد الوطني للمعايير والتكنولوجيا (deng2012mnist). تحتوي الشبكة على ثلاث طبقات، بعدد الخلايا العصبية في كل طبقة كما يلي: 100، 50 و10. في كل خطوة، يتم إعادة تهيئة الأوزان بشكل عشوائي من خلال إعادة إنشاء الشبكة. تهيئة الوزن هي التهيئة الافتراضية في PyTorch (URL_torch_init_linear). يتم التدريب في 15 دورة تدريبية بحجم دفعة قدره 256، ويتم حفظ النموذج بعد كل دورة تدريبية من 15 دورة. بعد إجراء هذا الإجراء التدريبي الكامل 300 مرة، يتم رسم الرسم البياني لثلاث معاملات: الحد الأقصى، الحد الأدنى والفرق بين الحد الأقصى والحد الأدنى من أوزان الطبقة المتوسطة. تظهر الرسومات أنه حتى بعد التدريب، لا تزال الأوزان تحتوي على بعض العشوائية، بسبب الأوزان الأولية العشوائية عند بدء الشبكة. وبالتالي، يجب أن تظهر نتائج التنشيط المتوسطة للشبكة أيضاً كمية كبيرة من العشوائية، ومن المتوقع أنه يمكن تقسيم الشبكة وتدريبها باستخدام تسميات متوسطة صناعية، والتي يتم إنشاؤها باستخدام عملية عشوائية.

تبدأ الطريقة بتقسيم النموذج بالكامل إلى شبكتين فرعيتين، تعرفان بالأقسام اليسرى واليمنى. على الرغم من أن التقسيم إلى أكثر من شبكتين فرعيتين ممكن، إلا أن الطريقة موضحة على افتراض أن الشبكة مقسمة إلى شبكتين فرعيتين، للبساطة. يتم تدريب القسم الأيسر أولاً، دون استخدام القسم الأيمن. لتحقيق ذلك، يتم إنشاء التسميات بشكل صناعي للقسم الأيسر. تسمى هذه التسميات بالتسميات الوسيطة الصناعية (SIL). بافتراض أن عدد الخلايا العصبية في الطبقة النهائية للقسم الأيسر هو \(N_P\) وعدد الفئات هو \(M\)، يتم إنشاء \(M\) متجهات بحجم \([N_P\times1]\). يمكن تمثيل التسميات الوسيطة الصناعية بواسطة مصفوفة N-by-M (\(SIL \in \mathbb{R}^{N_P\times M} \))، حيث يمثل كل عمود فئة. يتم إنشاء عناصر المصفوفة بشكل عشوائي باستخدام التوزيع الموحد \((0,1)\) وتتم معايرتها باستخدام معامل \(\kappa\). في التدوين الرياضي: \[\label{eq:SIL} SIL_{i,j} \sim \kappa \, U(0,1)\] حيث \(U(0,1)\) هو التوزيع الموحد \((0,1)\) و\(i \in {1,2,...,N_P}\) و\(j \in {1,2,...,M}\) هما مؤشرا الصف والعمود.

باستخدام المدخلات الأصلية لمجموعة البيانات التدريبية وSIL، المرتبة باستخدام مجموعة البيانات التدريبية الأصلية، يتم تدريب القسم الأيسر بـ \(N_L\) دورة تدريبية دون خلط المدخلات. في هذه المرحلة، لا يتم استخدام القسم الأيمن إطلاقاً. بعد \(N_L\) دورة تدريبية، يتم إنهاء تدريب القسم الأيسر ويتم تخزين الاستجابة النهائية للقسم الأيسر، أي الاستجابة في الدورة الأخيرة.

في المرحلة الثانية، يتم تدريب القسم الأيمن. البيانات المدخلة هي ناتج الاستجابة النهائية للقسم الأيسر، المخزنة مسبقاً. تُستخدم تسميات مجموعة البيانات الأصلية كتسميات لهذه العملية التدريبية. يتم التدريب بعدد \(N_R\) من الدورات التدريبية. بعد انتهاء تدريب القسم الأيمن، تكتمل عملية التدريب. يمكن دمج الأقسام بعد هذه المرحلة، لاستخدام الشبكة.

يمكن توسيع الطريقة بسهولة للحالات التي يتم فيها تقسيم النموذج إلى أكثر من شبكتين فرعيتين. يتم توضيح هذا الخوارزم الشامل في الرسم البياني. في هذا السيناريو، من الضروري وجود تسمية وسيطة صناعية مميزة لكل طبقة وسيطة. تظل فوائد الطريقة المقترحة قابلة للتطبيق.

من الممكن أيضاً الانفصال عن الطبيعة التسلسلية للتدريب وتدريب كل شبكة فرعية بشكل متزامن، باستخدام التسميات الوسيطة الصناعية كمدخلات وتسميات. يتم عرض الرسم البياني لهذا النهج. تتضمن هذه الهندسة المثيرة للاهتمام أقساماً وسيطة، ليتم تدريبها من خلال المدخلات والتسميات التي تم إنشاؤها بواسطة عملية عشوائية. تم إظهار سابقاً أنه من الممكن تدريب شبكة عصبية باستخدام بيانات عشوائية بخسارة تدريب صفرية، شريطة أن يكون عدد الدورات التدريبية وعدد المعاملات كافيين (zhang2017understanding). ومع ذلك، تتطلب هذه الطريقة العديد من الدورات التدريبية لكل شبكة فرعية لتحقيق مستوى مقبول من الدقة، مما يزيد بشكل كبير من الحمل الحسابي. نتيجة لذلك، يعتبر هذا النهج غير عملي.

المزايا مقارنة بالتوازي النموذجي القياسي

يتطلب التوازي النموذجي التقليدي اتصالات واسعة بين الأجهزة. على سبيل المثال، في عقدة تحتوي على وحدات معالجة رسومات مترابطة، تكون الاتصالات من الجهاز إلى المضيف ومن المضيف إلى الجهاز ضرورية لنقل الاستجابات والتدرجات ومعاملات النموذج المحدثة (Jain20, zhuang2022optimizing). مع زيادة عدد وحدات معالجة الرسومات، يزداد الحمل الزائد للاتصالات، مما يفرض حداً أعلى على الأداء الكلي (rajbhandari2020zero).

يسهل النهج المقترح تدريب كل قسم داخل وحدة معالجة الرسومات الخاصة به. الحمل الزائد للاتصالات أثناء التدريب يقتصر فقط على نقل مخرجات القسم السابق، والتي تعمل كمدخلات للقسم الحالي قيد التدريب. تساعد هذه الاستراتيجية في تقليل الحمل الزائد للاتصالات، مما يقدم نهجاً فعالاً ودقيقاً للتدريب.

يشترك كل من الطريقة المقترحة والتوازي النموذجي القياسي في ميزة توزيع النموذج عبر أجهزة متعددة. ونتيجة لذلك، تتطلب كلتا الطريقتين ذاكرة لتخزين معاملات النموذج والبيانات المرتبطة (التدرجات، حالات المحسن، التنشيطات، إلخ). بالإضافة إلى ذلك، يجب نقل بيانات التدريب دفعة واحدة إلى ذاكرة الجهاز كما في وحدات معالجة الرسومات. حالة مماثلة تحدث故ذاكرة الكاش L3 مؤخراً بسبب توفر أحجام كبيرة من ذاكرة الكاش L3 على وحدات المعالجة المركزية، مثل AMD-EPYC-9684X بذاكرة كاش 1152 ميغابايت (URL_epyc). بخلاف التوازي النموذجي، فإن طريقة التدريب المقترحة تسلسلية. يمكن تطبيق هذه الطريقة حتى عندما يكون جهاز واحد فقط متاحاً بذاكرة أصغر من حجم النموذج. في المقابل، سيكون التوازي النموذجي القياسي بطيئاً بشكل ملحوظ في مثل هذه الظروف.

يسمح تدريب الأقسام بشكل مستقل بتخصيص معايير تدريب مميزة لكل قسم، تشمل حجم الدفعة، العصور، ومعدل التعلم. على سبيل المثال، بدلاً من إخضاع الشبكة بالكامل لـ 40 عصراً، يمكن تخصيص 5 عصور فقط للقسم الأيسر بينما يخصص 80 عصراً للقسم الأيمن. يمكن أن يؤدي مثل هذا النهج إلى تقليل كبير في الطلب الإجمالي على الحساب. الفصل [sec:results] يظهر أن دقة القسم الأيسر تتقارب خلال عدة عصور، مما يبرز ميزة هذه الاستراتيجية.

تنفيذ على الشبكات المتصلة بالكامل

يتم تطبيق الخوارزمية على شبكة تصنيف متصلة بالكامل. تُستخدم مجموعة بيانات الأحرف الموسعة المتوازنة (EMNIST) (cohen2017emnist)، والتي تشمل 47 فئة، بما في ذلك الأرقام والحروف الكبيرة والصغيرة. المدخلات عبارة عن صور بالأبيض والأسود بحجم \(28\times28\)، وتُسطح إلى متجهات بحجم \(784\times 1\).

الشبكة الأساسية (غير المقسمة) هي شبكة متصلة بالكامل مكونة من ست طبقات مع تحيز. تبدأ بطبقة المدخلات بحجم 784، ويكون عدد الخلايا العصبية في كل طبقة 80، 60، 60، 60 و 47. تتم عملية التقسيم عند الطبقة الثالثة. وبالتالي، فإن القسم الأيسر يحتوي على 140 خلية عصبية بينما يحتوي القسم الأيمن على 167 خلية عصبية. ومع ذلك، نظراً لأن حجم المدخلات هو 784، فإن عدد المعاملات في القسم الأيسر أكبر بكثير: \((784+1)\times80 + (80+1)\times60 = 67660\) معلمة في القسم الأيسر و \((60+1)\times60 + (60+1)\times60 + (60+1)\times47 = 10187\) معلمة في القسم الأيمن. يتناسب عدد عمليات الضرب والتجميع (MACs) مع عدد المعاملات في شبكة متصلة بالكامل. باستخدام مكتبة عداد MACs (ptflops)، يتم حساب MACs للقسمين الأيسر والأيمن على التوالي بـ 67800 و 10307. وبالتالي، فإن تدريب القسم الأيسر أكثر كثافة من الناحية الحسابية مقارنة بتدريب الجزء الأيمن.

يتم توليد التسميات الوسيطة الاصطناعية باستخدام المعادلة [eq:SIL]، مع \(\kappa=10\). حجم التسميات الوسيطة الاصطناعية هو \(60\times47\) حيث 47 هو عدد التسميات و 60 هو عدد الخلايا العصبية في طبقة التقسيم. يوجد 112800 صورة في مجموعة بيانات التدريب. التسمية لكل صورة مدخلة هي متجه بحجم \(60\times1\)، مأخوذ من مصفوفة التسميات الوسيطة الاصطناعية بحجم \(60\times47\). نظراً لأن المدخلات لا يتم خلطها أثناء التدريب، فإن التسميات المطلوبة لتدريب القسم الأيسر (112800 تسمية بحجم \(60\times1\)) يتم ترتيبها وتحميلها إلى وحدة معالجة الرسومات كدفعات. تُستخدم طريقة التدرج العشوائي مع معدل تعلم 0.01 وزخم 0.9 للتحسين. الدالة التنشيطية في كل طبقة هي وحدة الخط المستقيم المعدلة (ReLU)، باستثناء الطبقة النهائية، حيث يتم استخدام دالة الهوية. يتم تحديد حجم الدفعة بـ 1410. تم تنفيذ العمليات على بطاقة الرسومات AMD Radeon RX 7600.

النتائج والمناقشة

في هذا القسم، يتم فحص دقة الطريقة المقترحة كدالة للحساب، مقارنة بالتدريب الأساسي. بالنسبة للتدريب الأساسي، يتم استخدام نفس مجموعة البيانات لتدريب الشبكة ذات الطبقات الست غير المقسمة، مع استخدام نفس معايير التحسين وحجم الدفعات.

يتم حساب الحمل الحسابي باستخدام عمليات الضرب والجمع المتراكمة للنماذج اليسرى واليمنى وغير المقسمة. تقدم الطريقة المقترحة تكاليف اتصال إضافية نظراً لنقل العلامة الوسيطة الاصطناعية إلى وحدة معالجة الرسومات ونقل مخرجات الطبقة اليسرى كمدخلات للطبقة اليمنى. يحدث كلا النقلين مرة واحدة فقط وبالتالي يتم استثناؤهما من التحليل.

تظهر النتائج لسيناريو محدد في الشكل [fig:general_result]. عدد العصور لتدريب النماذج اليسرى واليمنى والأساسية هي \(N_L = 5\)، \(N_R = 160\) و \(N_B = 40\)، على التوالي. يتم ضبط معامل الضرب \(\kappa\) على 10. الشبكة العصبية المقسمة تمثل النموذج المقترح. يتم تنفيذ عملية التدريب بالكامل 10 مرات لكل من النموذج الأساسي والشبكة العصبية المقسمة، ويتم استخدام رسوم بيانية للأخطاء. تشير العلامات الدائرية إلى المتوسط، بينما توضح شرائط الخطأ نطاق \(68\%\)، المكافئ لنسبة الانحراف المعياري.

تظهر النتائج بوضوح أن الطريقة المقترحة تحقق دقة اختبار مماثلة للتدريب التقليدي (71.5% للشبكة العصبية المقسمة و 76.2% للأساس) مع استخدام قوة حسابية أقل بشكل ملحوظ. على الرغم من أن القسم الأيمن يخضع لـ 160 عصراً من التدريب، فإن دقته تتقارب خلال عدد منخفض بشكل ملحوظ من العصور. ملاحظة أخرى حاسمة هي أن القسم الأيسر، الذي تم تدريبه لمدة 5 عصور فقط، يساهم بشكل كبير في تقليل الحمل الحسابي الإجمالي.

تشير النتائج إلى إمكانية ضبط المعلمات مثل عدد العصور ومعامل الضرب \(\kappa\) لتحسين كفاءة ودقة التدريب. تأثير \(N_L\) موضح في الشكل [fig:effect_of_NL]. يتم رسم دقة الاختبار للشبكة العصبية المقسمة كدالة لـ \(N_L\) لـ \(\kappa = 2\) و \(\kappa = 10\)، بينما تظل المعلمات الأخرى دون تغيير. تمثل شرائط الخطأ نسبة الانحراف المعياري. تؤكد النتائج أن تدريب القسم الأيسر حوالي 5 مرات كافٍ لتحقيق نتائج متقاربة. يصبح تأثير \(N_L\) أكثر وضوحاً عند زيادة \(\kappa\). يمثل التدريب غير المتساوي للقسمين (\(N_L = 5\)، \(N_L = 160\)) ميزة مميزة للشبكة العصبية المقسمة. من خلال تحسين عدد العصور والمعلمات الأخرى لكل قسم، يمكن تقليل الوقت الحسابي الإجمالي بشكل كبير. لا يمكن تحقيق ذلك في التوازي النموذجي التقليدي.

تعزيز الدقة من خلال مراحل التعافي

على الرغم من أن الطريقة المقترحة توفر مزايا كبيرة، إلا أن النتائج تشير إلى أن دقة الاختبار أقل قليلاً من شبكة الأساس. يمكن التخفيف من هذا العيب جزئياً من خلال مواصلة التدريب بعد الانتهاء من طريقة التدريب المقترحة. يتم تدريب الجزء الأيسر، الذي تم تدريبه لفترات قليلة فقط، لعدة فترات إضافية، بينما يتم تجميد أوزان الجزء الأيمن. تشبه هذه الطريقة نوعاً من التعلم النقلي، وتحسن الدقة. تظهر دقة الاختبار عند تطبيق مرحلة تعافي من 10 فترات، بنفس التكوين المعطى في الشكل المحذوف. بلغت دقة الاختبار المتوسطة 72% بعد تدريب الأقسام اليمنى (الموضحة بالمنطقة البنية)، وارتفعت إلى 77.5% بعد مرحلة التعافي (الموضحة بالمنطقة الوردية). بهذه الطريقة، لا تقدم الطريقة فوائد كفاءة أولية فحسب، بل توفر أيضاً مساراً لتحسين الدقة من خلال التدريب الممتد.

الاستنتاجات والآفاق المستقبلية

في الختام، يقدم هذا البحث منهجية جديدة رائدة لمواجهة التحديات التي تفرضها تدريب الشبكات العصبية التي تتطلب موارد كبيرة. من خلال الجمع بين التوازي في النموذج والتسميات الوسيطة الاصطناعية، تم تطوير منهجية جديدة تعزز كفاءة التدريب بشكل كبير دون التضحية بدقة النموذج.

تؤكد التجارب التجريبية على مجموعة بيانات (EMNIST) فعالية النهج المقترح. تقسيم شبكة عصبية مكونة من 6 طبقات إلى أجزاء، بالاقتران مع التسميات الوسيطة الاصطناعية، يحافظ على دقة الاختبار مقارنة بالطرق التقليدية مع تقليل الحاجة إلى الذاكرة والمتطلبات الحسابية. يحمل هذا التقدم آفاقاً بعيدة المدى، حيث يقدم حلاً عملياً لقيود الموارد في التعلم العميق الحديث. من خلال تحسين عمليات التدريب، يمهد هذا النهج الطريق لتطوير نماذج شبكات عصبية متقدمة أكثر سهولة في الوصول.

بالإضافة إلى مساهماته الحالية، من المتوقع أن يستكشف المشهد البحثي المستقبلي تطبيق هذه المنهجية على نطاق أوسع يتجاوز الشبكات العصبية المتصلة بالكامل. تحمل قابلية تكييف هذا النهج وعوداً للشبكات العصبية الالتفافية (CNNs)، والشبكات العصبية المتكررة (RNNs)، وهياكل المحولات. من خلال تخصيص الطريقة لهذه الأنواع المتنوعة من الشبكات، يمكن للباحثين التحقق من تعميمها وفعاليتها عبر نطاق أوسع من نماذج التعلم العميق. يمكن لهذا التوسع في مختلف الهياكل أن يحدث ثورة في كفاءة التدريب عبر كامل طيف أنماط الشبكات العصبية، دافعاً المجال نحو تطوير نماذج أكثر سلاسة وسهولة في الوصول.