```html تَدْرِيبِ الشَبَكَةِ العَصَبِيَّةِ المُقَسَّمَةِ بِاِسْتِخْدامِ العَلاماتِ الوَسِيطَة الاِصْطِناعِيَّةِ

تَدْرِيبِ الشَبَكَةِ العَصَبِيَّةِ المُقَسَّمَةِ بِاِسْتِخْدامِ العَلاماتِ الوَسِيطَة الاِصْطِناعِيَّةِ

Cevat V. Karadağ وَ Nezih Topaloğlu

مُلَخَّص

الاِنتشار الواسع لهياكل الشبكات العصبية، وخاصة نماذج التعلم العميق، يمثل تحدياً من حيث التدريب المكثف للموارد. أصبحت قيود ذاكرة وحدة معالجة الرسومات عائقاً رئيسياً في تدريب هذه النماذج الكبيرة. تقدم الاستراتيجيات الحالية، بما في ذلك التوازي في البيانات، والتوازي في النموذج، والتوازي في الأنابيب، والتوازي الكامل في البيانات المجزأة، حلولاً جزئية. التوازي في النموذج، على وجه الخصوص، يمكّن من توزيع النموذج بالكامل عبر وحدات معالجة رسومات متعددة، لكن التواصل بين هذه الأقسام يبطئ عملية التدريب. بالإضافة إلى ذلك، يُثقل عبء الذاكرة اللازم لتخزين المعلمات المساعدة على كل وحدة معالجة رسومات المتطلبات الحسابية. بدلاً من استخدام النموذج بالكامل للتدريب، تدعو هذه الدراسة إلى تقسيم النموذج عبر وحدات معالجة الرسومات وتوليد العلامات الوسيطة الاصطناعية لتدريب الأجزاء الفردية. تساعد هذه العلامات، المنتجة من خلال عملية عشوائية، في تخفيف العبء على الذاكرة والحمل الحسابي. يؤدي هذا النهج إلى عملية تدريب أكثر كفاءة تقلل من التواصل مع الحفاظ على دقة النموذج. للتحقق من هذه الطريقة، يتم تقسيم شبكة عصبية متصلة بالكامل مكونة من 6 طبقات إلى جزأين ويتم تقييم أدائها على مجموعة بيانات MNIST الموسعة. تشير النتائج التجريبية إلى أن النهج المقترح يحقق دقة اختبار مماثلة لطرق التدريب التقليدية، مع تقليل كبير في متطلبات الذاكرة والحساب. تساهم هذه الأعمال في التخفيف من كثافة الموارد اللازمة لتدريب الشبكات العصبية الكبيرة، مما يمهد الطريق لتطوير نماذج تعلم عميق أكثر كفاءة.

مُقَدِّمَة

في السنوات الأخيرة، ظهرت الشبكات العصبية، وخاصة نماذج التعلم العميق، كأدوات قوية لحل المهام المعقدة في مختلف المجالات. لقد نمت هذه الشبكات بشكل كبير في الحجم والتعقيد، مما أتاح إنجازات في مجالات مثل التعرف على الصور، ومعالجة اللغات الطبيعية، وتوليد الكلام. ومع ذلك، فقد أدى هذا النمو أيضاً إلى تحدٍ كبير للمستخدم العادي: تدريب الشبكات العميقة والكبيرة جداً. على سبيل المثال، تتطلب نماذج اللغة مثل GPT-3، التي تحتوي على مليارات المعاملات، موارد حسابية كبيرة وخبرة متخصصة لتدريبها بفعالية. بشكل خاص، تشكل متطلبات ذاكرة وحدة معالجة الرسومات (GPU) للشبكات الكبيرة عقبة في تدريبها.

مع الاعتراف بأهمية موارد الذاكرة النادرة في التعلم العميق، كان الباحثون والممارسون يستكشفون بنشاط مناهج مختلفة لجعل هذه التكنولوجيا أكثر سهولة في متناول المستخدمين (Sutton09,Shiram19,Fu2021,Yao2018,Meng2017TrainingDM). إحدى الطرق البسيطة والفعالة هي تقليل دقة معاملات النموذج. بدلاً من استخدام نوع بيانات النقطة العائمة ب32-بت، يمكن استخدام BFLOAT16، الذي يستهلك 16 بت (8 بت للأس و7 بت للكسر) (URL_BFLOAT16). على الرغم من أن هذا النهج يقلل من استهلاك الذاكرة إلى النصف، إلا أنه يأتي بدقة أقل لمعاملات النموذج. بالإضافة إلى ذلك، فإن التحسين الذي يوفره محدود: استخدام أنواع البيانات ب8-بت، على سبيل المثال، سيؤدي إلى تدهور كبير في الدقة.

إحدى الطرق الواعدة التي تقلل من استهلاك ذاكرة وحدة معالجة الرسومات تتضمن تقسيم البيانات، أو النموذج، أو الأنابيب، وتسمى التوازي (jia2018data). يتضمن التوازي البياني (DP) تقسيم دفعات التدريب إلى مجموعات فرعية أصغر وتوزيعها عبر مستخدمين أو أجهزة متعددة، مما يسمح بالتدريب التعاوني دون الحاجة إلى بنية تحتية مركزية. من ناحية أخرى، يركز التوازي النموذجي (MP) على تقسيم النموذج عمودياً إلى مكونات أصغر يمكن تدريبها بشكل مستقل ثم دمجها لتشكيل شبكة أكبر. يتيح هذا النهج التدريب الموزع، حيث يمكن معالجة أجزاء مختلفة من الشبكة في وقت واحد بواسطة أجهزة أو أفراد مختلفين. التوازي الأنبوبي (PP)، من ناحية أخرى، يقسم الشبكة أفقياً على وحدات حوسبة مختلفة. لقد حظيت جميع طرق التوازي بالكثير من الاهتمام وتعتبر مواضيع ساخنة في سعيها لتقليل متطلبات الحوسبة والذاكرة لتدريب التعلم العميق، حيث تقدم حلولاً محتملة للتخفيف من التحديات التي تفرضها تدريب الشبكات العميقة والكبيرة جداً.

في التوازي البياني، يمكن أن يتناسب النموذج ضمن وحدة معالجة رسوميات واحدة. يتم نسخ النموذج ومعاملات التدريب إلى وحدات معالجة رسوميات متعددة ويتم تقسيم البيانات إلى عدد الوحدات المتاحة. يتم أيضاً إجراء التقدم والتراجع المتوازي في كل وحدة معالجة رسوميات على حدة. ثم تتم مزامنة التدرجات المحسوبة في كل وحدة معالجة رسوميات ويتم تحديث معاملات النموذج في كل وحدة معالجة رسوميات وفقاً لذلك. بينما هذه الطريقة فعالة من حيث الحساب، فإنها لا تقلل من متطلبات الذاكرة لكل جهاز. يتم استخدام التوازي البياني بنشاط في PyTorch ويعرف باسم التوازي البياني الموزع (DDP) (URL_DDP). يمكن العثور على تحقيق شامل لـDDP في PyTorch في (Li20). على الرغم من أن DDP هو حل متعدد الاستخدامات عندما يتناسب النموذج داخل وحدة معالجة رسوميات واحدة، إلا أنه لا ينطبق بمفرده عندما يكون حجم النموذج أكبر من ذاكرة وحدة معالجة الرسوميات.

يمكن أن يكون التوازي الأنبوبي مفيداً عندما يمكن تقسيم النموذج أفقياً، مثل في تطبيقات معالجة الصور. مثال شهير هو G-Pipe، الذي اقترحه Huang et al. (huang2019gpipe). اقترحوا استراتيجية توازي أنبوبي للدفعات الصغيرة، من خلال تقسيم الدفعة الكبيرة إلى دفعات صغيرة متساوية. في نهاية كل دفعة صغيرة، يتم تجميع التدرجات وتطبيقها لتحديث معاملات النموذج. أحد العيوب الرئيسية للتوازي الأنبوبي هو فقاعة الأنبوب، بسبب عدم التوازن في العمل أو التبعيات بين الأنابيب. بالإضافة إلى ذلك، تتطلب عملية التطبيع الدفعي عبر الأنابيب اهتماماً خاصاً.

التوازي النموذجي هو استراتيجية رئيسية عندما يكون حجم النموذج ومعاملات التدريب، مثل التدرجات، وحالات المحسن، والمتغيرات المؤقتة الأخرى أكبر من ذاكرة وحدة معالجة الرسوميات (Castello19,Wanwu2022). اقترح Rajbhandari et al. طريقة لتقسيم النموذج ومعاملات التدريب، مدفوعة بتحقيق عدم تداخل البيانات بين وحدات معالجة الرسوميات (rajbhandari2020zero). تم تحسين الطريقة مؤخراً كتوازي البيانات المقسمة بالكامل (FSDP), مع تنفيذ في PyTorch (zhao2023pytorch). مرة أخرى، يتم تقسيم البيانات بين وحدات معالجة الرسوميات، ولكن هذه المرة يتم أيضاً تقسيم النموذج ومعاملات التدريب، مع عدم وجود تداخل. بعد إجراء التمريرات الأمامية والخلفية بطريقة متوازية، تتم مزامنة التدرجات بشكل مركزي ويتم بعد ذلك تنفيذ تحديث النموذج. مؤخراً، اقترح Mlodozenie et al. التوازي النموذجي والبياني، حيث يتم تحسين كل قسم من النموذج لشرائح بيانات محددة (mlodozeniec2023). تم تعريف دالة خسارة بناءً على شرائح البيانات التي لم ترها الشبكة الفرعية. اقترح Akintoye et al. تقسيم النموذج طبقياً (akintoye2022), لتقليل النفقات العامة للاتصال بين الأجهزة وتكلفة الذاكرة أثناء التدريب. يتم تقسيم الطبقات باستخدام وحدات معالجة الرسوميات ثم دمجها. التقسيم النموذجي شائع أيضاً بين الشبكات العصبية الرسومية (liao2018graph) وضمن الأنظمة التي تشمل أجهزة الحافة، مثل شبكات الأشياء (IoT) (Na22,Oliveira19,parthasarathy2023).

بخلاف التوازي البياني والنموذجي والأنبوبي، اقترح الباحثون طرقاً أخرى لتقليل الطلب على الذاكرة لتدريب الشبكات العصبية. اقترح Jain et al. تشفير خرائط الميزات لتوفير الذاكرة (Jain18). اقترح Wang et al. الخلايا العصبية الفائقة التي تتميز بتحسين الذاكرة من خلال تخصيص الذاكرة بشكل ديناميكي لمساحات العمل التحويلية (Wang18). الطلب على الذاكرة لطريقة التحسين التكيفية كبير أيضاً. قامت بعض الدراسات بتقليل هذه البصمة الذاكرية من خلال تبسيط نماذج المحسن (anil19memoryefficient,shazeer2018adafactor). تحمل هذه الطرق خطر التأثير على تقارب النموذج.

في هذه الدراسة، تم تطوير منهجية تدريب شبكة عصبية جديدة تُسمى بـتدريب الشبكة العصبية المقسمة (PNN). يتم تقسيم الشبكة إلى شبكتين فرعيتين أو أكثر. بدلاً من تدريب الشبكة بالكامل، يتم تدريب هذه الأقسام بشكل منفصل باستخدام البيانات الاصطناعية وبيانات التدريب الأصلية. نظراً لأن كل قسم يتم تدريبه بشكل منفصل، يتم القضاء على التواصل لمخرجات التغذية الأمامية والتدرجات إلى أقسام أخرى أو جهاز مضيف. وبالتالي، يتم تقليل النفقات العامة للاتصال بشكل كبير مقارنة بطرق التوازي النموذجي الأخرى. بالإضافة إلى ذلك، يسمح التدريب المنفصل للأقسام بضبط معلمات التدريب الفائقة لكل قسم. يتيح هذا النهج تقليل الطلب الحسابي الإجمالي مع الحفاظ على الدقّة.

التدريب المنفصل لأقسام النموذج

يساعد التدريب المنفصل لأقسام النموذج أيضاً في التخفيف من مشكلة تلاشي التدرجات، التي يُرجح ملاحظتها أكثر في الشبكات العصبية العميقة (Kolbusz2017vanishing).

الطريقة المقترحة

تعتمد الطريقة على الملاحظة بأن أوزان الطبقات المتوسطة في الشبكة العصبية تظهر بعض العشوائية بطبيعتها. تنبع هذه العشوائية من التهيئة العشوائية الأولية للأوزان داخل الشبكة العصبية، بالإضافة إلى الطبيعة التكرارية لعملية التدريب (Maennel20). ونتيجة لذلك، تختلف قيمة الأوزان في الطبقة المتوسطة وستعتمد على الأوزان العشوائية الأولية (franchi2021tradi). لذا، نفترض أنه عند تقسيم شبكة، يمكن تدريب القطاعات الفردية بشكل مستقل باستخدام تسميات صناعية أو خرائط ميزات تم إنشاؤها من خلال عملية عشوائية.

لإظهار الطبيعة العشوائية لمعاملات الشبكة بعد التدريب، يتم تدريب شبكة متصلة بالكامل بشكل متكرر باستخدام مجموعة بيانات المعهد الوطني للمعايير والتكنولوجيا (deng2012mnist). تحتوي الشبكة على ثلاث طبقات، بعدد الخلايا العصبية في كل طبقة كما يلي: 100، 50 و10. في كل خطوة، يتم إعادة تهيئة الأوزان بشكل عشوائي من خلال إعادة إنشاء الشبكة. تهيئة الوزن هي التهيئة الافتراضية في PyTorch (URL_torch_init_linear). يتم التدريب في 15 دورة تدريبية بحجم دفعة قدره 256، ويتم حفظ النموذج بعد كل دورة. بعد إجراء هذا الإجراء التدريبي الكامل 300 مرة، يتم رسم الرسم البياني لثلاث معاملات: الحد الأقصى، الحد الأدنى والفرق بين الحد الأقصى والحد الأدنى من أوزان الطبقة المتوسطة. تظهر الرسومات أنه حتى بعد التدريب، لا تزال الأوزان تحتوي على بعض العشوائية، بسبب الأوزان الأولية العشوائية عند بدء الشبكة. وبالتالي، يجب أن تظهر نتائج التنشيط المتوسطة للشبكة أيضاً كمية كبيرة من العشوائية، ومن المتوقع أنه يمكن تقسيم الشبكة وتدريبها باستخدام تسميات متوسطة صناعية، والتي يتم إنشاؤها باستخدام عملية عشوائية.

تبدأ الطريقة بتقسيم النموذج بالكامل إلى شبكتين فرعيتين، تعرفان بالقسم الأيسر والقسم الأيمن. على الرغم من أن التقسيم إلى أكثر من شبكتين فرعيتين ممكن، إلا أن الطريقة موضحة على افتراض أنها مقسمة إلى شبكتين فرعيتين للبساطة. يتم تدريب القسم الأيسر أولاً دون استخدام القسم الأيمن. لتحقيق ذلك، يتم إنشاء التسميات بشكل صناعي للقسم الأيسر. تُسمى هذه التسميات بالتسميات الوسيطة الصناعية (SIL). بافتراض أن عدد الخلايا العصبية في الطبقة النهائية للقسم الأيسر هو \(N_P\) وعدد الفئات هو \(M\)، يتم إنشاء \(M\) متجهات بحجم \([N_P\times1]\). يمكن تمثيل التسميات الوسيطة الصناعية بواسطة مصفوفة N-by-M (\(SIL \in \mathbb{R}^{N_P\times M} \))، حيث يمثل كل عمود فئة. يتم إنشاء عناصر المصفوفة بشكل عشوائي باستخدام التوزيع الموحد \((0,1)\) وتتم معايرتها باستخدام معامل \(\kappa\). في الصياغة الرياضية: \[ SIL_{i,j} \sim \kappa \, U(0,1) \] حيث \(U(0,1)\) هو التوزيع الموحد \((0,1)\) و\(i \in \{1,2,...,N_P\}\) و\(j \in \{1,2,...,M\}\) هما مؤشرا الصف والعمود.

باستخدام المدخلات الأصلية لمجموعة البيانات التدريبية وSIL، يتم تدريب القسم الأيسر على مدى \(N_L\) دورات تدريبية دون خلط المدخلات. في هذه المرحلة، لا يتم استخدام القسم الأيمن إطلاقاً. بعد \(N_L\) دورات تدريبية، يُنهى تدريب القسم الأيسر ويُخزن الإخراج النهائي له (الاستجابة في الدورة الأخيرة).

في المرحلة الثانية، يُدرَّب القسم الأيمن مدخلاً عليه الإخراج النهائي للقسم الأيسر المخزن مسبقاً، مع استخدام تسميات مجموعة البيانات الأصلية. يتم التدريب على مدى \(N_R\) دورات تدريبية، ثم تكتمل عملية التدريب ويصبح بالإمكان دمج الأقسام لاستخدام الشبكة.

يمكن توسيع الطريقة بسهولة للحالات التي يتم فيها تقسيم النموذج إلى أكثر من شبكتين فرعيتين. يتم توضيح هذا الخوارزم الشامل في الرسم البياني. في هذا السيناريو، من الضروري وجود تسمية وسيطة صناعية مميزة لكل طبقة وسيطة. تظل فوائد الطريقة المقترحة قابلة للتطبيق.

يمكن أيضاً الانفصال عن الطابع التسلسلي للتدريب وتدريب كل شبكة فرعية بشكل متزامن باستخدام التسميات الوسيطة الصناعية كمدخلات وتسميات. تتضمن هذه الهندسة أقساماً وسيطة يتم تدريبها بواسطة المدخلات والتسميات التي تم إنشاؤها بواسطة عملية عشوائية. أُثبت سابقاً أنه من الممكن تدريب شبكة عصبية باستخدام بيانات عشوائية بخسارة تدريب صفرية، شريطة أن يكون عدد الدورات التدريبية وعدد المعاملات كافيين (zhang2017understanding). ومع ذلك، تتطلب هذه الطريقة العديد من الدورات لكل شبكة فرعية لتحقيق مستوى مقبول من الدقة، مما يزيد بشكل كبير من الحمل الحسابي، مما يجعلها غير عملية.

المزايا مقارنة بالتوازي النموذجي القياسي

يتطلب التوازي النموذجي التقليدي مقداراً كبيراً من الاتصالات بين الأجهزة. على سبيل المثال، في عقدة تحتوي على وحدات معالجة رسومات مترابطة، تكون الاتصالات من الجهاز إلى المضيف ومن المضيف إلى الجهاز ضرورية لنقل الاستجابات والتدرجات ومعاملات النموذج المحدثة (Jain20, zhuang2022optimizing). مع زيادة عدد وحدات معالجة الرسومات، يزداد الحمل الزائد للاتصالات، مما يفرض حداً أعلى على الأداء الكلي (rajbhandari2020zero).

يسهل النهج المقترح تدريب كل قسم داخل وحدة معالجة الرسومات الخاصة به. يقتصر الحمل الزائد للاتصالات أثناء التدريب على نقل مخرجات القسم السابق، التي تعمل كمدخلات للقسم الحالي قيد التدريب. تساعد هذه الاستراتيجية في تقليل الحمل الزائد للاتصالات، مما يقدم نهجاً فعالاً ودقيقاً للتدريب.

تنطبق حالة مماثلة على ذاكرة الكاش L3 مؤخراً، نظراً لتوفر سعات كبيرة من ذاكرة الكاش L3 على معالجات مثل AMD-EPYC-9684X بذاكرة كاش 1152 ميغابايت (URL_epyc). بخلاف التوازي النموذجي، فإن الطريقة المقترحة تسلسلية. يمكن تطبيق هذه الطريقة حتى عندما يكون جهاز واحد فقط متاحاً بذاكرة أصغر من حجم النموذج. في المقابل، سيكون التوازي النموذجي القياسي بطيئاً بشكل ملحوظ في مثل هذه الظروف.

يسمح التدريب المنفصل لكل قسم بتخصيص معايير تدريب خاصة بكل منهما، مثل حجم الدفعة وعدد الدورات التدريبية ومعدل التعلم. على سبيل المثال، بدلاً من إخضاع الشبكة بالكامل لـ40 دورة تدريبية، يمكن تخصيص 5 دورات فقط للقسم الأيسر و80 دورة للقسم الأيمن. يوضح القسم [sec:results] أن دقة القسم الأيسر تتقارب خلال عدد محدود من الدورات، مما يبرز ميزة هذه الاستراتيجية.

تنفيذ على الشبكات المتصلة بالكامل

يتم تطبيق الخوارزمية على شبكة تصنيف متصلة بالكامل. تُستخدم مجموعة بيانات الأحرف الموسعة المتوازنة (EMNIST) (cohen2017emnist)، والتي تشمل 47 فئة، بما في ذلك الأرقام والحروف الكبيرة والصغيرة. المدخلات عبارة عن صور بالأبيض والأسود بحجم \(28\times28\)، وتُسطح إلى متجهات بحجم \(784\times 1\).

الشبكة الأساسية (غير المقسمة) هي شبكة متصلة بالكامل مكونة من ست طبقات مع تحيز. تبدأ بطبقة المدخلات بحجم 784، ويكون عدد الخلايا العصبية في كل طبقة 80، 60، 60، 60 و 47. تتم عملية التقسيم عند الطبقة الثالثة. وبالتالي، فإن القسم الأيسر يحتوي على 140 خلية عصبية بينما يحتوي القسم الأيمن على 167 خلية عصبية. ومع ذلك، نظراً لأن حجم المدخلات هو 784، فإن عدد المعاملات في القسم الأيسر أكبر بكثير: \((784+1)\times80 + (80+1)\times60 = 67660\) معلمة في القسم الأيسر و \((60+1)\times60 + (60+1)\times60 + (60+1)\times47 = 10187\) معلمة في القسم الأيمن. يتناسب عدد عمليات الضرب والتجميع (MACs) مع عدد المعاملات في شبكة متصلة بالكامل. باستخدام مكتبة عداد MACs (ptflops)، يتم حساب MACs للقسمين الأيسر والأيمن على التوالي بـ 67800 و 10307. وبالتالي، فإن تدريب القسم الأيسر أكثر كثافة من الناحية الحسابية مقارنة بتدريب الجزء الأيمن.

يتم توليد التسميات الوسيطة الاصطناعية باستخدام المعادلة [eq:SIL]، مع \(\kappa=10\). حجم التسميات الوسيطة الاصطناعية هو \(60\times47\) حيث 47 هو عدد التسميات و 60 هو عدد الخلايا العصبية في طبقة التقسيم. يوجد 112800 صورة في مجموعة بيانات التدريب. التسمية لكل صورة مدخلة هي متجه بحجم \(60\times1\) مأخوذ من مصفوفة التسميات الوسيطة الاصطناعية. نظراً لأن المدخلات لا يتم خلطها أثناء التدريب، فإن التسميات المطلوبة لتدريب القسم الأيسر (112800 تسمية بحجم \(60\times1\)) تُرتب وتُحمَّل إلى وحدة معالجة الرسومات كدفعات. تُستخدم طريقة التدرج العشوائي مع معدل تعلم 0.01 وزخم 0.9 للتحسين. الدالة التنشيطية في كل طبقة هي وحدة الخط المستقيم المعدلة (ReLU)، باستثناء الطبقة النهائية حيث تُستخدم دالة الهوية. يتم تحديد حجم الدفعة بـ 1410. تم تنفيذ العمليات على بطاقة الرسومات AMD Radeon RX 7600.

النتائج والمناقشة

في هذا القسم، يتم فحص دقة الطريقة المقترحة كدالة للحساب، مقارنة بالتدريب الأساسي. بالنسبة للتدريب الأساسي، يتم استخدام نفس مجموعة البيانات لتدريب الشبكة ذات الطبقات الست غير المقسمة، مع استخدام نفس معايير التحسين وحجم الدفعات.

يتم حساب الحمل الحسابي باستخدام عمليات الضرب والجمع المتراكمة للأقسام الأيسر والأيمن والنموذج غير المقسم. تقدم الطريقة المقترحة تكاليف اتصال إضافية نظراً لنقل العلامة الوسيطة الاصطناعية إلى وحدة معالجة الرسومات ونقل مخرجات القسم الأيسر كمدخلات للقسم الأيمن. يحدث كلا النقلين مرة واحدة فقط وبالتالي تم استثناؤهما من التحليل.

تظهر النتائج لسيناريو محدد في الشكل [fig:general_result]. عدد الدورات التدريبية لكل من القسم الأيسر \(N_L = 5\)، والقسم الأيمن \(N_R = 160\)، والنموذج الأساسي \(N_B = 40\). يتم ضبط معامل الضرب \(\kappa\) على 10. تم تنفيذ التدريب لكل من النموذج الأساسي والشبكة العصبية المقسمة 10 مرات، مع توضيح المتوسط بالعلامات الدائرية ونطاق الانحراف المعياري (\(68\%\)) بشرائط الخطأ.

تظهر النتائج بوضوح أن الطريقة المقترحة تحقق دقة اختبار مماثلة للتدريب التقليدي (71.5% للشبكة العصبية المقسمة و 76.2% للنموذج الأساسي) مع استخدام قوة حسابية أقل بشكل ملحوظ. على الرغم من أن القسم الأيمن خضع لـ160 دورة تدريبية، فإن دقته تتقارب خلال عدد قليل من الدورات. نقطة أخرى جديرة بالملاحظة هي أن القسم الأيسر، الذي تم تدريبه لمدة 5 دورات فقط، يساهم بشكل كبير في تقليل الحمل الحسابي الإجمالي.

تشير النتائج إلى إمكانية ضبط معلمات مثل عدد الدورات التدريبية ومعامل الضرب \(\kappa\) لتحسين كفاءة ودقة التدريب. تأثير \(N_L\) موضح في الشكل [fig:effect_of_NL]. يتم رسم دقة الاختبار للشبكة العصبية المقسمة كدالة لـ \(N_L\) للقيمتين \(\kappa = 2\) و \(\kappa = 10\)، بينما تظل المعلمات الأخرى ثابتة. تؤكد النتائج أن حوالي 5 دورات للقسم الأيسر كافية لتحقيق نتائج متقاربة، ويزداد تأثير \(N_L\) عند زيادة \(\kappa\). يمثل التدريب غير المتناسق للقسمين (\(N_L = 5\) و \(N_R = 160\)) ميزة مميزة للشبكة العصبية المقسمة. من خلال تحسين عدد الدورات والمعلمات الأخرى لكل قسم، يمكن تقليل الوقت الحسابي الإجمالي بشكل كبير، وهو ما لا يمكن تحقيقه في التوازي النموذجي التقليدي.

تعزيز الدقة من خلال مراحل التعافي

على الرغم من أن الطريقة المقترحة توفر مزايا كبيرة، إلا أن النتائج تشير إلى أن دقة الاختبار أقل قليلاً من دقة النموذج الأساسي. يمكن التخفيف من هذا العيب جزئياً من خلال مواصلة التدريب بعد الانتهاء من طريقة التدريب المقترحة. في هذه المرحلة، يتم تدريب القسم الأيسر، الذي تلقى عدداً قليلاً فقط من الدورات، لعدة دورات إضافية بينما تُجمَّد أوزان القسم الأيمن. تشبه هذه الطريقة نوعاً من التعلم النقلي، وتحسن الدقة.

توضح النتائج دقة الاختبار عند تطبيق مرحلة التعافي لمدة 10 دورات إضافية بالتكوين نفسه (المبيّن في الشكل المحذوف). بلغت دقة الاختبار المتوسطة 72% بعد نهاية تدريب القسم الأيمن (الموضحة بالمنطقة البنية)، وارتفعت إلى 77.5% بعد مرحلة التعافي (الموضحة بالمنطقة الوردية). بهذه الطريقة، لا توفر الطريقة فوائد كفاءة أولية فحسب، بل توفر أيضاً مساراً لتحسين الدقة من خلال التدريب الممتد.

الاستنتاجات والآفاق المستقبلية

في الختام، يقدم هذا البحث منهجية جديدة رائدة لمواجهة التحديات التي تفرضها تدريب الشبكات العصبية الضخمة. من خلال الجمع بين التوازي في النموذج والتسميات الوسيطة الاصطناعية، تم تطوير نهج يعزز كفاءة التدريب بشكل كبير دون التضحية بدقة النموذج.

تؤكد التجارب على مجموعة بيانات EMNIST فعالية النهج المقترح. تقسيم شبكة عصبية مكونة من 6 طبقات إلى أجزاء، مقترناً بالتسميات الوسيطة الاصطناعية، يحافظ على دقة الاختبار مقارنة بالطرق التقليدية مع تقليل الحاجة إلى الذاكرة والمتطلبات الحسابية. يحمل هذا التقدم آفاقاً بعيدة المدى، حيث يقدم حلاً عملياً لقيود الموارد في التعلم العميق الحديث. من خلال تحسين عمليات التدريب، يمهد هذا النهج الطريق لتطوير نماذج شبكات عصبية أكثر سهولة في الوصول وكفاءة.

بالإضافة إلى مساهماته الحالية، من المتوقع أن تستكشف الأبحاث المستقبلية تطبيق هذه المنهجية على نطاق أوسع يتجاوز الشبكات العصبية المتصلة بالكامل. تحمل قابلية تكييف هذا النهج وعوداً لتوسيعه إلى الشبكات العصبية الالتفافية (CNNs)، والشبكات العصبية المتكررة (RNNs)، وهياكل المحولات. من خلال تخصيص الطريقة لهذه الأنواع المتنوعة من الشبكات، يمكن للباحثين التحقق من تعميمها وفعاليتها عبر نطاق أوسع من نماذج التعلم العميق، مما يدفع المجال نحو تطوير نماذج أكثر سلاسة ويسراً في الوصول.

``` **ملاحظات حول تصحيح LaTeX:** - تم تصحيح جميع المعادلات الرياضية لتكون بصيغة LaTeX سليمة، خاصة معادلة `SIL_{i,j}` حيث تم وضعها في block math مع أقواس مناسبة. - تم تصحيح أقواس المجموعات في المتغيرات مثل `{1,2,...,N_P}` إلى `\{1,2,...,N_P\}` لتكون صحيحة في LaTeX. - تم التأكد من أن جميع المعادلات الرياضية الأخرى (inline وdisplay) مكتوبة بشكل صحيح وتعمل مع MathJax. - لم يتم تغيير أي كلمة أو حذف أي جزء من النص. - تمت مراجعة جميع المعادلات والتأكد من خلوها من الأخطاء النحوية في LaTeX.