latex
تتمتع النماذج الكبيرة للرؤية الحديثة (مثل SAM) بإمكانات كبيرة لتسهيل الإدراك الذكي بدقة عالية. ومع ذلك، فإن القيود المتعلقة بالموارد في بيئة IoT غالباً ما تحد من إمكانية نشر هذه النماذج الكبيرة محلياً، مما يؤدي إلى تأخير كبير في الاستدلال ويصعب دعم التطبيقات الفورية مثل القيادة الذاتية والروبوتات. يوفر التعاون بين الحافة والسحابة مع الاستفادة المشتركة من النموذج الكبير والصغير نهجاً واعداً لتحقيق دقة استدلال عالية مع تأخير منخفض. ومع ذلك، فإن طرق التعاون الحالية بين الحافة والسحابة مرتبطة ارتباطاً وثيقاً ببنية النموذج وغير قادرة على التكيف مع التحولات الديناميكية للبيانات في بيئات IoT المتنوعة. لمعالجة هذه القضايا، نقترح LAECIPS، وهو إطار عمل جديد للتعاون بين الحافة والسحابة. في LAECIPS، كل من نموذج الرؤية الكبير على السحابة والنموذج الخفيف على الحافة قابلان للتوصيل والتشغيل. نصمم استراتيجية التعاون بين الحافة والسحابة استناداً إلى تصنيف المدخلات الصعبة، محققة لكل من الدقة العالية والتأخير المنخفض. نقترح تحديث النموذج على الحافة واستراتيجية التعاون الخاصة به مع السحابة تحت إشراف نموذج الرؤية الكبير، بحيث يتكيف مع تدفقات البيانات الديناميكية في IoT. تثبت التحليلات النظرية لـ LAECIPS جدواها. الاختبارات التي أُجريت في نظام تجزئة الدلالات الروبوتية باستخدام مجموعات بيانات حقيقية تظهر أن LAECIPS يتفوق على منافسيه الأحدث في الدقة والتأخير وتكاليف الاتصال مع تحسين التكيف مع البيئات الديناميكية.
تم تطبيق التعلم الآلي بشكل واسع لدعم الإدراك الذكي في إنترنت الأشياء لتطبيقات متنوعة تشمل المراقبة الروبوتية والقيادة الذاتية (prakash2021multi, zhou2019anomalynet). غالباً ما يتطلب الإدراك المبني على إنترنت الأشياء دقة عالية وزمن استجابة منخفض لوظائف التعلم الآلي لتلبية متطلبات التطبيق (zhou2019edge). عادةً ما يتم نشر وظائف التعلم الآلي في إنترنت الأشياء على أجهزة الحافة بالقرب من المستخدمين لتقليل زمن الاستجابة. ومع ذلك، من ناحية، تحد الموارد المحدودة على أجهزة الحافة من قدرتها على دعم النماذج المعقدة للتعلم الآلي (shuvo2022efficient)؛ ومن ناحية أخرى، قد تعاني النماذج الخفيفة على أجهزة الحافة من دقة استدلال منخفضة، خاصة في الحالات الحرجة (zhang2022advancing). بالإضافة إلى ذلك، قد تحدث تحولات في توزيع البيانات في بعض سيناريوهات الإدراك (كما يحدث عندما ينتقل روبوت إلى بيئة غير متوقعة أو عندما تسافر مركبة ذاتية القيادة إلى منطقة غير مستكشفة) (de2021continual)، مما يجعل النموذج المدرب مسبقاً على الحافة أقل دقة للمهمة الجديدة.
مؤخراً، تم إحراز تقدم كبير في تطوير نماذج الرؤية الكبيرة، على سبيل المثال، نموذج “Segment Anything Model” من Meta (kirillov2023segment). بفضل قدرتها العامة القوية، تحقق هذه النماذج الكبيرة دقة عالية جداً في التعامل مع الحالات الحرجة وتكون مقاومة لتحولات توزيع البيانات في الإدراك الذكي (wssam). ومع ذلك، يمكن نشر نموذج الرؤية الكبير فقط في مركز بيانات سحابي غني بالموارد، مما قد يسبب تأخيراً طويلاً بسبب نقل البيانات بين أجهزة المستخدمين والخادم السحابي. لذلك، كيفية الاستفادة الكاملة من مزايا نموذج الرؤية الكبير لتحقيق استدلال دقيق مع تقليل زمن الإدراك في إنترنت الأشياء المقيد بالموارد تصبح مشكلة بحثية مهمة.
للإجابة عن ذلك، قد يفكر المرء في استخدام التعاون بين الحافة والسحابة للاستدلال المشترك بين النموذج الكبير والصغير (wang2020convergence, duan2022distributed). بشكل خاص، مع استضافة نموذج الرؤية الكبير على السحابة ونشر نموذج صغير على الحافة، تحدد استراتيجية التعاون بين الحافة والسحابة لكل إدخال مستلم إذا كان يمكن أداء الاستدلال بواسطة النموذج الصغير على الحافة أو يحتاج إلى معالجة بواسطة نموذج الرؤية الكبير على السحابة، كما هو موضح بالشكل. ومع ذلك، تعاني طرق التعاون الحالية بين الحافة والسحابة بشكل رئيسي من ثلاثة قيود تحتاج إلى التغلب عليها لدعم الإدراك الذكي المبني على إنترنت الأشياء. أولاً، الارتباط الوثيق بين النماذج الكبيرة والصغيرة يقيد مرونة النظام
نقوم بتنفيذ إطار عمل Large Area Edge-Cloud Inference and Processing System من خلال نظام تجزئة دلالية روبوتية في بيئة حافة-سحابة واقعية لإظهار قابليته للتطبيق. تؤكد النتائج التجريبية الواسعة أن Large Area Edge-Cloud Inference and Processing System يحقق دقة أعلى بشكل ملحوظ، وأقل زمن معالجة للمهام وتكاليف اتصال مقارنة بمنافسيه الأفضل في مجالهم.
يتم تنظيم بقية الورقة على النحو التالي. القسم [sec: related work] يشرح الأعمال ذات الصلة. يتم تقديم التفاصيل التقنية لـ Large Area Edge-Cloud Inference and Processing System في القسم [sec:method]. القسم [sec:theory] يقدم البرهان النظري على قدرة التعميم لـ Large Area Edge-Cloud Inference and Processing System. تعرض النتائج التجريبية في القسم [sec:evaluation]. وأخيراً، نختتم الورقة في القسم [sec: conclusion].
تنقسم الأبحاث ذات الصلة بالاستدلال التعاوني بين السحابة والحافة إلى فئتين: تقسيم النموذج وتعاون النموذج الكبير/الصغير.
يقوم تقسيم النموذج بتجزئة نموذج (كبير) إلى عدة نماذج فرعية يتم نشرها على مضيفين مختلفين بما في ذلك خادم السحابة وجهاز (أجهزة) الحافة بناءً على توافر الموارد لديهم. خلال عملية الاستدلال، يتم حساب النموذج بالتعاون بين جميع النماذج الفرعية للحصول على نتيجة الإخراج. على سبيل المثال، يستخدم جراح الأعصاب (kang2017neurosurgeon) نموذج تنبؤ الأداء لاختيار نقطة الانقسام المثلى لنموذج. يصوغ JoinDNN (eshratifar2019jointdnn) جدولة طبقات النموذج المثلى كمشكلة المسار الأقصر ويحلها باستخدام البرمجة الخطية الصحيحة. يصوغ DADS (hu2019dynamic) مشاكل تحسين تقسيم النموذج المختلفة للظروف المحملة بخفة وبشدة. يقوم IONN (jeong2018ionn) ببناء النموذج تدريجياً على الخادم باستخدام أقسام النموذج الواردة لتمكين التدريب المبكر. يدمج DeepThings (zhao2018deepthings) الشبكات عبر طبقات الشبكة العصبية العميقة لبناء تقسيم نموذج دقيق.
على الرغم من أن تقسيم نموذج معقد عبر السحابة وجهاز (أجهزة) الحافة يقلل من التكاليف الحسابية ويحسن الدقة، إلا أنه قد يقدم تكاليف اتصال كبيرة لنقل النتائج المتوسطة للنموذج المقسم، والتي غالباً ما تكون ضخمة بالنسبة لبيئات إنترنت الأشياء المقيدة بالموارد. كما أن النماذج الفرعية المنشورة على السحابة وجهاز (أجهزة) الحافة مرتبطة ارتباطاً وثيقاً مما يحد من المرونة والقدرة على التكيف لتقسيم النموذج لمواجهة بيئات إنترنت الأشياء الديناميكية. بالإضافة إلى ذلك، من الصعب تطبيق طرق تقسيم النموذج الحالية مباشرة على النماذج البصرية الكبيرة المطورة حديثاً بسبب هياكل النموذج المعقدة للغاية.
تتمثل فكرة تعاون النموذج الكبير/الصغير في نشر نموذج خفيف على جهاز الحافة لاستدلال البيانات البسيطة واستخدام نموذج كبير على السحابة للتعامل مع البيانات الصعبة. مع استراتيجية مناسبة لاختيار النموذج، قد يحقق تعاون النموذج الكبير/الصغير دقة عالية وزمن استجابة منخفض مع تقليل تكاليف الاتصال. كما يسمح هذا النهج بنشر نماذج غير مرتبطة بشكل وثيق على الحافة والسحابة لمزيد من المرونة والقدرة على التكيف. وبالتالي، يقدم تعاون النموذج الكبير/الصغير نهجاً واعداً للإدراك الذكي في بيئة إنترنت الأشياء.
تم اقتراح الاستدلال التعاوني بناءً على تعاون النموذج الكبير/الصغير لأول مرة في SM (CODES15)، حيث تم تحديد العينات الصعبة باستخدام هامش النتيجة وتم تحميلها إلى السحابة للاستدلال. في Cachier (ICDCS17)، تم نمذجة التفاعل بين الحافة والسحابة كنظام تخزين مؤقت لتقليل زمن الاستجابة للاستدلال. طبق CeDLD (FGCS19) الاستدلال التعاوني للنموذج الكبير/الصغير على التعرف على الصور الطبية وحدد العينات الصعبة بناءً على تشابه الصور. حولت AppealNet (DAC21) النموذج الموجود على الحافة إلى هيكل متعدد الرؤوس لتحديد العينات الصعبة في نفس الوقت الذي يتم فيه إخراج نتيجة الاستدلال. اقترح EdgeCNN (TCC22) طريقة تدريب تعاونية لتعاون النموذج الكبير/الصغير تُستخدم نتائج النموذج البصري الكبير للإشراف على تدريب النموذج الصغير على جهاز الحافة. العمل الجديد المبلغ عنه SOTA هو DCSB (cao2023edge)، الذي طبق الاستدلال التعاوني للنموذج الكبير/الصغير على كشف الأجسام وخفض تكلفة النطاق الترددي عن طريق تقليل حجم بعض المناطق في الحالة الصعبة. بالإضافة إلى ذلك، يمكن أن توفر الأعمال التي ركزت على كشف البيانات الصعبة أيضاً رؤى لتعاون النموذج الكبير/الصغير. اقترح MESS (ECCV22) طريقة خروج مبكرة لمهام التجزئة الدلالية، والتي يمكن استخدامها أيضاً في كشف البيانات الصعبة. اقترح SPP (ICLR18) طريقة تستند إلى درجة الثقة لكشف الأمثلة خارج التوزيع التي يمكن اعتبارها أيضاً عينات صعبة.
على الرغم من التقدم المشجع الذي تم إحرازه في هذا المجال، فإن تقنيات الحالة الفنية للتعاون بين النماذج الكبيرة/الصغيرة لا تزال تعاني من بعض القيود التي يجب التغلب عليها لدعم الإدراك الذكي في شبكات الأشياء بفعالية. على وجه الخصوص، تفتقر الطرق الحالية إلى قدرة التحديث المباشر لنموذج الحافة والتعديل التكيفي لاستراتيجية التعاون استجابة للبيئات المتغيرة لشبكات الأشياء. كما أنه، مع ارتفاع نماذج الرؤية الكبيرة، تحتاج الطرق الحالية إلى مزيد من التحسين لتطبيقها على نماذج الرؤية الكبيرة.
ندرس سيناريو يتم فيه نشر روبوت أو مركبة ذاتية التحكم مزودة بكاميرا على الحافة. تُكلف عقدة الحافة بتنفيذ مهام تجزئة دلالية في الوقت الفعلي، بينما تعمل عقدة السحابة كمركز حوسبة غني بالموارد، وتقدم الدعم لعقدة الحافة. رداً على التحديات المتعلقة بأداء النماذج الهامشية الضعيف عند مواجهة الحالات النادرة، إلى جانب مخاوف من تحول البيانات وتباينها داخل بيئة الحافة، قمنا بتصميم هندسة LAECIPS، كما هو موضح في الشكل.
في هذه الهندسة، يتم نشر نموذج تجزئة دلالية صغير على جهاز الحافة. في الخطوتين \(\normalsize{\textcircled{\scriptsize{1}}}\) و \(\normalsize{\textcircled{\scriptsize{2}}}\)، يقوم النموذج الصغير بإجراء استدلال على البيانات المجمعة لإنتاج نتائج استدلال النموذج الصغير. بعد ذلك، في الخطوتين \(\normalsize{\textcircled{\scriptsize{3}}}\) و \(\normalsize{\textcircled{\scriptsize{4}}}\)، تعالج وحدة استخراج الأمثلة الصعبة هذه النتائج لتصنيف البيانات المجمعة إلى مجموعتين: مدخلات صعبة ومدخلات سهلة. في الخطوة \(\normalsize{\textcircled{\scriptsize{5}}}\)، يتم إخراج نتائج استدلال النموذج الصغير للمدخلات السهلة، التي حققت مستوى مقبولاً من الدقة، مباشرة لتقليل زمن معالجة المهمة. على النقيض من ذلك، يتم رفع المدخلات الصعبة التي تسببت في دقة منخفضة في استدلال الحافة إلى السحابة لمزيد من المعالجة لتحسين دقة الاستدلال.
في الخطوة \(\normalsize{\textcircled{\scriptsize{6}}}\)، يقوم كل من النموذج الصغير ونموذج الرؤية الكبير SAM المنشور في السحابة بإجراء استدلالهما على المدخلات الصعبة المرفوعة. في الخطوة \(\normalsize{\textcircled{\scriptsize{7}}}\)، يتم الحصول على نتائج الاستدلال المشترك من خلال دمج أقنعة استدلال السحابة مع نتائج استدلال النموذج الصغير. في الخطوتين \(\normalsize{\textcircled{\scriptsize{8}}}\) و \(\normalsize{\textcircled{\scriptsize{9}}}\)، ترسل عقدة السحابة نتائج الاستدلال المشترك إلى عقدة الحافة، التي بدورها تخرج نتائج الاستدلال المشترك كنتائج الاستدلال للمدخلات الصعبة. بالإضافة إلى ذلك، يتم تخزين المدخلات الصعبة ونتائج الاستدلال المشترك في مخزن إعادة التشغيل الخاص بعقدة السحابة. في الخطوة \(\normalsize{\textcircled{\scriptsize{9}}}\)، عندما يتجاوز عدد العينات في مخزن إعادة التشغيل عتبة محددة مسبقاً أو يمر وقت محدد، تقوم عقدة السحابة بتدريب النموذج الصغير بشكل مستمر، باستخدام المدخلات الصعبة ونتائج الاستدلال المشترك كحقيقة أرضية. أخيراً، في الخطوة \(\normalsize{\textcircled{\scriptsize{10}}}\)، يتم تحديث النموذج الصغير المنشور في عقدة الحافة بواسطة النموذج الصغير المدرب في عقدة السحابة.
Segment Anything Model هو أحد أكثر النماذج تمثيلاً لأنظمة إدراك إنترنت الأشياء التي تم تطويرها في السنوات الأخيرة. تكمن قوته في فعاليته الملحوظة في مهام تجزئة الصور، والتي تعزى إلى قدرته العامة القوية. ومع ذلك، كما هو موضح في الشكل (wssam)، فإن نموذج Segment Anything Model، على الرغم من براعته في إنتاج محيطات محددة جيداً تحدد الأجسام المجزأة، يقصر في توفير تسميات دلالية لهذه الصور المجزأة. وبالتالي، لا يمكن تطبيقه مباشرة على مهام التجزئة الدلالية. يمكن لنماذج الحافة، خلال الاستدلال، توفير نتائج مجزأة مصحوبة بتسميات دلالية. ومع ذلك، غالباً ما تحمل هذه النتائج عيوباً، والتي يتم توضيحها بشكل بارز من خلال حواف الأجسام الخشنة كما هو موضح في الشكل (CVPR_ss). في مهام التجزئة الدلالية، غالباً ما تكون عملية تجزئة الصور أكثر تحدياً من التسمية اللاحقة للنتائج المجزأة. وبالتالي، فإن فكرة طبيعية هي دمج نتائج التجزئة من نموذج Segment Anything Model مع تسميات التصنيف من نموذج الحافة للحصول على نتيجة تجزئة أكثر تحسيناً مع تسميات التصنيف، كما هو موضح في الشكل.
نفترض أن الصورة المجمعة هي \(x \in [0,255]^{3 \times H \times W}\) حيث \(H\) هو ارتفاع الصورة و\(W\) هو عرض الصورة. التسمية المقابلة للصورة المجمعة هي \(y \in \{0,...M-1\}^{H \times W}\)، حيث \(M\) تمثل عدد الفئات. تتبع الصورة التوزيع الاحتمالي \(P(x,y)\). علاوة على ذلك، نعرف نموذج الحافة بأنه \(f\): \(f(x) = y^* \in [0,1]^{M \times H \times W}\)، ونموذج الرؤية الكبير في السحابة بأنه \(SAM\): \(SAM(x) = mask \in \{valid\_mask\}^{ann}\). يُلاحظ أن الناتج الذي ينتجه نموذج \(SAM\) هو قناع تجزئة الصورة. خلال عملية الاستدلال الدلالي المساعد بنموذج Segment Anything Model، يتم استدلال عينة بواسطة نموذج الحافة، مما يؤدي إلى نتيجة تجزئة موسومة ولكن غير دقيقة. في الوقت نفسه، يتم نقل العينة نفسها إلى السحابة ويتم استدلالها بواسطة نموذج \(SAM\)، مما ينتج عنه نتيجة تجزئة غير موسومة ولكن دقيقة. يتم تشكيل نتيجة الاستدلال المساعد بنموذج \(SAM\) من خلال دمج نتيجة استدلال نموذج \(SAM\) ونتيجة استدلال نموذج الحافة، كما هو محدد في المعادلة ([joint]) والخوارزمية ([Joint-Inference]).
\[\label{joint} F(x) = Assisted\_Inference(f(x), SAM(x))\]
المدخلات: نتيجة استدلال الحافة: \(pred\), قناع استدلال نموذج الرؤية الكبير: \(mask\), عدد الفئات: \(M\)
المخرجات: نتيجة الاستدلال المساعد بنموذج الرؤية الكبير: \(semantic\_mask\)
\(semantic\_mask \gets pred\) \(scores \gets [0,...,0]\) \(scores[i] \gets \sum_{i=1}^{M}(pred[i][valid\_mask])\) \(Top\_1\_class \gets \underset{i\in [1,...,M]}{\arg\max} \ scores[i]\) \(semantic\_mask[valid\_mask] \gets Top\_1\_class\) return \(semantic\_mask\)
يمكن لطريقة الاستدلال المساعدة بنموذج الرؤية الكبير تحسين دقة التجزئة الدلالية بشكل كبير من خلال تحسين نتائج نموذج الحافة. ومع ذلك، فإنه يواجه تحديين: من ناحية، يتطلب رفع العينات إلى السحابة، مما قد يؤدي إلى زيادة الوقت اللازم للاستجابة. لذلك، فإن استراتيجية التعاون بين الحافة والسحابة أساسية لحل هذه المشكلة، كما سيتم شرحه في القسم (3.3).
من ناحية أخرى، نظراً لأن فعالية الاستدلال المشترك بين الحافة والسحابة تعتمد على التسميات التي ينتجها نموذج الحافة، فإذا واجه نموذج الحافة صعوبات تتعلق بتغير البيئة، مما يؤدي إلى تغير البيانات وتباينها، فإن دقة الاستدلال المشترك المساعد بواسطة نموذج الرؤية الكبير ستنخفض أيضاً. لذلك، نحتاج إلى تحديث نموذج الحافة واستراتيجية التعاون بين الحافة والسحابة بشكل تكيفي، والتي سيتم توضيحها في القسم [3.4].
استراتيجية تصنيف المدخلات الصعبة تعتبر حاسمة في بنية LAECIPS. تحديد العديد من المدخلات الصعبة سيؤدي إلى زيادة زمن الاستنتاج، بينما تحديد القليل منها سيؤدي إلى انخفاض في دقة التعامل مع الحالات الحرجة. تعتمد الطرق الحالية على قيم الخسارة (cvpr16) أو درجات الثقة (ICLR18) لتحديد المدخلات الصعبة. ومع ذلك، فإن حساب قيم الخسارة أثناء الاستنتاج يعتبر تحدياً بسبب عدم معرفة العلامات الحقيقية، وطرق درجات الثقة تفتقر إلى القدرة على التكيف مع البيئات المتغيرة. لمعالجة هذا، نقترح نموذج تصنيف المدخلات الصعبة المبني على الشبكات العصبية، المشار إليه بـ \(h\). يحدد هذا النموذج ما إذا كانت مدخلات البيانات لاستنتاج الحافة هي مدخلات صعبة أو سهلة، ممثلة كـ \(h(f(x)) \in [0,1]\). بناءً على هذا النموذج لتصنيف المدخلات الصعبة، فإن نتيجة الاستنتاج التعاوني بين السحابة والحافة هي: \[(F, f, h)(x)=\left\{ \begin{aligned} f(x) & \ \ \ \text{إذا} \ h(f(x)) > \delta\\ F(x) & \ \ \ \text{خلاف ذلك}. \end{aligned} \right.\] نعرف خسارة مخرجات النموذج كما يلي \[L(F, f, h, x, y)=\left\{ \begin{aligned} l(f(x),y) & \ \ \ \text{إذا} \ h(f(x)) > \delta\\ l(F(x),y) & \ \ \ \text{خلاف ذلك}. \end{aligned} \right.\] وزمن الاستنتاج للنموذج كما يلي \[delay(F, f, h, x)=\left\{ \begin{aligned} d(f(x)) & \ \ \ \text{إذا} \ h(f(x)) > \delta\\ d(F(x)) & \ \ \ \text{خلاف ذلك}. \end{aligned} \right.\] ثم، خسارة الاستنتاج التعاوني بين السحابة والحافة هي: \[\begin{aligned} & \mathbb{E}_{P(x,y)}\mathbb{E}_{h(f(x))}[L(F, f, h, x, y)] = \\ \mathbb{E}_{P(x,y)}[h(f(x)) & *l(f(x),y) + (1-h(f(x)))*l(F(x),y)], \end{aligned}\] وزمن الاستنتاج التعاوني بين السحابة والحافة هو: \[\begin{aligned} & \mathbb{E}_{P(x,y)}\mathbb{E}_{h(f(x))}[delay(F, f, h, x)] = \\ \mathbb{E}_{P(x,y)}[h(f(x)) & *d(f(x)) + (1-h(f(x)))*d(F(x))]. \end{aligned}\] نهدف إلى تحسين دقة الاستنتاج مع تلبية متطلبات زمن معالجة المهمة. لذلك، الهدف العام للتحسين هو: \[\begin{aligned} \min_{F,f\in \mathbb{F}, h \in \mathbb{H}}{\mathbb{E}_{P(x,y)}\mathbb{E}_{h(f(x))}[L(F, f, h, x, y)]} \\ \text{شرط} \ \ \mathbb{E}_{P(x,y)}\mathbb{E}_{h(f(x))}[delay(F, f, h, x)] < delay_{max}\ . \end{aligned}\] بما أن زمن الاستنتاج مستقل عن مدخلات الاستنتاج، يمكننا تبسيط زمن الاستنتاج كما يلي: \[\begin{aligned} d(f(x)) = d(f) = d_1 \\ d(F(x)) = d(F) = d_0\ . \end{aligned}\] وبالتالي، يمكن تبسيط زمن الاستنتاج التعاوني بين السحابة والحافة في ([latency]) كما يلي: \[\begin{aligned} \mathbb{E}_{P(x,y)}\mathbb{E}_{h(f(x))}[delay(F, f, h, x)] = \\ (d_1-d_0)*\mathbb{E}_{P(x,y)}[h(f(x))] + d_0\ . \end{aligned}\] وبالتالي، يمكن تبسيط القيد في ([optimization-objective-1]) كما يلي: \[\begin{aligned} \mathbb{E}_{P(x,y)}[h(f(x))] > \frac{d_0 -delay_{max}}{delay_{max} - d_1}\ . \end{aligned}\] وبالتالي، يمكن إعادة كتابة الهدف العام للتحسين في ([optimization-objective-1])، الذي يلبي شروط KKT (kkt)، كما يلي: \[\begin{aligned} \min_{F,f\in \mathbb{F}, h \in \mathbb{H}}{\mathbb{E}_{P(x,y)}\mathbb{E}_{h(f(x))}[L(F, f, h, x, y)] + \beta * \mathbb{E}_{P(x,y)}[-log(h(f(x)))].} \end{aligned}\]
بما أن \(F\) تمثل وظيفة الاستدلال المساعد بنموذج الرؤية الكبير، فلا حاجة لتحسين \(F\). لذلك، الأهداف التحسينية هي \(f\) و\(h\). بالإضافة إلى ذلك، نظراً لصعوبة الحصول على التسمية الحقيقية \(y\) لعينة \(x\) في بيئة حقيقية، نقوم بتحسين \(f\) و\(h\) باستخدام نتيجة الاستدلال المساعد بنموذج الرؤية الكبير \(F(x)\). يمكن إعادة كتابة الهدف التحسيني في ([optimization-objective-2]) على النحو التالي: \[\label{optimization-objective-3} \min_{f\in \mathbb{F}, h \in \mathbb{H}}{\mathbb{E}_{P(x,y)}[h(f(x))*l(f(x),F(x))] + \beta * \mathbb{E}_{P(x,y)}[-log(h(f(x)))].}\] يمكن تقسيم عملية تحديث النموذج إلى خطوتين: في الخطوة الأولى، نجمد \(h\) ونحدث \(f\): \[\label{f1loss} \begin{aligned} L_{f} = l(f(x),F(x)) \\ \theta_{f} = \theta_{f} - \eta \bigtriangledown L_{f}\ . \end{aligned}\] ثم، نجمد \(f\) ونحدث \(h\): \[\label{hloss} \begin{aligned} L_h & = h(f(x))*l(f(x),F(x)) + \beta * -log(h(f(x))) \\ \theta_{h} & = \theta_h - \eta \bigtriangledown L_{h}\ . \end{aligned}\]
يجمع سير العمل العام لـ LAECIPS بين الاستدلال المساعد بنموذج الرؤية الكبير، وتصنيف المدخلات الصعبة، وعملية التحديث التكيفي، كما هو موضح في الخوارزمية [adaptive].
ستؤثر قدرة النظام على التعميم بشكل كبير على فعاليته الفعلية عند النشر في بيئة إنترنت الأشياء الديناميكية الواقعية. في هذا القسم، نقوم بتحليل نظري لحدود التعميم للنظام المقترح LAECIPS لإثبات جدواه.
استناداً إلى الهدف التحسيني من المعادلة ([optimization-objective-3])، يعرف الخسارة المتوقعة لوظيفة التجزئة الدلالية \(f\) واستراتيجية استخراج الإدخالات الصعبة \(h\) على النحو التالي: \[\begin{aligned} R(f,h) & = \mathbb{E}_{P(x,y)}[h(f(x))*l(f(x),F(x))] \\ & + \beta * \mathbb{E}_{P(x,y)}[-log(h(f(x)))] \ . \end{aligned}\]
[generalization-bound] لتكن \(f\) عائلة من وظائف التجزئة الدلالية التي تأخذ قيماً في \([0,1]^{M \times H \times W}\)، ولتكن \(h\) عائلة من وظائف استخراج الإدخالات الصعبة التي تأخذ قيماً في \([0,1]\). نرمز بـ \(\widehat{R}_S(f,h)\) إلى الخسارة التجريبية للوظيفة \((f,h)\) على العينة \(S\). ثم، لأي \(\delta > 0\)، باحتمال لا يقل عن \(1 - \delta\) على سحب عينة \(S\) بحجم \(m\)، يصح ما يلي لجميع \((f, h) \in \mathbb{F} \times \mathbb{H}\)، حيث \(\mathcal{R}_m\) يمثل تعقيد راديماخر (Rm):
\[R(f,h) \le \widehat{R}_S(f,h) + (1 + \beta)\mathcal{R}_m(\mathbb{H}) + \mathcal{R}_m(\mathbb{F}) + \sqrt{\frac{log\frac{1}{\delta}}{2m}} \ .\]
لتكن \(l_{\mathbb{F},\mathbb{H}}\) عائلة الوظائف \(l_{\mathbb{F},\mathbb{H}} = \{(x,y) \rightarrow L(f, h, x, y), f \in \mathbb{F}, h \in \mathbb{H}\}\). بناءً على الحد العام لتعقيد راديماخر (Rademacher)، باحتمال لا يقل عن \(1 - \delta\)، يصح ما يلي لجميع \((f, h) \in \mathbb{F} \times \mathbb{H}\):
\[R(f, h) \le \widehat{R}_S(f, h) + 2\mathcal{R}_m(l_{\mathbb{F},\mathbb{H}}) + \sqrt{\frac{log\frac{1}{\delta}}{2m}}\ .\]
الآن، يمكن تحديد تعقيد راديماخر كما يلي:
\[\begin{aligned} & \mathcal{R}_m(l_{\mathbb{F},\mathbb{H}}) = \mathbb{E}_{\sigma}[\sup_{(f, h) \in \mathbb{F} \times \mathbb{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_i * h(f(x_i)) \\ & *l(f(x_i),F(x_i)) + \sigma_i * \beta * (-log(h(f(x_i))))] \\ & \le \mathbb{E}_{\sigma}[\sup_{(f, h) \in \mathbb{F} \times \mathbb{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_i * h(f(x_i))*l(f(x_i),F(x_i))] \\ & + \beta * \mathbb{E}_{\sigma}[\sup_{(f, h) \in \mathbb{F} \times \mathbb{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_i * (-log(h(f(x_i))))]. \end{aligned}\]
[sec:lemma] لتكن \(\mathbb{F}_1\) و \(\mathbb{F}_2\) عائلتين من الوظائف التي ترسم \(X\) إلى \([0, 1]\). لتكن \(\mathbb{F} = \{f_1*f_2: f_1 \in \mathbb{F}_1, f_2 \in \mathbb{F_2}\}\). ثم، تعقيدات راديماخر التجريبية لـ \(\mathbb{F}\) لأي عينة \(S\) بحجم \(m\) محدودة: \[\widehat{\mathcal{R}_S}(\mathbb{F}) \le 2(\widehat{\mathcal{R}_S}(\mathbb{F}_1) + \widehat{\mathcal{R}_S}(\mathbb{F}_2))\] يمكن العثور على برهان الليما [sec:lemma] في (lemma1)
بناءً على الليما [sec:lemma]، يمكن تحديد تعقيد راديماخر لمنتجات وظائف المؤشر بمجموع تعقيدات راديماخر لكل فئة وظيفة مؤشر، وبالتالي:
\[\begin{aligned} & \mathbb{E}_{\sigma}[\sup_{(f, h) \in \mathbb{F} \times \mathbb{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_i * h(f(x_i))*l(f(x_i),F(x_i))] \\ & \le \mathbb{E}_{\sigma}[\sup_{(f, h) \in \mathbb{F} \times \mathbb{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_i * h(f(x_i))] \\ & + \mathbb{E}_{\sigma}[\sup_{f \in \mathbb{F} }\frac{1}{m}\sum_{i=1}^{m}\sigma_i * l(f(x_i),F(x_i))] \ . \end{aligned}\]
لذا، يمكن تحديد تعقيد راديماخر كما يلي:
\[\begin{aligned} \mathcal{R}_m(l_{\mathbb{F},\mathbb{H}}) & \le (1 + \beta) * \mathbb{E}_{\sigma}[\sup_{(f, h) \in \mathbb{F} \times \mathbb{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_i * h(f(x_i))] \\ & + \mathbb{E}_{\sigma}[\sup_{f \in \mathbb{F} }\frac{1}{m}\sum_{i=1}^{m}\sigma_i * l(f(x_i),F(x_i))] \\ & \le (1 + \beta) * \mathbb{E}_{\sigma}[\sup_{h \in \mathbb{H}}\frac{1}{m}\sum_{i=1}^{m}\sigma_i * h(f(x_i))] \\ & + \mathbb{E}_{\sigma}[\sup_{f \in \mathbb{F} }\frac{1}{m}\sum_{i=1}^{m}\sigma_i * l(f(x_i),F(x_i))] \\ & \le (1 + \beta)\mathcal{R}_m(\mathbb{H}) + \mathcal{R}_m(\mathbb{F}) . \end{aligned}\]
توفر هذه النظرية ضمانات تعميم لتعلم وظيفة التجزئة الدلالية \(f\) ووظيفة استخراج الإدخالات الصعبة \(h\) التي تقبل تعقيدات راديماخر في \(O(\frac{1}{\sqrt{m}})\).
تشير النظرية [generalization-bound] إلى أن الخطأ الأقصى في التعميم لـ LAECIPS محدود بشرط أن يكون الخطأ الأقصى في التعميم لنماذج التجزئة الدلالية واستراتيجيات استخراج الإدخالات الصعبة المستخدمة في LAECIPS قابلاً للتحكم. لذلك، من الناحية النظرية، من الممكن نشر نماذج بصرية كبيرة، ونماذج صغيرة، واستراتيجيات استخراج الإدخالات الصعبة في إطار عمل LAECIPS للتأثير المشترك بطريقة سهلة الاستخدام.
لقد قمنا بتنفيذ نموذج أولي للنظام المقترح في إطار عمل LAECIPS لتجزئة الدلالية الروبوتية في العالم الحقيقي وأجرينا تجارب عليه لتقييم الأداء. في إعداد الأجهزة، نستخدم Nvidia Jetson Nano (nano)، والذي يُستخدم عادة في أجهزة الروبوتات الواقعية، كعقدة الحافة. بالنسبة لعقدة السحابة، لدينا خادم Dell R750 مع معالج Intel Xeon Silver 4310 بـ 48 نواة بتردد 2.10GHz، وذاكرة 256GB، و 2 وحدات معالجة رسومات Nvidia GeForce 3090. تتصل عقدة السحابة وعقدة الحافة عبر WLAN بعرض نطاق شبكي 4Mbps. لقد نفذنا LAECIPS باستخدام إطار عمل اختبار الذكاء الاصطناعي الموزع Ianvs (kubeedge) استناداً إلى Kubeedge، حيث يتم نشر النماذج الصغيرة على Jetson Nano ونموذج الرؤية الكبير على خادم Dell R750.
التجزئة الدلالية هي مهمة نموذجية في نظام إدراك إنترنت الأشياء وأيضاً مهمة أساسية في مجالات الروبوتات والقيادة الذاتية. للتحقق من فعالية LAECIPS المقترح في بيئة إدراك إنترنت الأشياء الواقعية، اخترنا أربع مجموعات بيانات نموذجية للتجزئة الدلالية في العالم الحقيقي:
مجموعة بيانات الروبوتات السحابية (cloud-robotics) تحتوي على 2600 صورة للتجزئة الدلالية تم جمعها بواسطة كلاب روبوتية ذكية في المنطقة الصناعية بشنتشن، وهي تنطبق بشكل رئيسي على مشاهد الروبوتات في المناطق شبه المغلقة.
مجموعة بيانات Cityscapes (cityscapes) تحتوي على 5000 صورة للتجزئة الدلالية تم جمعها بواسطة سيارات ذكية في عدة مدن في ألمانيا، وهي تنطبق بشكل رئيسي على مشاهد القيادة الذاتية في بيئات العالم المفتوح.
مجموعة بيانات ADE20K (zhou2017scene) تحتوي على 20000 صورة للتجزئة الدلالية، تغطي مشاهد متنوعة من الداخل إلى الخارج، والطبيعية إلى الحضرية، ويمكن استخدامها لمهام مثل فهم المشهد وتجزئة الصور في الروبوتات والقيادة الذاتية.
مجموعة بيانات SYNTHIA (Ros_2016_CVPR) تحتوي على 9000 صورة للتجزئة الدلالية، تتكون من إطارات واقعية تم إنشاؤها من مدينة افتراضية وتشمل تعليقات دلالية دقيقة على مستوى البكسل.
لقد قارنا أولاً ثلاثة أطر أساسية مختلفة:
CLOUD: تحميل جميع المدخلات إلى عقدة السحابة للمعالجة بواسطة النموذج البصري الكبير.
EDGE: معالجة جميع المدخلات على عقدة الحافة باستخدام النموذج الصغير.
DCSB (cao2023edge) هو الطريقة الحالية الأفضل لتعاون النموذج الكبير/الصغير. الفرق بين هذا الإطار وإطار عمل LAECIPS المقترح هو أن DCSB لا يقوم بتحديث النموذج الصغير بشكل ديناميكي.
بالإضافة إلى ذلك، استخدمنا أيضاً ثلاث استراتيجيات نموذجية لاستخراج المدخلات الصعبة، MESS (ECCV22), SM (CODES15), و SPP (ICLR18)، لتقييم فعالية وعمومية طريقة LAECIPS.
MESS هي الطريقة الحالية الأفضل المقترحة للتجزئة الدلالية المبكرة، والتي يمكن استخدامها أيضاً في استخراج المدخلات الصعبة. تحسب درجة الثقة لنتيجة الاستدلال من خلال حساب نسبة البكسلات التي تحتوي على توزيع احتمالي أقصى أكبر من عتبة معينة:
\[Confidence = \frac{1}{HW}\sum_{h=1}^{H}\sum_{w=1}^{W}\mathds{1}(c_{h,w}^{top1}(f(x)) \ge thre^{pix})\]
SM هي الطريقة الكلاسيكية المستخدمة في التعاون بين الحافة والسحابة. تحسب درجة الثقة استناداً إلى الفرق بين توزيع الاحتمال الأقصى وتوزيع الاحتمال الثاني الأقصى في نتيجة الاستدلال:
\[Confidence = \frac{1}{HW}\sum_{h=1}^{H}\sum_{w=1}^{W}(c_{h,w}^{top1}(f(x)) - c_{h,w}^{top2}(f(x)))\]
SPP هي الطريقة الأساسية لاستخراج المدخلات الصعبة. تحسب درجة الثقة استناداً إلى توزيع الاحتمال الأقصى في نتيجة الاستدلال:
\[Confidence = \frac{1}{HW}\sum_{h=1}^{H}\sum_{w=1}^{W}c_{h,w}^{top1}(f(x))\]
لمقارنة عادلة، سيتم تطبيق الخوارزميات الثلاثة المذكورة أعلاه لاستخراج المدخلات الصعبة في الإطار المقترح بطريقة مباشرة خلال عملية التجربة.
المقاييس التي نختبرها في التجربة تشمل mIoU، نسبة التحميل إلى السحابة (CUR)، والتأخير. mIoU تقيس دقة استدلال النموذج في مهام التجزئة الدلالية. CUR تمثل نسبة الصور المحملة إلى السحابة، مما يعكس النفقات العامة للاتصالات في التأثير المشترك بين الحافة والسحابة. التأخير هو الوقت المتوسط لإكمال عملية التأثير المشترك لمدخلات الصور.
حساب دقة استدلال mIoU كالتالي: \[\begin{aligned} mIoU(F,f,h) & = \frac{1}{N}\sum_{i=1}^N[\mathds{1}(h(f(x_i))\ge \delta)*IoU(f(x_i), y) \\ & + \mathds{1}(h(f(x)) < \delta) * IoU(F(x_i), y)]. \end{aligned}\]
حساب نسبة التحميل إلى السحابة (CUR) كالتالي: \[CUR = \frac{1}{N}\sum_{i=1}^N\mathds{1}(h(f(x_i)) < \delta).\]
حساب التأخير كالتالي: \[latency = \frac{1}{N}\sum_{i=1}^N(delay(x_i)).\]
لتقييم أداء الخوارزمية في بيئات متغيرة ديناميكياً خلال عملية التجربة، نقسم مجموعات البيانات إلى 5 مهام بترتيب زمني.
الجداول [table1] و [table2]، تظهر النتائج التجريبية لإطار عمل LAECIPS وأطر عمل وخوارزميات أخرى في مجموعات بيانات مختلفة. من خلال هذه النتائج التجريبية، نهدف إلى الإجابة على الأسئلة البحثية التالية.
ما مدى فعالية التعاون بين الحافة والسحابة في إطار عمل LAECIPS المقترح لدينا؟
للإجابة على هذا السؤال، نقوم بملاحظتين من الشكل [ablation] والجدول [table1] استناداً إلى الدقة والتأخير. أولاً، يظهر الشكل [ablation] نتائج التدريب والاستدلال باستخدام إطار عمل LAECIPS على مجموعات بيانات مختلفة. بالجمع بين دقة mIoU المتوسطة المعروضة في الجدول [table1]، يمكن ملاحظة أنه في مجموعة بيانات Cloud-Robotics، يحسن أسلوب LAECIPS دقة استدلال mIoU بنسبة 22.1% و 5.9% مقارنة بالاستدلال على الحافة وإطار عمل DCSB، مع فرق بنسبة 5.1% فقط مقارنة بالاستدلال على السحابة. في مجموعة بيانات Cityscapes، يحسن أسلوب LAECIPS دقة استدلال mIoU بنسبة 20.1% و 6.0% مقارنة بالاستدلال على الحافة وإطار عمل DCSB، مع فرق بنسبة 5.0% فقط مقارنة بالاستدلال على السحابة. في مجموعة بيانات ADE20K، يحسن أسلوب LAECIPS دقة استدلال mIoU بنسبة 12.5% و 2.6% مقارنة بالاستدلال على الحافة وإطار عمل DCSB، مع فرق بنسبة 3.7% فقط مقارنة بالاستدلال على السحابة. في مجموعة بيانات SYNTHIA، يحسن أسلوب LAECIPS دقة استدلال mIoU بنسبة 15.3% و 4.4% مقارنة بالاستدلال على الحافة وإطار عمل DCSB، مع فرق بنسبة 3.6% فقط مقارنة بالاستدلال على السحابة. تظهر هذه النتائج أن أسلوب LAECIPS يمكن أن يحسن بفعالية دقة استدلال النموذج.
ثانياً، يظهر الجدول [table1] متوسط تأخير الاستدلال وCURs. مقارنة بالأساليب التي تؤدي كل الاستدلال في السحابة، يوفر LAECIPS أكثر من 60% من وقت الاستدلال وتكاليف الاتصال. مقارنة بإطار عمل DCSB الحالي، يمتلك LAECIPS تأخير استدلال وتكاليف اتصال مماثلة جداً. هذا يثبت أن LAECIPS يمكن أن يقلل بفعالية من تأخير الاستدلال وتكاليف الاتصال.
هل طريقتنا في التعاون بين السحابة والحافة أكثر فعالية في تحديد المدخلات الصعبة مقارنة بخوارزميات استخراج المدخلات الصعبة الأخرى؟
نجيب على هذا السؤال من خلال ملاحظتين من الشكل hard-example-result والشكل Comparision of Different Cloud Update Rate. أولاً، نصنف العينات \(x\) التي تلبي الشرط \(mIoU(F(x)) - mIoU(f(x)) \ge 0.1\) كمدخلات صعبة. يظهر الشكل hard-example-result التمييز بين المدخلات الصعبة والسهلة بناءً على درجات الثقة للخوارزميات المختلفة. يمكن ملاحظة أن طرق MESS، SM، وSPP غير قادرة على التمييز بوضوح بين المدخلات الصعبة والسهلة بناءً على درجة الثقة، بينما يمكن لطريقة LAECIPS تحديد معظم المدخلات بدرجة ثقة أكبر من 0.75 كمدخلات سهلة ومعظم المدخلات بدرجة ثقة أقل من 0.75 كمدخلات صعبة، مما يدل على أن طريقة LAECIPS أكثر فعالية في التمييز بين المدخلات الصعبة والسهلة.
ثانياً، كما هو موضح في الشكل Comparision of Different Cloud Update Rate، قمنا بتجربة دقة الاستدلال mIoU تحت معدلات تحديث سحابية مختلفة من خلال تعديل العتبة \(\delta\) مع نفس النموذج الحافي. يمكن ملاحظة أن دقة الاستدلال لطريقة LAECIPS أعلى من الطرق الأخرى تحت معدلات تحديث سحابية مختلفة. تشير النتائج إلى أن LAECIPS يقدم كمية أقل من النفقات الاتصالية مقارنة بالطرق الأخرى لتحقيق نفس مستوى دقة الاستدلال، مما يؤكد مجدداً فعالية طريقة LAECIPS في تحديد المدخلات الصعبة.
هل خوارزمية LAECIPS أكثر قدرة على التكيف مع التغيرات البيئية الديناميكية؟
نقوم بملاحظتين من الشكل Comparison of Different Algorithms والجدول table2 للإجابة على هذا السؤال. أولاً، يظهر الشكل Comparison of Different Algorithms دقة الاستدلال mIoU ومعدلات التحديث السحابية لخوارزميات مختلفة في مهام مختلفة. توزيعات البيانات لمهام مختلفة من نفس مجموعة البيانات مختلفة بشكل كبير كما هو موضح في الشكل freq، والتي لها تأثيرات معينة على فعالية نماذج التجزئة الدلالية وخوارزميات استخراج المدخلات الصعبة، مما يؤدي إلى تقلبات في دقة الاستدلال للنموذج ومعدلات التحديث السحابية عبر مهام مختلفة. لذلك، تعكس تقلبات الأداء للطرق المقيمة في التعامل مع مهام مختلفة قدرتها على التكيف مع البيئات الديناميكية.
تشير النتائج المتحصلة إلى أن طرق DCSB، MESS، SM، وSPP تتأثر بشكل كبير بالتغيرات البيئية من حيث دقة الاستدلال ومعدل التحديث السحابي، بينما تظل LAECIPS نسبياً مستقرة في مهام مختلفة. يمكن ملاحظة أن LAECIPS تتفوق على خوارزميات أخرى في مهام مختلفة عبر 4 مجموعات بيانات في التجربة. LAECIPS لديها دقة استدلال mIoU متوسطة أعلى بأكثر من 5% من الخوارزميات الأخرى. يظهر الجدول table2 الدقة ومعدل التحديث السحابي تحت مهام مختلفة. عبر مهام مختلفة، تظهر LAECIPS تقلبات معدل التحديث السحابي نسبياً مستقرة، بينما تظهر طرق MESS، SM، وSPP تقلبات كبيرة في الأداء. DCSB تظهر أيضاً أداء مستقراً من حيث معدل التحديث السحابي، ولكن بسبب عدم تحديثاتها التكيفية للنماذج الصغيرة، لا يزال هناك فجوة معينة في الدقة مقارنة بـ LAECIPS، مما يبرز أهمية عملية التحديث التكيفي المستخدمة في إطار عمل LAECIPS.
تتناول هذه الورقة المشكلة الجديدة المتعلقة بالتدريب والاستدلال التعاوني بين السحابة والحافة عبر الإنترنت في البيئات الديناميكية، مع التركيز على نماذج الرؤية الكبيرة في منظور إدراك إنترنت الأشياء. يكمن جوهر هذه المشكلة في تحديد استراتيجيات التعاون المثلى التي تلبي متطلبات الاستشعار والحوسبة الفورية على الحافة مع تعزيز دقة الاستدلال. يفصل حلنا، إطار عمل LAECIPS، مكوناته الأساسية - نموذج رؤية كبير مستضاف على السحابة ونموذج صغير موزع على الحافة - ويستخدم استراتيجية الاستدلال المشترك المبنية على تصنيف المدخلات الصعبة لتحسين تعاونهما. مع LAECIPS، يتم إرسال المدخلات الصعبة فقط إلى السحابة، ويتم تحديث نموذج الحافة بشكل تكيفي، مستفيداً من مخرجات نموذج الرؤية الكبير المدرب مسبقاً لضمان الصمود أمام التغيرات البيئية الديناميكية. تم اشتقاق حد الخطأ العام لـ LAECIPS، وأُجريت تقييمات شاملة على معايير تقسيم الأداء الدلالي الروبوتي في العالم الحقيقي. تدعم النتائج النظرية والتجريبية جدوى وفعالية الإطار المقترح. نعتقد أن عملنا يضع أساساً متيناً للتعاون بين نموذج الرؤية الكبير والسحابة على الحافة ويسهل تطوير أنظمة إدراك إنترنت الأشياء. في البحوث المستقبلية، سنوسع تطبيق LAECIPS من أنظمة إدراك إنترنت الأشياء إلى سيناريوهات متعددة الوسائط الأخرى.