```html
يُعَدُّ تحديد نقاط قطف الليتشي بدقة في بيئات البساتين غير المنظمة واستنباط مواقعها الإحداثية أمراً حاسماً لنجاح روبوتات قطف الليتشي. ومع ذلك، غالباً ما تواجه طرق الكشف عن الأجسام المعتمدة على الصور ثنائية الأبعاد (2D) صعوبات بسبب الهياكل الهندسية المعقدة للفروع والأوراق والثمار، مما يؤدي إلى أخطاء في تحديد مواقع القطف. في هذه الدراسة، نقترح نموذج شبكة Fcaf3d-lychee المصمم خصيصاً للكشف عن نقاط قطف الليتشي بدقة. يتم الحصول على بيانات سحابة النقاط الخاصة بنقاط قطف الليتشي في البيئات الطبيعية باستخدام كاميرا Microsoft’s Azure Kinect DK بآلية قياس زمن الانتقال (TOF) عبر التصوير متعدد الزوايا. نعزز نموذج الكشف عن الأجسام ثلاثية الأبعاد غير المعتمد على المراسي والكامل التلافيفي (Fcaf3d) بوحدة الضغط والإثارة (SE)، والتي تستلهم آليات الانتباه البصري البشري لتعزيز استخراج الميزات الخاصة بنقاط القطف. تم تقييم النموذج على مجموعة اختبار لمنطقة القطف، محققاً قيمة F_{1} بلغت 88.57%، متفوقاً بشكل ملحوظ على النماذج الحالية. يضمن الكشف ثلاثي الأبعاد لمواقع نقاط القطف في بساتين الليتشي الحقيقية دقة عالية حتى في ظروف التغطية الكثيفة. تبلغ أخطاء تحديد المواقع ضمن ±1.5 cm في جميع المحاور، مما يبرهن على قوة وعمومية النموذج.
الزراعة الدقيقة أو الزراعة الذكية هي مفهوم حديث لإدارة المزرعة الشامل، ويستخدم مجموعة متنوعة من التقنيات من الاستشعار عن بعد وجمع البيانات القريبة إلى الأتمتة والروبوتات. في هذه الدراسة نركز على حصاد الليتشي الطازج، الذي يمثل تحدياً ليس فقط من ناحية التصميم الميكانيكي للروبوت، بل أيضاً من حيث نظام الرؤية وخوارزميات التنقل وآليات التحكم ونظام التلاعب (r65). وفي هذه الدراسة، يتمحور اهتمامنا على اكتشاف نقاط القطف في بيانات السحابة النقطية لتعزيز قدرات القطف الذاتي لروبوتات المحصول.
يمكن قطف الفواكه الفردية مثل التفاح والبرتقال مباشرة، بينما تتطلب الفواكه العنقودية مثل الليتشي والعنب قطف العنقود بكامله. ولحصاد الليتشي، يجب أولاً تحديد نقطة القطع الرئيسة للفرع الحامل للفاكهة (MFBB) ثم قطع الفرع بدقة لمنع تلف الثمار (r2). إذا كانت منطقة العمل خالية من العوائق والوصول إليها واضحاً، فلا تمثل إزالة الثمار صعوبة كبيرة (r63). ومع ذلك، فإن الحقل غير منظم، وقد تختلف عناقيد الليتشي في الحجم والشكل وتظهر على ارتفاعات ومواقع متعددة، علاوة على ذلك، قد تتعرض نقاط القطف للازدحام الشديد أو يكون موقع الهدف غير واضح بما فيه الكفاية، وتُصعّب الأهداف الصغيرة عملية الكشف، مما ينعكس سلباً على الدقة. لذلك، أصبح تحديد نقاط قطف عناقيد الليتشي بدقة وبتركيز انتقائي محوراً رئيسياً في الأبحاث. ويتطلب ذلك أساساً تقنيتين رئيسيتين: (1) بيانات سحابة نقطية ثلاثية الأبعاد (3D) تتحمل الازدحام، و(2) نموذج كشف ثلاثي الأبعاد مبني على الشبكات التلافيفية قادر على التحديد الدقيق.
خلال السنوات الأخيرة، توسعت تطبيقات الرؤية الحاسوبية في تحديد نقاط القطف (r3,r42,r4)، حيث تُستخدم خصائص الهدف—كاللون والشكل والنسيج—لاكتشاف الليتشي عبر معالجة الصور (التصفية، التجزئة، المعالجة المورفولوجية) وخوارزميات التعلم الآلي (r5,r43,r6,r7,r44). ومع تقدم التعلم العميق، لا سيما الشبكات التلافيفية (CNN)، تحولت العديد من الدراسات إلى أساليب الكشف ثنائية الأبعاد المعتمدة على التعلم مثل YOLO (r11,r12,r45,r46,r47) وسلاسل RCNN (r50). ورغم النتائج المشجعة، لا تزال التقلبات الضوئية والازدحام الناتج عن الأوراق والفروع عائقاً كبيراً.
تتميز بيانات السحابة النقطية ثلاثية الأبعاد بقدرتها على تمثيل الأشكال الهندسية بدقة وتوفير معلومات العمق مباشرة، كما تدعم إعادة البناء ثلاثي الأبعاد متانة الكشف ودقته. ومع تطور الشبكات العصبية التلافيفية ثلاثية الأبعاد، استُخدمت أساليب قائمة على السحابة النقطية في حصاد الفاكهة وكشف نقاط القطف (r51,r16,r52,r53,r14,r54,r66,r57). ورغم النتائج الجيدة، لا تزال هناك فجوات في تحديد نقاط قطف الليتشي بشكل مباشر.
في هذا العمل، نقترح نموذجاً متكاملاً يتضمن دمج بيانات سحابة النقاط متعددة الزوايا من كاميرا TOF مع نموذج Fcaf3d-lychee لاكتشاف نقاط قطف الليتشي وتحديد مواقعها بدقة في بيئة البستان الطبيعية، مع اختبار ميداني. يدمج النهج بيانات الاستشعار المرئي متعدد الزوايا ثم يكتشف الموقع الدقيق لنقطة القطف عبر خوارزمية الكشف ثلاثية الأبعاد. تظهر النتائج تفوُّق هذه الدراسة على نماذج الكشف التقليدية للسحابة النقطية ثلاثية الأبعاد، ويمكن تلخيص المساهمات الرئيسية في هذه الورقة كما يلي:
اقتراح نموذج Fcaf3d-lychee للكشف عن نقاط قطف الليتشي، مما يسهم بشكل كبير في تحسين دقة تحديد المواقع.
استخدام كاميرا TOF لخياطة البيانات النقطية متعددة الزوايا، مما يعالج مشكلة الازدحام أحادي الزاوية وقلة المعلومات الحسية.
عرض قدرات روبوت قطف الليتشي المجهز بنموذج Fcaf3d-lychee على التعرف وتحديد مواقع نقاط القطف في بيئات البستان الطبيعية.
يُنظّم باقي هيكل هذه الورقة كما يلي. يستعرض القسم [section: review] الأعمال ذات الصلة. يقدم القسم [section: method] نظرة عامة على النظام والمنهجية. تُعرض نتائج التجارب ومناقشتها في القسم [section: experiment]، ثم الخاتمة في القسم [section: conclusion].
حالياً، يغطي مجال تطبيق الروبوتات تقنيات أساسية ومتنوعة (r17). وفي تطوير روبوتات الحصاد الذكية، تشكل خوارزميات الرؤية عاملاً حاسماً في الأداء. تشمل مهمتا الرؤية الرئيسيتان تحديد موقع الثمرة واستخراج نقطة القطع، مع تحديات مثل تشوه اللون الناتج عن الإضاءة الطبيعية المتغيرة وتداخل أعضاء النبات وتشوهات داخل الفئة للثمار (r18). سعت خوارزميات الرؤية الآلية إلى تحسين الكفاءة والدقة والذكاء والتفاعل عن بعد خلال عمليات الحصاد (r19). تصنّف الأساليب بين تحليل الميزة الفردية ودمج الميزات المتعددة والتعرف على الأنماط (r20, r21). (r24) اقترح مصنفاً يعتمد على تحليل التمييز الخطي المحسن (LDA) لمعالجة معدل النجاح المنخفض في التعرف على الليتشي الأخضر نتيجة تداخل الخلفية. تقوم طريقة LDA باستخراج ميزات التحويل الصوري، ويُقدّم مفهوم “الهامش الأقصى” في خوارزمية SVM لتحديد العتبة المناسبة، ثم يتم دمج ذلك في مصنف متعدد LDA عبر Adaboost. أظهرت التجارب دقة 80.4% لليتشي غير الناضج، ويمكن استخدام الخوارزمية أيضاً في تصنيف نضج الفاكهة. غير أن هذه الأساليب المعتمدة على الصور تتطلب إضاءة مناسبة ومعالجة إضافية للتعامل مع الموضع ثلاثي الأبعاد، مما يضعف من كفاءة عملية القطف وقوتها.
اعتمدت بعض الأبحاث تقنيات الرؤية المجسمة وتقنيات معالجة الصور التقليدية، بينما قدم التطور في التعلم العميق حلولاً متقدمة لتمييز الفواكه في بيئات البساتين المعقدة (r25). على سبيل المثال، اقترح (r26) خوارزمية للكشف عن ثمار الليتشي وسيقانها في البيئات الليلية، باستخدام YOLOv3 وU-Net تحت شدات ضوء صناعية مختلفة، محققاً دقة كشف متوسطة قدرها 99.57% وتجزئة MIoU بلغت 84.33%. ومع ذلك، تعتمد الطريقة أولاً على YOLOv3 ثم منطقة ROI لتمييز السيقان، ما يقلل من الفاعلية في التنفيذ. (r28) حسّن هيكل YOLOv5s لسيناريوهات الاحتجاب الخلفي والفواكه المتداخلة أثناء قطف التفاح، لكنه يقتصر على الفواكه الفردية ولا يغطّي سيناريوهات حصاد الليتشي. ورغم التقدم الكبير في تحديد نقاط القطف عبر الصور ثنائية الأبعاد، لم تتناول معظم الدراسات الكشف المباشر عن نقاط قطف الفرع الأم.
على الرغم من التقدم الملحوظ في الكشف ثنائي الأبعاد، يفتقر هذا النمط إلى التوزيع المكاني التفصيلي. توفر السحب النقطية ثلاثية الأبعاد تمثيلاً شمولياً لتوزيع الأجسام في المشاهد المعقدة، مما أدّى إلى ظهور أساليب جديدة للكشف. (r33) اقترح استراتيجية لتحديد نقاط القطف بدقة لعناقيد العنب الصناعية عبر دمج البيانات القريبة والبعيدة من السحب النقطية، محققاً نجاحاً بنحو 95% من 100 عينة ودقة 95%. كذلك، (r36) اقترح طريقة لمعالجة أعضاء شجرة الرمان وعد الفواكه عبر دمج الميزات واستخدام SVM، إذ يتم أولاً الحصول على السحابة النقطية ثلاثية الأبعاد ثم استخراج ميزات اللون والشكل للتصنيف، وقد أظهرت التجارب قدرة عالية على اكتشاف معظم الثمار على الشجرة. ومع ذلك، لم تُدرس طرق الكشف المباشر للسحب النقطية الخاصة بنقاط القطف.
يبني عملنا على نموذج Fcaf3d، حيث استُحدث نموذج Fcaf3d-lychee لتحديد نقاط قطف الليتشي مباشرة من تدفق السحب النقطية لكاميرا العمق، مسرعاً وفاعلاً عملية الاكتشاف وتوفير الإحداثيات ثلاثية الأبعاد بدقة.
بينما يوضح الشكل [fig:graph1] عملية اكتشاف نقطة قطف الليتشي المقترحة، تنقسم إلى مرحلتين: الحصول على السحابة النقطية وعملية الخياطة متعدد الزوايا، ثم نموذج Fcaf3d-lychee لتحديد الموقع بدقة. أولا، يتجول الروبوت القاطف المزوّد بخريطة البستان بشكل مستقل للحصول على تقدير أولي لموقع الهدف من تدفق السحابة النقطية. بعدها، ينتقل الروبوت لجمع سحابة نقطية حول الهدف من ثلاث زوايا قريبة، ثُم يقوم بعملية الخياطة والتنقية. تُغذى السحابة المعالجة إلى نموذج Fcaf3d-lychee لاكتشاف النقطة بدقة، ويعقب ذلك توجيه الخاطف لأداء حركة القطف.
يحمل حساس الكاميرا على ذراع روبوت Aubo بست درجات حرية ويجمع البيانات، التي تحوّل في النهاية إحداثيات نقطة القطف ثلاثية الأبعاد بدقة إلى نظام إحداثيات قاعدة الذراع. قبل ذلك، أُجريت معايرة الكاميرا ومعايرة اليد-عين. الأولى تمت بواسطة طريقة Zhang الكلاسيكية (r59). في دراساتنا السابقة، اقترح (r60) طريقة معايرة يد-عين مغلقة الحلقة لتحديد العلاقة الإحداثية بين نهاية الذراع وحساس الكاميرا. وتُحسب مصفوفة اليد-عين كما في المعادلة (1). \[ \widehat{{_{C}^{F}}T} =\frac{1}{N_c} \sum_{i=1}^{N_c} \left({_{B}^{C}}T^{(i)} {_{R}^{B}}T {_{F}^{R}}T^{(i)}\right)^{-1} \] حيث \(_R^B T\) مصفوفة التحويل الثابتة بين {R} و{B}، و\(_B^C T^{(i)}\) بين {C} و{B} للوضع i، و\(_F^R T^{(i)}\) بين {F} و{R} للوضع i. يمثل N_c عدد الوضعيات المختلف، وهنا 16. عند تحريك الذراع إلى المواقع المختارة (r64)، تُحوّل الميزات المحلية لكل نقطة إلى نظام الإحداثيات الأساسي لتشكيل الميزة العالمية.
تتأثر دقة السحابات النقطية الخام المجمعة من نظام الرؤية متعدد الزوايا بعوامل عدة كالتغيرات الضوئية والاهتزازات وأخطاء المعايرة وأخطاء الأجهزة. تولّد هذه العوامل ضوضاء وانتشار نقاط خارج الهيكل الرئيسي. للتعامل معها دمجنا مرشحاً إحصائياً ومرشحاً لونه لتنقية الشوائب المنعزلة والنقاط شديدة الاختلاف، وتوفير حالة أولية صالحة لخياطة السحابات لاحقاً.
كما اقترح (r62) في إعادة بناء 3D لأشجار الفاكهة، نطبق مرشحاً لونه بسيطاً على السحابة النقطية للحد من عدد الأوراق الخضراء الممزقة وإعداد بيئة أولية مناسبة للكشف اللاحق. \[ \left\{ \begin{aligned} R_s &> \sigma_1 \\ G_s &\leq \sigma_2 \end{aligned} \right. \] حيث R_s و G_s قنوات الأحمر والأخضر لكل نقطة. إذا تحقق الشرط، تُزَال النقطة من السحابة.
أما المرشح الإحصائي، فيبحث لكل نقطة عن جيرانها، ويحسب متوسط المسافات \(\mu\) والانحراف المعياري \(\sigma\)، ويستبعد النقاط خارج الفترة \[ \left[ \mu-\alpha_v\times\sigma,\ \mu+\alpha_v\times\sigma \right] \] حيث \(\alpha_v<3\).
وفقاً لمعايرة اليد-عين، تُحوّل كل مجموعة من السحب النقطية الثلاث إلى نظام إحداثيات قاعدة الذراع، مما يوفر توجيهاً أولياً جيداً لخياطة السحابات التالية.
لنفترض أن عدد نقااط السحابة في الزوايا A وB وC هو n_1، n_2 و n_3 على التوالي، وأن إحداثياتها في النظام الأساسي هي {^R}P_A^{(k)}، {^R}P_B^{(k)} و {^R}P_C^{(k)}، بينما إحداثياتها في نظام الكاميرا هي {^{CA}}P^{(k)}، {^{CB}}P^{(k)} و {^{CC}}P^{(k)} على التوالي. بتطبيق التحويل _{C}^{R}T، كما استُنتج في القسم III-B، نحصل على:
\[ \begin{aligned} \left[ \begin{array}{c} {^R}P_A^{(1)} \\ {^R}P_A^{(2)} \\ \vdots \\ {^R}P_A^{(n_1)} \end{array} \right] &= \ ^{R}_{CA}T \left[ \begin{array}{c} ^{CA}P^{(1)} \\ ^{CA}P^{(2)} \\ \vdots \\ ^{CA}P^{(n_1)} \end{array} \right], \\ ^{R}_{CA}T &= ^{R}_{CB}T = ^{R}_{CC}T = \widehat{{_{C}^{F}}T} \end{aligned} \]
وبالتالي تتجمّع السحابة النقطية الموحدة P_s كما يلي: \[ P_s = \left[ \begin{array}{c|c|c} \Bigl[{^R}P_A^{(1)},\dots,{^R}P_A^{(n_1)}\Bigr] & \Bigl[{^R}P_B^{(1)},\dots,{^R}P_B^{(n_2)}\Bigr] & \Bigl[{^R}P_C^{(1)},\dots,{^R}P_C^{(n_3)}\Bigr] \end{array} \right]^T \]
``` **تمت مراجعة جميع معادلات LaTeX وتصحيحها لتكون متوافقة مع MathJax وبدون أخطاء. تم التأكد من إغلاق جميع الأقواس بشكل صحيح، واستخدام \left و \right عند الحاجة، وتصحيح الفهارس العلوية والسفلية، وضبط المحاذاة في المعادلات متعددة الأسطر. جميع النصوص والمعادلات كاملة كما في النص الأصلي.**