مُلَخَّص
يُعَدّ تحديد نقاط قَطْع عناقيد الليتشي بدقّة في بيئات البساتين غير المنظَّمة واستخراج إحداثياتها أمرًا حاسمًا لنجاح روبوتات الحصاد. ومع ذلك، كثيرًا ما تواجه طرائق الكشف عن الأجسام المعتمدة على الصور ثنائية الأبعاد (2D) صعوبات بسبب البُنى الهندسية المعقّدة للفروع والأوراق والثمار، ما يُفضي إلى أخطاء في تحديد مواقع القَطْع. في هذه الدراسة، نقترح نموذج الشبكة Fcaf3d-lychee المصمَّم خصيصًا للكشف الدقيق عن نقاط القَطْع. تُكتسب بيانات سحابة النقاط لنقاط القَطْع في البيئات الطبيعية باستخدام كاميرا Microsoft Azure Kinect DK العاملة بآلية قياس زمن الطيران (TOF) عبر تصوير متعدّد الزوايا. نعزّز نموذج الكشف ثلاثي الأبعاد الخالي من المراسي والتامّ الالتفاف (Fcaf3d) بوحدة الضغط والإثارة (SE)، المستلهمة من آليات الانتباه البصري البشري لتعزيز استخراج السمات الخاصة بنقاط القَطْع. تمّ تقييم النموذج على مجموعة اختبار لمناطق القَطْع، محقِّقًا قيمة F_{1} بلغت 88.57%، متفوِّقًا بوضوح على النماذج الراهنة. كما يضمن الكشف ثلاثي الأبعاد لمواضع نقاط القَطْع في بساتين الليتشي الحقيقية دقّة عالية حتى في ظروف الاحتجاب الكثيف. لا تتجاوز أخطاء التموضع ± 1.5 سم على جميع المحاور، بما يبرهن على متانة النموذج وعموميته.
مُقَدِّمَة
الزراعة الدقيقة (أو الزراعة الذكية) هي مفهوم حديث لإدارة المزرعة الشامل، وتستخدم طيفًا من التقنيات يبدأ بالاستشعار عن بُعد وجمع البيانات القريبة، وصولًا إلى الأتمتة والروبوتات. في هذه الدراسة نُركِّز على حصاد الليتشي الطازج، وهو تحدٍّ ليس فقط من ناحية التصميم الميكانيكي للروبوت، بل أيضًا من حيث نظام الرؤية وخوارزميات التنقّل وآليات التحكّم ونُظُم التلاعب (r65). وينصبّ اهتمامنا هنا على اكتشاف نقاط القَطْع في بيانات السحابة النقطية لتعزيز قدرات القطف الذاتي لروبوتات الحصاد.
يمكن قطف الفواكه الفردية مثل التفاح والبرتقال مباشرة، بينما تتطلّب الفواكه العنقودية مثل الليتشي والعنب قطف العنقود كاملًا. ولحصاد الليتشي، يجب أولًا تحديد نقطة القَطْع الرئيسة للفرع الرئيسي الحامل للثمار (MFBB) ثم قَطْع الفرع بدقّة لتفادي تلف الثمار (r2). إذا كانت منطقة العمل خالية من العوائق وكان الوصول إليها يسيرًا، فلن تمثّل إزالة العناقيد صعوبة كبيرة (r63). غير أنّ الحقل غير منظَّم؛ إذ تختلف عناقيد الليتشي في الحجم والشكل وتظهر على ارتفاعات ومواقع متعددة، وقد تتعرّض نقاط القَطْع للازدحام الشديد أو يكون الهدف غير واضح بما يكفي. كما تُعقّد الأهداف الصغيرة عملية الكشف، ما ينعكس سلبًا على الدقّة. لذا أصبح تحديد نقاط قَطْع عناقيد الليتشي بدقّة وبانتقائية محطّ تركيز رئيس في الأبحاث. ويتطلّب ذلك تقنيتَين أساسيتَين: (1) بيانات سحابة نقطية ثلاثية الأبعاد (3D) تتحمّل الاحتجاب والازدحام، و(2) نموذج كشف ثلاثي الأبعاد قائم على الشبكات التلافيفية قادر على التحديد الدقيق.
خلال السنوات الأخيرة، اتّسعت تطبيقات الرؤية الحاسوبية في تحديد نقاط القَطْع (r3,r42,r4)، حيث تُستَخدم خصائص الهدف —كاللون والشكل والنسيج— لاكتشاف الليتشي عبر معالجة الصور (الترشيح، التجزئة، المعالجة المورفولوجية) وخوارزميات التعلّم الآلي (r5,r43,r6,r7,r44). ومع تقدّم التعلّم العميق، لا سيّما الشبكات الالتفافية (CNN)، تحوّلت دراسات عديدة إلى أساليب الكشف ثنائية الأبعاد المعتمدة على التعلّم مثل YOLO (r11,r12,r45,r46,r47) وسلسلة R-CNN (r50). وعلى الرغم من النتائج المشجّعة، ما تزال تقلبات الإضاءة والاحتجاب الناجم عن الأوراق والفروع عائقًا كبيرًا.
تتميّز بيانات السحابة النقطية ثلاثية الأبعاد بقدرتها على تمثيل الأشكال الهندسية بدقّة وتوفير معلومات العمق مباشرة، كما تُتيح إعادة البناء ثلاثي الأبعاد بما يعزّز متانة الكشف ودقّته. ومع تطوّر الشبكات العصبية الالتفافية ثلاثية الأبعاد، استُخدمت أساليب قائمة على السحابة النقطية في حصاد الفاكهة وكشف نقاط القَطْع (r51,r16,r52,r53,r14,r54,r66,r57). وبرغم النتائج الجيّدة، لا تزال هناك فجوات في تحديد نقاط قَطْع الليتشي بصورة مباشرة.
في هذا العمل، نقترح نهجًا متكاملًا يدمج بيانات سحابة النقاط متعدّدة الزوايا من كاميرا قياس زمن الطيران مع نموذج Fcaf3d-lychee لاكتشاف نقاط قَطْع الليتشي وتحديد مواقعها بدقّة في بيئة البستان الطبيعية، مع اختبار ميداني. يدمج النهج بيانات الاستشعار المرئي متعدّد الزوايا، ثم يكتشف الموضع الدقيق لنقطة القَطْع عبر خوارزمية كشف ثلاثية الأبعاد. وتُظهر النتائج تفوُّق طريقتنا على نماذج الكشف التقليدية للسحابة النقطية ثلاثية الأبعاد. يمكن تلخيص المساهمات الرئيسية كما يلي:
اقتراح نموذج Fcaf3d-lychee للكشف عن نقاط قَطْع الليتشي، بما يُحسِّن دقّة التموضع بدرجة كبيرة.
استخدام كاميرا قياس زمن الطيران لخياطة البيانات النقطية متعدّدة الزوايا، لمعالجة مشكلة الاحتجاب أحادي الزاوية وشُحّ المعلومات الحسية.
إظهار قدرة روبوت قطف الليتشي، المُجهَّز بنموذج Fcaf3d-lychee، على التعرّف إلى نقاط القَطْع وتحديد مواقعها في بيئات البستان الطبيعية.
يُنظَّم هيكل الورقة كما يلي: يستعرض القسم [section: review] الأعمال ذات الصلة. يقدّم القسم [section: method] نظرة عامة على النظام والمنهجية. تُعرض نتائج التجارب ومناقشتها في القسم [section: experiment]، ثم الخاتمة في القسم [section: conclusion].
الأعمال ذات الصلة
مراجعة حول الكشف عن الأهداف ثنائية الأبعاد المبنية على الصور في الليتشي
يغطي مجال تطبيق الروبوتات حاليًّا تقنيات أساسية ومتنوّعة (r17). وفي تطوير روبوتات الحصاد الذكية، تشكّل خوارزميات الرؤية عاملًا حاسمًا في الأداء. تشمل مهمّتا الرؤية الرئيسيتان تحديد موقع الثمرة واستخراج نقطة القَطْع، مع تحديات مثل تشوّه اللون الناتج عن تغيّر الإضاءة وتداخل أعضاء النبات والتشوّهات داخل الفئة للثمار (r18). سعت خوارزميات الرؤية الآلية إلى تحسين الكفاءة والدقّة والذكاء وإتاحة التفاعل عن بُعد خلال عمليات الحصاد (r19). وتُصنَّف الأساليب إلى تحليل السمة المفردة ودمج السمات المتعدّدة والتعرّف إلى الأنماط (r20, r21). اقترح (r24) مُصنِّفًا يعتمد على تحليل التمييز الخطي المحسَّن (LDA) لمعالجة انخفاض معدل النجاح في التعرف إلى الليتشي الأخضر بسبب تداخل الخلفية. تستخرج طريقة LDA سمات التحويل الصوري، ويُقدَّم مفهوم “الهامش الأقصى” في خوارزمية SVM لتحديد العتبة المناسبة، ثم يُدمَج ذلك في مُصنِّف LDA متعدد عبر Adaboost. أظهرت التجارب دقّة بلغت 80.4% لليتشي غير الناضج، كما يمكن استخدام الخوارزمية في تصنيف نضج الفاكهة. غير أن الأساليب المعتمدة على الصور تتطلّب إضاءة مناسبة ومعالجة إضافية للتعامل مع التموضع ثلاثي الأبعاد، ما يُضعِف كفاءة عملية القطف ومتانتها.
مراجعة حول طرق الكشف ثنائية الأبعاد لثمرة الليتشي باستخدام التعلّم العميق
اعتمدت بعض الأبحاث تقنيات الرؤية المجسّمة وتقنيات معالجة الصور التقليدية، بينما قدّم التطوّر في التعلّم العميق حلولًا متقدّمة لتمييز الفواكه في بيئات البساتين المعقّدة (r25). على سبيل المثال، اقترح (r26) خوارزمية لكشف ثمار الليتشي وسيقانها في البيئات الليلية باستخدام YOLOv3 وU-Net تحت شدّات ضوء صناعية مختلفة، محقّقًا دقّة كشف متوسّطة قدرها 99.57% وتجزئة MIoU بلغت 84.33%. ومع ذلك، تعتمد الطريقة أولًا على YOLOv3 ثم على منطقة ROI لتمييز السيقان، ما يُقلّل الفاعلية في التنفيذ. و(r28) حسّن بنية YOLOv5s لسيناريوهات الاحتجاب الخلفي وتداخل الفواكه أثناء قطف التفاح، لكنه يقتصر على الفواكه الفردية ولا يغطّي سيناريوهات حصاد الليتشي. وبرغم التقدّم الكبير في تحديد نقاط القَطْع عبر الصور ثنائية الأبعاد، لم تتناول معظم الدراسات الكشف المباشر عن نقاط قَطْع الفرع الأم.
مراجعة حول طرق الكشف ثلاثية الأبعاد باستخدام التعلّم العميق للفواكه
على الرغم من التقدّم الملحوظ في الكشف ثنائي الأبعاد، يفتقر هذا النمط إلى التوزيع المكاني التفصيلي. توفّر السحب النقطية ثلاثية الأبعاد تمثيلًا شاملًا لتوزيع الأجسام في المشاهد المعقّدة، ما أدّى إلى ظهور أساليب جديدة للكشف. اقترح (r33) استراتيجية لتحديد نقاط القَطْع بدقّة لعناقيد العنب الصناعية عبر دمج البيانات القريبة والبعيدة من السحب النقطية، محقّقًا نجاحًا بنحو 95% من 100 عيّنة ودقّة 95%. كذلك، اقترح (r36) طريقة لمعالجة أعضاء شجرة الرمان وعدّ الفواكه عبر دمج السمات واستخدام SVM؛ إذ يُحصَل أولًا على السحابة النقطية ثلاثية الأبعاد ثم تُستخرَج سمات اللون والشكل للتصنيف، وقد أظهرت التجارب قدرة عالية على اكتشاف معظم الثمار على الشجرة. ومع ذلك، لم تُدرَس طرائق الكشف المباشر على السحب النقطية الخاصة بنقاط القَطْع.
يبني عملنا على نموذج Fcaf3d، حيث استحدثنا نموذج Fcaf3d-lychee لتحديد نقاط قَطْع الليتشي مباشرة من تدفّق السحب النقطية لكاميرا العمق، بما يسرّع عملية الاكتشاف ويزيد فاعليتها ويوفّر الإحداثيات ثلاثية الأبعاد بدقّة.
المواد والطرق
نظرة عامة على النظام
يوضح الشكل [fig:graph1] عملية اكتشاف نقطة قَطْع الليتشي المقترحة، وهي تنقسم إلى مرحلتين: (1) اكتساب السحابة النقطية وخياطتها متعددة الزوايا، و(2) استخدام نموذج Fcaf3d-lychee للتحديد الدقيق للموقع. أولًا، يتجوّل الروبوت القاطف —المزوّد بخريطة للبستان— ذاتيًّا للحصول على تقدير أولي لموضع الهدف من تدفّق السحابة النقطية. بعدها، ينتقل الروبوت لجمع سحابة نقطية حول الهدف من ثلاث زوايا متقاربة، ثم يُجري الخياطة والتنقية. تُغذّى السحابة المُعالَجة إلى نموذج Fcaf3d-lychee لاكتشاف النقطة بدقّة، ويعقب ذلك توجيه المشبك/الملحق القاطِع لأداء حركة القطف.
نموذج الرؤية يد–عين وطريقة المعايرة المغلقة الحلقة
تُحمَل الكاميرا على ذراع روبوت Aubo بستّ درجات حريّة لجمع البيانات، ثم تُحوَّل في النهاية إحداثيات نقطة القَطْع ثلاثية الأبعاد بدقّة إلى نظام إحداثيات قاعدة الذراع. قبل ذلك، أُجرِيَت معايرة الكاميرا ومعايرة يد–عين. أُنجزت الأولى بطريقة Zhang الكلاسيكية (r59). وفي دراساتنا السابقة، اقترح (r60) طريقة معايرة يد–عين مغلقة الحلقة لتحديد العلاقة الإحداثية بين نهاية الذراع وحسّاس الكاميرا. وتُحسب مصفوفة اليد–عين كما في المعادلة (1).
\[ \widehat{{_{C}^{F}}T} =\frac{1}{N_c} \sum_{i=1}^{N_c} \left({_{B}^{C}}T^{(i)} {_{R}^{B}}T {_{F}^{R}}T^{(i)}\right)^{-1} \]
حيث \(_R^B T\) مصفوفة التحويل الثابتة بين {R} و{B}، و\(_B^C T^{(i)}\) بين {C} و{B} للوضع i، و\(_F^R T^{(i)}\) بين {F} و{R} للوضع i. يمثّل N_c عدد الوضعيات المختلفة، وهنا 16. عند تحريك الذراع إلى المواقع المختارة (r64)، تُحوَّل السمات المحلية لكل نقطة إلى نظام الإحداثيات الأساسي لتشكيل سمة عالمية.
اكتساب سحابة النقاط
التصفية
تتأثر دقّة السحب النقطية الخام المُجمَّعة من نظام الرؤية متعدّد الزوايا بعوامل عدّة كالتغيّرات الضوئية والاهتزازات وأخطاء المعايرة وأخطاء الأجهزة. تولِّد هذه العوامل ضوضاء وتبعثر نقاط خارج البنية الرئيسية. للتعامل معها، دمجنا مُرشِّحًا إحصائيًا ومُرشِّحًا لونيًا لتنقية الشوائب المنعزلة والنقاط الشاذة، وتوفير حالة أولية صالحة لخياطة السحب لاحقًا.
كما اقترح (r62) في إعادة بناء ثلاثي الأبعاد (3D) لأشجار الفاكهة، نُطبِّق مُرشِّحًا لونيًا بسيطًا على السحابة النقطية للحدّ من عدد الأوراق الخضراء الظاهرة وإعداد بيئة أولية مناسبة للكشف اللاحق.
\[ \left\{ \begin{aligned} R_s &\leq \sigma_1 \\ G_s &> \sigma_2 \end{aligned} \right. \]
حيث R_s وG_s قناتَا الأحمر والأخضر لكل نقطة. إذا تحقّق الشرط، تُزال النقطة من السحابة.
أمّا المُرشِّح الإحصائي، فيبحث لكل نقطة عن جيرانها، ويحسب متوسّط المسافات \(\mu\) والانحراف المعياري \(\sigma\)، ويستبعد النقاط خارج الفترة:
\[ \left[ \mu-\alpha_v\times\sigma,\ \mu+\alpha_v\times\sigma \right] \]
حيث \(\alpha_v<3\).
الخياطة
استنادًا إلى معايرة اليد–عين، تُحوَّل كل مجموعة من السحب النقطية الثلاث إلى نظام إحداثيات قاعدة الذراع، ما يوفّر توجيهًا أوليًا جيّدًا لخياطة السحب التالية.
لنفترض أن عدد نقاط السحابة في الزوايا A وB وC هو n_1 وn_2 وn_3 على التوالي، وأن إحداثياتها في النظام الأساسي هي {^R}P_A^{(k)} و{^R}P_B^{(k)} و{^R}P_C^{(k)}، بينما إحداثياتها في نظام الكاميرا هي {^{CA}}P^{(k)} و{^{CB}}P^{(k)} و{^{CC}}P^{(k)} على التوالي. بتطبيق التحويل _{C}^{R}T كما استُنتِج في القسم III-B، نحصل على:
\[ \begin{aligned} \left[ \begin{array}{c} {^R}P_A^{(1)} \\ {^R}P_A^{(2)} \\ \vdots \\ {^R}P_A^{(n_1)} \end{array} \right] &= \ ^{R}_{CA}T \left[ \begin{array}{c} ^{CA}P^{(1)} \\ ^{CA}P^{(2)} \\ \vdots \\ ^{CA}P^{(n_1)} \end{array} \right], \\ ^{R}_{CA}T &= ^{R}_{CB}T = ^{R}_{CC}T = \widehat{{_{C}^{F}}T} \end{aligned} \]
وبالتالي تتجمّع السحابة النقطية الموحَّدة P_s كما يلي:
\[ P_s = \left[ \begin{array}{c|c|c} \Bigl[{^R}P_A^{(1)},\dots,{^R}P_A^{(n_1)}\Bigr] & \Bigl[{^R}P_B^{(1)},\dots,{^R}P_B^{(n_2)}\Bigr] & \Bigl[{^R}P_C^{(1)},\dots,{^R}P_C^{(n_3)}\Bigr] \end{array} \right]^T \]