نَمُوذَجَ TextHawk لِتَحْلِيلِ النُصُوصِ

John Doe

Jane Smith

latex

مُلَخَّصُ

فِي هٰذِهِ الوَرَقَةَ، نُقَدِّم نَمُوذَجَ TextHawk، وَهُوَ نِظامِ جَدِيدٍ لِتَحْلِيلِ النُصُوصِ يَسْتَخْدِم تَقْنِيّاتِ مُتَقَدِّمَةٍ فِي مُعالَجَةِ اللُغاتِ الطَبِيعِيَّةِ. يَهْدِف النَمُوذَجِ إِلَى تَحْسِينِ فَهُم النُصُوصِ وَتَحْلِيلها بِشَكْلٍ أَكْثَرَ دِقَّةٍ وَفَعّالِيَّةً. نَسْتَعْرِض فِي هٰذِهِ الدِراسَةُ الأَسالِيبِ الَّتِي يَسْتَخْدِمها النَمُوذَجِ وَنُقارَن أَداءه بِالنَماذِج الأُخْرَى المُتاحَةِ.

مُقَدِّمَةِ

تُعْتَبَر مُعالَجَةِ اللُغاتِ الطَبِيعِيَّةِ (Natural Language Processing) مِن المَجالاتِ الحَيَوِيَّةِ فِي عُلِمَ الحاسُوب، وَلَها تَطْبِيقات مُتَعَدِّدَةِ تَشْمَل تَرْجَمَةٍ اللُغاتِ، التَعَرُّفُ عَلَى الكَلامِ، وَتَحْلِيلٌ النُصُوصِ. النَمُوذَجِ الَّذِي نُقَدِّمه، TextHawk، يُمَثِّل خَطْوَةٍ مُهِمَّةً نَحْوَ تَحْسِينِ قُدْراتٍ الأَنْظِمَةِ الحاسُوبِيَّة عَلَى فَهُم اللُغَةِ البَشَرِيَّةِ وَمُعالَجَتِها بِشَكْلٍ أَكْثَرَ فَعّالِيَّةِ.

الأَساسِ النَظَرِيّ

يَعْتَمِد TextHawk عَلَى مَجْمُوعَةِ مِن الخوارزميات المُتَطَوِّرَةِ الَّتِي تَمَّ تَطْوِيرها لِفَهْمِ النُصُوصِ وَتَحْلِيلها. هٰذِهِ الخوارزميات تَشْمَل تَقْنِيّاتِ التَعَلُّمِ العَمِيقِ (Deep Learning)، وَالَّتِي تَمَكَّنَ النَمُوذَجِ مِن تَحْلِيلِ النُصُوصِ بِدِقَّةٍ عالِيَةٍ.

التَطْبِيقات

يُمْكِن تَطْبِيقِ نَمُوذَجَ TextHawk فِي مَجْمُوعَةِ واسِعَةً مِن المَجالاتِ مِثْلَ البَحْثِ العِلْمِيِّ، التَعْلِيمِ، وَالصِناعاتِ الَّتِي تَعْتَمِد عَلَى مُعالَجَةِ البَياناتِ النصيه. بِفَضْلِ قُدْراتِهِ المُتَقَدِّمَةِ، يُساهِم النَمُوذَجِ فِي تَسْرِيعُ وَتَحْسِينِ عَمَلِيّاتِ التَحْلِيلِ النصي.

الخُلاصَةِ

يُقَدِّم نَمُوذَجَ TextHawk مُساهَمَةً قِيمَةَ فِي مَجالِ مُعالَجَةِ اللُغاتِ الطَبِيعِيَّةِ، حَيْثُ يُوَفِّر أَدَواتِ قَوِيَّةٍ لِتَحْلِيلِ النُصُوصِ وَفَهْمِها بِشَكْلٍ أَفْضَلَ. نَأْمَل أَنَّ يَفْتَح هٰذا النَمُوذَجِ البابَ أَمامَ تَطْوِيرِ تَقْنِيّاتِ جَدِيدَةٍ فِي هٰذا المَجالِ الحَيَوِيُّ.

المُلَخَّص

نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط (MLLMs) أَظْهَرَت نَتائِجِ مُثِيرَةٍ لِلإِعْجاب فِي مَهامِّ مُتَعَدِّدَةِ الوَسائِط المُخْتَلِفَةِ. وَمَعَ ذٰلِكَ، فَإِنَّ مُعْظَمَ نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط الحالِيَّةِ لا تُناسِب المَهامّ المُوَجَّهَةِ نَحْوَ الوَثائِقِ، وَالَّتِي تَتَطَلَّب إِدْراكا دَقِيقاً لِلصُوَرِ وَضَغْطٌ المَعْلُوماتِ. فِي هٰذِهِ الوَرَقَةَ، نُقَدِّم ، نَمُوذَجَ لُغَةً كَبِيرٍ مُتَعَدِّدِ الوَسائِط مُصَمِّمٌ خَصِيصاً لِلمَهامّ المُوَجَّهَةِ نَحْوَ الوَثائِقِ، مَعَ الحِفاظِ عَلَى القُدْراتِ العامَّةِ لَنَماذِج اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط. يَهْدِف إِلَى اِسْتِكْشافٍ الإِدْراك الدَقِيقِ الفَعّالَ مِن خِلالَ تَصْمِيمِ أَرْبَعَةِ مُكَوِّناتِ مُخَصَّصَةٍ. أَوَّلاً، يَتِمّ اِقْتِراحِ وَحْدَةِ إِعادَةِ العَيِّنَةُ وَإِعادَةِ التَرْتِيبِ (ReSA) لِتَقْلِيلِ الفائِضِ فِي نُصُوصُ الوَثائِقِ وَخَفْضِ تَكْلِفَةِ الحِسابِ لَنَمُوذَج اللُغَةِ الكَبِيرِ مُتَعَدِّدِ الوَسائِط. نَسْتَكْشِف ترميز مَواقِعِ كُلِّ مِيزَةً مَحَلِّيَّةٍ مِن خِلالَ تَقْدِيمِ التَضْمِينات المَوْضِعِيَّة القابِلَةِ لِلتَوَسُّع (SPEs)، وَالَّتِي يُمْكِن أَنَّ تُحافِظ عَلَى قابِلِيَّةِ التَوَسُّعِ لَأَحْجام الصُوَرِ المُخْتَلِفَةِ. ثُمَّ يَتِمّ تَبَنِّي شَبَكَةِ اِقْتِراحِ الاِسْتِعْلام (QPN) لَتَهْيِئَة الاِسْتِعْلامات بِشَكْلٍ دِينامِيكِيٍّ بَيِّنَ الصُوَرِ الفَرْعِيَّةِ المُخْتَلِفَةِ. لِتَعْزِيزِ القُدْرَةِ الادراكيه البَصَرِيَّةِ الدَقِيقَةِ لَنَمُوذَج اللُغَةِ الكَبِيرِ مُتَعَدِّدِ الوَسائِط، نُصَمِّم آلِيَّةِ الاِنْتِباهِ المُتَقاطِعِ مُتَعَدِّدِ المُسْتَوَياتِ (MLCA) الَّتِي تَلْتَقِط البُنْيَةِ الهَرَمِيَّة وَالعَلاقاتِ الدَلالِيَّة لِصُوَرٍ الوَثائِقِ. عِلاوَةً عَلَى ذٰلِكَ، نَقُوم بِإِنْشاءِ مَجْمُوعَةِ بَياناتٍ جَدِيدَةٍ لِضَبْطِ التَعْلِيماتِ لِلمَهامّ المُوَجَّهَةِ نَحْوَ الوَثائِقِ مِن خِلالَ إِثْراء بَياناتٍ الوَثائِقِ مُتَعَدِّدَةِ الوَسائِط مَعَ Gemini Pro. نُجْرِي تَجارِبِ واسِعَةً عَلَى مَعايِيرِ نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط العامَّةِ وَالمُوَجَّهَةِ نَحْوَ الوَثائِقِ، وَنُظْهَر أَنَّ يَتَفَوَّق عَلَى الطُرُقِ الحَدِيثَةِ، مِمّا يَدُلّ عَلَى فَعّالِيَّته وَتَفَوُّقِهِ فِي إِدْراكٌ الوَثائِقِ الدَقِيقِ وَالقُدْراتِ العامَّةِ. صَفْحَةً المَشْرُوعِ: https://github.com/yuyq96/TextHawk.

الكَلِماتُ المفتاحيه

نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط، فَهُم الوَثائِقِ، الإِجابَةَ عَلَى الأَسْئِلَةِ البَصَرِيَّةِ

مُقَدِّمَةِ

لَقَد حَظِيَت نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط (MLLMs) (blip2, instructblip, llava) بِاِهْتِمامٍ كَبِيرٍ وَأَحْرَزَت تَقَدُّماً مَلْحُوظاً مُؤَخَّراً. تُسْتَخْدَم هٰذِهِ النَماذِجِ نَماذِجَ اللُغَةِ الكَبِيرَةِ (LLMs) كَجَوْهَر لَها وَتَمْدُد قُدْراتٍ نَماذِجَ اللُغَةِ الكَبِيرَةِ القَوِيَّةِ إِلَى وَسائِطَ أُخْرَى، مِثْلَ الوَسائِط البَصَرِيَّةِ. بِفَضْلِ مَجْمُوعَةِ واسِعَةً مِن سِينارِيُوهاتٍ التَطْبِيقِ لِفَهْمِ صُور الوَثائِقِ، فَإِنَّ لَها مَوْقِعاً مِحْوَرِيّا فِي مَجالِ الإِدْراك البَصْرِيّ. تَعُد قُدْرَةِ فَهُم صُور الوَثائِقِ كَأَحَدِي القُدْراتِ الأَساسِيَّةِ لَنَماذِج اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط، مِمّا يَجْعَل تَحْقِيقِ التَطْبِيقات الرائِدَةِ أَمْراً سَهْلاً، مِثْلَ وُكَلاءُ التَطْبِيقات الذَكِيَّةِ المَبْنِيَّةُ عَلَى نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط، وَالقِراءَة المُساعَدَةِ بِالنُصُوص الغَنِيَّةِ، وَغَيْرِها. وَمَعَ ذٰلِكَ، تَطْرَح صُور الوَثائِقِ تَحَدِّياتٍ فَرِيدَةٍ لَنَماذِج اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط، حَيْثُ أَنَّها تَخْتَلِف عَن الصُوَرِ الطَبِيعِيَّةِ فِي عِدَّةٍ جَوانِبَ. تَتَمَيَّز صُور الوَثائِقِ عادَةً بِدِقَّةٍ أَعْلَى وَكَثافَة مَعْلُوماتٍ أَعْلَى مِن الصُوَرِ الطَبِيعِيَّةِ، مِمّا يَعْنِي أَنَّ نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط تَحْتاج إِلَى التَغَلُّبُ عَلَى صُعُوبَتَيْنِ رَئِيسِيَّتَيْنِ عِنْدَ مُعالَجَتُها. الصُعُوبَةِ الأُولَى هِيَ تَحْقِيقِ إِدْراكٌ بَصَرِيّ دَقِيقٍ لِمُحْتَوَى الوَثِيقَةِ. الصُعُوبَةِ الثانِيَةِ هِيَ ضَغْطِ مَعْلُوماتٍ صُورَةِ الوَثِيقَةِ بِكَفاءَة.

لَقَد حاوَلَت الأَعْمالِ السابِقَةِ حَوْلَ نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط المُوَجَّهَةِ لِلوَثائِق حَلٍّ الصُعُوباتِ المَذْكُورَةِ أَعْلاه. لِتَحْقِيقِ قُدْراتٍ إِدْراكٌ بَصَرِيّ دَقِيقَةً أَقْوَى، زادَت Qwen-VL (qwen-vl) دِقَّةٍ الإِدْخال لَمِشْفَر الرُؤْيَةِ مِن \(224\times224\) إِلَى \(448\times448\) وَقَدَّمَت UReader (ureader) وَحْدَةِ قَصَّ متكيفه مَعَ الشَكْلِ. لِضَغْطٍ المَعْلُوماتِ الوَثائِقِيَّة، اُسْتُخْدِمَت mPLUG-DocOwl (mplugdocowl) مُجَرَّدا بَصَرِيّا وَاِسْتَخْدَمَت Qwen-VL مُحَوِّلِ الرُؤْيَةِ-اللُغَةِ. لَقَد ساهَمَت هٰذِهِ الطُرُقِ المُصَمِّمَة بِشَكْلٍ جَيِّدٍ بِشَكْلٍ كَبِيرٍ فِي تَطْوِيرِ نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط المُوَجَّهَةِ لِلوَثائِق. وَمَعَ ذٰلِكَ، لا يَزال هُناكَ مَجالِ لِمَزِيدٍ مِن الاِسْتِكْشافِ وَالتَحْسِينِ فِي الإِدْراك البَصْرِيّ الدَقِيقِ وَضَغْطٌ المَعْلُوماتِ الوَثائِقِيَّة. بِالإِضافَةِ إِلَى ذٰلِكَ، يَجِد مُعْظَمَ نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط الحالِيَّةِ صُعُوبَةِ فِي تَحْقِيقِ التَوازُنِ بَيِّنَ القُدْراتِ العامَّةِ وَالوَثائِقِيَّة. عَلَى وَجْهِ التَحْدِيدِ، عادَةً ما لا تُرَكِّز نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط العامَّةِ عَلَى تَحْسِينِ الإِدْراك البَصْرِيّ الدَقِيقِ وَضَغْطٌ المَعْلُوماتِ، بَيْنَما قَد تُضْحَى نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط المُوَجَّهَةِ لِلوَثائِق بِالقُدْرات العامَّةِ فِي تَصْمِيمُها.

فِي هٰذِهِ الوَرَقَةَ، نَقْتَرِح ، نَمُوذَجَ كَبِيرٍ مُتَعَدِّدِ الوَسائِط يَتَفَوَّق فِي المَهامّ الوَثائِقِيَّة المُعَقَّدَةِ وَيُظْهَر قُدْراتٍ عامَّةٍ مُتَمَيِّزَةٍ عَبْرَ مَجالاتِ الرُؤْيَةِ وَاللُغَةِ، كَما هُوَ مُوَضِّح فِي الشَكْلِ [fig:radar]. بِالنَظَرِ إِلَى أَنَّ مُجَرَّدَ تَكْبِيرَ حَجْمِ الصُوَرِ المدخله لا يُمْكِن أَنَّ يَتَناسَب مَعَ الدِقَّةِ المُتَنَوِّعَةَ لِصُوَرٍ الوَثائِقِ، نَتْبَع Ureader (ureader) لَقَصَّ الصُوَرِ إِلَى صُور فَرْعِيَّةٍ بِشَكْلٍ تَكَيُّفِي وِفْقاً لَأَشْكال الصُوَرِ. اِسْتِناداً إِلَى ذٰلِكَ، نَبْتَكِر وَحْدَةِ إِعادَةِ العَيِّنَةُ وَإِعادَةِ التَرْتِيبِ (ReSA) الَّتِي تَضْغَط وَتُعِيد تَرْتِيبَ المَعْلُوماتِ البَصَرِيَّةِ، مِمّا يُقَلِّل بِشَكْلٍ كَبِيرٍ مِن عَدَدٍ الرُمُوزَ البَصَرِيَّةِ، كَما هُوَ مُوَضِّح فِي الشَكْلِ [fig:tokens]. نَظَراً لِإِدْخالِ الصُوَرِ الفَرْعِيَّةِ، نَقْتَرِح تَضْمِينات المَواقِعِ القابِلَةِ لِلتَوَسُّع (SPEs) لتشفير مَواقِعِ الصُوَرِ الفَرْعِيَّةِ مَعَ الحِفاظِ عَلَى القابِلِيَّةِ لِلتَوَسُّع عَبْرَ أَحْجام الصُوَرِ المُخْتَلِفَةِ. بِالنَظَرِ إِلَى الاِخْتِلافاتِ بَيِّنَ الصُوَرِ الفَرْعِيَّةِ، يَتِمّ بُعْدَ ذٰلِكَ اِعْتِمادِ شَبَكَةِ اِقْتِراحِ الاِسْتِعْلام (QPN) لَتَهْيِئَة الاِسْتِعْلامات بِشَكْلٍ دِينامِيكِيٍّ بَيِّنَ المِيزاتِ المَحَلِّيَّةِ. عِلاوَةً عَلَى ذٰلِكَ، نُقَدِّم وَحْدَةِ الاِنْتِباهِ المُتَقاطِعِ مُتَعَدِّدَةِ المُسْتَوَياتِ (MLCA) الَّتِي تَسْتَفِيد مِن الهَيْكَل الهَرَمِيّ وَالعَلاقاتِ الدَلالِيَّة لِصُوَرٍ الوَثائِقِ لِتَعْزِيزِ قُدْرَةِ الإِدْراك البَصْرِيّ الدَقِيقِ. يُمْكِن ذٰلِكَ مِشْفَر الرُؤْيَةِ لَدَينا مِن اِسْتِخْراج المَعْلُوماتِ التَفْصِيلِيَّةِ مِن صُور الوَثائِقِ الكَثِيفَةِ. بِالإِضافَةِ إِلَى ذٰلِكَ، نَثْرِي بَياناتٍ الوَثائِقِ مُتَعَدِّدَةِ الوَسائِط مَعَ Gemini Pro، مُحَرِّكِ نَمُوذَجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدِ الوَسائِط التِجارِيِّ، لِلتَخْفِيفِ مِن مُشْكِلَةِ عَدَمِ كِفايَةِ بَياناتٍ ضَبْطِ التَعْلِيماتِ.

نَتَناوَل تَحَدِّياتٍ الإِدْراك البَصْرِيّ الدَقِيقِ وَضَغْطٌ المَعْلُوماتِ البَصَرِيَّةِ لَنَماذِج اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط المُوَجَّهَةِ لِلوَثائِق وَنَقْتَرِح نَمُوذَجاً جَدِيداً لَنَماذِج اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط، يُسَمَّى ، يُمْكِنه التَعامُلِ مَعَ المَهامّ المُوَجَّهَةِ لِلوَثائِق وَمَهامّ الرُؤْيَةِ-اللُغَةِ العامَّةِ بِأَداء عالِي. تَتَمَثَّل مَسّاً CONTRIBUTIONS

  1. نُصَمِّم ReSA لِضَغْطٍ المَعْلُوماتِ البَصَرِيَّةِ مِمّا يُقَلِّل بِشَكْلٍ كَبِيرٍ مِن عَدَدٍ الرُمُوزَ البَصَرِيَّةِ.

  2. نَقْتَرِح SPEs وَQPN لَتَناسَبَ تَمْثِيلات الصُوَرِ الفَرْعِيَّةِ وَتَعْزِيزِ إِدْراكٌ النَمُوذَجِ الدَقِيقِ.

  3. نُقَدِّم MLCA الَّتِي يُمْكِن أَنَّ تَحَسُّنِ قُدْرَةِ الإِدْراك البَصْرِيّ الدَقِيقِ مِن خِلالَ اِلْتِقاطِ المَعْلُوماتِ العالَمِيَّةِ وَالمَحَلِّيَّةِ وَاِسْتِغْلال الهَيْكَل الهَرَمِيّ.

  4. نَثْرِي بَياناتٍ ضَبْطِ التَعْلِيماتِ مُتَعَدِّدَةِ الوَسائِط لَمَهامّ مُوَجَّهَةٍ لِلوَثائِق مُخْتَلِفَةٍ مَعَ Gemini Pro. يُمْكِن لِهٰذِهِ البَياناتِ تَسْهِيلَ ضَبْطِ الدِقَّةِ لِ وَتَعُود بِالفائِدَةِ عَلَى مُجْتَمَعٍ البَحْثِ.

  5. نُظْهِر أَنَّ يُحَقِّق نَتائِجِ رائِدَةٍ فِي كُلِّ مِن مَعايِيرِ الوَثائِقِ وَالمَعايِيرِ العامَّةِ، مِمّا يُظْهِر قُدْراتِهِ البَصَرِيَّةِ الدَقِيقَةِ المُتَفَوِّقَةِ وَقُدْراته العامَّةِ فِي مَجالِ الرُؤْيَةِ-اللُغَةِ.

الأَعْمالِ ذاتِ الصِلَةِ

نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط

نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط هِيَ فِئَةٌ مِن النَماذِجِ الَّتِي يُمْكِنها مُعالَجَةِ وَتَوْلِيدِ المَعْلُوماتِ مُتَعَدِّدَةِ الوَسائِط، وَالَّتِي تَشْمَل بِشَكْلٍ رَئِيسِيٍّ اللُغَةِ الطَبِيعِيَّةِ وَالمَعْلُوماتِ البَصَرِيَّةِ. لَقَد أَظْهَرَت هٰذِهِ النَماذِجِ أَداءِ مَلْحُوظاً فِي مَهامِّ مُتَنَوِّعَةٍ، مِثْلَ التَعْلِيقَ عَلَى الصُوَرِ، وَالإِجابَة عَلَى الأَسْئِلَةِ البَصَرِيَّةِ، وَالحِوارِ البَصْرِيّ. تَتَكَوَّن نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط الحالِيَّةِ عادَةً مِن مِشْفَر بَصَرِيّ، وَمُحَوِّل بَصَرِيّ-لُغَوِيٌّ، وَنَمُوذَجٌ لُغَةً كَبِيرٍ.

(blip2) اِقْتَرَحَ مُحَوِّلِ اِسْتِعْلام لِرَبْطِ مِشْفَر الصُوَرِ المُجَمَّدِ وَنَمُوذَجٌ اللُغَةِ الكَبِيرِ المُجَمَّدِ. بَدَأَ أَوَّلاً بِتَعَلُّمِ تَمْثِيلِ اللُغَةِ البَصَرِيَّةِ مِن مِشْفَر صُورَةِ مُجَمَّد ثُمَّ طَبَّقَ التَعَلُّمِ التوليدي مِن اللُغَةِ إِلَى البَصَر مِن نَمُوذَجَ لُغَةً مُجَمَّد. (instructblip) قامَ بِتَنْفِيذِ تَعْدِيلِ تَعْلِيماتٍ اللُغَةِ البَصَرِيَّةِ بِناءَ عَلَى النَمُوذَجِ المُدَرِّبِ مُسْبَقاً (blip2) مِن خِلالَ تَقْدِيمِ مُحَوِّلِ اِسْتِعْلام مُدْرِكٌ لِلتَعْلِيمات. (llava) اِتَّبَعَ هَنْدَسَةُ مُماثِلَةٍ مَعَ اِسْتِخْدامِ طَبَقَةٌ خَطَّيْهِ بَسِيطَةً لِرَبْطِ الرُؤْيَةِ وَاللُغَةِ. لَقَد حَوْلَ أَزْواج الصُوَرِ وَالنُصُوصَ إِلَى تَنْسِيقِ يَتْبَع التَعْلِيماتِ مَعَ ChatGPT/GPT-4 لِتَحْسِينِ نَتائِجِ التَنْعِيم الدَقِيقِ. (minigpt4) اِعْتَمَدَ مُحَوِّلِ Q المُجَمَّدِ وَطَبَقَة إِسْقاطِ خَطَّيْهِ واحِدَةٍ لَمُحاذاة الوَضْعِ البَصْرِيّ وَاللُغَوِيّ. (llava-1.5) هُوَ نُسْخَةً مُحَسِّنه مِن (llava)، الَّتِي اِعْتَمَدَت مِشْفَر رُؤْيَةٍ بِصُوَرٍ مدخلات أَكْبَرَ وَطَبَقَة MLP ذاتِ طَبَقَتَيْنِ لِتَحْسِينِ الأَداءِ. (mplugowl) اِقْتَرَحَ نَمَطِ تَدْرِيبِ جَدِيدٍ سَمَحَ بِتَدْرِيبِ مِشْفَر الرُؤْيَةِ وَالمُجَرَّد البَصْرِيّ فِي مَرْحَلَةِ التَدْرِيبِ المُسْبَقِ وَمَكَّنَ LoRA مَعَ نَمُوذَجَ اللُغَةِ الكَبِيرِ فِي مَرْحَلَةِ تَعْدِيلِ التَعْلِيماتِ. (mplugowl2) صَمَّمَ وَحْدَةِ تكيفيه لِلوَضْعِيَّة بِناءَ عَلَى (mplugowl) وَمَكَّنَ جَمِيعِ الوَحَداتِ لِلتَدْرِيبِ. (qwen-vl) اِسْتَخْدَمَ خَطِّ أَنابِيبِ تَدْرِيبِ مِن ثَلاثِ مَراحِلِ، بِما فِي ذٰلِكَ التَدْرِيبِ المُسْبَقِ مَعَ أَزْواج الصُوَرِ وَالنُصُوصَ، وَالتَدْرِيبِ المُسْبَقِ مُتَعَدِّدِ المَهامّ مَعَ البَياناتِ المُتَعَدِّدَةِ المَهامّ والمتداخله، وَالتَنْعِيم الدَقِيقِ تَحْتَ الإِشْرافِ مَعَ بَياناتٍ VL المتداخله فِي الدَرْدَشَة.

يُمْكِن لِهٰذِهِ الطُرُقِ فَهُم صُور النُصُوصِ إِلَى حَدٍّ ما، وَلٰكِن لَدَيها إِدْراكٌ بَصَرِيّ مَحْدُودٍ لِلوَثائِق الكَثِيفَةِ، خاصَّةٍ تِلْكَ الَّتِي تَحْتَوِي عَلَى صُور عالِيَةٍ الدِقَّةِ.

نَماذِجَ اللُغَةِ الكَبِيرَةِ المُتَعَدِّدَةِ الوَسائِط المُوَجَّهَةِ لِلوَثائِق

نَماذِجَ اللُغَةِ الكَبِيرَةِ المُتَعَدِّدَةِ الوَسائِط المُوَجَّهَةِ لِلوَثائِق هِيَ نَماذِجَ لُغَوِيّه كَبِيرَةٍ يُمْكِنها فَهُم النُصُوصِ مِن أَنْواعِ مُخْتَلِفَةٍ مِن الوَثائِقِ، مِثْلَ الرُسُومِ البَيانِيَّةِ، الجَداوِل، صَفَحاتِ الوِيب، وَالأَوْراق العِلْمِيَّةِ. عادَةً ما تَتَضَمَّن هٰذِهِ النَماذِجِ بِعَضِّ التَكَيُّفات المُحَدَّدَةِ لِصُوَرٍ الوَثائِقِ اِسْتِناداً إِلَى نَماذِجَ اللُغَةِ الكَبِيرَةِ المُتَعَدِّدَةِ الوَسائِط العامَّةِ.

(mplugdocowl) تَبِع نَمُوذَجَ (mPLUG-Owl) وَأَضافَ بِعَضِّ بَياناتٍ تَعْلِيماتٍ الوَثائِقِ، بِما فِي ذٰلِكَ الوَثِيقَةِ، الجَدْوَلُ، صَفْحَةً الوِيب، وَالرَسْم البَيانِيّ. (ureader) اِقْتَرَحَ وَحْدَةِ قَصَّ متكيفه مَعَ الشَكْلِ لِلحُصُولِ عَلَى قُدْرَةِ إِدْراكٌ بَصَرِيّ دَقِيقٍ أَفْضَلَ لِصُوَرٍ الوَثائِقِ، اِسْتِناداً إِلَى نَمُوذَجَ (mPLUG-Owl) المُدَرِّبِ مُسْبَقاً. (unidoc) كانَ مُجَهَّزا بِمَهامّ كَشَفَ النَصِّ وَتَعْرِف النَصِّ فِي تَعْلِيماته لِتَحْسِينِ قُدْرَةِ فَهُم النَصِّ. (monkey)، نَمُوذَجَ اللُغَةِ الكَبِيرَةِ المُتَعَدِّدَةِ الوَسائِط مَعَ تَصامِيم خاصَّةٍ لِصُوَرٍ الوَثائِقِ، دَعْمِ دِقَّةٍ أَعْلَى وَقَدَّمَ بَياناتٍ وَصَفَ مُتَعَدِّدَةِ المُسْتَوَياتِ اِسْتِناداً إِلَى نَمُوذَجَ (Qwen-VL) المُدَرِّبِ مُسْبَقاً.

تُرَكِّز نَماذِجَ اللُغَةِ الكَبِيرَةِ المُتَعَدِّدَةِ الوَسائِط المُوَجَّهَةِ لِلوَثائِق الحالِيَّةِ بِشَكْلٍ رَئِيسِيٍّ عَلَى التَكَيُّفِ مَعَ دِقَّةٍ الصُوَرِ الأَعْلَى وَاِسْتِغْلال المَزِيدِ مِن بَياناتٍ التَحْسِين المُحَدَّدَةِ لِلوَثائِق. يُرَكِّز نَمُوذَجنا المُقْتَرَحِ أَيْضاً عَلَى الإِدْراك البَصْرِيّ الدَقِيقِ لِصُوَرٍ الوَثائِقِ عالِيَةٍ الدِقَّةِ وَتَوْلِيدِ بَياناتٍ الوَثائِقِ، مَعَ تَصامِيمنا الجَدِيدَةِ. عِلاوَةً عَلَى ذٰلِكَ، نُولَى اِهْتِماماً لِضَغْطٍ المَعْلُوماتِ وَالحِفاظِ عَلَى القُدْراتِ العامَّةِ.

الطَرِيقَةِ

تَمَّ تَصْمِيمِ نَمُوذَجنا بِهَدَفَيْنِ: لِمُعالَجَةِ المدخلات البَصَرِيَّةِ بِدِقَّةٍ مُتَفاوِتَةٍ بِفَعّالِيَّةٍ وَلِضَغْط الرُمُوزَ البَصَرِيَّةِ.

الهَنْدَسَةِ المِعْمارِيَّةِ

تَتَكَوَّن هَنْدَسَةُ modelname مِن مِشْفَر بَصَرِيّ مُجَمَّد، وَجِهازِ إِعادَةِ تَشْكِيلِ، وَنَمُوذَجٌ لُغَوِيٌّ كَبِيرٍ مَعَ LoRA وَرَأَسَ كَشَفَ.

المِشْفَر البَصْرِيّ.

لِتَسْرِيعِ تشفير الصُورَةِ، نُفَضِّل اِسْتِخْدامِ مِشْفَر بَصَرِيّ خَفِيف بَدَلاً مِن نَمُوذَجَ ضَخْمٍ أَو هائِلٌ. (siglip)، وَهُوَ مُتَغَيِّر مِن (clip) الَّذِي يَعْتَمِد خَسارَةِ السيجمويد لِلتَدْرِيبِ المُسْبَقِ عَلَى الرُؤْيَةِ-اللُغَةِ بَدَلاً مِن التَعَلُّمِ التَبايُنِيّ مَعَ تَطْبِيعِ سوفتماكس، يُحَقِّق دِقَّةٍ أَفْضَلَ فِي مَهامِّ مُتَعَدِّدَةِ دُونِ تَدَخُّلٍ مُسْبَقٍ مُقارَنَةً بِمُنافِسَيْهِ. لِذٰلِكَ، نَسْتَخْدِم مُحَوِّلِ الرُؤْيَةِ (ViT) مِن نَمُوذَجَ (SigLIP-SO) الفَعّالَ كَمِشْفَر بَصَرِيّ لَدَينا لِلعَرْضِ، وَالَّذِي يَحْتَوِي عَلَى تَكْوِينات مُخْتَلِفَةٍ لَطَبَقات المُحَوِّلُ وَلٰكِن بِتَكْلِفَةٍ حِسابِيَّةً مُماثِلَةٍ لَنَمُوذَج (ViT-L) القِياسِيَّ. وَمَعَ ذٰلِكَ، يَجِب أَنَّ تَكُون جَمِيعِ أَنْواعِ المشفرات البَصَرِيَّةِ قابِلَةٍ لِلتَطْبِيقِ فِي إِطارِ عَمَلِنا، بِما فِي ذٰلِكَ النَماذِجِ المُدَرِّبَة مُسْبَقاً بِأَسالِيبِ مُخْتَلِفَةٍ أَو المَبْنِيَّةُ بِعِمارات مُخْتَلِفَةٍ.

إِعادَةِ المُعايَرَة.

بِشَكْلٍ مُشابِهٍ لِ Q-Former (blip2)، يَتَأَلَّف إِعادَةِ مَعايِره الرُمُوزَ البَصَرِيَّةِ لَدَينا فِي الغالِبِ مِن مِفَكَّكَ غَيْرِ سَبَبَيَّ يَعْتَمِد مَجْمُوعَةِ مِن الاوزان القابِلَةِ لِلتَعَلُّمِ كَاِسْتِعْلامات أَوَّلِيَّةً وَيَقْلِل بِشَكْلٍ طَبِيعِيٍّ مِن طُولِ المِيزاتِ البَصَرِيَّةِ عِدَّةٍ مَرّاتٍ. مِن أَجْلِ مُرُونَةً الهَيْكَلِيَّةِ، نَقُوم بِتَهْيِئَة إِعادَةِ المُعايَرَة بِشَكْلٍ عَشْوائِيٍّ بَدَلاً مِن تَهْيِئَتها مِن نَمُوذَجَ BERT المُدَرِّبِ مُسْبَقاً أَو إِعادَةِ مَعايِره مَوْجُودَةٌ مِن نَماذِجَ التَعَلُّمِ العَمِيقِ مُتَعَدِّدَةِ المَهامّ الأُخْرَى. بَدِيهِيّا، نُحافِظ عَلَى بُعْدَ الخَفاءِ لَطَبَقات إِعادَةِ المُعايَرَة المُتَوَسِّطَةِ مُساوِياً لِذٰلِكَ فِي طَبَقاتِ مِشْفَر البَصَرِيّات. تَحْتَوِي إِعادَةِ المُعايَرَة عَلَى 8 طَبَقاتِ وَيَتِمّ إِزالَةِ الاِنْتِباهِ الذاتِيِّ فِي الطَبَقَةِ الأُولَى. مِن أَجْلِ تَعْزِيزِ الوَعْيِ بِمَعْلُومات المَوْضِعَ أَثْناءَ الاِنْتِباهِ المُتَقاطِعِ، نَسْتَخْدِم ترميزات المَوْضِعَ الجَيْبِيَّة وَالتَضْمِينات المَوْضِعِيَّة المُتَعَلِّمَة لَمُخْرِجات مِشْفَر البَصَرِيّات وَالاِسْتِعْلامات عَلَى التَوالِي فِي كُلِّ طَبَقَةٌ مِن طَبَقاتِ الاِنْتِباهِ المُتَقاطِعِ.

نَمُوذَجَ اللُغَةِ الكَبِيرِ.

لِتَسْهِيلِ التَدْرِيبِ المُسْبَقِ وَالاِسْتِفادَةِ مِن التَدْرِيبِ المتداخل بَيِّنَ الرُؤْيَةِ وَاللُغَةِ، نَقُوم بِتَهْيِئَة نَمُوذَجَ اللُغَةِ الكَبِيرِ الخاصِّ بِنا بِسَعَةِ 7B باوزان (xcomposer). يَعْتَمِد (xcomposer)، مُشابِها لِ (BLIP-2)، عَلَى أَداةٌ إِعادَةِ تَنْظِيمِ الرُمُوزَ البَصَرِيَّةِ تُسَمَّى أَداةٌ الإِدْراك لِتَوْفِيرِ الجِسْر بَيِّنَ المِشْفَر البَصْرِيّ وَنَمُوذَجٌ اللُغَةِ الكَبِيرِ، لٰكِنَّهُ مُرْتَكِز عَلَى نَمُوذَجَ لُغَةً كَبِيرٍ مُتَعَدِّدِ اللُغاتِ آخَرِ يُسَمَّى (internlm). تَقْرِيباً، تَكُون هَنْدَسَةُ (internlm) مُماثِلَةٍ لِ (LLaMA) بِاِسْتِثْناءِ الاِحْتِفاظِ بِالتَحَيُّزات فِي وَحَداتٍ الاِنْتِباهِ. عَلَى وَجْهِ التَحْدِيدِ، يَتِمّ تَدْرِيبِ (xcomposer) عَلَى مَرْحَلَتَيْنِ: المَرْحَلَةِ الأُولَى هِيَ التَدْرِيبِ المُسْبَقِ لِلُغَةِ الرُؤْيَةِ، وَالَّذِي يَشْمَل أَزْواج الصُوَرِ وَالنُصُوصَ بِالإِضافَةِ إِلَى البَياناتِ المتداخله لِلصُوَرِ وَالنُصُوصَ. يَتِمّ تَحْدِيثِ كُلِّ مِن أَداةٌ الإِدْراك وَنَمُوذَجٌ اللُغَةِ الكَبِيرِ فِي هٰذِهِ المَرْحَلَةِ. المَرْحَلَةِ الثانِيَةِ هِيَ التَنْقِيح الدَقِيقِ مُتَعَدِّدِ المَهامّ تَحْتَ إِشْرافٍ، حَيْثُ يَتِمّ تَحْدِيثِ أَداةٌ الإِدْراك وَوَحَداتٍ (LoRA) فَقَط. لِتَجَنُّبِ تَسَرُّبِ البَياناتِ المُحْتَمَلِ مِن مَجْمُوعاتٍ بَياناتٍ التَنْقِيح الدَقِيقِ لِ (xcomposer)، نَحْتَفِظ فَقَط باوزان نَمُوذَجَ اللُغَةِ الكَبِيرِ مِن مَرْحَلَةِ التَدْرِيبِ المُسْبَقِ الأُولَى وَنَتَخَلَّى عَن جَمِيعِ الاوزان مِن المِشْفَر البَصْرِيّ، أَداةٌ الإِدْراك، وَوَحَداتٍ (LoRA).

الإِدْراك الدَقِيقِ الفَعّالَ

القَصّ التكيفي لِلشَكْل.

يَقُوم المِشْفَر البَصْرِيّ المُدَرِّبِ مُسْبَقاً بِتَوْحِيدِ دِقَّةٍ الصُورَةِ إِلَى حَجْمِ ثابِتٌ وَأَقِلّ، دُونِ مُراعاةِ النِسْبَةِ الأَصْلِيَّةِ لِلأَبْعاد. تُؤَدِّي هٰذِهِ المُعالَجَةِ إِلَى تَقْلِيلِ القُدْرَةِ عَلَى إِدْراكٌ المُحْتَوَى الدَقِيقِ فِي الصُوَرِ عالِيَةٍ الدِقَّةِ وَتَقْدِيمِ تَشَوُّهات مَلْحُوظَةٌ فِي نِسْبَةَ الأَبْعاد. بِاِتِّباعِ (ureader)، نَقُوم بِتَعْزِيزِ ViT المُجَمَّدِ بِدَمْجِ إِسْتراتِيجِيَّةِ قَصَّ دِينامِيكِيَّةٌ، مِمّا يُمْكِن مِن التَعامُلِ الفَعّالَ مَعَ الصُوَرِ ذاتِ النِسَبِ العَشْوائِيَّةِ لِلأَبْعاد وَالدِقَّةِ. عَلَى وَجْهِ التَحْدِيدِ، سَيَتِمّ قَصَّ صُورَةِ مَدْخَله \(\varv\) بِشَكْلٍ \((h\times w)\) إِلَى عِدَّةٍ صُور فَرْعِيَّةٍ لِتَتَماشَى مَعَ أَحَدُ الشَبَكاتِ المُحَدَّدَةِ مُسْبَقاً \(\{\varg=(r\times c)|r,c\in\{1,2,\dots,l\},r\cdot c\leq n\}\)، حَيْثُ \(r\) وَ \(c\) تَدُلّ عَلَى الصُفُوفِ وَالأَعْمِدَة لِلشَبَكَةِ \(\varg\)، \(l\) تَدُلّ عَلَى الحَدِّ الأَقْصَى لِ طُولِ الجانِبِ (عَدَدٍ الصُوَرِ الفَرْعِيَّةِ فِي صَفِّ أَو عَمُود واحِدٍ)، وَ \(n\) تَدُلّ عَلَى الحَدِّ الأَقْصَى لِ المِساحَةَ (عَدَدٍ الصُوَرِ الفَرْعِيَّةِ فِي الصُورَةِ بِأَكْمَلِها). يَتِمّ تَنْظِيمِ مُحاذاةِ الشَبَكَةِ بِواسِطَةِ قِياسات تُقاطِع الاِتِّحادِ المُنْتَظِمَة وَالمُوَجَّهَةِ حَسَبَ الشَكْلِ (IoU). دَعُونا نَعْرِف صُنْدُوقِ الصُورَةِ ك \(\text{box}(\varv)=(0,0,h,w)\)، وَصُنْدُوقُ الشَبَكَةِ ك \(\text{box}(\varg)=(0,0,rH,cW)\)، وَصُنْدُوقُ الشَكْلِ المُوَجَّهِ ك \(\text{box}_\text{s}(\varv,\varg)=(0,0,\frac{wr}{h}H,cW)\)، حَيْثُ \((H\times W)\) هُوَ شَكْلٍ الإِدْخال لِ ViT. تَعْرِف قِيَمِ IoU كَما يَلِي: \[\begin{aligned} S_\text{r}(\varv,\varg)&=\text{IoU}(\text{box}(\varv),\text{box}(\varg)),\\ S_\text{s}(\varv,\varg)&=\text{IoU}(\text{box}_\text{s}(\varv,\varg),\text{box}(\varg)),\\ S(\varv,\varg)&=S_\text{r}(\varv,\varg)+S_\text{s}(\varv,\varg). \end{aligned}\] نَخْتار الشَبَكَةِ النِهائِيَّةِ بِأَعْلَى قِيمَةَ IoU مَجْمَعه \(S\)، مِن أَعْلَى \(k\) شَبَكاتِ بِأَعْلَى قِيَمِ IoU مُنْتَظِمه \(S_\text{r}\).

إِعادَةِ العَيِّنَةُ وَإِعادَةِ التَرْتِيبِ (ReSA).

بُعْدَ تَمْكِينِ المِشْفَر البَصْرِيّ مِن قُبُولِ مدخلات بِدِقَّةٍ مُتَغَيِّره، يُمْكِن أَنَّ يَنْمُو عَدَدٍ رُمُوزِ الصُورَةِ بِشَكْلٍ أَسَى مَعَ دِقَّةٍ الصُورَةِ. بِدُونِ ضَغْطِ الرُمُوزَ، يَصِل العَدَدَ الأَقْصَى لِلرُمُوز لِصُورَةِ واحِدَةٍ إِلَى \(nHW/p^2\) بِالنَظَرِ إِلَى حَجْمِ البُقْعَةِ \(p\). بِشَكْلٍ مُحَدَّدٍ، سَتَسْتَهِلّكَ صُورَةِ وَثِيقَةٍ قِياسِيَّةٍ مُحاذاةِ مَعَ شَبَكَةِ \(5\times4\) حَتَّى 5120 رُمُوزِ. عادَةً ما تُظْهِر نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط المَفْتُوحَةِ المَصْدَرُ ذاتِ الإِدْراك الدَقِيقِ قُدْرَةِ عَلَى ضَغْطِ رُمُوزِ الصُورَةِ بِنِسْبَةِ 4. عَلَى سَبِيلِ المِثالِ، تُقَلِّل Qwen-VL وMonkey عَدَدٍ رُمُوزِ الصُورَةِ مِن 1024 إِلَى 256 لِكُلِّ صُورَةِ فَرْعِيَّةٍ بِحَجْمِ \(448\times448\)، بَيْنَما يَضْغَط UReader العَدَدَ مِن 256 إِلَى 64 لِكُلِّ صُورَةِ فَرْعِيَّةٍ بِحَجْمِ \(224\times224\). فِي هٰذِهِ الحالَةِ، لا يَزال اِسْتِهْلاكِ رُمُوزِ الصُورَةِ كَبِيراً. لِاِسْتِكْشافِ إِمْكانِيَّةَ نِسْبَةَ ضَغْطِ أَعْلَى، نَقْتَرِح طَرِيقَةِ تَجْمَع بَيِّنَ مَزايا إِعادَةِ العَيِّنَةُ وَإِعادَةِ التَرْتِيبِ، وَالَّتِي أَطْلَقَنا عَلَيها اِسْمَ ReSA. كَما هُوَ مُوَضِّح فِي الشَكْلِ، وَبِشَكْلٍ مُماثِلٍ لَنَماذِج اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط السابِقَةِ، يَقُوم ReSA أَوَّلاً بِإِعادَةِ أَخَذَ عَيِّناتٍ مِن مِيزاتِ الصُورَةِ بِاِسْتِخْدامِ آلِيَّةِ الاِنْتِباهِ المُتَقاطِعِ. تَعْكِس البُعْدِ الخَفِيّ لَمُخْرِجات الاِنْتِباهِ المُتَقاطِعِ البُعْدِ الخَفِيّ لَمُخْرِجات المِشْفَر البَصْرِيّ، وَالَّذِي يَكُون عادَةً أَصْغَرِ بِعِدَةِ مَرّاتٍ مِن البُعْدِ الخَفِيّ لَنَماذِج اللُغَةِ الكَبِيرَةِ. مُسْتَفِيدَيْنِ مِن هٰذِهِ الخاصِّيَّة، نُقَدِّم خَطْوَةٍ إِعادَةِ تَرْتِيبَ إِضافِيَّةً لَتَكْثِيف عَدَدٍ رُمُوزِ الصُورَةِ بِشَكْلٍ أَكْبَرَ. بُعْدَ إِعادَةِ العَيِّنَةُ، يَتِمّ دَمْجِ الرُمُوزَ المُعاد أَخَذَ عَيِّناتٍ مِنها فِي رَمْزُ واحِدٍ ثُمَّ تَحْوِيلِها إِلَى الفَضاءِ الكامِن لَنَماذِج اللُغَةِ الكَبِيرَةِ مِن خِلالَ إِسْقاطِ خُطَى. فِي تَجارِبنا، تَمْتَلِك كُلِّ خَطْوَةٍ مِن خَطَواتٍ ReSA نِسْبَةَ ضَغْطِ تَبْلُغ 4، مِمّا يُؤَدِّي إِلَى نِسْبَةَ ضَغْطِ أَعْلَى بِشَكْلٍ مَلْحُوظٍ تَبْلُغ 16.

الاِنْتِباهِ المُتَقاطِعِ مُتَعَدِّدِ المُسْتَوَياتِ (MLCA).

كَما ذَكَرَ فِي الأَعْمالِ السابِقَةِ (blip2, llava)، يَتِمّ تَدْرِيبِ مشفرات الصُوَرِ مُسْبَقاً عَلَى مَهامِّ مُحَدَّدَةٍ وَبِالتالِي قَد تُرَكِّز المِيزاتِ مِن طَبَقاتها الأَخِيرَةِ أَكْثَرَ عَلَى تِلْكَ المَهامّ. لَقَد ثَبَتَ أَنَّ المِيزاتِ مِن الطَبَقَةِ قِبَلَ الأَخِيرَةِ تُعْطِي أَداءِ أَفْضَلَ مِن الطَبَقَةِ الأَخِيرَةِ (llava). عِلاوَةً عَلَى ذٰلِكَ، مِن المُمْكِنِ دَمْجِ المِيزاتِ مِن عِدَّةٍ طَبَقاتِ. فِي مَجالِ الكَشْفِ عَن الأَجْسام، شَبَكَةِ هَرَمِ المِيزاتِ (fpn) مَعْرُوفَةٍ بِدَمْجِ المِيزاتِ مُتَعَدِّدَةِ المُسْتَوَياتِ، مِمّا يُحَسِّن القُدْرَةِ عَلَى الإِدْراك لِلأَجْسام الدَقِيقَةِ. أَمّا بِالنِسْبَةِ لَنَماذِج اللُغَةِ مُتَعَدِّدَةِ المُسْتَوَياتِ، فَقَد أَثْبَتَت (comm) أَنَّ دَمْجِ المِيزاتِ العَمِيقَةِ وَالسَطْحِيَّة مُفِيدٌ لِتَقْلِيلِ الهَلْوَسَة وَتَحْسِينِ الأَداءِ فِي المَهامّ الدَقِيقَةِ، حَتَّى عِنْدَ عَدَمِ وُجُودِ هَيْكَلِ هَرَمَيَّ. مستلهمين مِن شَبَكَةِ هَرَمِ المِيزاتِ، نَقْتَرِح إِسْتراتِيجِيَّةِ دَمْجِ المِيزاتِ مُتَعَدِّدَةِ المُسْتَوَياتِ تُسَمَّى MLCA. كَما هُوَ مُوَضِّح فِي الشَكْلِ (fig:arch) (ب)، تَمَكَّنَ MLCA جِهازِ إِعادَةِ العَيْنات مِن اِمْتِصاصِ المِيزاتِ مِن طَبَقاتِ مِشْفَر الصُوَرِ العَمِيقَةِ وَالسَطْحِيَّة مَعَ جَدْوَلِ تَوْجِيهِ مُحَدَّدٍ مُسْبَقاً. طالَما أَنَّ العَدَدَ الإِجْمالِيِّ لَطَبَقات جِهازِ إِعادَةِ العَيْنات لَم يَتَغَيَّر، فَإِنَّ MLCA لا يَتَطَلَّب تَكْلِفَةِ حِسابِيَّةً إِضافِيَّةً مُقارَنَةً بِالاِنْتِباهِ المُتَقاطِعِ القِياسِيَّ. مِن خِلالَ التَجْرِبَةِ، نَعْتَمِد أَرْبَع مَراحِلِ لَمِشْفَر الصُوَرِ، اِسْتِخْراج المِيزاتِ مِن طَبَقاتِ المِشْفَر ال 14، 18، 22، وَ 26 عَلَى التَوالِي.

التَضْمِينات المَوْضِعِيَّة القابِلَةِ لِلتَوَسُّع (SPEs).

العَلاقاتِ المَوْضِعِيَّة النِسْبِيَّةِ بَيِّنَ الصُوَرِ الفَرْعِيَّةِ غَيْرِ واضِحَةٍ بِدُونِ إِضافَةً تَضْمِينات مَوْضِعَيْهِ إِضافِيَّةً. لِلتَعامُلِ مَعَ عَدَدٍ مُتَغَيِّر مِن قَطْعِ الصُوَرِ، اِقْتَرَحَت الأَعْمالِ السابِقَةِ (pix2struct, ureader) تَعْلَم تَضْمِينات مَوْضِعَيْهِ مُطْلَقَةٍ ثُنائِيَّةٍ الأَبْعاد أَو مُفَكَّكه تُغَطِّي الفِهْرِس المَوْضِعِيّ الأَقْصَى المُقَدَّمُ فِي بَياناتٍ التَدْرِيبِ. لا تَفْتَقِر هٰذِهِ التَضْمِينات فَقَط إِلَى الفَعّالِيَّة فِي التَوَسُّعِ إِلَى أَشْكالِ خارِجَ نِطاقِ التَدْرِيبِ، وَلٰكِن مِن المُؤَكِّدِ أَنَّ التَضْمِينات المُتَعَلِّمَة تُظْهِر أَيْضاً عَدَمِ مُلاءَمَةِ بِسَبَبِ التَوْزِيعِ غَيْرِ المُتَساوِي لَأَشْكال الإِدْخال التَدْرِيبِيَّةِ. لِلتَغَلُّبِ عَلَى العَقَباتِ المَذْكُورَةِ، نَقْتَرِح طَرِيقَةِ جَدِيدَةٍ تُسَمَّى SPEs، تَمْدِيدِ التَضْمِينات المَوْضِعِيَّة المُفَكَّكَة (حَيْثُ يَتِمّ تَحْلِيلِ الصَفِّ وَالعَمُود) إِلَى أَشْكالِ تَعَسُّفِيّه. لِلتَوْضِيح، يَتِمّ التَعامُلِ مَعَ تَضْمِينات الصَفِّ وَالعَمُود بِنَفْسِ الطَرِيقَةِ فِي SPEs، وَلِذٰلِكَ يَتِمّ حَذْفَ مُواصَفاتها فِي الجُزْء التالِي.

أَفْتَرِض أَنَّ التَضْمِينات المَوْضِعِيَّة المُتَعَلِّمَة مَبْدَئِيَّةٍ مِن تَوْزِيعِ طَبِيعِيٍّ \(\calN(0, 1)\). كُلِّ تَضْمِينِ مَوْضِعَيَّ \(\vare\in\bbR^d\) هُوَ مُتَّجِه بِمِعْيار \(\ell_2\)-norm \(\sqrt{d}\)، مِمّا يُشِير إِلَى أَنَّ التَضْمِينات المَوْضِعِيَّة مُوَزَّعَةٌ عَبْرَ سَطْحِ كُرَةِ فائِقه الأَبْعاد. فِي المُمارِسَةِ العَمَلِيَّةِ، يَظَلّ مِعْيار \(\ell_2\)-norm لِلتَضْمِينات المَوْضِعِيَّة المُتَعَلِّمَة ضِمْنَ نِطاقِ ضِيقِ خِلالَ عَمَلِيَّةِ التَدْرِيبِ بِأَكْمَلِها، مُحافِظا عَلَى خَصائِصِ تَوْزِيعِ الكُرَةِ الفائِقَةِ. التَكامُلِ الخَطِّيِّ الكُرَوِيِّ (Slerp)، وَهِيَ تَقْنِيَّةٍ شائِعَةٍ الاِسْتِخْدامِ فِي الرُسُومات الحاسُوبِيَّة، تَقُوم بِتَكامُل أَيّ مُتَّجِه وَسِيطِ بَيِّنَ مُتَّجِهِينَ وَحْدَوِيَّيْنِ، وَتُظْهِر كَبَدِيل مُحْتَمَلٍ لِطُرُقِ التَكامُلِ التَقْلِيدِيَّةِ لِلتَضْمِينات المَوْضِعِيَّة.

لِتَلْبِيَةِ مُتَطَلَّباتِ Slerp بِدِقَّةٍ، نُطَبِّق التَطْبِيعِ وَالتَحْجِيم قِبَلَ التَكامُلِ لِكُلِّ رَأْسِ اِنْتِباهَ، مِمّا يَضْمَن مِعْيار \(\ell_2\)-norm مُوَحَّدٍ عَبْرَ جَمِيعِ التَضْمِينات المَوْضِعِيَّة: \[\begin{aligned} \vare_i&=s\frac{\tilde{\vare}_i}{\|\tilde{\vare}_i\|},\end{aligned}\] حَيْثُ \(\tilde{\vare}_i\) \((i\in\{0,1\})\) يُشِير إِلَى تضمينين مَوْضِعِيَّيْنِ نِهائِيَّيْنِ قابِلَيْنِ لِلتَعَلُّمِ، وَ\(s\) هُوَ عامِلٍ تَحْجِيم قابِلٌ لِلتَعَلُّمِ مَبْدَئِيٍّ ك \(\sqrt{d}\).

كَما هُوَ مُوَضِّح فِي الشَكْلِ [fig:spe_qpn] (a)، نَسْتَخْدِم Slerp لَتَوْلِيد تَضْمِينات مَوْضِعَيْهِ تَعَسُّفِيّه تَمْتَدّ بَيِّنَ النِقاطِ النِهائِيَّةِ: \[\begin{aligned} \theta&=\arccos\frac{\vare_0\vare_1}{\|\vare_0\|\|\vare_1\|},\\ \vare(t)&=\frac{\sin(\theta-t\theta)}{\sin\theta}\vare_0+\frac{\sin(t\theta)}{\sin\theta}\vare_1, \end{aligned}\] حَيْثُ \(t\in[0,1]\) هُوَ المَوْضِعَ الكَسْرَى، وَالَّذِي يُمْكِن أَنَّ يَكُون المَوْضِعَ النِسْبِيّ لِصُورَةِ فَرْعِيَّةٍ أَو قِطْعَةٍ صُورَةِ.

شَبَكَةِ اِقْتِراحِ الاِسْتِعْلامات.

عَلَى الرَغْمِ مِن الأَداءِ المَرْضَى الَّذِي أَظْهَرَهُ النَمُوذَجِ Q-Former عَلَى نَماذِجَ اللُغَةِ مُتَعَدِّدَةِ المُسْتَوَياتِ ذاتِ الدِقَّةِ الثابِتَةِ، فَإِنَّ طَرِيقَةِ تَهْيِئَةِ اِسْتِعْلامات إِعادَةِ العَيِّنَةُ مِن عَدَدٍ ثابِتٌ مِن المُعَلِّماتُ المُتَعَلِّمَة تَفْتَقِر إِلَى المُرُونَةِ تَحْتَ إِعْدادات الدِقَّةِ المُتَغَيِّرَة. قَد يُؤَدِّي إِعادَةِ اِسْتِخْدامِ الاِسْتِعْلامات الأَوَّلِيَّةِ عَلَى صُور فَرْعِيَّةٍ مُخْتَلِفَةٍ إِلَى الإِفْراط وَأَنْماط اِنْتِباهَ غَيْرِ مَرْغُوبٌ فِيها، حَيْثُ تُظْهِر رُمُوزِ الصُوَرِ المُعاد تَجْمِيعها المُقابَلَةِ لِصُوَرٍ فَرْعِيَّةٍ مُتَمَيِّزَةٍ وَلٰكِن بِاِسْتِعْلامات مُعادَةٍ مُتَطابِقَةٌ تَشابُهات قَوِيَّةٍ وَتَتَلَقَّى دَرَجاتٍ اِنْتِباهَ أَعْلَى بِشَكْلٍ غَيْرِ مُناسِبٍ. لِلقَضاءِ عَلَى الآثارِ الجانِبِيَّةِ لِلاِسْتِعْلامات الأَوَّلِيَّةِ المُشْتَرَكَةِ، نَقْتَرِح وَحْدَةِ خَفِيفَةٍ تُسَمَّى شَبَكَةِ اِقْتِراحِ الاِسْتِعْلامات لَتَوْلِيد الاِسْتِعْلامات بِشَكْلٍ دِينامِيكِيٍّ. كَما هُوَ مُوَضِّح فِي الشَكْلِ، تَتَكَوَّن هَيْكَلِ شَبَكَةِ اِقْتِراحِ الاِسْتِعْلامات مِن شَبَكَةِ عَصَبِيَّةُ مُتَعَدِّدَةِ الطَبَقاتِ ذاتِ طَبَقَتَيْنِ مَعَ تَنْشِيطِ GELU وَطَبَقَة تَجْمِيعِ الحَدِّ الأَقْصَى وَطَبَقَة إِسْقاطِ خَطَّيْهِ. يَتِمّ تَغْذِيَةِ مُخْرِجات المِشْفَر البَصْرِيّ إِلَى شَبَكَةِ اِقْتِراحِ الاِسْتِعْلامات وَيَتِمّ التَحَكُّمِ فِي عَدَدٍ الاِسْتِعْلامات المُقْتَرَحَةِ بِواسِطَةِ خَطْوَةٍ طَبَقَةٌ تَجْمِيعِ الحَدِّ الأَقْصَى. لَمُقارَنَة عادِلَةٍ، تَعْتَمِد تَجارِبنا خَطْوَةٍ بِمِقْدارِ \(2\times2\) بِحَيْثُ يَظَلّ مُعَدَّلِ الضَغْطِ 4. تَمَّ ضَبْطِ بُعْدَ مُخْرِجات طَبَقاتِ الشَبَكَةِ العَصَبِيَّةِ المُتَعَدِّدَةِ الطَبَقاتِ وَبُعْدَ مدخلات طَبَقَةٌ الإِسْقاط عَلَى أَرْبَعَةِ أَضْعافٍ البُعْدِ الخَفِيّ لِلمِشْفَر البَصْرِيّ.

رَأْسِ الكَشْفِ.

أَظْهَرَت الأَعْمالِ السابِقَةِ (shikra, qwen-vl, llava-1.5) فِي تَطْبِيقِ نَماذِجَ اللُغَةِ المُتَعَدِّدَةِ الطَبَقاتِ لِتَحْدِيدِ مَواقِعِ الأَهْدافِ أَنَّها تَعْتَمِد بِشَكْلٍ أَساسِيٌّ عَلَى النُصُوصِ العادِيَّةِ لِتَمْثِيلِ الإِحْداثِيّات، وَهٰذا مَنْطِقِيٍّ نَظَراً لِأَنَّ النَماذِجِ المُدَرِّبَة مُسْبَقاً تَعْمَل بِشَكْلٍ جَيِّدٍ مَعَ سَلاسِل النُصُوصِ العادِيَّةِ. وَمَعَ ذٰلِكَ، فَإِنَّ الإِحْداثِيّات المَبْنِيَّةُ عَلَى النُصُوصِ العادِيَّةِ تَسْتَهْلِك الكَثِيرَ مِن الرُمُوزَ، مِمّا يُقَلِّل مِن كَفاءَةِ التَدْرِيبِ وَالاِسْتِدْلالُ. نَقْتَرِح تَوْسِيعِ قامُوسِ نَماذِجَ اللُغَةِ المُتَعَدِّدَةِ الطَبَقاتِ بِرُمُوز خاصَّةٍ لِلإِحْداثِيّات المعياريه. عَلَى وَجْهِ التَحْدِيدِ، يَسْتَخْدِم سِلْسِلَةٍ نَصَّيْهِ عادِيَّةٍ لِوَصْفِ مُرَبَّعٍ التَحْدِيدِ ما مَجْمُوعُهُ \(2+4\times5+3=25\) رَمْزاً، يَشْمَل عَلامَتَيْنِ محفزتين، وَأَرْبَعَةُ أَعْدادِ عُشْرَيْهِ، وَثَلاثَةٌ فَواصَلَ. وَمَعَ ذٰلِكَ، مِن خِلالَ اِسْتِبْدالِ العَدِيدَ مِن رُمُوزِ الأَرْقام لِكُلِّ عَدَدٍ عَشَرِي بِرَمْز أَحْداثِي فَرِيد وَالاِحْتِفاظ بِفاصِله واحِدَةٍ فَقَط، يُمْكِننا تَقْلِيلِ عَدَدٍ الرُمُوزَ إِلَى \(2+4+1=7\) فَقَط.

وَمَعَ ذٰلِكَ، فَإِنَّ تَدْرِيبِ التَضْمِينات الكلميه المُضافَةِ حَدِيثاً بِخَسارَةِ نمذجه اللُغَةِ عَلَى كَمِّيَّةِ صَغِيرَةٌ مِن البَياناتِ لَيِسَ فَعّالا. فِي تَجارِبنا، يَنْهار النَمُوذَجِ أَحْياناً، مِمّا يُنْتِج إِحْداثِيّات بِلا مَعْنَى. لِلتَخْفِيفِ مِن مُشْكِلَةِ تَدْرِيبِ رُمُوزِ الإِحْداثِيّات بِشَكْلٍ غَيْرِ فَعّالٌ، نَهْدِف إِلَى تَقْدِيمِ هَدَفَ تَدْرِيبِ مُساعِدُ. مُسْتَوْحاة مِن (detr)، نُدْمَج شَبَكَةِ عَصَبِيَّةُ مُتَعَدِّدَةِ الطَبَقاتِ بَسِيطَةً مُكَوَّنَةٍ مِن طَبَقَتَيْنِ مَعَ وَظِيفَةٍ تَنْشِيطِ ReLU وَطَبَقَة إِسْقاطِ خَطَّيْهِ كَرَأْس كَشَفَ مُساعِدُ، وَالَّتِي تَعْمَل بِالتَوازِي مَعَ طَبَقَةٌ الإِخْراج الأَصْلِيَّةِ لَنَمُوذَج اللُغَةِ. يَتِمّ تَعْيِينِ إِخْراجِ رَأْسِ الكَشْفِ بِواسِطَةِ وَظِيفَةٍ التَنْشِيط Sigmoid. نُقِيم الخَطَأ بَيِّنَ التَنَبُّؤ وَالحَقِيقَةُ الأَرْضِيَّة بِواسِطَةِ خَسارَةِ \(\ell_1\): \[\begin{aligned} \calL_\text{box}&=\frac{1}{|\mathcal{B}|}\sum_{i\in \calB}\|b_i-b^*_i\|_1,\end{aligned}\] حَيْثُ \(b_i\) وَ\(b^*_i\) هُما التَنَبُّؤات وَالحَقِيقَةُ الأَرْضِيَّة لَإِحْداثِيّات مُرَبَّعٍ التَحْدِيدِ المعياريه عِنْدَ المَوْضِعَ \(i\) عَلَى التَوالِي، وَ\(\mathcal{B}\) هُوَ مَجْمُوعَةِ مَواضِع رُمُوزِ الإِحْداثِيّات فِي تَسَلْسُلُ الإِخْراج.

دالَّةٍ الخَسارَةِ.

تُنَظِّم جَمِيعِ البَياناتِ فِي مُحادَثاتٍ مُتَعَدِّدَةِ الأَدْوارِ، حَيْثُ يَتِمّ تَنْسِيقِ كُلِّ دَوْرِ عَلَى النَحْوِ التالِي: \[\begin{aligned} \text{المُسْتَخْدِمُ: <s>}\calI^t\text{</s>المُساعِدُ: <s>}\calR^t\text{</s>}\end{aligned}\] حَيْثُ يُشِير <s> وَ </s> إِلَى الرُمُوزَ الخاصَّةِ الَّتِي تُعْلِن بِدايَةِ وَنِهايَة رَسائِلَ المُحادَثَةُ. \(\mathcal{I}^t\) وَ \(\mathcal{R}^t\) هُما رُمُوزِ التَعْلِيماتِ وَرُمُوزِ الاِسْتِجابَةُ فِي الدَوْرِ \(t\)-th. عَلَى عَكْسَ تَعْدِيلِ التَعْلِيماتِ اللُغَوِيَّةُ الَّذِي يَشْمَل فَقَط رُمُوزِ النَصِّ، قَد يَتَكَوَّن \(\mathcal{I}^t\) مِن رُمُوزِ نَصَّيْهِ، صُوَرِيّه، أَو كُلّاً النَمَطَيْنِ. يَعْتَمِد تَدْرِيبِ نَماذِجَ اللُغَةِ مُتَعَدِّدَةِ المَهامّ بِشَكْلٍ أَساسِيٌّ عَلَى خَسارَةِ نمذجه اللُغَةِ عَلَى رُمُوزِ الاِسْتِجابَةُ: \[\begin{aligned} \calL_\text{lm}=-\frac{1}{\sum \alpha_i}\sum_{i\in \calM}\alpha_i\log(p(x_i|\varx_{<i})),\quad \alpha_i=\left\{ \begin{aligned} &1\quad&i\notin\calB,\\ &\alpha&i\in\calB, \end{aligned} \right.\end{aligned}\] حَيْثُ \(\calM\) هُوَ مَجْمُوعَةِ مَواقِعِ الاِسْتِجابَةُ، \(\alpha\) هُوَ وَزْنِ مُحَدَّدٍ مُسْبَقاً لَرُمُوز الإِحْداثِيّات، وَ \(\varx_{<i}\) هِيَ رُمُوزِ التَعْلِيماتِ وَالاِسْتِجابات مُتَعَدِّدَةِ الوَسائِط الَّتِي ظَهَرَت قِبَلَ الرَمْزُ \(i\)-th.

الخَسارَةِ النِهائِيَّةِ هِيَ مَجْمُوعُ مَوْزُون لِخَسارَةٍ نمذجه اللُغَةِ وَخَسارَةِ مُرَبَّعٍ الحُدُودِ المَذْكُورَةِ أَعْلاه: \[\begin{aligned} \calL=\calL_\text{lm} + \lambda\calL_\text{box},\end{aligned}\] حَيْثُ \(\lambda\) هُوَ وَزْنِ مُحَدَّدٍ مُسْبَقاً لِخَسارَةٍ مُرَبَّعٍ الحُدُودِ.

التَجارِبِ

مَجْمُوعاتٍ البَياناتِ

تَجْمِيعِ البَياناتِ.

لِإِنْشاءِ دُفْعاتٍ بَياناتٍ تَحْتَوِي عَلَى تَسَلْسُلات بِأَطْوال مُتَفاوِتَةٍ، يُلْزِم إِجْراءِ عَمَلِيَّةِ تَعْبِئَةِ، مِمّا يُؤَدِّي إِلَى هَدْرِ الرُمُوزَ. لِلتَقْلِيل مِن هٰذا العَجْزِ وَزِيادَةِ كَفاءَةِ التَدْرِيبِ، نَقُوم بِدَمْجِ عَيِّناتٍ أَصْلِيَّةٌ مُتَعَدِّدَةِ فِي عَيِّنَةً تَدْرِيبِ واحِدَةٍ. عَلَى وَجْهِ التَحْدِيدِ، نَخْتار وَنَجْمَع العَيْنات مِن مَجْمُوعَةِ البَياناتِ بِشَكْلٍ عَشْوائِيٍّ حَتَّى يَصِل طُولِ التَسَلْسُل المَجْمَعُ إِلَى قِيمَةَ قُصْوَى مُحَدَّدَةٍ مُسْبَقاً. مِن الجَدِيرِ بِالذَكَر أَنَّنا نَقُوم بِتَغْطِيَةِ العَيْنات الأَصْلِيَّةِ بِعِنايَةٍ بِحَيْثُ تَكُون غَيْرِ مَرْئِيَّةٍ بِالتَبادُل مِن بِعَضُّها البَعْضُ.

التَعْلِيقَ التَصَوُّرِيّ.

لِتَحْقِيقِ القُدْرَةِ الأَساسِيَّةِ عَلَى الإِدْراك وَكَذٰلِكَ لَمُواءَمَة المَفْهُومُ بَيِّنَ المِشْفَر البَصْرِيّ وَنَمُوذَجٌ اللُغَةِ الكَبِيرِ، تَمَّ جَمْعِ (96M) زَوْجا مِن الصُوَرِ وَالنُصُوصَ مِن مَجْمُوعاتٍ بَياناتٍ التَعْلِيقَ عَلَى الصُوَرِ، بِما فِي ذٰلِكَ (CC3M)، (CC12M)، (SBU) وَمَجْمُوعَةِ فَرْعِيَّةٍ مِن (LAION-400M). فِي هٰذِهِ المُهِمَّةِ، يُولَد النَمُوذَجِ تَعْلِيقاً قَصِيراً لِلصُورَةِ المُعْطاة، كَما يَتَطَلَّب الأَمْرُ “وَصَفَ الصُورَةِ بِاِخْتِصار”.

التَعْلِيقَ التَأْسِيسِيّ.

لَتَمْكِين نَمُوذَجَ التَعَلُّمِ المُتَعَدِّدِ اللُغاتِ بِقُدْراتٍ التَأْسِيسِ الأَساسِيَّةِ، تَمَّ اِعْتِمادِ مَجْمُوعَةِ فَرْعِيَّةٍ مِن مَجْمُوعَةِ البَياناتِ GrIT (kosmos2) تَشْمَل 16 مِلْيُونِ زَوْج مِن الصُوَرِ وَالنُصُوصَ. فِي هٰذِهِ المُهِمَّةِ، يُولَد النَمُوذَجِ تَعْلِيقاً قَصِيراً بِالإِضافَةِ إِلَى صَنادِيقِ الحُدُودِ المعياريه لِلأَشْياء المُشارِ إِلَيها فِي الصُورَةِ، كَما يَتَطَلَّبه التَوْجِيهِ “وَصَفَ الصُورَةِ بِإِيجاز، مَعَ التَرْكِيزِ عَلَى الكائِنات الرَئِيسِيَّةِ مَعَ صَنادِيقِ الحُدُودِ المعياريه”.

التَعَرُّفُ الضَوْئِيّ عَلَى الحُرُوفُ.

بِاِسْتِثْناءِ الصُوَرِ الطَبِيعِيَّةِ، نَحْنُ مُهْتَمُّونَ بِشَكْلٍ خاصٍّ بِالصُوَر المُوَجَّهَةِ لِلوَثائِق. لِتَعْزِيزِ قُدْرَةِ الإِدْراك لَنَمُوذَج التَعَلُّمِ المُتَعَدِّدِ المُسْتَوَياتِ لِلحُرُوف الضَوْئِيَّةِ، تَمَّ جَمْعِ 1.28 مِلْيُونِ صُورَةِ مِن (IIT-CDIP). ثَلاثَةِ أَنْواعِ مِن الاِسْتِعْلامات، “أَذْكُر مُحْتَوَى النَصِّ فِي الصُورَةِ”، “أَذْكُر مُرَبَّعاتٍ النَصِّ المُحِيطَةِ فِي الصُورَةِ” وَ “أَذْكُر مُحْتَوَى النَصِّ مَعَ مُرَبَّعاته المُحِيطَةِ فِي الصُورَةِ”، تُسْتَخْدَم لَحَثَّ النَمُوذَجِ عَلَى تَوْلِيدِ مُحْتَوَى النَصِّ، مُرَبَّعاتٍ النَصِّ، أَو كُلِّيّهما لِصُورَةِ مُعَيَّنَةٍ، حَيْثُ يَتِمّ جَمْعِ التَصْنِيفاتُ الخَشِنَة بِواسِطَةِ نِظامِ التَعَرُّفُ الضَوْئِيّ عَلَى الحُرُوفُ التِجارِيِّ.

تَحْوِيلِ الصِيغَةِ.

مُسْتَوْحَى مِن (nougat)، نَجْمَع 1.28 مِلْيُونِ صَفْحَةً بِي دِي إِف وَمُحْتَوَى تَحْوِيلِ الصِيغَةِ الخاصِّ بِالأَوْراق العِلْمِيَّةِ مِن مِلَفّاتِ مَصْدَرٌ arXiv، وَالَّتِي تَحْتَوِي عَلَى مَعْلُوماتٍ تَخْطِيطِ أَكْثَرَ مِثْلَ تَرْتِيبَ القِراءَةِ مُقارَنَةً بِبَيانات التَعَرُّفُ الضَوْئِيّ عَلَى الحُرُوفُ العادِيَّةِ. نَسْتَخْدِم تَعْلِيمه بَسِيطَةً، “أَنْقُل مُحْتَوَى صُورَةِ الوَثِيقَةِ”، لِطَلَبٍ مِن النَمُوذَجِ تَحْوِيلِ صَفْحَةً بِي دِي إِف لَوَرَقه عِلْمِيَّةٍ إِلَى تَحْوِيلِ الصِيغَةِ.

التَعْلِيماتِ.

أَثْرَ اِتِّباعِ LLaVA-1.5، قُمْنا بِبِناءِ بَياناتٍ التَنْعِيم الخاصَّةِ بِنا اِسْتِناداً إِلَى مَجْمُوعاتٍ البَياناتِ المَوْجُودَةِ لِتَعْزِيزِ قُدْرَةِ MLLMs عَلَى اِتِّباعِ التَعْلِيماتِ وَالتَفاعُل فِي مُحادَثاتٍ تَتَعَلَّق بِالطَبِيعَة وَالمُسْتَنَداتِ. عَلَى وَجْهِ التَحْدِيدِ، نَعْتَمِد عِدَّةٍ مَجْمُوعاتٍ بَياناتٍ تَشْمَل (vqav2)، (okvqa)، (gqa)، (aokvqa)، (textcaps)، (ocrvqa)، (refcoco)، (pointqa)، (flickr)، (docvqa)، (chartqa)، (infovqa)، (tabfact)، (wtq)، (vg)، (visualmrc)، وَ(slidevqa). تَمَّ اِعْتِمادِ نَفْسِ الأَوامِرَ مِن LLaVA-1.5 لِتَنْظِيمِ أُسْلُوبِ الاِسْتِجابَةُ لِ MLLMs. لِكُلِّ مَجْمُوعَةِ بَياناتٍ، نَقُوم بِدَمْجِ جَمِيعِ أَزْواج الأَسْئِلَةِ وَالأَجْوِبَة المُتَعَلِّقَةِ بِنَفْسِ الصُورَةِ التَدْرِيبِيَّةِ لِإِنْشاءِ مُحادَثاتٍ مُتَعَدِّدَةِ الأَدْوارِ وَتَحْسِينِ كَفاءَةِ البَياناتِ. بِالإِضافَةِ إِلَى المَهامّ الأَصْلِيَّةِ، نُقَدِّم أَيْضاً مَهامِّ مُتَعَدِّدَةِ لِمُساعَدَةِ MLLMs عَلَى التَعَرُّفُ عَلَى النُصُوصِ وَفُهِمَ تَخْطِيطِ المُسْتَنَداتِ، بِما فِي ذٰلِكَ مُهِمَّةً التَعَرُّفُ الضَوْئِيّ عَلَى الحُرُوفُ لِ (DocVQA)، (InfoVQA)، (VisualMRC) وَ(SlideVQA)، مُهِمَّةً التَحْوِيلِ مِن الرَسْمُ البَيانِيّ إِلَى الجَدْوَلُ لِ (ChartQA)، وَمُهِمَّةً التَحْوِيلِ مِن الصُورَةِ إِلَى markdown لِ (TabFact) وَ(WTQ). لِتَطْوِيرِ MLLM لِلأَغْراض العامَّةِ، نَسْتَفِيد مِن عِدَّةٍ مَجْمُوعاتٍ بَياناتٍ حِوارَيْهِ تَشْمَل (ShareGPT)، (ShareGPT-4V)، (ALLaVA)، (LLaVA)، (SVIT)، وَ(Shikra).

دُوك جيميني.

لِمُعالَجَةِ نَدْرَةُ مَجْمُوعاتٍ البَياناتِ الحَوارِيَّةِ المُوَجَّهَةِ لِلوَثائِق ذاتِ الجُودَةِ العالِيَةِ، نَسْتَفِيد مِن القُدْراتِ البَصَرِيَّةِ الأَصْلِيَّةِ لِ جيميني-برو لِتَعْزِيزِ البَياناتِ. لِكُلِّ عَيِّنَةً تَدْرِيبِ مِن دُوك فِي كَيُو آيَة، تشارت كَيُو آيَة، وَأَنْفُو كَيُو آيَة، نُقَدِّم لِ جيميني-برو الصُورَةِ وَأَزْواج الأَسْئِلَةِ وَالأَجْوِبَة الأَصْلِيَّةِ مَعَ اِسْتِعْلام لَتَوْلِيد: (1) مُلَخَّصُ مُوجَز لَمَواضِيع الوَثِيقَةِ؛ (2) أَزْواج أَسْئِلَةٍ وَأَجْوِبَة قَصِيرَةٍ إِضافِيَّةً، حَتَّى 10؛ (3) رُؤَى وَراءَ كُلِّ أَجابَهُ. بِاِخْتِصار، تَتَكَوَّن مَجْمُوعَةِ البَياناتِ المُوَلِّدَة دُوك جيميني مِن 30 أَلْفِ صُورَةِ وَ 195 أَلْفِ زَوْج مِن الأَسْئِلَةِ وَالأَجْوِبَة مَعَ الرُؤَى.

التَدْرِيبِ

لِجَمِيعِ مَراحِلِ التَدْرِيبِ، نَعْتَمِد عَلَى AdamW كَمُحْسِن، مَعَ \(\beta_1=0.9\)، \(\beta_2=0.95\)، وَتَحْلِل الوَزْنِ 0.05.

التَدْرِيبِ المُسْبَقِ بِدِقَّةٍ ثابِتَةٍ.

مُسْتَوْحَى مِن BLIP-2، نَعْتَمِد مَجْمُوعاتٍ بَياناتٍ التَعْلِيقَ التَصَوُّرِيّ عَلَى نِطاقِ واسِعٍ لَمُواءَمَة مِشْفَر بَصَرِيّ مُدَرِّبُ مُسْبَقاً وَمُجَمَّد مَعَ LLM. عَلَى وَجْهِ التَحْدِيدِ، يَتِمّ اِسْتِخْدامِ 96M زَوْج صُورَةِ-نَصَّ فِي هٰذِهِ المَرْحَلَةِ. كُلِّ تَعْلِيقَ تَصَوُّرِي هُوَ وَصَفَ مُوجَز يُلَخِّص المَعْلُوماتِ العامَّةِ المُصَوَّرَةِ فِي صُورَةِ، نادِراً ما يَكُون مُتَعَلِّقا بِالتَفاصِيلِ الدَقِيقَةِ. لِتَسْرِيعِ التَدْرِيبِ، تَخْضَع جَمِيعِ الصُوَرِ لِإِعادَةِ تَحْجِيم إِلَى \(224\times224\). الحَدِّ الأَقْصَى لَطُول التَسَلْسُل هُوَ 4,096 وَحَجْمُ الدُفْعَةِ هُوَ 96، مِمّا يُؤَدِّي إِلَى حَجْمِ دَفْعَةً فَعّالٌ يُقارِب 8,000 بُعْدَ تَجْمِيعِ البَياناتِ. نَقُوم بِتَدْرِيبِ النَمُوذَجِ مُسْبَقاً لِ 12,000 خَطْوَةٍ، ما يُعادِل تَقْرِيباً دَوْرَةِ واحِدَةٍ عَبْرَ مَجْمُوعُ البَياناتِ. خِلالَ التَدْرِيبِ المُسْبَقِ، نُجَمِّد المِشْفَر البَصْرِيّ وَLLM وَنُدَرِّب المُعِيد العَشْوائِيِّ المبدئ وَوَحَداتٍ LoRA. مُعَدَّلِ التَعَلُّمِ يَزْداد تَدْرِيجِيّاً إِلَى \(3e^{-4}\) فِي أَوَّلِ 3% مِن الخَطَواتِ، يَلِيه اِنْحِدارٌ تَجانُسَيَّ إِلَى \(1e^{-5}\) فِي الخَطَواتِ المُتَبَقِّيَةُ. يَسْتَغْرِق الأَمْرُ يَوْماً واحِداً لِإِنْهاءِ التَدْرِيبِ عَلَى 48 وَحْدَةِ مُعالَجَةِ رُسُومات NVIDIA V100.

التَدْرِيبِ المُسْبَقِ بِدِقَّةٍ مُخْتَلِطَةٍ.

فِي هٰذِهِ المَرْحَلَةِ، نَقُوم بِتَكْيِيف جِهازِ إِعادَةِ العَيْنات لِيَتَناسَب مَعَ دِقَّةٍ الإِدْخال المُتَغَيِّرَة. يَتِمّ اِسْتِخْدامِ الصُوَرِ ذاتِ الأَحْجام الأَصْلِيَّةِ المُخْتَلِفَةِ وَنَسَبَ العَرْضِ إِلَى الاِرْتِفاعِ مِن مَجْمُوعاتٍ بَياناتٍ التَعْلِيقَ التوضيحي، وَالتَعَرُّف الضَوْئِيّ عَلَى الحُرُوفُ، وَتَخْفِيضَ الأَسْعارِ. يَتِمّ تَحْدِيدِ حَجْمِ كُلِّ صُورَةِ فَرْعِيَّةٍ ب \(224\times224\). يَتِمّ تَحْدِيدِ المِساحَةَ القُصْوَى \(n\) ب 36 وَيَتِمّ تَحْدِيدِ الطُولَ الأَقْصَى لِلجانِبِ \(l\) ب 12. لِتَسْرِيعِ مُطابَقَة الشَبَكَةِ لِلقِطَعِ المتكيف مَعَ الشَكْلِ، يَتِمّ تَحْدِيدِ \(k\) ب 9. حَجْمِ الدُفْعَةِ الفَعّالَ تَقْرِيباً 1500 وَعَدَدٌ خَطَواتٍ التَدْرِيبِ 12000، ما يُعادِل تَقْرِيباً دَوْرَةِ واحِدَةٍ عَبْرَ مَجْمُوعَةِ البَياناتِ بِأَكْمَلِها. بِاِسْتِثْناءِ جِهازِ إِعادَةِ العَيْنات وَ LoRA، يَتِمّ تَهْيِئَةِ رَأْسِ الكَشْفِ عَشْوائِيّا وَتَحْدِيثه فِي هٰذِهِ المَرْحَلَةِ. يَتِمّ تَحْدِيدِ وَزْنِ \(\alpha\) لَرُمُوز الإِحْداثِيّات ب \(0.25\) (أَرْبَعَةِ رُمُوزِ لِكُلِّ مُرَبَّعٍ تَحْدِيدِ) وَيَتِمّ تَحْدِيدِ وَزْنِ \(\lambda\) لِخَسارَةٍ \(\ell_1\) ب 1. يَتِمّ الاِحْتِفاظِ بِتَجْمِيدِ المِشْفَر البَصْرِيّ وَالنَمُوذَجُ اللُغَوِيُّ الكَبِيرِ. مُعَدَّلِ التَعَلُّمِ يَزْداد تَدْرِيجِيّاً إِلَى \(1.5e^{-4}\) فِي أَوَّلِ 3% مِن الخَطَواتِ، يَلِيه تَضاؤُل تَدْرِيجِيٌّ إِلَى \(5e^{-6}\). يَسْتَغْرِق الأَمْرُ 3 أَيّامٍ لِإِنْهاءِ التَدْرِيبِ عَلَى 40 وَحْدَةِ مُعالَجَةِ رُسُومات مِن نَوْعٍ NVIDIA V100.

الضَبْطِ الدَقِيقِ بِإِشْراف مُخْتَلِطٍ الدِقَّةِ.

خِلالَ عَمَلِيَّةِ الضَبْطِ الدَقِيقِ، نُدْمَج اوزان LoRA مَعَ نَمُوذَجَ اللُغَةِ الكَبِيرِ وَنُدَرِّب مُحَوِّلِ الدِقَّةِ وَنَمُوذَجٌ اللُغَةِ الكَبِيرِ وَرَأَسَ الكَشْفِ مَعاً، مَعَ الحِفاظِ عَلَى تَجْمِيدَ مِشْفَر الصُورَةِ. تُورَث المُعَلِّماتُ الفائِقَةِ لِلقَصّ المتكيف مَعَ الشَكْلِ وَرَأَسَ الكَشْفِ مِن التَدْرِيبِ المُسْبَقِ بِدِقَّةٍ مُخْتَلِطَةٍ. الطُولَ الأَقْصَى لِلتَسَلْسُل هُوَ 2048. نَقُوم بِتَدْرِيبِ النَمُوذَجِ عَلَى بَياناتٍ اِتِّباعِ التَعْلِيماتِ لِفَتْرَةٍ واحِدَةٍ مَعَ حَجْمِ دَفْعَةً يَبْلُغ 64. مُعَدَّلِ التَعَلُّمِ يَزْداد تَدْرِيجِيّاً إِلَى \(2e^{-5}\) فِي أَوَّلِ 3% مِن الخَطَواتِ، يَلِيه اِنْحِدارٌ زاوي إِلَى \(0\). يَسْتَغْرِق التَدْرِيبِ يَوْماً واحِداً لِإِنْهاءِ التَدْرِيبِ عَلَى 32 وَحْدَةِ مُعالَجَةِ رُسُومات مِن نَوْعٍ NVIDIA V100.

النَتائِجِ عَلَى المَعايِيرِ القِياسِيَّةِ

لِإِظْهارِ فَعّالِيَّةِ طُرُقنا، نُجْرِي مُقارَنَةً بَيِّنَ modelname، وَنَمُوذَجَيْنِ مُتَخَصِّصِينَ لَمَهامّ مُوَجَّهَةٍ لِلوَثائِق، وَأَحْدَثَ نَماذِجَ اللُغاتِ المُتَعَدِّدَةِ المُسْتَوَياتِ عَلَى مَجْمُوعَةِ واسِعَةً مِن المَعايِيرِ. تَسْتَهْدِف كُلِّ مِعْيار مَجْمُوعَةِ مِن المَهامّ العامَّةِ أَو المَهامّ المُفَصَّلَة. أَوَّلاً، نَقُوم بِتَقْيِيم النَماذِجِ عَلَى مَعايِيرِ شامِلَةٍ تَشْمَل (MME)، (MMBench)، (SEED-Bench)، وَ(GQA). نَظَراً لِأَنَّ دِقَّةٍ الصُوَرِ فِي هٰذِهِ المَعايِيرِ مُنْخَفَضه نِسْبِيّاً، نَقُوم بِتَقْيِيم قُدْرَةِ الإِدْراك المُفَصَّل عَلَى فَهُم الوَثائِقِ وَمَهامّ الإِشارَةُ، بِما فِي ذٰلِكَ (DocVQA)، (ChartQA)، (InfoVQA)، (TabFact)، (WTQ)، وَ(RefCOCO).

كَما هُوَ مُوَضِّح فِي الجَدْوَلُ (tab:benchmark)، يَتَفَوَّق modelname فِي كُلِّ مِن المَعايِيرِ العامَّةِ وَالمُوَجَّهَةِ لِلوَثائِق، حَيْثُ يَحْتَلّ المَرْتَبَةِ الأُولَى فِي 6 مِن 9 مَعايِيرِ. فِي جَمِيعِ المَعايِيرِ العامَّةِ، لا يَتَفَوَّق modelname عَلَى (LLaVA-1.5-7B) فَحَسْب، بَل يُحَقِّق أَيْضاً نَتائِجِ مُماثِلَةٍ مَعَ (InternLM-XComposer)، عَلَى الرَغْمِ مِن أَنَّ الأَخِيرِ يُشارِك نَفْسِ النَمُوذَجِ الأَساسِيُّ لِلُغَةِ وَلٰكِن يَسْتَخْدِم مِشْفَرا بَصَرِيّا أَكْبَرَ. عِنْدَ المُقارَنَةِ بِنَماذِج اللُغاتِ المُتَعَدِّدَةِ المُسْتَوَياتِ السابِقَةِ المُوَجَّهَةِ لِلوَثائِق، مِثْلَ (Ureader) وَ(TextMonkey)، يُظْهِر modelname أَداءِ مُتَفَوِّقا فِي المَعايِيرِ المُوَجَّهَةِ لِلوَثائِق. عَلَى وَجْهِ التَحْدِيدِ، يُحَقِّق modelname مَكاسِبَ فِي الأَداءِ بِنِسْبَةِ 11.0%، 7.3%، 8.4%، 3.5%، وَ5.3% عَلَى (DocVQA)، (ChartQA)، (InfoVQA)، (TabFact)، وَ(WTQ)، عَلَى التَوالِي، مُقارَنَةً ب(Ureader). بِشَكْلٍ مَلْحُوظٍ، يَتَفَوَّق modelname حَتَّى عَلَى (TextMonkey)، الَّذِي يَسْتَخْدِم مِشْفَرا بَصَرِيّا أَكْبَرَ، فِي مَعايِيرِ (DocVQA) وَ(WTQ). مِن الجَدِيرِ بِالذَكَر أَنَّ إِدْخالُ بَياناتنا (DocGemini) يُمْكِن أَنَّ يُحَسِّن أَكْثَرَ مِن الأَداءِ فِي المَعايِيرِ المُوَجَّهَةِ لِلوَثائِق. بِالإِضافَةِ إِلَى ذٰلِكَ، يُحَقِّق modelname نَتائِجِ تَنافُسِيَّةٌ عَلَى مَجْمُوعَةِ بَياناتٍ (RefCOCO)، مِمّا يُظْهِر قُدْراتِهِ الجَيِّدَةِ فِي مُهِمَّةً الإِشارَةُ.

دِراسَةٌ الاِسْتِئْصال

نَعْتَمِد تكوينين أَسْرَعِ لِلتَدْرِيبِ مِن أَجْلِ دِراسَةٌ الاِسْتِئْصال. التَدْرِيبِ بِالدِقَّةِ الثابِتَةِ هُوَ نَفْسِهِ تَماماً كَما هُوَ مَوْصُوفٌ فِي القِسْمِ [sec:train]. بُعْدَ ذٰلِكَ، يَتِمّ تَنْقِيح نَماذِجَ الدِقَّةِ الثابِتَةِ عَلَى بَياناتٍ التَدْرِيبِ الخاصَّةِ ب LLaVA-1.5 لِمُدَّةِ دَوْرَةِ تَدْرِيبِيَّةً واحِدَةٍ، بَيْنَما يَتِمّ تَنْقِيح نَماذِجَ الدِقَّةِ المُتَغَيِّرَة عَلَى بَياناتٍ التَدْرِيبِ الخاصَّةِ ب LLaVA-1.5، DocVQA، ChartQA، InfoVQA، TabFact، وَ WTQ.

إِعادَةِ العَيِّنَةُ وَإِعادَةِ التَرْتِيبِ (ReSA).

لِإِظْهارِ فَعّالِيَّةِ إِعادَةِ العَيِّنَةُ وَإِعادَةِ التَرْتِيبِ، نُجْرِي تَجارِبِ بِدِقَّةٍ ثابِتَةٍ مَعَ تَكْوِينات ضَغْطِ مُخْتَلِفَةٍ، وَتُظْهِر النَتائِجِ فِي الجَدْوَلُ [tab:resa]. مُقارَنَةً بِإِسْتراتِيجِيّه إِعادَةِ العَيِّنَةُ فَقَط، فَإِنَّ دَمْجِ إِعادَةِ العَيِّنَةُ وَإِعادَةِ التَرْتِيبِ الَّذِي يُقَسِّم إِجْراءِ الضَغْطِ إِلَى مَرْحَلَتَيْنِ يُحَسِّن الأَداءِ فِي جَمِيعِ المَعايِيرِ، خاصَّةٍ فِي RefCOCO حَيْثُ تُظْهِر مُهِمَّةً الفَهْمِ المَرْجِعِيِّ طَلَباً كَبِيراً لِلحِفاظِ عَلَى مَعْلُوماتٍ أَكْثَرَ دِقَّةٍ.

الاِنْتِباهِ المُتَقاطِعِ مُتَعَدِّدِ المُسْتَوَياتِ (MLCA).

مِن الناحِيَةِ التَجْرِيبِيَّة، تَلْتَقِط الطَبَقاتِ العَمِيقَةِ داخِلَ مشفرات الرُؤْيَةِ المَعْلُوماتِ الدَلالِيَّة العالَمِيَّةِ بِشَكْلٍ أَساسِيٌّ، بَيْنَما تَمِيل الطَبَقاتِ السَطْحِيَّةُ إِلَى الاِحْتِفاظِ بِالتَفاصِيلِ المَحَلِّيَّةِ المُعَقَّدَةِ. لِاِسْتِكْشافِ تَأْثِيرِ إِسْتراتِيجِيَّةِ التَوْجِيهِ لِ MLCA، نُجْرِي تَجارِبِ مَعَ جَداوِلِ تَوْجِيهِ مُخْتَلِفَةٍ، كَما هُوَ مُوَضِّح فِي الجَدْوَلُ [tab:mlca]. مِن أَجْلِ البَساطَةِ، نَسْتَخْدِم R1 إِلَى R5 لِلإِشارَة إِلَى جَداوِلِ التَوْجِيهِ المُخْتَلِفَةِ. R1 هُوَ حالَةِ خاصَّةٍ تَشْمَل فَقَط مَرْحَلَةِ التشفير 3، مِمّا يُؤَدِّي إِلَى تَدَهْوُرِ إِلَى إِعْدادات الاِنْتِباهِ المُتَقاطِعِ الفانيليا. عِنْدَ مُقارَنَةً R1 وَ R2، يُمْكِننا أَنَّ نَجِد أَنَّ الأَخِيرِ يُحَسِّن الأَداءِ بِشَكْلٍ كَبِيرٍ فِي المَهامّ المُفَصَّلَة، بَيْنَما يُضْحَى قَلِيلاً بِالأَداء فِي المَعايِيرِ العامَّةِ. عِنْدَ مُقارَنَةً R2 وَ R3/R4، يُمْكِننا أَنَّ نَجِد أَنَّ تَوْجِيهِ المِيزاتِ مِن طَبَقاتِ التشفير الأَقَلِّ عُمْقاً إِلَى طَبَقاتِ إِعادَةِ العَيْنات الأَعْمَقَ يُظْهِر دِقَّةٍ أَعْلَى عَلَى RefCOCO، مُقارَنَةً بِتَوْجِيهها إِلَى طَبَقاتِ إِعادَةِ العَيْنات المُتَوَسِّطَةِ. مِن بَيِّنَ جَمِيعِ الإِعْدادات التَجْرِيبِيَّة، يُحَقِّق R5 تَوازُناً جَيِّداً بَيِّنَ المَهامّ العامَّةِ وَالمَهامّ المُفَصَّلَة، وَبِالتالِي نَعْتَمِده كَجَدْوَل تَوْجِيهِ اِفْتِراضِيٌّ.

شَبَكَةِ اِقْتِراحِ الاِسْتِعْلامات (QPN).

لِلتَحَقُّقِ مِن أَهَمِّيَّةً اِسْتِعْلامات إِعادَةِ العَيِّنَةُ عالِيَةٍ الجُودَةِ، قُمْنا بِمُقارَنَة تَهْيِئَةِ الاِسْتِعْلامات مِن المُعَلِّماتُ المُتَعَلِّمَة وَتَوْلِيدِ الاِسْتِعْلامات بِاِسْتِخْدامِ شَبَكَةِ اِقْتِراحِ الاِسْتِعْلامات، كَما هُوَ مُوَضِّح فِي الجَدْوَلُ [tab:qpn]. لِلمُقارَنَة العادِلَةِ، يَبْلُغ عَدَدٍ الاِسْتِعْلامات 64 فِي كُلّاً التَجْرِبَتَيْنِ. يُمْكِننا أَنَّ نَجِد أَنَّ دَمْجِ شَبَكَةِ اِقْتِراحِ الاِسْتِعْلامات يُحَسِّن أَداءِ النَمُوذَجِ فِي مُعْظَمَ المَعايِيرِ القِياسِيَّةِ، وَخاصَّةً فِي RefCOCO.

التَضْمِينات المَوْضِعِيَّة القابِلَةِ لِلتَوَسُّع (SPEs).

لِاِسْتِكْشافِ تَأْثِيرِ التَضْمِينات المَوْضِعِيَّة الإِضافِيَّة، نُجْرِي تَجارِبِ مَعَ إِعْدادات دِقَّةٍ مُتَغَيِّره. تُظْهِر النَتائِجِ عَلَى المَعايِيرِ الدَقِيقَةِ فِي الجَدْوَلُ [tab:pe]. مِن الواضِحِ أَنَّ غِيابِ التَضْمِينات المَوْضِعِيَّة الإِضافِيَّة يُؤَدِّي إِلَى تَدَهْوُرِ الأَداءِ فِي مُعْظَمَ المَعايِيرِ. مُقارَنَةً بِالتَضْمِينات المَوْضِعِيَّة المُطْلَقَةِ المُسْتَخْدَمَةِ فِي الأَعْمالِ السابِقَةِ، تَحَسُّنِ SPEs الأَداءِ الدَقِيقِ بِشَكْلٍ أَكْبَرَ. فِي الوَقْتِ نَفْسِهِ، يُمْكِن تَوْسِيعِ دِقَّةٍ SPEs مِن الخَلِيَّةِ إِلَى البُقْعَةِ دُونِ زِيادَةِ عَدَدٍ المُعامَلاتِ. تَمَّ التَأْكِيدُ عَلَى أَنَّ اِسْتِخْدامِ التَضْمِينات المَوْضِعِيَّة الأَدَقّ وَالأَكْثَرُ سَلاسَة عَلَى مُسْتَوَى بُقْعَةٍ الصُورَةِ يُحَسِّن الأَداءِ العامِّ بِشَكْلٍ أَكْبَرَ.

رَأْسِ الكَشْفِ.

كُلّاً مِن رَأْسِ نمذجه اللُغَةِ الأَصْلِيُّ وَرَأَسَ الكَشْفِ الإِضافِيّ قادِرانِ عَلَى تَوْلِيدِ الإِحْداثِيّات. عِنْدَما يُنْتِج الأَوَّلِ رَمْزُ أَحْداثِي، يُمْكِننا اِسْتِبْدالُهُ بِسَلاسَةٍ بِالناتِج مِن الأَخِيرِ. فِي الجَدْوَلُ [tab:head]، نُقارَن نَتائِجِ الرُؤُوسِ المُخْتَلِفَةِ عَلَى RefCOCO. مِن الواضِحِ أَنَّ رَأْسِ الكَشْفِ يُظْهِر دِقَّةٍ أَعْلَى فِي جَمِيعِ الأَقْسام، مِمّا يُثْبِت تَفَوُّقُهُ فِي مَهامِّ التَأْصِيل.

القُيُودِ

المِشْفَر البَصْرِيّ فِي modelname مُجَمَّد أَثْناءَ التَدْرِيبِ، مِمّا يَعْنِي أَنَّهُ لا يَتَعَلَّم مِن بَياناتٍ التَدْرِيبِ. قَد يَحُدّ هٰذا مِن قُدْرَةِ النَمُوذَجِ عَلَى التَكَيُّفِ مَعَ بَياناتٍ بَصَرِيّه جَدِيدَةٍ أَو غَيْرِ مَرْئِيَّةٍ تَخْتَلِف بِشَكْلٍ كَبِيرٍ عَن البَياناتِ الَّتِي تَمَّ تَدْرِيبه عَلَيها فِي البِدايَةِ. فِي المُسْتَقْبَلِ، سَنَقُوم بِتَدْرِيبِ المِشْفَر البَصْرِيّ لِتَحْسِينِ قُدْراتٍ الإِدْراك بِشَكْلٍ أَكْبَرَ.

الخُلاصَةِ

فِي هٰذِهِ الوَرَقَةَ، قَدَّمْنا DocuPercept, نَمُوذَجَ لُغَوِيٌّ كَبِيرٍ مُتَعَدِّدِ الوَسائِط (Multimodal Large Language Model) مُصَمِّمٌ خَصِيصاً لِمُواجَهَةِ التَحَدِّياتِ الفَرِيدَة الَّتِي تَطْرَحها المَهامّ المُوَجَّهَةِ نَحْوَ الوَثائِقِ. يُقَدِّم DocuPercept عِدَّةٍ مُكَوِّناتِ مُبْتَكِرَةٍ. تَعْمَل هٰذِهِ المُكَوِّناتِ بِتَناغُم لِتَعْزِيزِ قُدْراتٍ النَمُوذَجِ عَلَى الإِدْراك البَصْرِيّ الدَقِيقِ وَضَغْطٌ المَعْلُوماتِ، مِمّا يُمْكِنه مِن التَعامُلِ مَعَ الدِقَّةِ العالِيَةِ وَكَثافَة المَعْلُوماتِ المُمَيَّزَةِ لِصُوَرٍ الوَثائِقِ. تُظْهِر تَجارِبنا الواسِعَةِ عَلَى مَعايِيرِ النَماذِجِ اللُغَوِيَّةُ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط المُوَجَّهَةِ لِلوَثائِق وَالعامَّةُ أَنَّ DocuPercept يَتَفَوَّق عَلَى الطُرُقِ الحَدِيثَةِ، مِمّا يُعَرِّض قُدْراتِهِ المُتَفَوِّقَةِ فِي إِدْراكٌ الوَثائِقِ الدَقِيقِ وَقُدْراته العامَّةِ فِي الرُؤْيَةِ وَاللُغَةِ.