نوفمبر 2024
النماذج اللغوية الضخمة (LLMs) أظهرت إمكاناتٍ كبيرة في تطبيقات الرعاية الصحيّة المتنوّعة. غير أنّ فاعليتها في المجال الطبي العربي لا تزال غير مُستكشفةٍ بما يكفي بسبب نقص مجموعات البيانات المتخصّصة عالية الجودة والمعايير المرجعية الملائمة. نقدّم في هذه الدراسة MedArabiQ، وهو معيارٌ مرجعي جديد يتألّف من سبع مهام طبية باللغة العربية، تغطّي تخصّصاتٍ متعدّدة وتشمل أسئلة اختيارٍ من متعدّد، وأسئلة إكمال الفراغ، وحوارات تفاعلية بين المريض والطبيب. قمنا أوّلاً ببناء مجموعة البيانات بالاعتماد على اختباراتٍ طبية سابقة ومصادر عامة متاحة. ثم أعدنا صياغة جزءٍ منها بطرائق مختلفة لتقييم قدرات النماذج، بما في ذلك تقنيات الحدّ من التحيّز. أجرينا تقييماً شاملاً باستخدام خمسةٍ من أحدث النماذج اللغوية المفتوحة والمملوكة، من بينها GPT-4o وClaude 3.5-Sonnet وGemini 1.5. تؤكّد نتائجُنا الحاجةَ إلى تطوير معايير مرجعية عالية الجودة ومتعدّدة اللغات لضمان عدالة النشر وتوسيع استخدام النماذج اللغوية في الرعاية الصحيّة. ومن خلال إنشاء هذا المعيار وإتاحة مجموعة البيانات، نوفر أساساً لأبحاثٍ مستقبلية تُعنى بتقييم وتعزيز القدرات مُتعدّدة اللغات للنماذج اللغوية من أجل استخدامٍ عادلٍ للذكاء الاصطناعي التوليدي في القطاع الصحي.
في هذا العمل، نقدّم مجموعة بياناتٍ معيارية جديدة باسم MedArabiQ ونقيّم أداء أحدث النماذج اللغوية الضخمة. نوفر بياناتنا لضمان إمكانيّة إعادة التجارب وتحقيق تقييمٍ عادل للنماذج مستقبلاً: https://github.com/nyuad-cai/MedArabiQ
لا تتضمّن هذه الدراسة مشاركين بشريين، لذا لم تكن هناك حاجةٌ للحصول على موافقة لجنة الأخلاقيات.
شهدت السنواتُ الأخيرة ثورةً في معالجة اللغة الطبيعية بفضل ظهور النماذج اللغوية الضخمة (LLMs)، حيث أظهرت أداءً استثنائياً في مهام عديدة مثل الترجمة والكتابة الإبداعية . ورغم أنّ هذه النماذج صُمِّمت في البداية لفهم اللغة عموماً، فقد جرى تقييمُها لاحقاً في تطبيقاتٍ متخصّصة كالتعليم والبرمجة والفنون والطب، كما تم تكييفُها لمهامّ تخصصية عبر استراتيجيات الضبط الدقيق ومجموعات بياناتٍ متخصّصة .
أثار استخدامُ النماذج اللغوية الضخمة في الرعاية الصحيّة اهتماماً واسعاً نظراً لإمكاناتها في تحسين التشخيص واتخاذ القرار السريري وجودة رعاية المرضى . ومن التطبيقات البارزة كذلك التعليمُ الطبي، حيث يمكن لهذه النماذج توليدُ ملخصاتٍ دقيقة ودعمُ التعلّم التفاعلي . ولهذا الغرض، اقتُرحت معاييرُ مرجعية لتقييم قدرات النماذج في المعرفة الطبية والاستدلال. ومع ذلك، ما تزال تحدياتٌ قائمة مثل المسائل الأخلاقية، ومخاطر إنتاج محتوى مُتحيّز أو ضار، وتفاوت الأداء بين اللغات والسياقات الثقافية .
تستهدف المعايير المرجعية الحالية مثل GLUE وMedQA اللغة الإنجليزية بالدرجة الأولى، مما يترك فجوةً كبيرة في تقييم النماذج اللغوية للمهام الطبية العربية . ويعود ذلك إلى أسبابٍ عدّة، منها قلّة توافر مجموعات بياناتٍ عربية عالية الجودة للتطبيقات السريرية، بالإضافة إلى التعقيد اللغوي للعربية وتعدّد لهجاتها (الخليج، المغرب العربي، مصر، الشام، وغيرها) إلى جانب العربية الفصحى . كما أنّ أداء النماذج متعدّدة اللغات التي تتضمّن العربية في بيانات تدريبها غالباً ما يكون دون المستوى في السياقات الطبية بسبب نقص الموارد المتخصّصة والمعايير المرجعية المناسبة . إنّ معالجة هذه الفجوات أمرٌ ضروري لتحقيق الاستفادة الكاملة من النماذج اللغوية لصالح المرضى ومقدّمي الرعاية الناطقين بالعربية وضمان عدالة الوصول إلى تقنيات الذكاء الاصطناعي في الصحّة.
استجابةً لهذه التحديات، تبرز الحاجة إلى أُطر عملٍ لتقييم أداء النماذج اللغوية في المهام السريرية الخاصة بالمجتمعات الناطقة بالعربية. ومن خلال تطوير معايير تعكس التفاعلات السريرية الواقعية، يمكن ضمان نشرٍ أكثر موثوقيّة وملاءمةٍ ثقافية لهذه النماذج في أنظمة الرعاية الصحية مُتعدّدة اللغات. في هذه الدراسة، نقدّم عدّة مساهمات رئيسية عبر طرح MedArabiQ (انظر الشكل [fig:overview]). أولاً، طوّرنا سبع مجموعات بياناتٍ معيارية لتقييم النماذج في تطبيقات الرعاية الصحيّة العربية، مع مراعاة التعقيد اللغوي والتحدّيات التخصّصية. ركّزنا على مهام طبية حاسمة مثل الإجابة عن الأسئلة الطبية، والحوار السريري، واتخاذ القرار الأخلاقي. ثانياً، حلّلنا أداء النماذج متعدّدة اللغات والنماذج العربية، مع إبراز أثر التغطية اللغوية وشفافية بيانات التدريب على التطبيقات الصحية. وقد أجرينا تقييماً شاملاً يقدّم أساساً متيناً لتطوير حلول الذكاء الاصطناعي في المهام الطبية العربية.
نستعرض هنا تفاصيل الإطار المنهجي لبناء مجموعات البيانات وتقييم أحدث النماذج اللغوية الضخمة. يقدّم الشكل [fig:overview] نظرةً عامة على MedArabiQ.
لتطوير إطارٍ موثوق لتقييم النماذج اللغوية في تطبيقات الرعاية الصحيّة العربية، ركّزنا على الاستشارات الطبية عن بُعد والإجابة عن الأسئلة كحالات استخدامٍ رئيسية. تتطلّب هذه المهام ليس فقط القدرة على الاستدلال الطبي، بل أيضاً حواراً طبيعياً بين المريض والطبيب. يجب أن يُحاكي النموذجُ دورَ الطبيب قدر الإمكان، بما في ذلك امتلاك المعرفة الطبية وتوظيفها وفق احتياجات المرضى. ومع ذلك، ينبغي ألّا يؤدّي هذا التخصيص إلى تحيّزٍ أو تمييزٍ في إجابات النموذج بناءً على ملفّ المريض. في الواقع، يُفترض أن يُظهر النموذج مقاومةً للمحفّزات المتحيّزة، وأن يستجيب بعدالةٍ وموضوعيّة. استمددنا مجموعات البيانات من مصدرين رئيسيين: اختبارات سابقة وملاحظات من كليات طب عربية، ومجموعة بيانات AraMed . وقد اخترنا مصادر بياناتٍ يُستبعد بدرجةٍ كبيرة أن تكون قد استُخدمت ضمن مجموعات تدريب النماذج السابقة.
لتقييم الفهم الطبي للنماذج، أنشأنا مجموعةَ بياناتٍ معيارية من أزواج أسئلةٍ وأجوبة تغطّي موضوعاتٍ طبية أساسية ومتقدمة مثل علم وظائف الأعضاء (الفسيولوجيا)، والتشريح، وجراحة الأعصاب. جمعنا اختباراتٍ ورقية وملاحظات محاضرات من مستودع أكاديمي كبير تُديره منصّات طلابية في كليات الطب الإقليمية. لم تتضمّن البيانات أيّ معلوماتٍ تعريفية أو بياناتٍ حقيقية للمرضى، وبالتالي لم تكن هناك حاجةٌ لإخفاء الهوية. لم تكن هذه الاختبارات متاحةً بصيغٍ رقمية منظَّمة، ما تطلّب جهداً يدوياً كبيراً لضمان الدقة والوضوح. ونظراً لأن التعليم الطبي العربي غير مُرقمَن إلى حدّ كبير، فإنّ هذه الاختبارات ليست متاحةً للعامة بشكلٍ منظّم. وحتى إن وُجدت بعض الأسئلة بشكلٍ فردي على الإنترنت، فإنّ الجهد الكبير المطلوب لتجميعها وهيكلتها يُقلّل احتمال تلوّث البيانات. وقد جرى انتقاءُ الأسئلة لتعكس تدرّج الصعوبة عبر السنوات الأكاديمية، لضمان تقييم أداء النماذج على مستوياتٍ مختلفة من الخبرة الطبية. اخترنا عيّنةً عشوائية من 100 سؤال اختيارٍ من متعدّد، وقمنا برقمنتها والتحقّق منها يدوياً. ويتراوح متوسّط طول السؤال بين 15 و30 كلمة.
تماشياً مع الأعمال الحديثة ، قمنا بحقنِ التحيّز في مجموعة أسئلة الاختيار من متعدّد لتقييم كيفية تعامل النماذج مع السيناريوهات الأخلاقية أو الثقافية الحسّاسة. استخدمنا فئات تحيّز مُحدّدة مسبقاً مثل: (1) التحيّز التأكيدي، (2) تحيّز الحداثة، (3) تحيّز التكرار، (4) التحيّز الثقافي، (5) تحيّز الإجماع الزائف، (6) تحيّز الوضع القائم، و(7) تحيّز التشخيص الذاتي. ومن خلال الحقن اليدوي للانحياز، ضمِنّا ملاءمة الأسئلة للتحدّيات اللغوية والسريرية الفريدة في السياق العربي. نتج عن ذلك مجموعةُ بياناتٍ مؤلّفة من 100 عيّنة.
لتقييم استرجاع المعرفة والتعلّم في السياق، أنشأنا يدوياً أسئلةَ إكمالِ فراغ، كلٌّ منها مُصحوبٌ بمجموعةٍ من الخيارات المحدّدة مسبقاً. كان على النموذج اختيار الإجابة الأنسب من بين هذه الخيارات. يقيس هذا النهج قدرة النموذج على التعرف إلى الإجابة الصحيحة ضمن مجموعةٍ محصورة، ويُقلّل من الاعتماد على قدرات التوليد الحرّ. تتكوّن مجموعةُ البيانات من 100 عيّنة.
في هذا الإعداد، قُدِّمت أسئلةُ إكمال الفراغ من دون خياراتٍ مُسبقة، ما يتطلّب من النموذج توليدَ الإجابة بشكلٍ مستقل. يقيس هذا التقييم قدرة النموذج على استرجاع وتوليد المعرفة الطبية الدقيقة دون معلوماتٍ إضافية، مع التركيز على الاستدلال وقدرات التوليد اللغوي. تتكوّن مجموعةُ البيانات لهذه المهمة أيضاً من 100 عيّنة.
تُعدّ AraMed مجموعةَ بياناتٍ طبية عربية للإجابة عن الأسئلة، جُمعت أصلاً من منصّة "الطبي"، وهي منتدى إلكتروني للنقاشات الطبية بين المرضى والأطباء . تتكوّن المجموعة الأصلية من 400 زوج سؤالٍ وجواب، جميعها مصاغةٌ بالعربية الفصحى لضمان الاتساق. اخترنا يدوياً 100 عيّنة، مع إعطاء الأولوية للأسئلة ذات الصياغة الجيّدة والإجابات المفيدة، وتجنّبنا الحالات التي كانت الإجابات فيها عامّة جداً (مثل "استشر طبيباً" أو "راجِع أخصائياً")، مع الاحتفاظ ببعض الأمثلة لتعكس سلوك المستخدمين في الواقع.
حرصنا أيضاً على الحفاظ على التوزيع النسبي للفئات الطبية، خصوصاً في مجالات الصحّة الإنجابية والجنسية التي غالباً ما تكون ناقصة التمثيل في الأبحاث الطبية العربية رغم أهميتها. ونظراً لحساسية هذه الموضوعات، أدرجناها لتوفير تقييمٍ أكثر واقعية وتوازناً لقدرة النماذج على التعامل مع استفساراتٍ طبية متنوّعة. ولضمان توزيعٍ عادل، اخترنا 100 سؤال، وخصّصنا نسبةً متساوية لكلّ تخصّص: أمراض القلب، التوليد وأمراض النساء، الجراحة، طب الأطفال، الأعصاب، الأورام، الغدد الصمّاء، طب الأسنان، الأنف والأذن والحنجرة، الصحّة العامة، الأمراض الجلدية، الرعاية الأولية، أمراض الرئة، وعلم النفس.
أضفنا أيضاً معلوماتٍ عن المريض مثل العمر والجنس عند توافرها في السؤال. وإذا كانت هذه المعلومات غير معروفة أو غير منطقية (مثلاً عمرٌ غير واقعي)، جرى استبعادُها. أحياناً يَرِد السؤال من قريبٍ للمريض، فلا تتوافر معلوماتٌ عنه. عادةً ما تُذكَر هذه المعلومات في بداية السؤال أو بعد التحية، بصيغة "أنا رجل/امرأة وعمري [س] سنة". أضفى ذلك واقعيةً وتخصيصاً على السيناريوهات، مما يجعل المعيار أكثر ملاءمةً لتقييم أداء النماذج في الحالات الطبية الواقعية.
نظراً لاستخدام اللهجات في مجموعة أسئلة وأجوبة المرضى، أنشأنا نسخةً إضافيةً ذات جودةٍ لغوية أعلى. طَبَّقنا سلسلةَ تصحيحِ أخطاءٍ نحوية مُخصّصة للنصوص الطبية العربية. ونظراً لتعقيد العربية صرفياً ونحوياً، كان هذا الإجراء ضرورياً. استخدمنا cameltools، وهي مكتبةٌ مفتوحة المصدر لمعالجة اللغة العربية، لتفكيك الكلمات وإزالة التشكيل . ثم استخدمنا نموذج كشف الأخطاء النحوية (GED) القائم على BERT لكشف أخطاء التطابق والترتيب والصرف . وتم تصحيح الأخطاء تلقائياً باستخدام نموذج GEC مبنيّ على mBART، مُدرّب على مجموعات QALB-2015 وQALB-2014 وZAEBUC .
لتقليل احتمالية حفظ النماذج للأسئلة، خصوصاً أنّ بعضها قد يكون تدَرّب على بياناتٍ من "الطبي"، قمنا بتعديل مجموعة البيانات باستخدام نموذجٍ لغويٍّ ضخم لإعادة صياغة الأسئلة مع الحفاظ على معناها . استخدمنا GPT-4o لإعادة الصياغة عبر مُحفّز: "أنت مساعدٌ مُفيد تعيد صياغة النص مع الحفاظ على معناه." وقد ضمنت هذه الطريقة بقاء المفاهيم الطبية الأساسية مع تقليل الاعتماد على الحفظ.
باختصار، أنشأنا سبع مجموعات بياناتٍ جديدة انطلاقاً من مصدرين رئيسيين (AraMed واختباراتٍ طبية سابقة) عبر تحقّقٍ بشريٍّ مُكثّف لبناء معيار MedArabiQ.
tab:benchmark_results
غالباً ما تُواجِه المعايير المرجعية المُستخدمة لتقييم النماذج اللغوية تحدّي تلوّث البيانات، إذ إنّ العديد من النماذج الحديثة تدَرّبت على مجموعاتٍ ضخمة من الإنترنت قد تتضمّن أسئلةً من المعايير نفسها، مما يُؤدي إلى تضخيم نتائج الأداء وجعل التقييم غير عادل . إنّ معالجة هذه المشكلة ضرورية لضمان أن تعكس نتائج التقييم قدرات النماذج الحقيقية دون تحيّز ناتج عن التعرّض المُسبق للبيانات.
ولتقليل هذه المخاوف، صنّفنا النماذج إلى مجموعتين رئيسيتين: نماذج ذات بيانات تدريبٍ معروفة ونماذج ذات بيانات تدريبٍ غير معروفة. يسمح هذا التمييز بتقييم مخاطر التلوّث بشكلٍ أكثر موثوقية للنماذج ذات المصادر الموثّقة، مع الإقرار بصعوبة استبعاد التلوّث في النماذج غير الشفّافة.
بالإضافة إلى ذلك، صنّفنا النماذج حسب التغطية اللغوية: نماذج متعدّدة اللغات عموماً ونماذج تركّز على العربية. ورغم أنّ العديد من النماذج تتضمّن بياناتٍ من لغاتٍ عديدة، إلا أنّ التعرّض للغة لا يعني بالضرورة إتقانَها . على سبيل المثال، من المعروف أن GPT-4 تدَرّب على لغاتٍ متنوّعة . ومن خلال تقييم النماذج متعدّدة اللغات والنماذج العربية بشكلٍ منفصل، يمكننا تحديد أثر التغطية والتخصّص اللغوي على الأداء في المهام الطبية العربية. يوضّح الجدول [table:models] النماذج المختارة.
يتطلّب تقييم النماذج اللغوية في تطبيقات الرعاية الصحية العربية إطاراً شاملاً يُوازِن بين الأداء التقني والملاءمة الواقعية . يُقيّم إطارُنا الاستدلال الطبي، واتخاذ القرار، والإجابة الحوارية عن الأسئلة . وقد مُنِحت أسئلةُ الاختيار من متعدّد دقّةً بوصفها المقياس، بينما جرى تقييم الأسئلة المفتوحة مثل إكمال الفراغ وأسئلة المريض-الطبيب باستخدام BERTScore لقياس التقارب الدلالي .
لضمان إمكانيّة نشر النماذج اللغوية في الرعاية الصحيّة بشكلٍ فعّال، من الضروري معالجة احتمالية تكرارها لتحيّزاتٍ بشرية. ومن شبه المستحيل إزالة التحيّز تماماً من النماذج، إذ إنّ مجموعات البيانات المستخدمة في التدريب متأثرةٌ حكماً بالأحكام البشرية. إدراكاً لهذا التحدّي، طوّرنا إطار تقييمٍ منهجيّاً لقياس مقاومة النماذج للانحيازات المحقونة في أسئلة الاختيار من متعدّد، وقياس قابليتها للتأثّر، واختبار استراتيجيات الحدّ من التحيّز. يستند الإطار إلى منهجياتٍ حديثة مع تكييفها للسياق العربي الطبي، بما في ذلك فئات تحيّز ملائمة ثقافياً، ومُحفّزاتٍ مُصمّمة للسيناريوهات السريرية، ومقاييس تقييم إضافية.
أنشأنا إطاراً مُنظّماً لتقييم مقاومة النماذج للانحيازات المعرفية:
الاختبار الأساسي: تُقيَّم النماذج باستخدام مجموعة البيانات الأصلية غير المتحيّزة لتحديد خطّ الأساس للأداء.
اختبار التحيّز: تُختبَر النماذج مع نسخٍ مُتحيّزة من المُحفّزات، ونحسب التغيّر في الدقّة لقياس أثر التحيّز.
تقييم الحدّ من التحيّز: تُختبَر تقنيات الحدّ من التحيّز وتُقاس آثارُها على الدقّة، وتشمل:
التثقيف حول التحيّز: إضافة تحذيرات في المُحفّزات تُؤكّد الاستدلال القائم على الأدلة (مثلاً: "قيِّم كل مريضٍ على حدة دون الاعتماد على الاتجاهات أو الحالات الأخيرة").
مثالٌ واحد توضيحي: تقديم مثالٍ سلبي واحد يُظهر الاستدلال الخاطئ الناتج عن التحيّز.
عدّة أمثلة توضيحية: تقديم أمثلةٍ إيجابية وسلبية توضّح التعامل الصحيح والخاطئ مع التحيّز.
يوفّر هذا الإطار منهجيةً واضحة وقابلةً للتكرار لتقييم ومعالجة التحيّزات المعرفية في النماذج اللغوية، بما يضمن نشرَها في السياقات الصحية بشكلٍ فعّال وأخلاقي.
التقييم. استخدمنا أسلوب التحفيز الصفري (zero-shot) لجميع النماذج والمهام، مع ضبط "درجة الحرارة" بحسب طبيعة كلّ معيار بعد مرحلة اختبارٍ أولية. في النماذج المغلقة، ثُبِّتت درجة الحرارة عند 0.2 لجميع المهام. أمّا في النماذج مفتوحة المصدر، فحُدِّدت بـ 0 في المهام المُغلَقة لضمان إجاباتٍ حتمية، وبـ 0.4 في المهام المفتوحة. وفي تقييم BERTScore، استخدمنا نموذج XLM-RoBERTa-Large المدعوم بلغاتٍ متعددة ومنها العربية، مما يجعله أنسب من النماذج أحادية اللغة.
النماذج المضبوطة بالتعليمات. استخدمنا نسخاً مضبوطةً بالتعليمات من النماذج السابقة نظراً لقدرتها الأفضل على فهم وتنفيذ التعليمات الخاصة بالمهام. أمّا النسخ الأساسية فقد أظهرت قصوراً كبيراً في اتّباع المُحفّزات حتى مع تحسينها، وهو ما يتوافق مع الأدبيات التي تؤكّد أنّ ضبط التعليمات يُحسّن الأداء والالتزام بالمُحفّزات عبر المهام والأحجام المختلفة.
محفّزات التعليمات. تُعدّ هندسة المُحفّزات أمراً محورياً في تقييم النماذج. في تجاربنا، اختبرنا المُحفّزات بالإنجليزية والعربية، ووجدنا أنّ المُحفّزات الإنجليزية كانت أكثر فاعليةً عموماً، باستثناء مهام AraMed حيث تفوّقت المُحفّزات العربية في النماذج مفتوحة المصدر. بناءً على ذلك، استخدمنا المُحفّزات الإنجليزية لجميع المهام باستثناء أسئلة المريض-الطبيب، وتصحيح الأخطاء النحوية، وتعديلات النماذج. يوضح الجدول التكميلي [table:prompts] المُحفّزات المستخدمة.
معالجة الإجابات. في مهام الأسئلة والأجوبة، والأسئلة مع التحيّز، وإكمال الفراغ مع خيارات، تولّد النماذج كلاً من مؤشّر الخيار الصحيح والنصّ الكامل للإجابة. إلا أنّ بعض النماذج، خصوصاً مفتوحة المصدر، تُظهر تفاوتاً في التهجئة. ولضمان الدقّة، قمنا بتقييم أول حرفٍ بعد عبارة "الحرف الصحيح هو:" ومقارنته بالخيارات المتاحة. إذا لم يتطابق الحرف مع خيارٍ صحيح، تُعتبر الإجابة غير صالحة. وفي المهام المفتوحة، يُقيَّم النص الكامل الذي يولّده النموذج.
نعرض نتائج جميع التجارب على المعايير الستة في الجدول [table:results]. تُظهر النتائج أنه لا يوجد نموذجٌ واحد يتفوّق على جميع النماذج في كلّ المعايير. في المهام المُغلَقة (الاختيار من متعدّد وإكمال الفراغ مع/من دون خيارات)، تتفوّق النماذج المغلقة كما هو متوقّع. يحقّق Gemini 1.5 Pro أعلى دقّة في ثلاثٍ من أصل ست مهام، مع أداءٍ مماثل لـ Claude 3.5 Sonnet في إحداها. في أسئلة الاختيار من متعدّد وإكمال الفراغ مع خيارات، يتفوّق Gemini بدقّة 57.5 و72.7 على التوالي. أمّا في المهام المفتوحة (أسئلة المريض-الطبيب، التصحيح النحوي، وتعديلات النماذج)، فيتفوّق Qwen محققاً 85.2 في أسئلة المريض-الطبيب، بينما يُحقّق LLaMa أفضل نتيجة في التصحيح النحوي بـ 85.5. ومع ذلك، لا تتفوّق النماذج نفسها في جميع أنواع المهام، إذ إنّ Qwen وLLaMa أداؤهما ضعيف في المهام المُغلَقة.
يقارن الشكل [fig:results_overall] (أ) أداء النماذج مفتوحة المصدر والمبنية على واجهات برمجة التطبيقات عبر جميع المهام. يحقّق Gemini 1.5 Pro أعلى متوسّط أداء، يليه GPT-4 وClaude 3.5، مما يعزّز تفوّق النماذج المملوكة في مهام معالجة اللغة. وتُظهر النماذج مفتوحة المصدر مثل Llama 3.1 وQwen 2.5 أداءً تنافسياً لكن متغيّراً، مع تفوّق Qwen 2.5 بينها. وتُشير أشرطة الخطأ إلى أنّ النماذج المغلقة أكثر استقراراً، بينما تُظهر النماذج مفتوحة المصدر تبايناً أكبر بسبب اعتمادها على تدريبٍ عامّ بدلاً من ضبطٍ تخصّصي. وتؤكّد هذه النتائج تفوّق النماذج المملوكة حالياً، مع إمكان تحسين النماذج مفتوحة المصدر عبر الضبط التخصّصي.
يوضح الشكل [fig:results_overall] (ب) تباين الأداء حسب نوع المهمة، حيث تُحقّق النماذج المغلقة نتائج مرتفعة في جميع المعايير، خاصةً في مهام الأسئلة والأجوبة بما في ذلك التصحيح النحوي وتعديلات النماذج. ويشير ذلك إلى قدرةٍ قوية على التعامل مع الاستفسارات الطبية المعقّدة، وهو أمرٌ حاسم في التطبيقات الواقعية. ومع ذلك، تُظهر مهام إكمال الفراغ والاختيار من متعدّد تبايناً أكبر، مع تأخّر النماذج مفتوحة المصدر عن المغلقة. وتؤكّد هذه الفجوات الحاجة إلى ضبطٍ تخصّصي للنماذج مفتوحة المصدر لتحسين الدقّة في المهام المعرفية. يوضّح الشكل [fig:samples] أمثلةً من إجابات النماذج في المهام المُغلَقة والمفتوحة.
يستعرض الشكل [fig:bias] أثر التحيّز واستراتيجيات الحدّ منه على أداء النماذج. في الشكل (أ)، نقارن دقّة GPT-4o وGemini 1.5 Pro وClaude 3.5 Sonnet-20240620 في الأسئلة الأصلية مقابل الأسئلة المحقونة بالتحيّز عبر فئات التحيّز المختلفة. تُظهر النتائج انخفاضاً عاماً في الدقّة عند إدخال التحيّز، مع تباين الانخفاض حسب نوع التحيّز. يُظهر Gemini 1.5 Pro مقاومةً أعلى خاصةً في تحيّز الوضع القائم والإجماع الزائف، بينما يُظهر Claude 3.5 Sonnet انخفاضاً أكبر في تحيّز التشخيص الذاتي والتحيّز الثقافي. وفي الشكل (ب)، يتّضح تحسّن الدقّة مع استراتيجياتٍ مثل التحفيز بعدّة أمثلة مقارنةً بالأسئلة المُتحيّزة دون تدخّل. ويتفوّق Gemini 1.5 Pro باستمرارٍ في جميع الاستراتيجيات، مما يعزّز متانته في مواجهة التحيّز.
يعرض الشكل (ج) مخططاً رادارياً يُلخّص أداء النماذج عبر استراتيجيات الحدّ من التحيّز. يُظهر Gemini أداءً ثابتاً، بينما يُظهر GPT-4o وClaude 3.5 Sonnet تبايناً أكبر عبر الاستراتيجيات مثل التثقيف حول التحيّز والتحفيز بمثالٍ واحد. وتُؤكّد هذه النتائج أهمية استراتيجيات الحدّ من التحيّز في تعزيز موثوقيّة النماذج. ويمكن الاطّلاع على تفاصيل إضافية حول الأداء حسب فئة التحيّز والتخصّص الطبي في الأشكال [fig:bias accuracy1] و[fig:bias accuracy2] في الملحق.
تتّسق نتائجُنا مع أبحاثٍ سابقة في تقييم النماذج الطبية، حيث تتفوّق النماذج المغلقة في المهام المنظّمة بينما تتقارب النتائج في المهام التوليدية. أظهر أنّ النماذج المملوكة مثل GPT-4 وMed-PaLM 2 تتفوّق في مهام الاختيار من متعدّد واسترجاع الحقائق بفضل تدريبها على مجموعات بياناتٍ منظّمة ودمج المعرفة التخصّصية. كما وجد أنّ النماذج المملوكة تُحقّق دقّةً أعلى في مهام الأسئلة الطبية بعدّة لغات، مما يعزّز فكرة أنّ النماذج المغلقة أكثر رسوخاً في المعرفة الطبية. وتدعم نتائجُنا هذا الاتجاه، إذ يتصدّر Gemini 1.5 Pro وClaude 3.5 Sonnet في مهام الاختيار من متعدّد وإكمال الفراغ، ما يُشير إلى أنّ النماذج المبنية على واجهات برمجة التطبيقات أكثر ملاءمةً لدعم القرار السريري والمهام المنظّمة.
يوضح الشكل [fig:bias] أيضاً تباين أداء النماذج عند التعرّض للانحياز وفاعلية استراتيجيات الحدّ منه لأفضل ثلاثة نماذج (GPT-4o، Gemini 1.5 Pro، وClaude 3.5 Sonnet-20240620). جميع النماذج تشهد انخفاضاً في الدقّة عند إدخال التحيّز، مع تراجُعٍ أكبر في Claude 3.5 Sonnet عبر عدّة فئات. وأظهرت تقنيات الحدّ من التحيّز مثل التحفيز بعدّة أمثلة تحسّناً ملحوظاً، خصوصاً في Gemini 1.5 Pro الذي أظهر أكبر مقاومة. ومع ذلك، لا توجد استراتيجية واحدة فعّالة دائماً عبر جميع النماذج والفئات، مما يبرز تعقيد التحيّز في معالجة اللغة الطبية والحاجة إلى مزيدٍ من البحث.
في المهام التوليدية، لا تعكس مقاييس التقييم التلقائي مثل BERTScore الأداءَ الفعلي للنماذج بشكلٍ كامل. فرغم أنّ GPT-4 وClaude 3.5 يُنتجان إجاباتٍ ذات صلةٍ وسياقٍ دقيق كما هو موضّح في الشكل 3، فإنّ طول الإجابات يؤدي في الغالب إلى انخفاض BERTScore مقارنةً بالإجابات المرجعية. وأشار سابقاً إلى أنّ مقاييس مثل ROUGE وBERTScore تعجز عن تقييم النماذج الطبية بدقّة بسبب تعقيد التشخيصات وتعدّد الخيارات العلاجية. وتؤكّد نتائجُنا هذا القصور، إذ إنّ النماذج ذات BERTScore المنخفض قد تُنتِج إجاباتٍ عالية الجودة لكنها تُعاقَب على الإطناب لا على عدم الدقّة. ويبرز ذلك الحاجة إلى أساليب تقييمٍ أكثر دقّة، مثل التقييم البشري أو التقييم الحواري المُوجَّه بالمهام، لتعكس الاستخدام الواقعي في الاستشارات الطبية وتحدّ من هلوسة الحقائق.
نظراً لحساسية تطبيقات الرعاية الصحيّة، تُعدّ الاعتبارات الأخلاقية أساسيةً عند تطوير ونشر النماذج اللغوية الضخمة. وقد بُنِي معيار MedArabiQ بعناية من مصادر تعليمية عامة ومجهولة الهوية، مع الالتزام بمعايير الخصوصية عبر استبعاد أيّ معلوماتٍ تعريفية للمرضى. كما نُقِرّ بعدّة قضايا أخلاقية مرتبطةٍ بنشر النماذج في السياق السريري، مثل مخاطر المعلومات المُضلِّلة، وتضخيم التحيّزات (الثقافية، التأكيدية، أو تحيّز الوضع القائم)، ومحدودية تفسير النماذج. ولمعالجة هذه المخاطر، نؤكّد أهمية التحقّق الشامل عبر أُطرٍ هجينة تجمع بين التقييم التلقائي ومراجعة الخبراء. ونوصي بالمراقبة المستمرة، وإشراف الأطباء، ووضع إرشادات تشغيلية واضحة للحدّ من الأضرار والتحيّزات. ومن خلال توضيح هذه الاعتبارات، نهدف إلى تعزيز تبنّيٍ مسؤول وشفّاف للنماذج، والمساهمة في حلولٍ صحية أكثر أماناً وعدلاً.
رغم أنّ دراستنا تُقدّم تقييماً شاملاً للنماذج الطبية العربية، إلا أنّ هناك مجالاتٍ تستحقّ مزيداً من البحث. أولاً، هناك احتمال لتلوّث البيانات. ورغم أنّ اختبارات الطب السابقة لم تكن متاحةً رقمياً وتتطلّب جهداً كبيراً لرقمنتها وتنظيفها، لا يمكننا استبعاد التلوّث تماماً. ومع ذلك، يمكن لتحسين أداء النماذج أن يبرز أهمية المعايير المرجعية. وبالنسبة لـ AraMed، أجرينا تعديلاتٍ لاختبار الحفظ المحتمل نظراً لأنها مجموعة بياناتٍ عامة. وللتحقّق من صلاحية البيانات، أجرينا تقييماً أولياً بالتعاون مع طلاب طب لتقييم الحقائق والملاءمة والوضوح والتعقيد على مقياسٍ من 1 إلى 5. أظهرت النتائج (الملاءمة: 4.99، الحقائق: 4.97، الدقّة: 4.88، الوضوح: 4.89) موثوقيةً وفائدةً مبدئية. ويتطلّب تقييمٌ موسّع مستقبلاً مع توسيع نطاق المعيار.
اتباعاً للممارسات القياسية في معالجة اللغة الطبية، اعتمدنا على مجموعات بياناتٍ معيارية بدلاً من التفاعلات السريرية الحيّة لضمان القابلية للتكرار والامتثال الأخلاقي. وجديرٌ بالذكر أنّ مجموعة أسئلة المريض-الطبيب مُستمدّة من AraMed ، والتي تتضمّن استشاراتٍ حقيقية من منصّة "الطبي"، مما يضمن الواقعية. ورغم أنّ الاختبار السريري الحي قد يُوفّر رؤى إضافية، إلا أنه يواجه تحدّيات الخصوصية والتنظيم، خصوصاً في المنطقة العربية حيث تفرض لوائح مثل GDPR وHIPAA قيوداً صارمة على مشاركة بيانات المرضى . كما أنّ العديد من المؤسسات الصحية لا تزال تعتمد على السجلات الورقية ، مما يُصعّب جمع البيانات الحية على نطاقٍ واسع. ويمكن مستقبلاً استكشاف استراتيجياتٍ مُحافظة على الخصوصية لدمج التقييمات السريرية الواقعية بشكلٍ آمنٍ وأخلاقي.
من القيود الأخرى الحاجة إلى تقنياتٍ أكثر فاعلية للحدّ من التحيّز. ورغم تقييمنا لقابلية التحيّز عبر مهامّ متعددة، تؤكّد النتائج أنّ الاستراتيجيات الحالية لا تقضي عليه تماماً، خصوصاً في سياقات اتخاذ القرار السريري الحسّاسة . لذا ينبغي أن يركّز البحث المستقبلي على تطوير أساليب مُتخصّصة تُراعي العوامل اللغوية والثقافية الفريدة للغة العربية الطبية.
ركّزنا في هذه الدراسة على تقييم الأداء الصفري (zero-shot)، لتقديم تقييمٍ غير مُتحيّز لقدرة النماذج على المهام الطبية العربية دون ضبطٍ مُسبق . ورغم أنّ ذلك يوفّر خطَّ أساسٍ قويّاً، يمكن مستقبلاً استكشافُ ضبطِ النماذج على مجموعات بياناتٍ طبية عربية لتحسين الفهم التخصّصي. ويتطلّب ذلك مراعاة توافر البيانات، وتكاليف الحوسبة، ومخاطر فقدان التعميم.
علاوةً على ذلك، اعتمدت معاييرُنا على العربية الفصحى لضمان الاتساق، غير أنّ ذلك لا يعكس التنوع اللهجي المُستخدَم في التفاعلات الواقعية. ويمكن مستقبلاً دمج بياناتٍ لهجية لتعزيز قدرة النماذج على التكيّف مع السياقات الصحية العربية المتنوّعة. كما أنّ الدراسة تركّز على النصوص فقط، ويمكن توسيع المعايير لدعم الذكاء الاصطناعي متعدّد الوسائط مثل الصور الطبية ونتائج المختبرات.
نخطّط مستقبلاً لتوسيع MedArabiQ من حيث العمق والتخصّص، عبر تغطية مجالاتٍ سريرية إضافية مثل الصحّة النفسية، والأمراض المُعدية، والأمراض المزمنة، بالتعاون مع أطباء وخبراء لضمان ملاءمة الأسئلة للمعايير السريرية الحديثة. وسنُصنّف الأسئلة حسب نوع الاستدلال السريري، ونُقيّم تعقيدها، ونُجري تقييماتٍ لاتساق المُقيّمين. سيُعزّز هذا التوسّع شمولية وموثوقية المعيار، ويدعم ضبط النماذج العربية ومتعدّدة اللغات، مما ينعكس إيجاباً على الرعاية الصحيّة للناطقين بالعربية.
في هذا العمل، قدّمنا أول معيارٍ مُنظَّم لتقييم النماذج اللغوية في الرعاية الصحيّة العربية، لمعالجة فجوةٍ كبيرة في معالجة اللغة الطبية بالعربية. يتكوّن معيارُنا من 700 عيّنةٍ سريريةٍ متنوّعة، تغطّي التقييمات المعرفية المنظّمة والتفاعلات الواقعية بين المريض والطبيب. ويتجاوز معيارُنا حدود الرعاية الصحية العربية، إذ يضع أساساً لتطوير معايير بلغاتٍ طبية أخرى غير مخدومة، مما يُسهم في تطوير تطبيقات الذكاء الاصطناعي الطبية عالمياً.
تكشف نتائجُنا عن قيودٍ حرِجة في النماذج الحالية، مثل هلوسة الحقائق في المهام المفتوحة وقابلية التحيّز في اتخاذ القرار السريري، مما يعزّز الحاجة إلى استراتيجياتٍ فعّالة للحدّ من التحيّز. وينبغي أن يستكشف العملُ المستقبلي ضبط النماذج على بياناتٍ طبية عربية، وتوسيع المعايير لتشمل التنوع اللهجي، وتطوير استراتيجياتٍ متخصّصة للحدّ من التحيّز في السياق الطبي العربي. ومن خلال إتاحة معاييرنا، نهدف إلى دعم البحث في معالجة اللغة الطبية العربية، وتوفير أساسٍ لحلولٍ صحيةٍ موثوقةٍ وعادلةٍ وفعّالة مدعومةٍ بالذكاء الاصطناعي.
يُلخّص الجدول [table:datasets] مجموعات البيانات المستخدمة في التقييم، مع توضيح المصدر ومحتوى كلّ مجموعة.
tab:datasets
تم تصنيف النماذج في الجدول [table:models] بناءً على شفافية بيانات التدريب، مما يؤثّر في احتمال تلوّث التقييم، وعلى التغطية اللغوية التي تؤثّر في الأداء في العربية.
tab:model_summary
تلعب هندسة المُحفّزات دوراً محورياً في استجابة النموذج. استخدمنا المُحفّز نفسه لكل نموذج، مع تخصيصه حسب فئة المهمة كما هو موضّح في الجدول [table:prompts]. وقد كان ذلك ضرورياً لضمان واقعية المُحفّزات وملاءمتها لحالات الاستخدام المختلفة.
tab:task_prompts
يقارن الجدول [table:bias] أداء النماذج في أسئلة الاختيار من متعدّد والأسئلة المحقونة بالتحيّز، مع استراتيجيات الحدّ من التحيّز مثل التثقيف، المثال الواحد، وعدّة أمثلة. عموماً، تنخفض الدقّة مع التحيّز وتتحسّن مع استراتيجيات الحدّ منه. وبشكلٍ خاص، أدّى التثقيف إلى انخفاض الدقّة، بينما حسّنت استراتيجيتا المثال الواحد وعدّة أمثلة الأداء في جميع النماذج، مع أكبر تحسّنٍ في Claude 3.5 Sonnet عند استخدام المثال الواحد.
tab:bias_evaluation_results
يجمع الشكل [fig:bias accuracy1] أداءَ النماذج حسب فئة التحيّز للأسئلة من دون تحيّز، ومع التحيّز، ومع الحدّ من التحيّز. وقد أظهرت الأسئلةُ المحقونة بالتحيّز التأكيدي والإجماع الزائف أكبر تحسّنٍ مع استراتيجيات الحدّ، خصوصاً المثال الواحد وعدّة أمثلة. وكان التثقيف أقلّ فاعلية، وأحياناً أدّى لانخفاض الدقّة. وكانت الأسئلة ذات التحيّز الثقافي أكثر مقاومةً للاستراتيجيات، مع تحسّنٍ طفيف أو معدوم. ولم يتحسّن أيّ نموذجٍ باستمرارٍ مع الحدّ من التحيّز عبر جميع الفئات.
يمكن تصنيف الأسئلة حسب التخصّص الطبي عند دراسة الأداء مع التحيّز واستراتيجيات الحدّ منه، كما في الشكل [fig:bias accuracy2]. وأحياناً حسّنت استراتيجيتا المثال الواحد وعدّة أمثلة الأداء، لكن ليس دائماً. وغالباً ما أدّى التثقيف إلى انخفاض الدقّة أو عدم التغيير. ولم تكن التحسينات في الدقّة متسقة. وكان أبرز تحسّنٍ في تخصّص الأورام على Gemini عند استخدام عدّة أمثلة.