نوفمبر 2024
النماذج اللغوية الضخمة (LLMs) أظهرت إمكانات كبيرة في تطبيقات الرعاية الصحية المتنوعة. إلا أن فعاليتها في المجال الطبي العربي لا تزال غير مستكشفة بشكل كافٍ بسبب نقص مجموعات البيانات المتخصصة عالية الجودة والمعايير المرجعية المناسبة. في هذه الدراسة، نقدم MedArabiQ، وهو معيار مرجعي جديد يتكون من سبع مهام طبية باللغة العربية، تغطي تخصصات متعددة وتشمل أسئلة اختيار من متعدد، وأسئلة إكمال الفراغ، وأسئلة تفاعلية بين المريض والطبيب. قمنا أولاً ببناء مجموعة البيانات بالاعتماد على اختبارات طبية سابقة ومصادر بيانات عامة متاحة. ثم أجرينا تعديلات مختلفة لتقييم قدرات النماذج اللغوية، بما في ذلك تقنيات الحد من التحيز. أجرينا تقييماً شاملاً باستخدام خمسة من أحدث النماذج اللغوية مفتوحة المصدر والمملوكة، من ضمنها GPT-4o وClaude 3.5-Sonnet وGemini 1.5. تؤكد نتائجنا على الحاجة إلى تطوير معايير مرجعية جديدة عالية الجودة تغطي لغات متعددة لضمان عدالة نشر وتوسيع استخدام النماذج اللغوية في الرعاية الصحية. من خلال إنشاء هذا المعيار وإتاحة مجموعة البيانات، نوفر أساساً للبحوث المستقبلية الهادفة إلى تقييم وتعزيز القدرات متعددة اللغات للنماذج اللغوية من أجل استخدام عادل للذكاء الاصطناعي التوليدي في القطاع الصحي.
في هذا العمل، نقدم مجموعة بيانات معيارية جديدة باسم MedArabiQ ونقيّم أداء أحدث النماذج اللغوية الضخمة. نوفر بياناتنا لضمان إمكانية إعادة التجارب وتحقيق تقييم عادل للنماذج مستقبلاً: https://github.com/nyuad-cai/MedArabiQ
هذه الدراسة لا تتضمن مشاركين من البشر، وبالتالي لم تكن هناك حاجة للحصول على موافقة لجنة الأخلاقيات.
شهدت السنوات الأخيرة ثورة في معالجة اللغة الطبيعية بفضل ظهور النماذج اللغوية الضخمة (LLMs)، حيث أظهرت أداءً استثنائياً في العديد من المهام مثل الترجمة والكتابة الإبداعية . ورغم أن هذه النماذج صُممت في البداية لفهم اللغة بشكل عام، فقد تم تقييمها لاحقاً في تطبيقات متخصصة مثل التعليم والبرمجة والفنون والطب، كما تم تكييفها لمهام تخصصية عبر استراتيجيات ضبط دقيقة ومجموعات بيانات متخصصة .
أثار استخدام النماذج اللغوية الضخمة في الرعاية الصحية اهتماماً واسعاً نظراً لإمكاناتها في تحسين عمليات التشخيص واتخاذ القرار السريري وجودة رعاية المرضى . من التطبيقات البارزة أيضاً التعليم الطبي، حيث يمكن لهذه النماذج توليد ملخصات دقيقة ودعم التعلم التفاعلي . ولهذا الغرض، تم اقتراح معايير مرجعية لتقييم قدرات النماذج في المعرفة الطبية والاستدلال. ومع ذلك، لا تزال هناك تحديات مثل القضايا الأخلاقية، ومخاطر إنتاج محتوى متحيز أو ضار، وتفاوت الأداء بين اللغات والسياقات الثقافية .
تستهدف المعايير المرجعية الحالية مثل GLUE وMedQA اللغة الإنجليزية بالدرجة الأولى، مما يترك فجوة كبيرة في تقييم النماذج اللغوية للمهام الطبية العربية . ويعود ذلك إلى عدة أسباب، منها قلة توفر مجموعات بيانات عربية عالية الجودة للتطبيقات السريرية، بالإضافة إلى التعقيد اللغوي للغة العربية وتعدد لهجاتها (الخليج، المغرب العربي، مصر، الشام، وغيرها) إلى جانب العربية الفصحى . كما أن أداء النماذج متعددة اللغات التي تتضمن العربية في بيانات تدريبها غالباً ما يكون دون المستوى في السياقات الطبية بسبب نقص الموارد المتخصصة والمعايير المرجعية المناسبة . معالجة هذه الفجوات أمر ضروري لتحقيق الاستفادة الكاملة من النماذج اللغوية لصالح المرضى ومقدمي الرعاية الناطقين بالعربية وضمان عدالة الوصول إلى تقنيات الذكاء الاصطناعي في الصحة.
استجابة لهذه التحديات، تبرز الحاجة إلى أطر عمل لتقييم أداء النماذج اللغوية في المهام السريرية الخاصة بالمجتمعات الناطقة بالعربية. من خلال تطوير معايير تعكس التفاعلات السريرية الواقعية، يمكن ضمان نشر أكثر موثوقية وملاءمة ثقافية للنماذج في أنظمة الرعاية الصحية متعددة اللغات. في هذه الدراسة، نقدم عدة مساهمات رئيسية من خلال تقديم MedArabiQ (انظر الشكل [fig:overview]). أولاً، طورنا سبع مجموعات بيانات معيارية لتقييم النماذج في تطبيقات الرعاية الصحية العربية، مع مراعاة التعقيد اللغوي والتحديات التخصصية. ركزنا على مهام طبية حاسمة مثل الإجابة على الأسئلة الطبية، والحوار السريري، واتخاذ القرار الأخلاقي. ثانياً، قمنا بتحليل أداء النماذج متعددة اللغات والنماذج العربية، مع إبراز أثر التغطية اللغوية وشفافية بيانات التدريب على التطبيقات الصحية. أجرينا تقييماً شاملاً لتقديم أساس متين لتطوير حلول الذكاء الاصطناعي في المهام الطبية العربية.
نستعرض هنا تفاصيل الإطار المنهجي لبناء مجموعات البيانات وتقييم أحدث النماذج اللغوية الضخمة. يقدم الشكل [fig:overview] نظرة عامة على MedArabiQ.
لتطوير إطار موثوق لتقييم النماذج اللغوية في تطبيقات الرعاية الصحية العربية، ركزنا على الاستشارات الطبية عن بعد والإجابة على الأسئلة كحالات استخدام رئيسية. تتطلب هذه المهام ليس فقط القدرة على الاستدلال الطبي، بل أيضاً الحوار الطبيعي بين المريض والطبيب. يجب أن يحاكي النموذج دور الطبيب قدر الإمكان، بما في ذلك امتلاك المعرفة الطبية وتوظيفها بشكل مخصص حسب احتياجات المرضى. ومع ذلك، يجب ألا يؤدي التخصيص إلى تحيز أو تمييز في إجابات النموذج بناءً على ملف المريض. في الواقع، ينبغي أن يظهر النموذج مقاومة للمحفزات المتحيزة، ويستجيب بعدالة وموضوعية. استمددنا مجموعات البيانات من مصدرين رئيسيين: اختبارات سابقة وملاحظات من كليات الطب العربية، ومجموعة بيانات AraMed . اخترنا مصادر بيانات من غير المرجح أن تكون مدرجة في مجموعات تدريب النماذج السابقة.
لتقييم الفهم الطبي للنماذج، أنشأنا مجموعة بيانات معيارية من أزواج أسئلة وأجوبة تغطي مواضيع طبية أساسية ومتقدمة مثل الفسيولوجيا، التشريح، وجراحة الأعصاب. جمعنا اختبارات ورقية وملاحظات محاضرات من مستودع أكاديمي كبير تديره منصات طلابية في كليات الطب الإقليمية. لم تتضمن البيانات أي معلومات تعريفية أو بيانات مرضى حقيقية، وبالتالي لم تكن هناك حاجة لإخفاء الهوية. لم تكن هذه الاختبارات متاحة بصيغ رقمية منظمة، مما تطلب جهداً يدوياً كبيراً لضمان الدقة والوضوح. ونظراً لأن التعليم الطبي العربي غير رقمي إلى حد كبير، فإن هذه الاختبارات ليست متاحة للعامة بشكل منظم. حتى إن وُجدت بعض الأسئلة بشكل فردي على الإنترنت، فإن الجهد الكبير المطلوب لتجميعها وهيكلتها يقلل من احتمال تلوث البيانات. تم اختيار الأسئلة لتعكس تدرج الصعوبة عبر السنوات الأكاديمية، لضمان تقييم أداء النماذج على مستويات مختلفة من الخبرة الطبية. اخترنا عينة عشوائية من 100 سؤال اختيار من متعدد، وقمنا برقمنتها والتحقق منها يدوياً. متوسط طول السؤال يتراوح بين 15 و30 كلمة.
تماشياً مع الأعمال الحديثة ، قمنا بحقن التحيز في مجموعة أسئلة الاختيار من متعدد لتقييم كيفية تعامل النماذج مع السيناريوهات الأخلاقية أو الثقافية الحساسة. استخدمنا فئات تحيز محددة مسبقاً مثل: (1) التحيز التأكيدي، (2) تحيز الحداثة، (3) تحيز التكرار، (4) التحيز الثقافي، (5) تحيز الإجماع الزائف، (6) تحيز الوضع القائم، و(7) تحيز التشخيص الذاتي. من خلال الحقن اليدوي للانحياز، ضمنا ملاءمة الأسئلة للتحديات اللغوية والسريرية الفريدة في السياق العربي. نتج عن ذلك مجموعة بيانات مكونة من 100 عينة.
لتقييم استرجاع المعرفة والتعلم في السياق، أنشأنا يدوياً أسئلة إكمال الفراغ، كل منها مصحوب بمجموعة من الخيارات المحددة مسبقاً. كان على النموذج اختيار الإجابة الأنسب من بين الخيارات. يقيس هذا النهج قدرة النموذج على التعرف على الإجابة الصحيحة ضمن مجموعة محددة، ويقلل من الاعتماد على قدرات التوليد الحرة. تتكون مجموعة البيانات من 100 عينة.
في هذا الإعداد، تم تقديم أسئلة إكمال الفراغ بدون خيارات محددة، مما يتطلب من النموذج توليد الإجابة بشكل مستقل. يقيس هذا التقييم قدرة النموذج على استرجاع وتوليد المعرفة الطبية الدقيقة دون معلومات إضافية، مع التركيز على الاستدلال وقدرات التوليد اللغوي. تتكون مجموعة البيانات لهذه المهمة أيضاً من 100 عينة.
تعد AraMed مجموعة بيانات طبية عربية للإجابة على الأسئلة، تم جمعها أصلاً من منصة الطبي، وهي منتدى إلكتروني للنقاشات الطبية بين المرضى والأطباء . تتكون المجموعة الأصلية من 400 زوج سؤال وجواب، جميعها مصاغة بالعربية الفصحى لضمان الاتساق. اخترنا يدوياً 100 عينة، مع إعطاء الأولوية للأسئلة ذات الصياغة الجيدة والإجابات المفيدة، وتجنبنا الحالات التي كانت الإجابات فيها عامة جداً (مثل "استشر طبيباً" أو "راجع أخصائياً")، مع الاحتفاظ ببعض الأمثلة لتعكس سلوك المستخدمين في الواقع.
حافظنا أيضاً على التوزيع النسبي للفئات الطبية، خاصة في مجالات الصحة الإنجابية والجنسية، والتي غالباً ما تكون ناقصة التمثيل في الأبحاث الطبية العربية رغم أهميتها. ونظراً لحساسية هذه المواضيع، حرصنا على تضمينها لتوفير تقييم أكثر واقعية وتوازناً لقدرة النماذج على التعامل مع استفسارات طبية متنوعة. لضمان التوزيع العادل، اخترنا 100 سؤال، وخصصنا نسبة متساوية لكل تخصص: أمراض القلب، التوليد وأمراض النساء، الجراحة، طب الأطفال، الأعصاب، الأورام، الغدد الصماء، طب الأسنان، الأنف والأذن والحنجرة، الصحة العامة، الأمراض الجلدية، الرعاية الأولية، أمراض الرئة، وعلم النفس.
قمنا أيضاً بإضافة معلومات عن المريض مثل العمر والجنس عند توفرها في السؤال. إذا كانت هذه المعلومات غير معروفة أو غير منطقية (مثلاً عمر غير واقعي)، تم استبعادها. أحياناً كان السؤال يرد من قريب للمريض، فلا تتوفر معلومات عنه. عادةً ما تضاف هذه المعلومات في بداية السؤال أو بعد التحية، بصيغة "أنا رجل/امرأة وعمري [س] سنة". أضفى ذلك واقعية وتخصيصاً على السيناريوهات، مما يجعل المعيار أكثر ملاءمة لتقييم أداء النماذج في الحالات الطبية الواقعية.
نظراً لاستخدام اللهجات في مجموعة أسئلة وأجوبة المرضى، أنشأنا نسخة إضافية ذات جودة لغوية أعلى. طبقنا سلسلة تصحيح أخطاء نحوية مخصصة للنصوص الطبية العربية. نظراً لتعقيد العربية صرفياً ونحوياً، كان هذا الإجراء ضرورياً. استخدمنا cameltools، وهي مكتبة مفتوحة المصدر لمعالجة اللغة العربية، لتفكيك الكلمات وإزالة التشكيل . ثم استخدمنا نموذج GED قائم على BERT لاكتشاف أخطاء الاتفاق والترتيب والصرف . تم تصحيح الأخطاء تلقائياً باستخدام نموذج GEC مبني على mBART، مدرب على مجموعات QALB-2015 وQALB-2014 وZAEBUC .
لتقليل احتمالية حفظ النماذج للأسئلة، خاصة أن بعضها قد يكون تدرب على بيانات من الطبي، قمنا بتعديل مجموعة البيانات باستخدام نموذج لغوي ضخم لإعادة صياغة الأسئلة مع الحفاظ على معناها . استخدمنا GPT-4o لإعادة صياغة الأسئلة عبر محفز: "أنت مساعد مفيد تعيد صياغة النص مع الحفاظ على معناه." ضمنت هذه الطريقة بقاء المفاهيم الطبية الأساسية مع تقليل الاعتماد على الحفظ.
باختصار، أنشأنا سبع مجموعات بيانات جديدة باستخدام مصدرين رئيسيين (AraMed واختبارات طبية سابقة) عبر تحقق يدوي مكثف لبناء معيار MedArabiQ.
tab:benchmark_results
غالباً ما تواجه المعايير المرجعية المستخدمة لتقييم النماذج اللغوية تحدي تلوث البيانات، إذ أن العديد من النماذج الحديثة تدربت على مجموعات ضخمة من الإنترنت قد تتضمن أسئلة من المعايير نفسها، مما يؤدي إلى تضخيم نتائج الأداء وجعل التقييم غير عادل . معالجة هذه المشكلة ضروري لضمان أن نتائج التقييم تعكس القدرات الحقيقية للنماذج دون تحيز ناتج عن التعرض المسبق للبيانات.
لتقليل هذه المخاوف، صنفنا النماذج إلى مجموعتين رئيسيتين: نماذج ذات بيانات تدريب معروفة ونماذج ذات بيانات تدريب غير معروفة. يسمح هذا التمييز بتقييم مخاطر التلوث بشكل أكثر موثوقية للنماذج ذات المصادر الموثقة، مع الاعتراف بأن النماذج غير الشفافة قد يصعب استبعاد تلوثها.
بالإضافة إلى ذلك، صنفنا النماذج حسب التغطية اللغوية: نماذج متعددة اللغات بشكل عام ونماذج تركز على العربية. رغم أن العديد من النماذج تتضمن بيانات من لغات عديدة، إلا أن التعرض للغة لا يعني بالضرورة إتقانها . على سبيل المثال، من المعروف أن GPT-4 تدرب على لغات متنوعة . من خلال تقييم النماذج متعددة اللغات والنماذج العربية بشكل منفصل، يمكننا تحديد أثر التغطية والتخصص اللغوي على الأداء في المهام الطبية العربية. يوضح الجدول [table:models] النماذج المختارة.
يتطلب تقييم النماذج اللغوية في تطبيقات الرعاية الصحية العربية إطاراً شاملاً يوازن بين الأداء التقني والملاءمة الواقعية . يقيم إطارنا الاستدلال الطبي، اتخاذ القرار، والإجابة الحوارية على الأسئلة . تم تقييم أسئلة الاختيار من متعدد بناءً على الدقة، بينما تم تقييم الأسئلة المفتوحة مثل إكمال الفراغ وأسئلة المريض-الطبيب باستخدام BERTScore لقياس التقارب الدلالي .
لضمان إمكانية نشر النماذج اللغوية في الرعاية الصحية بشكل فعال، من الضروري معالجة احتمالية تكرارها لتحيزات بشرية. من المستحيل تقريباً إزالة التحيز تماماً من النماذج، إذ أن مجموعات البيانات المستخدمة في التدريب تتأثر حكماً بالأحكام البشرية. إدراكاً لهذا التحدي، طورنا إطار تقييم منهجي لقياس مقاومة النماذج للانحيازات المحقونة في أسئلة الاختيار من متعدد، وقياس القابلية للتأثر، واختبار استراتيجيات الحد من التحيز. يستند الإطار إلى منهجيات حديثة مع تكييفها للسياق العربي الطبي، بما في ذلك فئات تحيز ملائمة ثقافياً، ومحفزات مصممة للسيناريوهات السريرية، ومقاييس تقييم إضافية.
أنشأنا إطاراً منهجياً لتقييم مقاومة النماذج للانحيازات المعرفية:
الاختبار الأساسي: يتم تقييم النماذج باستخدام مجموعة البيانات الأصلية غير المتحيزة لتحديد خط الأساس للأداء.
اختبار التحيز: يتم اختبار النماذج مع نسخ متحيزة من المحفزات، ونحسب التغير في الدقة لقياس أثر التحيز.
تقييم الحد من التحيز: يتم اختبار تقنيات الحد من التحيز وقياس أثرها على الدقة، وتشمل:
التثقيف حول التحيز: إضافة تحذيرات في المحفزات تؤكد على الاستدلال القائم على الأدلة (مثلاً: "قيّم كل مريض بشكل فردي دون الاعتماد على الاتجاهات أو الحالات الأخيرة").
مثال واحد توضيحي: تقديم مثال سلبي واحد يوضح الاستدلال الخاطئ الناتج عن التحيز.
عدة أمثلة توضيحية: تقديم أمثلة إيجابية وسلبية توضح التعامل الصحيح والخاطئ مع التحيز.
يوفر هذا الإطار منهجية منهجية وقابلة للتكرار لتقييم ومعالجة التحيزات المعرفية في النماذج اللغوية، لضمان نشرها في السياقات الصحية بشكل فعال وأخلاقي.
التقييم. استخدمنا أسلوب التحفيز الصفري (zero-shot) لجميع النماذج والمهام، مع ضبط درجة الحرارة حسب طبيعة كل معيار بعد مرحلة اختبار أولية. في النماذج المغلقة، تم تعيين درجة الحرارة إلى 0.2 لجميع المهام. في النماذج مفتوحة المصدر، تم تعيينها إلى 0 في المهام المغلقة لضمان إجابات حتمية، و0.4 في المهام المفتوحة. في تقييم BERTScore، استخدمنا نموذج XLM-RoBERTa-Large المدرب على لغات متعددة منها العربية، مما يجعله أكثر ملاءمة من النماذج أحادية اللغة.
النماذج المضبوطة بالتعليمات. استخدمنا نسخاً مضبوطة بالتعليمات من النماذج السابقة نظراً لقدرتها الأفضل على فهم وتنفيذ التعليمات الخاصة بالمهام. أما النسخ الأساسية فقد أظهرت قصوراً كبيراً في اتباع المحفزات حتى مع تحسينها، وهو ما يتفق مع الأدبيات التي تؤكد أن ضبط التعليمات يحسن الأداء والالتزام بالمحفزات عبر المهام والأحجام المختلفة.
محفزات التعليمات. يعد هندسة المحفزات أمراً محورياً في تقييم النماذج. في تجاربنا، اختبرنا المحفزات بالإنجليزية والعربية، ووجدنا أن المحفزات الإنجليزية كانت أكثر فعالية عموماً، باستثناء مهام AraMed حيث تفوقت المحفزات العربية في النماذج مفتوحة المصدر. بناءً على ذلك، استخدمنا المحفزات الإنجليزية لجميع المهام باستثناء أسئلة المريض-الطبيب، وتصحيح الأخطاء النحوية، وتعديلات النماذج. يوضح الجدول التكميلي [table:prompts] المحفزات المستخدمة.
معالجة الإجابات. في مهام الأسئلة والإجابات، والأسئلة مع التحيز، وإكمال الفراغ مع خيارات، تولد النماذج كل من مؤشر الخيار الصحيح والنص الكامل للإجابة. إلا أن بعض النماذج، خاصة مفتوحة المصدر، تظهر تبايناً في التهجئة. لضمان الدقة، قمنا بتقييم أول حرف بعد عبارة "الحرف الصحيح هو:" ومقارنته بالخيارات المتاحة. إذا لم يتطابق الحرف مع خيار صحيح، تعتبر الإجابة غير صالحة. في المهام المفتوحة، يتم تقييم الإجابة الكاملة التي يولدها النموذج.
نستعرض نتائج جميع التجارب على المعايير الستة في الجدول [table:results]. تظهر النتائج أنه لا يوجد نموذج واحد يتفوق على جميع النماذج في جميع المعايير. في المهام المغلقة (الاختيار من متعدد وإكمال الفراغ مع وبدون خيارات)، تتفوق النماذج المغلقة كما هو متوقع. يحقق Gemini 1.5 Pro أعلى دقة في ثلاث من أصل ست مهام، مع أداء مماثل لـ Claude 3.5 Sonnet في إحداها. في أسئلة الاختيار من متعدد وإكمال الفراغ مع خيارات، يتفوق Gemini بدقة 57.5 و72.7 على التوالي. أما في المهام المفتوحة (أسئلة المريض-الطبيب، التصحيح النحوي، وتعديلات النماذج)، فيتفوق Qwen محققاً 85.2 في أسئلة المريض-الطبيب، بينما يحقق LLaMa أفضل نتيجة في التصحيح النحوي بـ 85.5. ومع ذلك، لا تتفوق النماذج نفسها في جميع أنواع المهام، إذ أن Qwen وLLaMa أداؤهما ضعيف في المهام المغلقة.
يقارن الشكل [fig:results_overall] (أ) أداء النماذج مفتوحة المصدر والمبنية على واجهات برمجة التطبيقات عبر جميع المهام. يحقق Gemini 1.5 Pro أعلى متوسط أداء، يليه GPT-4 وClaude 3.5، مما يعزز تفوق النماذج المملوكة في مهام معالجة اللغة. تظهر النماذج مفتوحة المصدر مثل Llama 3.1 وQwen 2.5 أداءً تنافسياً لكن متغيراً، مع تفوق Qwen 2.5 بينها. تشير أشرطة الخطأ إلى أن النماذج المغلقة أكثر استقراراً، بينما تظهر النماذج مفتوحة المصدر تبايناً أكبر بسبب اعتمادها على تدريب عام بدلاً من ضبط تخصصي. تؤكد هذه النتائج تفوق النماذج المملوكة حالياً، مع إمكانية تحسين النماذج مفتوحة المصدر عبر ضبط تخصصي.
يوضح الشكل [fig:results_overall] (ب) تباين الأداء حسب نوع المهمة، حيث تحقق النماذج المغلقة نتائج عالية في جميع المعايير، خاصة في مهام الأسئلة والأجوبة بما في ذلك التصحيح النحوي وتعديلات النماذج. يشير ذلك إلى قدرة قوية على التعامل مع الاستفسارات الطبية المعقدة، وهو أمر حاسم في التطبيقات الواقعية. ومع ذلك، تظهر مهام إكمال الفراغ والاختيار من متعدد تبايناً أكبر، مع تأخر النماذج مفتوحة المصدر عن المغلقة. تؤكد هذه الفجوات الحاجة إلى ضبط تخصصي للنماذج مفتوحة المصدر لتحسين الدقة في المهام المعرفية. يوضح الشكل [fig:samples] أمثلة من إجابات النماذج في المهام المغلقة والمفتوحة.
يستعرض الشكل [fig:bias] أثر التحيز واستراتيجيات الحد منه على أداء النماذج. في الشكل (أ)، نقارن دقة GPT-4o وGemini 1.5 Pro وClaude 3.5 Sonnet-20240620 في الأسئلة الأصلية مقابل الأسئلة المحقونة بالتحيز عبر فئات التحيز المختلفة. تظهر النتائج انخفاضاً عاماً في الدقة عند إدخال التحيز، مع تفاوت الانخفاض حسب نوع التحيز. يظهر Gemini 1.5 Pro مقاومة أعلى خاصة في تحيز الوضع القائم والإجماع الزائف، بينما يظهر Claude 3.5 Sonnet انخفاضاً أكبر في تحيز التشخيص الذاتي والتحيز الثقافي. في الشكل (ب)، يتضح تحسن الدقة مع استراتيجيات مثل التحفيز بعدة أمثلة مقارنة بالأسئلة المتحيزة دون تدخل. يتفوق Gemini 1.5 Pro باستمرار في جميع الاستراتيجيات، مما يعزز متانته في مواجهة التحيز.
يعرض الشكل (ج) مخطط راداري يلخص أداء النماذج عبر استراتيجيات الحد من التحيز. يظهر Gemini أداءً ثابتاً، بينما يظهر GPT-4o وClaude 3.5 Sonnet تبايناً أكبر عبر الاستراتيجيات مثل التثقيف حول التحيز والتحفيز بمثال واحد. تؤكد هذه النتائج أهمية استراتيجيات الحد من التحيز في تعزيز موثوقية النماذج. يمكن الاطلاع على تفاصيل إضافية حول الأداء حسب فئة التحيز والتخصص الطبي في الأشكال [fig:bias accuracy1] و[fig:bias accuracy2] في الملحق.
تتفق نتائجنا مع أبحاث سابقة في تقييم النماذج الطبية، حيث تتفوق النماذج المغلقة في المهام المنظمة بينما تتقارب النتائج في المهام التوليدية. أظهر أن النماذج المملوكة مثل GPT-4 وMed-PaLM 2 تتفوق في مهام الاختيار من متعدد واسترجاع الحقائق بفضل تدريبها على مجموعات بيانات منظمة ودمج المعرفة التخصصية. كما وجد أن النماذج المملوكة تحقق دقة أعلى في مهام الأسئلة الطبية بعدة لغات، مما يعزز فكرة أن النماذج المغلقة أكثر رسوخاً في المعرفة الطبية. تدعم نتائجنا هذه الاتجاهات، حيث يتصدر Gemini 1.5 Pro وClaude 3.5 Sonnet في مهام الاختيار من متعدد وإكمال الفراغ، مما يشير إلى أن النماذج المبنية على واجهات برمجة التطبيقات أكثر ملاءمة لدعم القرار السريري والمهام المنظمة.
يوضح الشكل [fig:bias] أيضاً تباين أداء النماذج عند التعرض للانحياز وفعالية استراتيجيات الحد منه لأفضل ثلاثة نماذج (GPT-4o، Gemini 1.5 Pro، وClaude 3.5 Sonnet-20240620). جميع النماذج تشهد انخفاضاً في الدقة عند إدخال التحيز، مع تراجع أكبر في Claude 3.5 Sonnet عبر عدة فئات. أظهرت تقنيات الحد من التحيز مثل التحفيز بعدة أمثلة تحسناً ملحوظاً، خاصة في Gemini 1.5 Pro الذي أظهر أكبر مقاومة. ومع ذلك، لا توجد استراتيجية واحدة فعالة دائماً عبر جميع النماذج والفئات، مما يبرز تعقيد التحيز في معالجة اللغة الطبية والحاجة لمزيد من البحث.
في المهام التوليدية، لا تعكس مقاييس التقييم التلقائي مثل BERTScore الأداء الفعلي للنماذج بشكل كامل. رغم أن GPT-4 وClaude 3.5 ينتجان إجابات ذات صلة وسياق دقيق كما هو موضح في الشكل 3، إلا أن طول الإجابات يؤدي إلى انخفاض BERTScore مقارنة بالإجابات المرجعية. أشار سابقاً إلى أن مقاييس مثل ROUGE وBERTScore تعجز عن تقييم النماذج الطبية بدقة بسبب تعقيد التشخيصات وتعدد الخيارات العلاجية. تؤكد نتائجنا هذا القصور، إذ أن النماذج ذات BERTScore المنخفض قد تنتج إجابات عالية الجودة لكنها تعاقب على الإطناب لا على عدم الدقة. يبرز ذلك الحاجة إلى أساليب تقييم أكثر دقة، مثل التقييم البشري أو التقييم الحواري الموجه بالمهام، لتعكس الاستخدام الواقعي في الاستشارات الطبية.
نظراً لحساسية تطبيقات الرعاية الصحية، تعتبر الاعتبارات الأخلاقية أساسية عند تطوير ونشر النماذج اللغوية الضخمة. تم بناء معيار MedArabiQ بعناية من مصادر تعليمية عامة ومجهولة الهوية، مع الالتزام بمعايير الخصوصية عبر استبعاد أي معلومات تعريفية للمرضى. كما نقر بعدة قضايا أخلاقية مرتبطة بنشر النماذج في السياق السريري، مثل مخاطر المعلومات المضللة، وتضخيم التحيزات (الثقافية، التأكيدية، أو تحيز الوضع القائم)، ومحدودية تفسير النماذج. لمعالجة هذه المخاطر، نؤكد أهمية التحقق الشامل عبر أطر هجينة تجمع بين التقييم التلقائي ومراجعة الخبراء. نوصي بالمراقبة المستمرة، وإشراف الأطباء، ووضع إرشادات تشغيلية واضحة للحد من الأضرار والتحيزات. من خلال توضيح هذه الاعتبارات، نهدف إلى تعزيز تبني مسؤول وشفاف للنماذج، والمساهمة في حلول صحية أكثر أماناً وعدلاً.
رغم أن دراستنا تقدم تقييماً شاملاً للنماذج الطبية العربية، إلا أن هناك مجالات تستحق المزيد من البحث. أولاً، هناك احتمال لتلوث البيانات. رغم أن اختبارات الطب السابقة لم تكن متاحة رقمياً وتتطلب جهداً كبيراً لرقمنتها وتنظيفها، لا يمكننا استبعاد التلوث تماماً. ومع ذلك، يمكن تحسين أداء النماذج، مما يبرز أهمية المعايير المرجعية. بالنسبة لـ AraMed، أجرينا تعديلات لاختبار الحفظ المحتمل نظراً لأنها مجموعة بيانات عامة. للتحقق من صلاحية البيانات، أجرينا تقييماً أولياً بالتعاون مع طلاب طب لتقييم الحقائق والملاءمة والوضوح والتعقيد على مقياس من 1 إلى 5. أظهرت النتائج (الملاءمة: 4.99، الحقائق: 4.97، الدقة: 4.88، الوضوح: 4.89) موثوقية وفائدة مبدئية. يتطلب التقييم الموسع مستقبلاً مع توسيع نطاق المعيار.
اتباعاً للممارسات القياسية في معالجة اللغة الطبية، اعتمدنا على مجموعات بيانات معيارية بدلاً من التفاعلات السريرية الحية لضمان القابلية للتكرار والامتثال الأخلاقي. جدير بالذكر أن مجموعة أسئلة المريض-الطبيب مستمدة من AraMed ، والتي تتضمن استشارات حقيقية من منصة الطبي، مما يضمن الواقعية. رغم أن الاختبار السريري الحي قد يوفر رؤى إضافية، إلا أنه يواجه تحديات خصوصية وتنظيمية كبيرة، خاصة في المنطقة العربية حيث تفرض لوائح مثل GDPR وHIPAA قيوداً صارمة على مشاركة بيانات المرضى . كما أن العديد من المؤسسات الصحية لا تزال تعتمد على السجلات الورقية ، مما يصعب جمع البيانات الحية على نطاق واسع. يمكن مستقبلاً استكشاف استراتيجيات تحافظ على الخصوصية لدمج التقييمات السريرية الواقعية بشكل آمن وأخلاقي.
من القيود الأخرى الحاجة إلى تقنيات أكثر فعالية للحد من التحيز. رغم تقييمنا لقابلية التحيز عبر مهام متعددة، تؤكد النتائج أن الاستراتيجيات الحالية لا تقضي عليه تماماً، خاصة في سياقات اتخاذ القرار السريري الحساس . يجب أن يركز البحث المستقبلي على تطوير أساليب متخصصة تراعي العوامل اللغوية والثقافية الفريدة للغة العربية الطبية.
ركزنا في هذه الدراسة على تقييم الأداء الصفري (zero-shot)، لتقديم تقييم غير متحيز لقدرة النماذج على المهام الطبية العربية دون ضبط مسبق . رغم أن ذلك يوفر خط أساس قوي، يمكن مستقبلاً استكشاف ضبط النماذج على مجموعات بيانات طبية عربية لتحسين الفهم التخصصي. يتطلب ذلك مراعاة توفر البيانات، وتكاليف الحوسبة، ومخاطر فقدان التعميم.
علاوة على ذلك، اعتمدت معاييرنا على العربية الفصحى لضمان الاتساق، إلا أن ذلك لا يعكس التنوع اللهجي المستخدم في التفاعلات الواقعية. يمكن مستقبلاً دمج بيانات لهجية لتعزيز قدرة النماذج على التكيف مع السياقات الصحية العربية المتنوعة. كما أن الدراسة تركز على النصوص فقط، ويمكن توسيع المعايير لدعم الذكاء الاصطناعي متعدد الوسائط مثل الصور الطبية ونتائج المختبرات.
نخطط مستقبلاً لتوسيع MedArabiQ من حيث العمق والتخصص، عبر تغطية مجالات سريرية إضافية مثل الصحة النفسية، الأمراض المعدية، والأمراض المزمنة، بالتعاون مع أطباء وخبراء لضمان ملاءمة الأسئلة للمعايير السريرية الحديثة. سنصنف الأسئلة حسب نوع الاستدلال السريري، ونقيم تعقيدها، ونجري تقييمات موثوقية بين المقيمين. سيعزز هذا التوسع شمولية وموثوقية المعيار، ويدعم ضبط النماذج العربية ومتعددة اللغات، مما ينعكس إيجاباً على الرعاية الصحية للناطقين بالعربية.
في هذا العمل، قدمنا أول معيار منظم لتقييم النماذج اللغوية في الرعاية الصحية العربية، لمعالجة فجوة كبيرة في معالجة اللغة الطبية العربية. يتكون معيارنا من 700 عينة سريرية متنوعة، تغطي التقييمات المعرفية المنظمة والتفاعلات الواقعية بين المريض والطبيب. يتجاوز معيارنا حدود الرعاية الصحية العربية، إذ يضع أساساً لتطوير معايير بلغات طبية أخرى غير مخدومة، مما يساهم في تطوير تطبيقات الذكاء الاصطناعي الطبية عالمياً.
تكشف نتائجنا عن قيود حرجة في النماذج الحالية، مثل الهلوسة الواقعية في المهام المفتوحة وقابلية التحيز في اتخاذ القرار السريري، مما يعزز الحاجة إلى استراتيجيات فعالة للحد من التحيز. يجب أن يستكشف العمل المستقبلي ضبط النماذج على بيانات طبية عربية، وتوسيع المعايير لتشمل التنوع اللهجي، وتطوير استراتيجيات متخصصة للحد من التحيز في السياق الطبي العربي. من خلال إتاحة معاييرنا، نهدف إلى دعم البحث في معالجة اللغة الطبية العربية، وتوفير أساس لحلول صحية موثوقة وعادلة وفعالة مدعومة بالذكاء الاصطناعي.
يلخص الجدول [table:datasets] مجموعات البيانات المستخدمة في التقييم، مع توضيح المصدر ومحتوى كل مجموعة.
tab:datasets
تم تصنيف النماذج في الجدول [table:models] بناءً على شفافية بيانات التدريب، مما يؤثر على احتمال تلوث التقييم، والتغطية اللغوية التي تؤثر على الأداء في العربية.
tab:model_summary
تلعب هندسة المحفزات دوراً محورياً في استجابة النموذج. استخدمنا نفس المحفز لكل نموذج، مع تخصيصه حسب فئة المهمة كما هو موضح في الجدول [table:prompts]. كان ذلك ضرورياً لضمان واقعية المحفزات وملاءمتها لحالات الاستخدام المختلفة.
مثال 6: طريقة نيوتن-رافسون. المثال الأخير: احسب المشتقة الأولى والأخيرة ثم طبق نيوتن-رافسون.
tab:task_prompts
يقارن الجدول [table:bias] أداء النماذج في أسئلة الاختيار من متعدد والأسئلة المحقونة بالتحيز، مع استراتيجيات الحد من التحيز مثل التثقيف، المثال الواحد، وعدة أمثلة. عموماً، تنخفض الدقة مع التحيز وتتحسن مع استراتيجيات الحد منه. بشكل خاص، أدى التثقيف إلى انخفاض الدقة، بينما حسنت استراتيجيات المثال الواحد وعدة أمثلة الأداء في جميع النماذج، مع أكبر تحسن في Claude 3.5 Sonnet عند استخدام المثال الواحد.
tab:bias_evaluation_results
يجمع الشكل [fig:bias accuracy1] أداء النماذج حسب فئة التحيز للأسئلة بدون تحيز، مع تحيز، ومع الحد من التحيز. أظهرت الأسئلة المحقونة بالتحيز التأكيدي والإجماع الزائف أكبر تحسن مع استراتيجيات الحد، خاصة المثال الواحد وعدة أمثلة. كان التثقيف أقل فعالية، وأحياناً أدى لانخفاض الدقة. كانت الأسئلة ذات التحيز الثقافي أكثر مقاومة للاستراتيجيات، مع تحسن طفيف أو معدوم. لم يتحسن أي نموذج باستمرار مع الحد من التحيز عبر جميع الفئات.
يمكن تصنيف الأسئلة حسب التخصص الطبي عند دراسة الأداء مع التحيز واستراتيجيات الحد منه، كما في الشكل [fig:bias accuracy2]. أحياناً حسنت استراتيجيات المثال الواحد وعدة أمثلة الأداء، لكن ليس دائماً. غالباً ما أدى التثقيف إلى انخفاض الدقة أو عدم التغيير. لم تكن التحسينات في الدقة متسقة. كان أبرز تحسن في تخصص الأورام على Gemini عند استخدام عدة أمثلة.