```html الاِسْتِدْلال البَيزي لعُمق المُنافَسَة واحتماليّة الانقلاب غير الصفري في التصنيف الزوجي

الاِسْتِدْلال البَيزي لعُمق المُنافَسَة واحتماليّة الانقلاب غير الصفري في التصنيف الزوجي

Maximilian Jerdee, Mark Newman

latex

مُلَخَّص

تُقَدِّم هذه الورقة طريقة لاستنتاج عُمق المُنافَسَة واحتماليّة الانقلاب غير الصفري في نماذج التصنيف الزوجي. نستخدم منهج الاستدلال البَيزي لتقدير هذه الكميات بناءً على البيانات المرصودة من المسابقات. ونظراً لأن النماذج التقليدية لا تأخذ في الاعتبار تقلبات الأداء بين المتنافسين، فإن منهجنا يوفر تحسناً ملحوظاً في دقة التنبؤات.

مُقَدِّمَة

في العديد من السياقات، مثل الرياضة والألعاب والانتخابات، يُستخدم التصنيف الزوجي لتحديد الفائز بين متنافسين اثنين. تقليدياً، تعتمد هذه النماذج على افتراض أن لكل متنافس مستوى أداء ثابت. ومع ذلك، في الواقع، قد يتغير أداء المتنافسين بشكل كبير خلال الموسم أو حتى أثناء المسابقة نفسها. لذلك، من المهم تطوير نماذج تأخذ في الاعتبار هذه التقلبات لتحسين دقة التنبؤات.

النموذج

نقترح نموذجاً يعتمد على الاستدلال البَيزي لتقدير عُمق المُنافَسَة واحتماليّة الانقلاب. يُعرَّف عُمق المُنافَسَة على أنه مقياس لمدى تقارب مستويات الأداء بين المتنافسين، بينما تُعتبر احتماليّة الانقلاب مقياساً لاحتمال تغير النتائج المتوقعة بناءً على تقلبات الأداء.

تعريف النموذج

يتم تمثيل النموذج بالمعادلات التالية: \[ \begin{aligned} P(A \text{ يَفُوز } B) &= \frac{1}{1 + e^{-(\alpha_A - \alpha_B)}}, \\ \alpha_i &= \mu + \sigma X_i, \end{aligned} \] حيث \(\alpha_A\) و\(\alpha_B\) هما معاملا الأداء للمتنافسين \(A\) و\(B\) على التوالي، و\(X_i\) متغير عشوائي يتبع التوزيع الطبيعي.

تقدير المعلمات

يتم تقدير المعلمات \(\mu\) و\(\sigma\) باستخدام البيانات المرصودة من المسابقات، وذلك عبر طرق الاستدلال البَيزي. تُحدَّث المعتقدات حول هذه المعلمات بناءً على البيانات الجديدة التي يتم جمعها، مما يسمح بتحسين التقديرات مع مرور الوقت.

التحقق من صحة النموذج

للتحقق من صحة النموذج، نجري تحليلاً تجريبياً باستخدام بيانات من مسابقات رياضية حقيقية. نقارن النتائج التي يتنبأ بها النموذج مع النتائج الفعلية للمسابقات لتقييم دقة النموذج.

النتائج

تُظهر النتائج أن النموذج يتمتع بدقة تنبؤية عالية، خاصة في الحالات التي يكون فيها التقلب في الأداء مرتفعاً. وهذا يؤكد أهمية تضمين تقلبات الأداء في نماذج التصنيف الزوجي.

الخاتمة

يوفر نموذجنا إطاراً قوياً لفهم وتقدير عُمق المُنافَسَة واحتماليّة الانقلاب في التصنيف الزوجي. من خلال تضمين تقلبات الأداء، يمكن لنموذجنا تحسين دقة التنبؤات في مختلف السياقات التنافسية.

مُقَدِّمَة

عند دراسة نتائج المنافسات، واختيارات المستهلكين، والترتيبات الاجتماعية، غالباً ما تكون هناك حاجة لتحويل المقارنات الزوجية بين مجموعة من العناصر إلى ترتيب كامل للمجموعة بأكملها. فقد يتنافس مجموعة من لاعبي الشطرنج في بطولة ويتم تسجيل الفوز والخسارة بينهم؛ أو قد يتم تسجيل سلسلة من التفضيلات بين أزواج المنتجات في اختبارات A/B؛ أو قد يتقاتل سرب من الدجاج بينما يسجل الباحث من قام بالنقر على من. تدعو هذه البنية المتشابهة في السيناريوهات إلى استخدام أدوات مشتركة لاستنباط ترتيب أساسي للعناصر: لإيجاد أفضل لاعب شطرنج، وأكثر المنتجات جاذبية، وأعلى دجاجة (وفي الواقع لإيجاد الترتيب الكامل للنقرات). سنفضل الحديث عن اللاعبين الذين يتغلبون على بعضهم البعض في المباريات، رغم أن نفس التقنيات تنطبق على مجموعة كاملة من الإعدادات.

استناداً إلى ملاحظات المباريات، غالباً لا يوجد ترتيب للاعبين بحيث يتغلب اللاعب الأعلى تصنيفاً دائماً على اللاعب الأدنى تصنيفاً. بغض النظر عن كيفية تعريف اللاعبين الأقل تقديراً، فإنهم سيفوزون أحياناً. بسبب هذا الغموض، لا يوجد ترتيب واضح وغير قابل للجدل يظهر من البيانات. يجب وضع افتراضات حول كيفية وزن انتصارات وخسائر اللاعبين ضد بعضهم البعض. وبالتالي، يُستخدم عادة نموذج احتمالي توليدي للمباريات الملحوظة: يروي قصة مع بعض العشوائية حول كيفية حدوث النتائج الملحوظة.

على مدى القرن الماضي، تم تطوير مجموعة واسعة من النماذج والأساليب لهذه المهمة. في العديد من هذه النماذج، تبدأ القصة بتعيين كل لاعب \(i\) معامل "نقاط" أساسي \(s_i\) يعكس قوته - ميله للتغلب على اللاعبين الآخرين. ثم تفترض هذه النماذج أنه عندما يلعب اللاعب \(i\) ضد اللاعب \(j\)، تحدد النتيجة بقلب عملة مرجحة بشكل مستقل - يفوز اللاعب \(i\) بالاحتمال \(p_{ij} = f(s_i - s_j)\)، وهي دالة للفرق في نقاط اللاعبين. \(f\) هي دالة متزايدة أحادية بحيث إذا كان \(s_i > s_j\) (اللاعب \(i\) أفضل من اللاعب \(j\))، فإن اللاعب \(i\) أكثر عرضة للفوز. في هذا الإطار، يتم عادة العثور على النقاط الأكثر احتمالاً لتوليد النتائج الملحوظة والإبلاغ عنها (تقديرات الاحتمال الأقصى لـ \(s_i\)).

إذا كانت هذه الدالة \(f\) هي الدالة السينية، فإننا نتحدث عن نموذج برادلي-تيري المستخدم على نطاق واسع (الذي صُمم أصلاً من قبل زيرميلو). إذا كانت \(f\) بدلاً من ذلك هي دالة التوزيع التراكمي الطبيعي، فإن هذا البناء ينتج نموذج ثورستون. بشكل عام، أي دالة \(f\) نختارها تحت افتراضات بسيطة ستؤدي إلى نموذج جديد محتمل للنظر فيه، وفي الواقع تم اقتراح العديد منها. سُميت النماذج المصاغة بهذه الطريقة بـ النماذج الخطية من قبل ديفيد. (يشير Cattalan إلى أن هذا يعود إلى David 1988، إلا أن هذا المصطلح لا يبدو واسع الانتشار.)

في هذا التقليد، نقترح في هذه الورقة عائلة جديدة من النماذج، محددة باختيارات جديدة لدالة النقاط \(f\). تعرف فئتنا الجديدة من الدوال بتوسعات الدالة السينية، وبالتالي تعميم نموذج برادلي-تيري.

الجديد في اقتراحنا هو أن دوال النقاط المقترحة تسمح بضبط حدة الانقلاب الديناميكي واستيعاب الاختلافات الزمنية في الأداء، مما يجعل النموذج أكثر مرونة للتطبيقات المتنوعة.

من بين هذه النماذج، نجد أن إعادة المعلمة إلى متغيرات أكثر قابلية للتفسير فيزيائياً مفيدة.

التحقق المتقاطع

على غرار ورقة SpringRank، سنقوم بإنتاج التوزيع التنبؤي اللاحق وتقييم أداء النموذج من خلال إجراء تحقق متقاطع متعدد الطي.

النموذج

نموذج برادلي-تيري

لنفترض أننا نراقب مباريات بين \(n\) لاعبين. نمثل هذه المباريات بمصفوفة \(A\)، حيث يمثل العنصر \(A_{ij}\) عدد المرات التي يفوز فيها اللاعب \(i\) على اللاعب \(j\) لـ \(i, j = 1,..., n\). في سياق تنافسي، يمكن فهم هذه المصفوفة \(A\) كجدول للسجلات المباشرة بين اللاعبين الـ\(n\). ثم نرغب في أخذ هذه التفاعلات المسجلة واستنتاج ترتيب العناصر الـ\(n\).

سننظر في النماذج التوليدية التي تحدد احتمالية ملاحظة مصفوفة التفاعل \(A\) بناءً على بعض المعلمات الكامنة الحقيقية \(s_i \in \mathbb{R}\) لـ \(i = 1,...,n\)، والتي يمكن اعتبارها "درجات القوة" لكل عنصر. بين كل زوج من العناصر، يُؤخذ الاحتمال الكامن للعنصر \(i\) للفوز على العنصر \(j\) على أنه دالة للفرق في درجات العنصر فقط: \(p_{ij} = f(s_{ij})\)، حيث نعرف \(s_{ij} \equiv s_i - s_j\). ثم يكون الاحتمال الكامل كما يلي: \[ \begin{aligned} P(A|\vec{s},f) &= \prod_{(i,j)}f(s_{ij})^{A_{ij}}, \end{aligned} \] حيث جمعنا الدرجات في متجه \(n\)-بعدي \(\vec{s}\) ويمتد الجداء على جميع أزواج العناصر \( (i,j)\) التي لديها تفاعلات موجودة (\(A_{ij} \not= 0\)). إذا فُسرت \(A\) كمصفوفة مجاورة، فهذه هي الحواف في شبكتنا من التفاعلات.

ينشأ نموذج برادلي-تيري (BT52) إذا اخترنا الدالة السيجمويدية كدالة درجاتنا \[ \begin{aligned} f_{BT}(s) = \frac{1}{1 + e^{-s}}. \end{aligned} \] تؤدي اختيارات الدوال الأخرى إلى نماذج بديلة. على سبيل المثال، يتم الحصول على نموذج ثورستون كدالة التوزيع التراكمي الطبيعي \[ \begin{aligned} f_{TH}(s) = \Phi(s). \end{aligned} \] في تحليلنا، سنحصل على تعميم لنموذج برادلي-تيري السابق، رغم أنه يمكن تطبيق طرقنا بشكل مماثل لتوسيع نموذج ثورستون.

بالنظر إلى التفاعلات الملحوظة \(A\) واختيارنا لدالة الدرجات \(f\)، يمكننا بعد ذلك تعريف تقديرات الاحتمال الأقصى (ML) للدرجات: \[ \begin{aligned} \vec{s}_{ML} = \text{argmax}_{\vec{s}} P(A|\vec{s}, f). \end{aligned} \] ومع ذلك، يأتي هذا النهج مع العيوب المعتادة للتكرار. بشكل خاص، ما لم تكن شبكة التفاعلات الملحوظة متصلة بقوة، فلن يوجد حد أقصى للاحتمال حيث ستتباعد الدرجات.

يمكن تصحيح هذه المشكلات من خلال إدخال أولوية على الدرجات. لقد تم التفكير كثيراً في الأولويات الممكنة لاستخدامها لنموذج برادلي-تيري (Whelan17). في أولويتنا، سيتم سحب الدرجات بشكل مستقل من التوزيع الغاوسي القياسي، بكثافة أولية من \[ \begin{aligned} P(\vec{s}) = \prod_{i=1}^n P(s_i) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}} \exp \left(-\frac{s_i^2}{2}\right) \end{aligned} \]

مع هذه الأولويات، يمكننا بعد ذلك تعريف تقدير الحد الأقصى للملصق (MAP) للدرجات كما يلي: \[ \begin{aligned} \text{argmax}_{\vec{s}} P(\vec{s}|A,f) = \text{argmax}_{\vec{s}} P(A|\vec{s},f)P(\vec{s}). \end{aligned} \] نلاحظ أن تقديرات ML للدرجات يمكن فهمها أيضاً على أنها تقديرات MAP في حالة وجود أولوية زائفة موحدة. تؤدي توقعات الدرجات تحت التوزيع إلى تقديرات متوقعة بعد الملصق (EAD) للدرجات.

في تحليلنا، سننظر في عائلة من الدوال \(f\) التي تحدد بالتالي عائلة من النماذج. من أجل تحديد النموذج الذي يجب تفضيله لمجموعة بيانات معينة، سنقوم بإجراء اختيار النموذج البَيزي من خلال مقارنة الأدلة البَيزيانية للنماذج المختلفة: \[ \begin{aligned} P(A|f) = \int d\vec{s} P(A,\vec{s}|f) =\int d \vec{s} P(A|\vec{s},f) P(\vec{s}). \end{aligned} \] ضمن عائلتنا من الدوال المحتملة \(f\)، سنبحث عن النموذج الذي يعظم هذه الأدلة البَيزيانية للبيانات الملحوظة: \[ \begin{aligned} f^* = \text{argmax}_f P(A|f). \end{aligned} \] هذا النوع من التحليل البَيزي الكامل هو عملية مكثفة حسابياً في غياب الحيل التحليلية لتبسيط الحسابات. لحسن الحظ، يبدو أن تقنيات مونت كارلو الهاملتونية الحديثة لديها وقت خلط كافٍ لإنتاج تقديرات متقاربة للأدلة البَيزيانية لأغراضنا.

تعميمنا

قبل تعميم نموذج برادلي-تيري، الذي يُعرف بالدالة السيجمويدية \(f_{BT} = 1/(1 + e^{-s})\)، يمكننا أن نفكر في الخصائص التي يجب أن تمتلكها دالة التقييم \(f\) الأخرى. بما أن الدالة تعرف احتمالات الفوز من خلال \(p_{ij} = f(s_i - s_j) = f(s_{ij})\)، يجب أن يكون لدينا لكل \(s \in \mathbb{R}\)، \[ \begin{aligned} 0 &\leq f(s) \leq 1. \end{aligned} \] علاوة على ذلك، في غياب التعادلات (التي عادة ما تُسجل كنصف فوز لكل مشارك)، إما أن يفوز الكائن \(i\) على الكائن \(j\) أو العكس. وبالتالي، يجب أن يكون لدينا \[ \begin{aligned} 1 = p_{ij} + p_{ji} = f(s_{ij}) + f(s_{ji}) = f(s_{ij}) + f(-s_{ij}). \end{aligned} \] هذا يعطي شرط التماثل \[ \begin{aligned} f(-s) &= 1 - f(s). \end{aligned} \] من البديهي أيضاً أن نتوقع أن تكون \(f\) دالة غير تناقصية: كلما زاد الفارق بين مهارات اللاعبين، زاد احتمال فوز اللاعب الأفضل. رغم أن هذا الشرط الأخير ليس ضرورياً لتعريف النموذج بشكل جيد، إلا أنه مفيد للتفسير.

التحسين

نظراً لاختيارنا للمعلمات، يمكننا توجيه انتباهنا إلى مهمة إيجاد النموذج الأمثل وفقاً لـ \(P(\eta,u|A)\). نعيد كتابة التعبير كما يلي: \[ \begin{aligned} P(\eta,u|A) &= \frac{P(\eta)P(u)P(A|\eta,u)}{P(A)}\\ &\propto P(\eta)\int d\vec{s} P(\vec{s}|\eta) P(A|\vec{s},u)\\ &\propto P(\eta)\int d\vec{s} P(\vec{s}|\eta^*) P(A|\vec{s},u^*)\frac{P(\vec{s}|\eta) P(A|\vec{s},u)}{P(\vec{s}|\eta^*) P(A|\vec{s},u^*)}\\ &\propto P(\eta)\left\langle\frac{P(\vec{s}|\eta) P(A|\vec{s},u)}{P(\vec{s}|\eta^*) P(A|\vec{s},u^*)}\right\rangle_{\eta^*,u^*} \end{aligned} \]

حيث يمكننا بعد ذلك تقدير هذه التوقعات من خلال سحب عينات من \(\vec{s}\) من التوزيع \(P(\vec{s},A|\eta^*,u^*) = P(\vec{s}|\eta^*)P(A|\vec{s},u^*)\). في الواقع، رغم أنه لن يعطي تقديرات مستقلة لـ \(P(\eta,u|A)\)، يمكننا استخدام نفس مجموعة العينات لتوليد تقدير للعديد من (\eta,u)\) القريبة من (\eta^*,u^*).

يمكننا أيضاً استخدام حيلة أخرى لتحسين أداء هذه الطريقة، والتي ستتقارب ببطء عندما تكون نسبة الاحتمال التي نتوقعها غير متجانسة للغاية. لتحسين ذلك، يمكننا إعادة تحجيم التكامل: \[ \begin{aligned} P(\eta,u|A) &\propto P(\eta)\int d\vec{s} P(\vec{s}|\eta) P(A|\vec{s},u)\\ &\propto P(\eta)\int d\vec{s} \lambda_\eta^n P(\lambda_\eta\vec{s}|\eta) P(A|\lambda_\eta\vec{s},u)\\ &\propto P(\eta)\lambda_\eta^n\int d\vec{s} P(\vec{s}|\eta^*) P(A|\vec{s},u^*)\frac{P(\lambda_\eta\vec{s}|\eta) P(A|\lambda_\eta\vec{s},u)}{P(\vec{s}|\eta^*) P(A|\vec{s},u^*)}\\ &\propto P(\eta)\lambda_\eta^n\left\langle\frac{P(\lambda_\eta\vec{s}|\eta) P(A|\lambda_\eta\vec{s},u)}{P(\vec{s}|\eta^*) P(A|\vec{s},u^*)}\right\rangle_{\eta^*,u^*} \end{aligned} \] لاختيار مقياس (\lambda_\eta)، قد نرغب في أن يكون تباين التوزيع الأول مساوياً لتوزيع التوليد. يمكننا حساب ذلك: \[ \begin{aligned} \text{var} P(\vec{s}|\eta^*) &= 2 \psi_1(\eta^*)\\ \text{var} P(\lambda_\eta\vec{s}|\eta) &= \frac{2}{\lambda_\eta^2} \psi_1(\eta) \end{aligned} \] بحيث يمكن أن تكون هذه متساوية لـ: \[ \begin{aligned} \lambda_\eta = \sqrt{\frac{\psi_1(\eta)}{\psi_1(\eta^*)}}. \end{aligned} \]

الدليل البَيزي

هل من الممكن أداء التكامل داخل التوقع؟ أي، هل يمكننا التخلص من خطأ التقطيع على الأقل عندما ننتقل من \(P(A|\eta,u) \mapsto P(A)\) لحساب الدليل؟ أم، لا أعتقد ذلك..

اختبار قيمة \(p\) على التوزيع التنبؤي اللاحق

لشبكة مراقبة معينة \(A\)، سنكون مهتمين بتعريف قيمة \(p\) لملاحظة الشبكة لنموذج معين.

أي أننا نود أن نسأل عن مدى احتمالية ملاحظتنا للشبكة المعطاة (أو شيء أكثر احتمالاً) في التوزيع التنبؤي اللاحق لنموذجنا. أي، هل يمكننا حساب \[ \begin{aligned} P(\log P(\tilde{A}|A) < \log P(A|A)) \end{aligned} \] حيث يتم سحب (\tilde{A}) من \(P(\tilde{A}|A)\)؟

بعبارة أخرى، نحن مهتمون بكثافة (\log P(\tilde{A}|A)). يمكننا كتابة هذا الاحتمال اللوغاريتمي كما يلي: \[ \begin{aligned} P(\tilde{A}|A) = \int d \vec{s} d\alpha d\beta P(\tilde{A}|\vec{s},\alpha,\beta)P(\vec{s},\alpha,\beta|A) \end{aligned} \]

\[ \begin{aligned} \log P(\tilde{A}|A) &= \log \left[\int d \vec{s} d\alpha d\beta P(\tilde{A}|\vec{s},\alpha,\beta)P(\vec{s},\alpha,\beta|A)\right]\\ &= \int d \vec{s} d\alpha d\beta \log \left[P(\tilde{A}|\vec{s},\alpha,\beta)\right]P(\vec{s},\alpha,\beta|A)\\ &= \int d \vec{s} d\alpha d\beta \sum_{ij}\log \left[P(\tilde{A}_{ij}|\vec{s}_{ij},\alpha,\beta)\right]P(\vec{s},\alpha,\beta|A)\\ &= \sum_{ij} \int d \vec{s} d\alpha d\beta \log \left[P(\tilde{A}_{ij}|\vec{s}_{ij},\alpha,\beta)\right]P(\vec{s},\alpha,\beta|A) \end{aligned} \]

التحقق من صحة العينات الخارجية

في هذا القسم، نود مقارنة أداء نموذجنا مع مجموعة متنوعة من النماذج الأخرى في الأدبيات الخاصة بالترتيب الزوجي. تهدف جميع الاختبارات بشكل أساسي إلى قياس مدى قدرة النماذج على التنبؤ بالنتائج خارج البيانات التي تم تدريبها عليها. لهذا، نقوم بإجراء اختبارات التحقق المتقاطع خماسية الطي حيث يتم تدريب النماذج على 80% من مجموعة البيانات المعطاة ثم اختبارها على الـ20% المتبقية.

سيتم ذلك على أساس مقياسين محتملين. في القياس الأول، نتبنى بالكامل الإطار البَيزي ونسأل أي نموذج يعظم التوزيع التنبؤي اللاحق \(P(A_{\text{test}}|A_{\text{train}})\). يمكن كتابة هذا كما يلي: \[ \begin{aligned} P(A_{\text{test}}|A_{\text{train}}) &= \int d \vec{s} du dd P(A_{\text{test}}|\vec{s},u,d) P(\vec{s},u,d|A_{\text{train}})\\ &\equiv \left\langle P(A_{\text{test}}|\vec{s},u,d) \right\rangle_{\vec{s},u,d|A_{\text{train}}}. \end{aligned} \]

ثم يتم تقريب هذا من عينات التوزيع اللاحق من \(P(\vec{s},u,d|A_{\text{train}})\) كما يلي: \[ \begin{aligned} P(A_{\text{test}}|A_{\text{train}}) \approx \frac{1}{N} \sum_{i = 1}^N P(A_{\text{test}}|\vec{s},u,d) \end{aligned} \]

لاختبار ذلك، سنحتاج إلى تفسير بَيزي كامل لجميع النماذج التي نفكر فيها. أنا قلق بعض الشيء بشأن SpringRank. دعونا نكتب كيف يعمل SpringRank...

لدى SpringRank معلمتان فائقتان \(beta\) و\(c\) بالإضافة إلى معلمات النقاط المعتادة \(vec{s}\). الاحتمالية من حيث هذه هي: \[ \begin{aligned} P(A|\vec{s},beta,c) = \prod_{i,j}\frac{(c e^{-\beta/2(s_i - s_j - 1)^2})^{A_{ij}}}{A_{ij}!} \exp\left[c e^{-\beta/2(s_i - s_j - 1)^2}\right]. \end{aligned} \] هذا مجرد توزيع بواسون على القيم المحتملة لـ \(A_{ij}\) بمعدل \(c e^{-\beta/2(s_i - s_j - 1)^2}\).

ثم يأخذون القيمة القصوى للاحتمال لـ \(c\)، وهي: \[ \begin{aligned} c = \left(\sum_{ij} A_{ij}\right) \left[\sum_{ij} e^{-\frac{\beta}{2} (s_i - s_j - 1)^2}\right]^{-1} \end{aligned} \] ويتم إدخالها للحصول على احتمال السجل: \[ \begin{aligned} \mathcal{L}(A|s,\beta) = - \beta H(\vec{s}) - M \log \left[\sum_{ij} e^{-\frac{\beta}{2} (s_i - s_j - 1)^2}\right] \end{aligned} \]

يمكن أيضاً إدخال معلمة سابقة، والنتيجة تسمى SpringRank المنتظم. يستخدمون \(alpha = 2\). غير المنتظم سيكون \(alpha = 0\). \(beta\) يتم اختياره لتحسين إما الاحتمال أو النسبة الصحيحة على مجموعة البيانات الاختبارية. هذا يعني وجود معلمة سابقة مسطحة (شبه) على \(beta \in [0,\infty)\). \[ \begin{aligned} P(\vec{s}) = \prod_i e^{-\frac{\alpha \beta}{2}(s_i - 1)^2} \end{aligned} \]

ثم تكون المعلمات الفائقة \(c\) (التي سنضبطها فقط على القيمة القصوى للاحتمال)، \(alpha \in \{0,2\}\) و\(beta\)، والتي نضبطها أيضاً على القيمة القصوى للاحتمال. هذا يعطي فعلياً نموذجاً بَيزيّاً، رغم أن المعلمات الحرة الوحيدة هي \(vec{s}\). أنا أميل إلى تجاهل الاقتراح باستخدام قاعدة مختلفة لاختيار \(beta\) اعتماداً على الهدف، وسأكتفي باختيارها بناءً على الأداء التجريبي.

اختباران آخران لدينا سيستخدمان قيم الاحتمال الأقصى. لهذا، يمكننا استخدام تحسين STAN، ولكن سنحتاج إلى القيام بذلك من خلال cmdstan، حيث لا يدعم pystan3 الاستدعاءات إلى المحسن.

تُستخدم قيم الاحتمال الأقصى وحدها لأداء التنبؤ. نحن نقارن: \[ \begin{aligned} -\log P(A_{\text{test}}|\vec{s}^*,u^*,d^*) \end{aligned} \] حيث \(vec{s}^*,u^*,d^*\) هي قيم الاحتمال الأقصى التي تعظم \(P(vec{s},u,d|A_{\text{train}})\). نتحقق أيضاً من "الدقة" وهي النسبة المئوية للوقت الذي يتفق فيه الترتيب الناتج مع ترتيب النقاط في الإعداد الملحوظ.

نحدد \(vec{s}\) بحيث تعظم: \[ \begin{aligned} P(vec{s}|A_{\text{train},u^*,d^*}). \end{aligned} \] فعلياً، نستخدم قيم المعلمات الفائقة المحسنة لتحديد النموذج أولاً، والذي نستخدمه بعد ذلك للعثور على تقديرات الاحتمال الأقصى للنقاط كما نفعل مع النماذج الأخرى.

كيف يمكننا العثور على قيمة الاحتمال الأقصى للنقاط لدالة الخطوة؟ يمكن العثور على ML لـ Bradley-Terry (منتظم) من خلال أخذ 100 قيمة للاحتمال الأقصى للنقاط. يجب علينا أيضاً استخدام محلل MVR لمحاولة تقييم ذلك.

من هذا، نأخذ متوسط النتائج عبر التكرارات كنقيس رئيسي للمقارنة.

النماذج التي سنقارن أداءها هي:

يجب أن نفكر حقاً في الاحتمال المشروط على النسخة غير الموجهة من الرسم البياني. أي، لدينا أنه لنموذج Bradley-Terry المعتاد: \[ \begin{aligned} P(A|\vec{s},\bar{A}) = \prod_{(i,j)} \binom{\bar{A}_{ij}}{A_{ij}} f(s_{ij})^{A_{ij}} f(s_{ji})^{A_{ji}} \end{aligned} \] حيث يمتد الجدول على الحواف غير الموجهة. هل هذا لا يزال معيارياً إذا لاحظنا التعادلات؟ ربما لا. هل هذا مشكلة؟ حسناً، يمكننا أن نتحايل بطريقة ما أعتقد. ما الذي يسير بشكل خاطئ إذا لم نشمل هذا المصطلح؟ ربما نقلل من أهمية التفاعلات التي تحدث كثيراً. لذا، نحتاج إلى التأكد من أننا نفعل..

يجب أن نحدد بعد ذلك التوزيع الاحتمالي اللاحق المشروط على وجود المباريات: \[ \begin{aligned} P(A_{\text{test}}|A_{\text{train},\bar{A}_{\text{test}}}) = \int d \vec{s} d\alpha d \beta P(A_{\text{test}}|\vec{s},\alpha, \beta, \bar{A}_{\text{test}}) P(\vec{s},\alpha,\beta|A_{\text{train}}) \end{aligned} \]

النتائج

قيم العوامل المثلى

التأثير على التصنيفات

قارن النتائج وفقًا لنماذج: Bradley-Terry (ML)، العرض النموذجي (MAP)، العرض النموذجي المتوقع بعد التوزيع اللاحق، العرض الأمثل (MAP)، والعرض الأمثل المتوقع بعد التوزيع اللاحق.

التقريبات العملية

الطريقة الكاملة الموصوفة والمنفذة في هذه الورقة تتطلب حسابات مكثفة. يتم استدعاء مونت كارلو الهاملتوني. العديد من التطبيقات الأخرى لها حجم وتتطلب سرعة تجعل تحليلنا البَيزي الكامل غير عملي.

لا توجد مفاجآت: \(u = 0\)

قد يكون البناء الأساسي في هذه الطريقة هو قدرتنا على تقييم درجات الاحتمال الأقصى اللاحق بسرعة لنموذج برادلي-تيري المعتاد، حيث تكون صيغة الأولوية عبارة عن منتج تعسفي للدوال اللوجستية. من هذه التقديرات الاحتمالية القصوى اللاحقة، سنقوم بعد ذلك بالتقريب الغاوسي: \[ \begin{aligned} P(\eta|A) \propto P(A|\eta) = \int d\vec{s} P(A|\vec{s},\eta)P(\vec{s}) = \int d\vec{s} P(A|\vec{s}) P(\vec{s}|\eta) \end{aligned} \] لاحظ أننا افترضنا أولوية ثابتة على \(eta\)، وأعدنا صياغة المشكلة بحيث تكون صيغة النموذج ثابتة وعرض الأولوية متغير، وهو ما يتماشى أكثر مع كيفية تصورنا لعملية تركيب درجة الاحتمال الأقصى اللاحق. الأولوية هي \[ \begin{aligned} P(\vec{s}|\eta) &= \prod_i P(s_i|\eta) = \prod_i \frac{\Gamma(2\eta)}{\Gamma(\eta)^2}\left[\frac{e^{-s_i}}{(1+e^{-s_i})^2}\right]^\eta \end{aligned} \] واللوغاريتم الطبيعي لها هو \[ \begin{aligned} \log P(\vec{s}|\eta) = \sum_i \log \frac{\Gamma(2\eta)}{\Gamma(\eta)^2} + \eta \log \frac{e^{-s_i}}{(1+e^{-s_i})^2}. \end{aligned} \] سنفكر أيضاً في أولوية أسية على \(eta\): \[ \begin{aligned} P(\eta) = e^{-\eta}. \end{aligned} \] باستخدام قانون بايز، يمكننا بعد ذلك كتابة احتمالية اللاحق للمعامل \(eta\) كما يلي \[ \begin{aligned} P(\eta|A) = \frac{P(\eta) P(A|\eta)}{P(A)} = \frac{P(\eta)}{P(A)} \int d\vec{s} P(A,\vec{s}|\eta) = \frac{P(\eta)}{P(A)} \int d\vec{s} P(A|\vec{s})P(\vec{s}|\eta). \end{aligned} \] إذا قمنا بتوسيع (\log P(A,\vec{s}|\eta)) حول بعض (\vec{s}^*)، والمثالي أن يكون قريباً من نقطة السرج، نحصل على التقريب \[ \begin{aligned} \log P(\eta|A) &= -\log P(A) + \log P(\eta) + \log \left[\int d\vec{s} \exp\left(\log P(A|\vec{s}) + \log P(\vec{s}|\eta)\right)\right] \\ &\approx -\log P(A) - \eta + \log \left[\int d\vec{s} \exp\left(\log P(A|\vec{s}^*) + \log P(\vec{s}^*|\eta)+\vec{B}(\vec{s}-\vec{s}^*)-\frac{1}{2}(\vec{s}-\vec{s}^*)^T H (\vec{s}-\vec{s}^*)\right)\right]\\ &\approx -\log P(A) - \eta +\log P(A|\vec{s}^*) + \log P(\vec{s}^*|\eta)+ \frac{n}{2} \log(2 \pi) - \frac{1}{2} \log\det H + \frac{1}{2} \vec{B}^T H^{-1} \vec{B} \end{aligned} \] حيث \[ \begin{aligned} H_{ij} &\equiv -\partial_i \partial_j \log P(A|\vec{s}) - \partial_i \partial_j \log P(\vec{s}|\eta)\\ B_i &\equiv \partial_i \log P(A|\vec{s}) + \partial_i \log P(\vec{s}|\eta). \end{aligned} \] بتقسيم هذا، لدينا \[ \begin{aligned} \partial_i \partial_j \log P(A|\vec{s}) &= \sum_{(i',j')} A_{i'j'} \partial_i \partial_j \log \frac{1}{1+e^{-s_{i'j'}}}\\ &= \sum_{(i',j')} A_{i'j'} (\delta_{ii'}\delta_{jj'}+\delta_{ij'}\delta_{ji'}-\delta_{ij}\delta_{ii'}-\delta_{ij}\delta_{jj'})\frac{e^{s_{i'}+s_{j'}}}{(e^{s_{i'}}+e^{s_{j'}})^2}\\ &= (A_{ij}+A_{ji})\frac{e^{s_{i}+s_{j}}}{(e^{s_{i}}+e^{s_{j}})^2} - \delta_{ij} \sum_{j'} (A_{ij'}+A_{j'i})\frac{e^{s_{i}+s_{j'}}}{(e^{s_{i}}+e^{s_{j'}})^2} \end{aligned} \] و\[ \begin{aligned} \partial_i \partial_j \log P(\vec{s}|\eta) &= -\frac{\delta_{ij}\eta}{1+\cosh(s_i)}. \end{aligned} \] المشتقات الأولى هي \[ \begin{aligned} \partial_i \log P(A|\vec{s}) &= \sum_{(i',j')} A_{i'j'} \partial_i \log \frac{1}{1+e^{-s_{i'j'}}} \\ &= \sum_{(i',j')} A_{i'j'} (\delta_{ii'}-\delta_{ij'})\frac{1}{1+e^{s_{i'j'}}} \\ &= \sum_{j'} \left(\frac{A_{i j'}}{1+e^{s_{ij'}}}-\frac{A_{j' i}}{1+e^{s_{j'i}}}\right). \end{aligned} \] و\[ \begin{aligned} \partial_i \log P(\vec{s}|\eta) = -\eta \tanh\left(\frac{s_i}{2}\right). \end{aligned} \]

قد يكون التحدي الفني الأساسي لكل هذا أيضاً أنه لا يبدو أنه يجب أن نتوقع عموماً أن تكون \(P(\eta|A)\) دالة مقعرة لوغاريتمياً بالنسبة لـ \(eta\). بشكل خاص، قد يكون هناك حد أقصى محلي وليس عالمي لـ \(P(\eta|A)\). ومع ذلك، في الأمثلة التي رأيناها، يبدو أن هذه هي الحالة على الأقل.

يمكننا أيضاً بعد ذلك تقريب (\partial_\eta \log P(\eta|A)) بأخذ مشتق \(eta\) لهذا التقريب الغاوسي عند (\vec{s}^*). شكل هذا هو \[ \begin{aligned} \partial_\eta \log P(\eta|A) &\approx \partial_\eta \left[-\log P(A) - \eta +\log P(A|\vec{s}^*) + \log P(\vec{s}^*|\eta)+ \frac{n}{2} \log(2 \pi) - \frac{1}{2} \log\det H + \frac{1}{2} \vec{B}^T H^{-1} \vec{B}\right]\\ &\approx -1 + \partial_\eta\log P(\vec{s}^*|\eta) - \frac{1}{2} \partial_\eta \log\det H + \frac{1}{2} \partial_\eta(\vec{B}^T H^{-1} \vec{B})\\ &\approx -1 + \partial_\eta\log P(\vec{s}^*|\eta) - \frac{1}{2} H_{ij}^{-1}\partial_\eta H_{ij}+ \partial_\eta\vec{B}^T H^{-1} \vec{B}-\frac{1}{2}\vec{B}^T H^{-1}\partial_\eta H H^{-1} \vec{B}. \end{aligned} \] يمكننا بعد ذلك تقييم المشتقات ذات الصلة كما يلي \[ \begin{aligned} \partial_\eta H_{ij} &= \frac{\delta_{ij}}{1+\cosh(s_i)}\\ \partial_\eta B_i &= -\tanh\left(\frac{s_i}{2}\right) \end{aligned} \] لتنفيذ ذلك، لدينا الإجراء التالي:

  1. أداء بعض عدد التكرارات للحصول على (\vec{s}^*) قريباً من القيم الاحتمالية القصوى اللاحقة

  2. حساب (من الصيغ التحليلية) \(H,B,\partial_\eta H, \partial_\eta B\)

  3. العثور رقمياً على (\log\det H, H^{-1})

  4. تجميع تقريبات (\log P(\eta|A) + \log P(A)) و(\partial_\eta \log P(\eta|A))

دالة الخطوة: \(\eta = 0\)

يمكننا أيضاً النظر في الحالة المتطرفة الأخرى حيث \(\eta = 0\). من تحليلنا البَيزي الكامل، يبدو أن هذا النوع من النماذج أكثر ملاءمة للإعدادات التي تتميز بتسلسلات هرمية قوية جداً، مثل العديد من مجموعات بيانات التسلسل الهرمي للهيمنة الحيوانية. من حيث استخراج تقدير نقطي، يعادل هذا الإعداد ملاءمة الاحتمال الأقصى لنموذج برادلي-تيري. ومع ذلك، من منظور بَيزي، قد يفضل التفكير في هذا الإعداد على أنه عندما تقفز دالة النقاط مباشرة من \(u\) إلى \(1 - u\)؛ وذلك لأن الأوزان الزائفة الموحدة تعطي الأهمية نفسها لجميع النقاط حتى اللانهاية وبالتالي فإن النقاط ذات الاحتمال 1 ستقع على ذيول الدالة السيجمويدية.

لرؤية هذا بوضوح أكبر، يمكننا النظر في التعبير ذي الصلة: \[ \begin{aligned} P(0,u|A) &= \frac{P(\eta = 0)}{P(A)} \int d\vec{s} P(A|\vec{s},u)P(\vec{s}|0) \\ &\propto \int d\vec{s} P(A|\vec{s},u)\\ &\propto \int d\vec{s} \prod_{(i,j)} f_u(s_{ij})^{A_{ij}}\\ &\propto \sum_{\pi \in \mathfrak{S}_n} \prod_{(i,j)} \left(\mathbf{1}(\pi(i) < \pi(j))\,u \;+\;\mathbf{1}(\pi(i) > \pi(j))\,(1-u)\right)^{A_{ij}}\\ &\propto \sum_{\pi \in \mathfrak{S}_n} u^{\sum_{(i,j)}A_{ij} \mathbf{1}(\pi(i) < \pi(j))}(1-u)^{\sum_{(i,j)}A_{ij} \mathbf{1}(\pi(i) > \pi(j))} \end{aligned} \] لقد قمنا بتقريب \(f_u\) بدالة الخطوة المناسبة وسنحتاج إلى إظهار أن التكامل على الانحراف يتلاشى. نستخدم أيضاً أن التكامل على جميع النقاط موحد على جميع التباديل للنقاط. لاحظ أن الأس النهائي لـ \(u\) هو عدد الانتهاكات للترتيب تحت الترتيب \(π\)، بينما الأس لـ \(1-u\) هو عدد الحواف في الاتجاه الصحيح. إذا عرفنا عدد الانتهاكات كما يلي: \[ \begin{aligned} m_{π,A} \equiv \sum_{(i,j)} A_{ij} \mathbf{1}(π(i) < π(j)), \end{aligned} \] يمكننا بعد ذلك كتابة هذا كما يلي: \[ \begin{aligned} P(0,u|A) \propto \sum_{π \in \mathfrak{S}_n} u^{m_{π,A}}(1-u)^{m - m_{π,A}}. \end{aligned} \]

الترتيب الأدنى للانتهاكات سيكون بعد ذلك ذلك الذي يحقق قيمة m_{π,A} الدنيا.

الآن، نود بشكل مثالي تحسين هذا التعبير على \(u\). عند أخذ مشتقه \(u\)، نجد أن: \[ \begin{aligned} \partial_u P(0,u|A) \propto \sum_{π \in \mathfrak{S}_n} u^{m_{π,A} - 1}(1-u)^{m - m_{π,A} - 1} (m_{π,A}-m u). \end{aligned} \] من البديهي أن نتوقع أن \(π\) الذي يعطي الترتيب الأدنى للانتهاكات (وبالتالي يقلل من \(m_{π,A}\)) سيهيمن بطريقة ما على هذا التعبير. يمكننا أن نرى أنه إذا احتوى المجموع على تبديل واحد فقط، فإن \(u\) المثالي هو \(u = \frac{m_{π,A}}{m}\)، ببساطة نسبة الحواف المتوافقة.

الأولوية الفائقة على \(d\)

عُمق اللعبة \(d > 0\) يحتاج إلى أولوية فائقة. بعض الخيارات: \[ \begin{aligned} P(d) = e^{-d} \end{aligned} \]

وصف مجموعة البيانات

في هذا القسم نصف بمزيد من التفصيل مجموعات البيانات المستخدمة في تحليلنا. جميع مجموعات البيانات المستخدمة متاحة للعامة. تتراوح هذه من الدوريات المحترفة إلى الإعدادات الإلكترونية الأكثر انفتاحاً.

``` **تمت مراجعة جميع معادلات LaTeX وتصحيح أي أقواس أو محاذاة ناقصة، وضمان إغلاق جميع بيئات aligned ووجود الأقواس المربعة `\[ ... \]` بشكل صحيح حول المعادلات. جميع المعادلات الآن ستعمل بشكل صحيح مع MathJax.**