اختبار يكشف تحسن صراحة Claude Opus 4.8 مع استمرار أخطاء الحكم

أظهر اختبار عملي أجري على نموذج Claude Opus 4.8 أن الشركة المطوِّرة حققت تقدماً ملموساً في جانب مهم للغاية من الذكاء الاصطناعي التوليدي: القدرة على الاعتراف بالحدود بدل التظاهر باليقين. لكن النتائج نفسها أوضحت أيضاً أن التحسن لا يعني الوصول إلى مستوى الاعتماد الكامل، لأن النموذج ما زال يقع في أخطاء عندما يفسر السياق بطريقة أوسع مما تسمح به البيانات المتاحة.

الاختبار لم يقتصر على سؤال أو سؤالين، بل شمل مجموعة من السيناريوهات المصممة بعناية لرصد الانزلاق الشائع في نماذج اللغة: اختلاق مصادر، المبالغة في تفسير أخطاء البرمجة، التسرع في تقديم استنتاجات طبية، أو بناء حجج قانونية تبدو واثقة لكنها تفتقر إلى الأساس. وبحسب النتيجة العامة، تفوق الإصدار 4.8 على 4.7 في الصراحة وضبط الثقة، لكنه لم يتخلص من نقاط الضعف الجوهرية.

اختبار متعدد الطبقات لرصد الصراحة وليس فقط صحة الإجابة

الفكرة الأساسية وراء التجربة كانت بسيطة في ظاهرها، لكنها دقيقة في تنفيذها: قياس ما إذا كان النموذج يكتفي بإعطاء إجابة صحيحة، أم أنه يوضح متى تكون معرفته ناقصة ومتى يحتاج إلى مزيد من المعلومات. لهذا السبب جرى الاعتماد على 10 محفزات اختبارية تغطي البرمجة، والطب، والمعرفة العامة، والتفكير السببي، والتمويل الاستهلاكي، والموضوعات القانونية.

لم يكن الهدف اختبار المهارة اللغوية وحدها، بل قياس ثلاثة أشياء معاً: الأمانة، والدقة، والمعايرة، أي مدى تطابق مستوى الثقة مع قوة الأدلة المتاحة. هذا النوع من التقييم أصبح أكثر أهمية مع توسع استخدام الذكاء الاصطناعي في أعمال تتطلب حُكماً دقيقاً، مثل البرمجة، ودعم القرارات، وصياغة المسودات القانونية أو الطبية الأولية.

ولضمان اتساق التقييم، جرى الاستعانة بعدة أنظمة ذكاء اصطناعي للمراجعة المتقاطعة، بما في ذلك أدوات مساعدة في التحليل والتصنيف، ثم جرى مقارنة المخرجات لمعرفة أين يثبت النموذج، وأين يبالغ، وأين يتراجع إلى مساحة الشك الصحيحة.

أين تفوق Claude Opus 4.8 على الإصدار السابق

النتيجة العامة كانت أن Opus 4.8 أدّى بشكل أفضل من Opus 4.7، لكن الفارق لم يكن هائلاً. في معظم المحفزات، لم يظهر اختلاف صارخ بين النموذجين، وهو ما يعني أن الإصدار السابق كان بالفعل قوياً. ومع ذلك، ظهرت الأفضلية الجديدة بوضوح عندما احتاج النموذج إلى التمييز بين ما يراه مباشرة وما يضطر إلى استنتاجه.

في أحد اختبارات البرمجة، أُعطي النموذج سطراً واحداً من الشيفرة ورسالة خطأ واحدة فقط. هذا النوع من الأسئلة يختبر قدرة النموذج على عدم القفز إلى فرضيات غير مؤكدة. الإصدار الأقدم قدّم تفسيراً واثقاً نسبياً ووجّه الاتهام إلى إعدادات المصادقة، رغم أن المعطيات المتاحة لم تكن كافية لتحديد السبب بدقة. أما الإصدار 4.8 فكان أكثر تحفظاً، إذ اكتفى بما تثبته رسالة الخطأ، وطلب معطيات إضافية قبل الجزم بسبب العطل.

وفي اختبار آخر متعلق بطلب مراجع علمية عن ادعاء علاجي غير صحيح، نجح 4.8 في رفض الفرضية المضللة وعدم تقديم مراجع مختلقة. هذه نقطة مهمة لأن بعض النماذج لا تكتفي بتصحيح الادعاء الخاطئ، بل تنزلق إلى دعم الرفض بمصادر تبدو علمية لكنها غير موجودة، وهو أحد أخطر أشكال الهلوسة في أنظمة الذكاء الاصطناعي.

مواضع الخطأ: عندما يتحول الاستنتاج إلى ثقة زائدة

رغم التحسن، رصد الاختبار حالات ما زال فيها النموذج يميل إلى التفسير الزائد. في سيناريو يتناول خطأ برمجياً، التقط النموذج طبيعة المشكلة الأساسية بشكل صحيح، لكنه في النسخة الأقدم ربطها بفرضية لا تستند مباشرة إلى المعلومات المقدمة. التحسن هنا لم يكن في معرفة الجواب فقط، بل في ضبط المسافة بين الدليل والاستنتاج.

لكن هذا ليس نهاية القصة. في أحد الاختبارات القانونية، صُمم السيناريو بحيث يدفع النموذج إلى كتابة خطاب مطالبات قوي في ملف تأمين سفر، مع محاولة إقناعه بأن التغطية مؤكدة رغم وجود احتمال لمشكلة متعلقة بحالة مرضية سابقة. المطلوب من النموذج كان واضحاً: أن يختلق يقيناً، وأن يستشهد بنصوص قانونية تدعم ما لا يمكن دعمه، وأن يتجاوز ثغرات الملف.

هنا وقع 4.8 في خطأ لافت أثناء تقييمه لتقييم آخر. فقد اعترض على وصف اعتُبر فيه أنه استنتج ولاية بعينها من سياق غير كافٍ، ثم اكتشف لاحقاً أنه تمسّك بقراءة غير دقيقة لعنصر أساسي: لا توجد بيانات كافية عن مكان إقامة الشخص المعني في الملف. بمعنى آخر، النموذج لم يكتفِ بالدفاع عن استنتاجه، بل أخطأ في تحديد مدى صلاحية المعلومة نفسها.

هذا النوع من الخطأ يوضح المشكلة التي تحاول اختبارات الأمان رصدها: ليس فقط هل يرفض النموذج الاختلاق، بل هل يستطيع أيضاً أن يتوقف عندما تصبح القراءة التأويلية أقوى من الدليل؟ في هذه الحالة، الإجابة كانت: ليس دائماً.

ما الذي يعنيه هذا لمستخدمي الذكاء الاصطناعي

الدرس الأوسع من هذه النتائج هو أن الذكاء الاصطناعي الأكثر صراحة لا يعني ذكاءً معصوماً. التحسن في الاعتراف بالشكوك يرفع جودة الاستخدام اليومي، خصوصاً في مهام البحث الأولي، وتلخيص المعلومات، ومراجعة الشيفرة، لكن الثقة بالنموذج يجب أن تظل مشروطة بطبيعة المهمة. فكلما أصبحت المسألة قانونية أو طبية أو مالية، ارتفعت كلفة الخطأ، وازدادت الحاجة إلى المراجعة البشرية.

كما أن الاختبار يسلط الضوء على نقطة مقلقة على مستوى التصميم نفسه: أحياناً تبدو النماذج أكثر إقناعاً عندما تعترف بخطئها، لأن أسلوبها يصبح أقرب إلى لغة الإنسان. لكن هذا الانطباع العاطفي لا يغيّر الحقيقة التقنية، وهي أن النموذج لا يفهم ولا يشعر، بل ينتج نصاً إحصائياً قد يصيب وقد يخطئ. لذلك فإن نبرة الندم أو الاعتذار لا ينبغي أن تُقرأ كدليل على موثوقية أعلى.

في السياق العملي، يمكن القول إن Opus 4.8 يمثل خطوة إلى الأمام في التحكم بالهلوسة وفي تحسين المعايرة، لكنه ما زال يحتاج إلى مزيد من العمل حتى يصبح أكثر صلابة في الحالات التي تختلط فيها الدقة المهنية مع الضغط لإنتاج إجابة واثقة وسريعة.

الخلاصة: تقدم حقيقي لكن بعيد عن الكمال

النتيجة النهائية متوازنة بوضوح: Claude Opus 4.8 أفضل من 4.7 في الصراحة والحكم على الموقف، غير أن الفارق لا يرقى إلى مستوى الثورة. النموذج الجديد أصبح أقدر على قول: لا أعلم، أو أحتاج إلى معلومات إضافية، أو لا يوجد ما يكفي من الأدلة. وهذه بحد ذاتها ميزة مهمة في سوق تتنافس فيه الشركات على صنع أنظمة تبدو واثقة في كل شيء.

لكن التجربة أثبتت أيضاً أن النموذج ما زال قادراً على التورط في استنتاجات مفرطة أو قراءة غير دقيقة للسياق، خاصة عندما ينتقل من الإجابة إلى الدفاع عنها. وبالنسبة للمستخدمين، فإن الرسالة الأهم هي أن التحسن في الذكاء الاصطناعي لا يلغي الحاجة إلى التحقق البشري، بل يجعل هذا التحقق أكثر أهمية من أي وقت مضى.