اختبار يسلط الضوء على تحسن صراحة Claude Opus 4.8 مع بقاء أخطاء الحكم قائمة
اختبار عملي من 10 سيناريوهات كشف أن Claude Opus 4.8 أصبح أكثر دقة في الاعتراف بالشكوك وتجنب الادعاءات غير المدعومة، لكنه ما زال يرتكب أخطاء في تقدير الأدلة والسياق، خصوصاً عندما ينتقل من الإجابة إلى الدفاع عن استنتاجه.