خلصت دراسة بحثية جديدة إلى أن أنظمة الذكاء الاصطناعي القادرة على حل مهام برمجية معقدة تواجه عقبة واضحة عندما تُطلب منها متابعة عمل بدأته نسخة أخرى أو جلسة سابقة. وفي هذه الحالات، لا يكمن التحدي في تنفيذ المهمة من الصفر، بل في إعادة فهم ما جرى بالفعل، وما الذي جُرّب، وما السبب وراء القرارات السابقة.
وتشير النتائج إلى أن نقص السياق عند تسليم المهمة بين الوكلاء لا يبطئ التقدم فقط، بل يدفع النظام إلى تكرار خطوات كان قد أُنجزت سلفاً، ما يرفع الكلفة التشغيلية ويزيد استهلاك الأدوات والرموز الحسابية، ويجعل الوصول إلى النتيجة النهائية أكثر صعوبة مما يبدو عند النظر إلى المهمة نفسها بشكل معزول.
مشكلة قديمة بصيغة جديدة
فكرة تسليم العمل لشخص أو نظام آخر ليست جديدة. ففي البيئات المهنية التقليدية، تعتمد الفرق على التوثيق لتسهيل انتقال المهام بين الموظفين. لكن الواقع يختلف كثيراً، إذ غالباً ما تصل المهام إلى الشخص التالي مع معلومات غير مكتملة، فيضطر إلى تتبع القرائن ومحاولة استنتاج ما فعله من سبقه.
في سياق الذكاء الاصطناعي، تظهر المشكلة بصورة أوضح لأن النموذج لا يحتفظ دائماً بسجل كامل للمحاولة السابقة. وحتى عندما تتوافر آليات للذاكرة أو السياق المستمر، فإنها لا تكون كافية دائماً لمنح النظام صورة دقيقة عمّا حدث. لذلك، قد يبدأ الوكيل الجديد المهمة وهو يفتقر إلى التفاصيل التي تساعده على البناء على ما سبق بدل إعادة اكتشافه من البداية.
هذا النوع من الكلفة أطلق عليه الباحثون اسم ديون التسليم، في إشارة إلى العبء الذي ينشأ عندما يترك الوكيل الأول وراءه حالة عمل غير سهلة الاستكمال. وتشبه الفكرة مفهوم الدين التقني المعروف في تطوير البرمجيات، لكن التركيز هنا لا ينصب على جودة الكود نفسه، بل على تكلفة إعادة فهمه ومتابعته بعد الانتقال بين الوكلاء.
ما الذي يقيسه مفهوم ديون التسليم؟
تعرّف الدراسة ديون التسليم بأنها الفرق بين مهمة مكتملة بشكل مفهوم ومهمة تبدو منتهية جزئياً لكنها تخفي وراءها افتراضات غير موثقة أو تجارب غير مكتملة أو أدلة تحقق مفقودة. وفي هذه الحالة، لا يكون التحدي مجرد إكمال السطر الأخير من العمل، بل فك الشيفرة الذهنية التي قادت إلى ما هو موجود حالياً.
وتنطلق أهمية هذا التعريف من أن نجاح النظام لا يجب أن يُقاس فقط بكونه وصل إلى الحل في النهاية. فقد يصل وكيلان إلى النتيجة نفسها، لكن أحدهما ينجزها بعد سلسلة طويلة من المحاولات والاستكشاف، بينما يواصل الآخر العمل بسرعة لأن المعلومات المنقولة إليه كانت أوضح وأكثر تنظيماً. هنا تظهر الكلفة الحقيقية في المسار، لا في النتيجة وحدها.
وبحسب الدراسة، فإن هذا الفرق يصبح بالغ الأهمية في بيئات العمل التي تعتمد على وكلاء برمجة أو أنظمة شبه مستقلة، لأن كل دقيقة إضافية يقضيها الوكيل في إعادة الاستكشاف تعني وقتاً أطول وكلفة أعلى واحتمالاً أكبر لارتكاب أخطاء جديدة.
كيف اختبر الباحثون الفكرة؟
اعتمد الفريق البحثي على مجموعة من مهام البرمجة المستمدة من معيار SWE-bench Verified، ثم أعاد بناء هذه المهام على هيئة حالات تسليم متعددة. وبدلاً من الاكتفاء بالنظر إلى المهمة النهائية، جرى التقاط مراحل وسيطة من التنفيذ حتى تصبح هناك نقطة انتقال بين وكيل سابق وآخر لاحق.
بلغ عدد المهام الأصلية 75 مهمة، لكن بعد تحويلها إلى سيناريوهات تسليم متعددة ارتفع العدد إلى 181 حالة تسليم. وبعد ذلك، اختبر الباحثون ثلاثة نماذج مختلفة بوصفها وكلاء لاحقين عبر 2,172 محاولة استلام كاملة، ما أتاح مقارنة دقيقة بين ما يحدث عندما تصل المهمة مع سياق محدود أو مع معلومات أكثر تفصيلاً.
ولتنظيم التجربة، قُدمت للوكيل اللاحق أربعة أشكال من المعلومات. في الوضع الأول لم يحصل إلا على حالة المستودع البرمجي مع وصف المهمة. وفي حالات أخرى، جرى تزويده بسجل كامل للنشاط، أو ملخص نصي للمحاولات السابقة، أو ملاحظات منظمة تتضمن الحالة الحالية والتغييرات التي أُجريت والنتائج التي تم التحقق منها.
كما اختبرت الدراسة ثلاث لحظات مختلفة لانتقال المهمة: بعد أول تعديل في الشيفرة، وبعد أول نتيجة تحقق، وبعد أول تعديل أعقب فشلاً في الاختبار. ويمثل كل وضع منها نوعاً مختلفاً من الصعوبة، لأن الوكيل اللاحق قد يواجه أحياناً مهمة غير مكتملة، أو مهمة أنجزت فعلياً لكن تحتاج إلى حماية من الإفساد، أو حالة إصلاح جزئي سبقها تعطل في السلوك.
النتائج: كلما زاد السياق تقلصت الكلفة
أظهرت النتائج أن نقل المزيد من المعلومات إلى الوكيل اللاحق يقلل بوضوح من العمل المطلوب لإكمال المهمة. وكان السجل الخام الكامل هو الخيار الأكثر فاعلية في تخفيض عدد الخطوات التي يحتاجها النظام، إذ خفّض الأحداث التشغيلية بنسبة كبيرة في معظم الاختبارات، كما قلل استهلاك الرموز الحسابية أيضاً.
لكن هذا الخيار ليس مثالياً دائماً، لأن تقديم السجل الكامل يرفع الكلفة الأولية للنص المرسل إلى النموذج. وبعبارة أخرى، ما يُكسبه النظام من تقليل إعادة الاستكشاف قد يدفع مقابله من خلال حجم سياق أكبر. لذلك، لا تمثل النتيجة دعوة تلقائية إلى إرسال كل شيء في كل مرة، بل تؤكد أن جودة ما يُنقل مهمة بقدر كمية ما يُنقل.
أما الملخصات النصية والملاحظات المنظمة فقد قدمت مكاسب ملحوظة أيضاً، وإن كانت أقل من السجل الكامل. ومع ذلك، ظلت أفضل بكثير من ترك الوكيل اللاحق أمام المستودع البرمجي وحده. وهذا يعني أن حتى التلخيص المختصر يمكن أن يختصر جزءاً كبيراً من وقت إعادة الفهم، خاصة عندما يتضمن ما جُرّب وما نجح وما لم ينجح.
وفي المقارنة بين النماذج، تحسن الأداء عندما حصلت الوكلاء على أي شكل من أشكال السياق الإضافي. ففي بعض الحالات ارتفعت معدلات النجاح النهائية، وفي حالات أخرى انخفض عدد التفاعلات والأوامر المطلوبة بشكل واضح، ما يشير إلى أن الفائدة لا تقتصر على زيادة احتمال الحل، بل تشمل أيضاً تقليص الطريق إليه.
ماذا تعني هذه النتيجة لفرق تطوير الذكاء الاصطناعي؟
تحمل الدراسة دلالات مباشرة لفرق بناء الوكلاء البرمجيين وأنظمة الأتمتة التي تعمل على مراحل متتابعة. فإذا كان الوكيل سيُكمل ما بدأه وكيل آخر، فإن توثيق التعديلات، وتسجيل الاختبارات، وتدوين الفرضيات، وإظهار ما فشل وما جرى استبعاده، تصبح كلها عناصر تشغيلية وليست مجرد ممارسات تنظيمية إضافية.
كما توضح النتائج أن التصميم الفعال لأنظمة الذكاء الاصطناعي لا يقتصر على تحسين النموذج نفسه. فالمشكلة هنا ليست في القدرة على إنتاج الكود فقط، بل في إدارة انتقال المعرفة بين الجلسات والوكلاء. وهذه نقطة مهمة في عالم تتزايد فيه النماذج التي تعمل بشكل مستقل أو شبه مستقل على مشاريع طويلة الأمد.
ومن زاوية اقتصادية، تكشف الدراسة أن التوثيق الجيد ليس مجرد رفاهية مؤسسية. فعندما تضطر الأنظمة إلى إعادة اكتشاف ما سبق، فإنها تستهلك وقتاً إضافياً وموارد حوسبة أكثر، وتزيد احتمال التكرار. أما حين تتوافر معلومات منظمة عن الحالة السابقة، فإن الوكيل الجديد يستطيع أن يبدأ من نقطة أقرب إلى الحل بدل البدء من الصفر.
قراءة أوسع لمستقبل الوكلاء الذكيين
رغم أن الدراسة ركزت على البرمجة، فإن فكرتها أوسع من هذا المجال. فكل نظام ذكاء اصطناعي يعتمد على تتابع الخطوات أو على تسليم المهام بين أكثر من وكيل سيواجه، بدرجات مختلفة، المشكلة نفسها: ماذا يعرف الوكيل اللاحق عن سياق ما فعله السابق؟
وهنا تكمن قيمة البحث في أنه لا يكتفي بوصف الصعوبة، بل يقترح إطاراً لقياسها. ومع مرور الوقت، قد يساعد هذا النوع من القياس في تحديد الحد الأدنى من التوثيق اللازم لكل مهمة، بحسب حجم المشروع وتعقيده ودرجة اعتماده على التسلسل بين الوكلاء.
وتشير الدراسة في مجملها إلى قاعدة عملية بسيطة: كلما كان انتقال المهمة أوضح، كانت فرص النجاح أعلى، والجهد أقل، والكلفة أدنى. أما عندما يضطر الذكاء الاصطناعي إلى إعادة بناء القصة من جديد، فإن كفاءته تتراجع حتى لو كان النموذج نفسه قوياً وقادراً على الحل.