AutoTTS يخفض استهلاك الرموز في نماذج الذكاء الاصطناعي بنسبة 69.5%

أصبح تحسين نماذج اللغة الكبيرة لا يعتمد فقط على رفع حجم النموذج أو زيادة بيانات التدريب، بل على إدارة الحوسبة في لحظة توليد الإجابة نفسها. وفي هذا المجال، برزت تقنية test-time scaling أو "التوسيع أثناء وقت التشغيل" كأداة تساعد النماذج على التفكير بعمق أكبر عند الحاجة، عبر منحها دورات حسابية إضافية قبل إصدار النتيجة النهائية.

لكن المشكلة الأساسية في هذا النهج كانت دائماً أن الاستراتيجيات المستخدمة لتوزيع هذه الحوسبة صُممت يدوياً. فالمهندسون كانوا يضعون قواعد مبنية على الخبرة والتخمين لتحديد متى ينبغي للنموذج أن يتفرع إلى مسارات متعددة، أو يواصل التعمق في مسار واحد، أو يتوقف مبكراً لتقليل التكلفة. هذا الأسلوب وفّر بعض التحسينات، لكنه بقي محدوداً بسبب اعتماده على التقدير البشري.

بحث جديد قدمه فريق يضم باحثين من Meta وGoogle وجامعات عدة يحاول كسر هذه الحلقة عبر إطار عمل يحمل اسم AutoTTS، وهو نظام لا يكتفي بتحسين الاستدلال، بل يكتشف تلقائياً أفضل سياسة لإدارته. الفكرة الأساسية هنا هي نقل عملية تصميم استراتيجية التفكير من الإنسان إلى خوارزمية قادرة على الاستكشاف والتجريب وتعديل القواعد بشكل متكرر حتى تصل إلى أفضل توازن بين الدقة والتكلفة.

منهج جديد لتصميم الاستدلال

في النماذج التقليدية، كان تصميم استراتيجيات التوسيع أثناء وقت التشغيل يدور حول مجموعة من القرارات الثابتة: كم مساراً يجب أن يُختبر؟ متى يتم فتح مسارات جديدة؟ متى يُلغى مسار لا يبدو واعداً؟ ومتى يُغلق باب الاستدلال نهائياً؟ هذه الأسئلة كانت تُجاب غالباً بقواعد يدوية صعبة التعميم.

AutoTTS يعيد تعريف المشكلة باعتبارها مسألة بحث آلي داخل بيئة منضبطة. بدلاً من أن يكتب المهندس القواعد النهائية بنفسه، يقوم ببناء مساحة التحكم، أي البيئة التي تسمح للنظام بتجربة سياسات مختلفة ضمن حدود واضحة للأهداف والقيود. ثم يتولى نموذج "مستكشف" ذكي اقتراح هذه السياسات وتقييمها وتحسينها تكرارياً.

هذا المستكشف يعمل كوكيل مستقل يكتب ما يمكن وصفه بوحدات تحكم برمجية تحدد كيفية توزيع ميزانية الحوسبة أثناء الاستدلال. وفي كل دورة، يختبر الوكيل ما إذا كانت السياسة المقترحة تحقق نتيجة أفضل مقابل تكلفة أقل، ثم يعيد صياغة الشيفرة إذا ظهرت ثغرات أو قرارات غير فعالة.

ولكي يكون البحث قابلاً للتنفيذ من الناحية الحسابية، يعتمد AutoTTS على بيئة إعادة تشغيل غير متصلة بالإنترنت. وبدلاً من تشغيل نموذج الاستدلال الأساسي في كل مرة لتوليد رموز جديدة أثناء التجربة، يستخدم النظام آلاف المسارات الاستدلالية التي جُمعت مسبقاً. هذه الخطوة تخفض الكلفة بشكل كبير وتتيح الاستكشاف بسرعة أكبر.

كيف يقلل النظام الرموز من دون خسارة الأداء

جوهر الابتكار في AutoTTS لا يكمن فقط في الأتمتة، بل في جودة السياسات التي يكتشفها. فالنظام يستطيع الوصول إلى قواعد مركبة يصعب على الإنسان صياغتها يدوياً، لأنه لا يتقيد بالتصورات التقليدية لكيفية سير التفكير داخل النموذج.

إحدى السياسات التي اكتشفها الإطار حملت اسم Confidence Momentum Controller. وتقوم هذه السياسة على تتبع زخم الثقة بدلاً من الاعتماد على مستوى ثقة لحظي فقط. والسبب أن الثقة اللحظية قد تكون مضللة، إذ يمكن أن ترتفع مؤقتاً ثم تهبط لاحقاً. لذلك يستخدم المتحكم متوسطاً متحركاً أُسّياً لقياس الاتجاه العام، ولا يقرر التوقف إلا إذا كانت الثقة مرتفعة والمسار لا يُظهر تراجعاً.

كما اكتشف النظام علاقة وثيقة بين عرض البحث وعمقه. ففي الطرق اليدوية، يُنظر غالباً إلى فتح مسارات جديدة والتعمق في المسارات الحالية كقرارين منفصلين. أما AutoTTS فوجد أن هذين القرارين يمكن ربطهما ضمن حلقة تغذية راجعة واحدة: إذا تباطأت الثقة أو بدأت بالتراجع، ينشط النظام تلقائياً لفتح مسارات جديدة.

ومن السمات الأخرى البارزة أن النظام لا يوزع الحوسبة بالتساوي على كل المسارات النشطة. بل يحدد المسارات الأكثر انسجاماً مع الإجابة المتصدرة، ثم يمنحها دفعات إضافية من القدرة الحسابية للتحقق بسرعة أكبر من صحة الاتجاه الغالب. هذا الأسلوب يركز الموارد في الأماكن الأكثر احتمالاً لإنتاج إجابة دقيقة.

نتائج تجريبية لافتة على عدة معايير

اختُبر AutoTTS على نماذج Qwen3 تتراوح أحجامها بين 0.6 مليار و8 مليارات معلمة، كما تم تقييم قدرته على التعميم على نسخة distilled من نموذج DeepSeek-R1 بحجم 8 مليارات معلمة. وبدأت عملية الاكتشاف على معيار AIME24 الرياضي، ثم نُقلت السياسة الناتجة إلى اختبارات أخرى لم تُستخدم في مرحلة التطوير.

شملت الاختبارات اللاحقة AIME25 وHMMT25، إضافة إلى معيار GPQA-Diamond الموجه للاستدلال العام بمستوى دراسات عليا. كما جرت مقارنة AutoTTS مع أربع استراتيجيات يدوية شائعة: Self-Consistency بعدد 64 مساراً، Adaptive-Consistency، Parallel-Probe، وEarly-Stopping Self-Consistency.

النتيجة الأكثر لفتاً كانت أن النسخة المتوازنة من AutoTTS خفضت استهلاك الرموز بنحو 69.5% مقارنة بـ SC@64، من دون التأثير في متوسط الدقة عبر نماذج Qwen الأربعة. وفي إعدادات أخرى تتيح ميزانية استدلال أعلى، تجاوز النظام أفضل أداء حققته الاستراتيجيات اليدوية في خمسة من ثمانية اختبارات.

وعلى معيار GPQA-Diamond، خفضت النسخة المتوازنة تكلفة الاستدلال من 510 آلاف رمز إلى 151 ألفاً فقط، مع تحسن طفيف في الدقة الإجمالية. أما على نسخة DeepSeek المعدلة، فقد حقق AutoTTS أعلى دقة إجمالية على HMMT25، مع تقليص الإنفاق على الرموز إلى ما يقرب من النصف.

دلالات عملية لفرق الهندسة والمؤسسات

تعكس هذه النتائج تحوّلاً مهماً في طريقة بناء تطبيقات الذكاء الاصطناعي المؤسسية. فالمشكلة لم تعد فقط في اختيار النموذج الأفضل، بل في إدارة طريقة تفكيره لحظة بلحظة. وهذا يهم الشركات التي تعتمد على نماذج اللغة الكبيرة في البحث، وخدمة العملاء، والتحليل، والأتمتة المعرفية، حيث تمثل تكلفة الاستدلال عنصراً مباشراً في الميزانية التشغيلية.

الميزة الأولى التي يبرزها AutoTTS هي أنه لا يقتصر على خفض التكلفة، بل يمكنه أيضاً رفع الحد الأقصى للأداء الذي يبلغه النموذج الأساسي. فعبر رصد المسارات غير المفيدة وإعادة توجيه الموارد إلى المسارات الأكثر وعداً، يتيح النظام للنموذج أن يستخدم حوسبته بكفاءة أعلى.

الميزة الثانية تتعلق بكلفة التطوير نفسها. فبفضل بيئة إعادة التشغيل غير المتصلة، احتاجت عملية الاكتشاف إلى نحو 39.90 دولار فقط واستغرقت 160 دقيقة. وهذا يعني أن تحسين استراتيجيات الاستدلال لم يعد يتطلب بالضرورة ميزانيات بحثية ضخمة، بل يمكن تنفيذه ضمن إطار عملي أضيق بكثير.

كما أن الإطار والـ controller الناتج متاحان للاستخدام المفتوح، مع إمكانية دمجهما كبديل مباشر لبعض وحدات التحكم الخاصة بالتوسيع أثناء وقت التشغيل. وهذا يفتح الباب أمام فرق التطوير لتخصيص سياسات استدلال تناسب النماذج الخاصة بها والمهام الداخلية التي تعمل عليها.

ما الذي يعنيه ذلك لمستقبل الاستدلال في النماذج الكبيرة

تكشف هذه المقاربة أن تحسين أداء الذكاء الاصطناعي لا يتطلب دائماً تدريباً أكبر أو بنية تحتية أعقد. أحياناً يكون الفرق الحقيقي في كيفية استخدام الحوسبة المتاحة، وفي متى يجب على النموذج أن يتوقف أو يوسع أو يعيد فحص مساره. ومع تحول هذه القرارات إلى عملية آلية قابلة للتعلم، يصبح من الممكن استخراج كفاءة إضافية من النماذج الحالية بدل الاعتماد الكامل على الجيل التالي منها.

هذا النوع من التطوير قد يغير أدوات فرق الذكاء الاصطناعي في المؤسسات خلال الفترة المقبلة. فبدلاً من كتابة قواعد ثابتة للاستدلال، قد تبدأ الفرق ببناء بيئات اكتشاف تسمح للأنظمة نفسها بتعلم أفضل سياسة لتوزيع الموارد، مع ضبط دقيق لمعادلة الأداء مقابل الكلفة. وفي سوق تتزايد فيه ضغوط النفقات الحاسوبية، يبدو هذا النوع من الابتكار ذا قيمة تشغيلية مباشرة.