Sakana AI تطور منسقاً ذكياً للنماذج المتعددة

تتجه شركات الذكاء الاصطناعي بشكل متزايد إلى بناء أنظمة تجمع بين أكثر من نموذج بدلاً من الاعتماد على نموذج واحد فقط. الفكرة بسيطة من حيث المبدأ: بعض النماذج تكون أفضل في كتابة الشيفرة، وأخرى تتفوق في التخطيط أو التحليل أو حل المسائل العلمية. لكن تحويل هذا التنوع إلى نظام عملي داخل المنتجات ليس أمراً سهلاً، لأن معظم أدوات التنسيق الحالية تعتمد على مسارات ثابتة يحددها المطورون مسبقاً.

في هذا السياق، عرضت شركة Sakana AI نظاماً جديداً يحمل اسم RL Conductor، وهو نموذج لغوي صغير نسبياً تم تدريبه بالتعلم المعزز لكي يتولى مهمة توزيع العمل بين مجموعة من النماذج الأخرى. وبدلاً من تمرير كل طلب إلى خط معالجة واحد ثابت، يحلل هذا النظام طبيعة المهمة ثم يقرر أي نموذج يجب أن يتولى كل جزء منها، وبأي ترتيب، وما المعلومات التي يجب أن تصل إلى كل طرف مشارك.

مشكلة المسارات الثابتة في أنظمة الوكلاء

العديد من فرق التطوير تبني اليوم أنظمة ذكاء اصطناعي مركبة عبر أدوات مثل سلاسل المعالجة الجاهزة أو أطر الوكلاء متعددة الخطوات. هذه الأنظمة قد تعمل جيداً في سيناريو محدد، لكنها غالباً ما تتعثر عندما تتغير نوعية الأسئلة أو تتسع قاعدة المستخدمين وتتنوع احتياجاتهم.

المشكلة الأساسية أن المسار البرمجي الثابت يفترض مسبقاً شكل المهمة والخطوات المناسبة لحلها. لكن الواقع العملي مختلف: سؤال بسيط يعتمد على استرجاع معلومة لا يحتاج إلى نفس البنية التي يحتاجها تحدٍ برمجي معقد أو مسألة رياضية متعددة المراحل. وعندما يحاول المطورون كتابة قواعد تغطي كل الاحتمالات، يتحول النظام إلى شبكة معقدة وصعبة الصيانة ومكلفة التشغيل.

إضافة إلى ذلك، لا يوجد نموذج واحد هو الأفضل في كل شيء. فقد يكون نموذج ما ممتازاً في التخطيط عالي المستوى، بينما يكون نموذج آخر أقوى في كتابة الشيفرة أو المراجعة أو المنطق الرياضي. لذلك فإن تحديد أفضل مزيج يدوياً لكل طلب يصبح مهمة شبه مستحيلة، خصوصاً في البيئات المؤسسية واسعة النطاق.

ما الذي يفعله RL Conductor؟

صممت Sakana AI هذا النموذج ليعمل كمنسق بين مجموعة من النماذج العاملة. عند وصول مهمة جديدة، لا يكتفي بإرسالها إلى نموذج واحد، بل ينشئ سير عمل خاصاً بها. هذا السير قد يكون بسيطاً من خطوة واحدة، أو سلسلة متتابعة، أو شجرة من المهام المتوازية، أو حتى حلقة مراجعة متكررة إذا كانت المهمة تحتاج إلى تنقيح واختبار.

يعتمد النظام على تعليمات مكتوبة باللغة الطبيعية لتوزيع الأدوار. فهو يحدد المهمة الفرعية المطلوبة، ثم يختار النموذج المناسب لتنفيذها، ويقرر أيضاً أي نتائج سابقة يجب أن يراها هذا النموذج ضمن السياق. بهذه الطريقة، يصبح التنسيق مرناً بدلاً من أن يكون مبنياً على قواعد جامدة.

النقطة الأهم أن هذه الاستراتيجية لم تُكتب يدوياً بالكامل من قبل المهندسين، بل تعلمها النموذج عبر التعلم المعزز. خلال التدريب، كان يحصل على مهمة ومجموعة من النماذج المتاحة وإشارة مكافأة مرتبطة بصحة الإجابة وصياغتها. ومع تكرار المحاولات، تعلم تدريجياً أي طرق تقسيم وأي هياكل تواصل تؤدي إلى أفضل نتيجة.

نموذج 7B يدير نماذج أكبر منه

في التجارب التي عرضها الباحثون، تم ضبط نموذج Qwen2.5-7B ليؤدي دور المنسق. ورغم أن حجمه يبلغ 7 مليارات معلمة فقط، فإنه استُخدم لتوجيه مجموعة تضم سبعة نماذج مختلفة، بينها نماذج مغلقة كبيرة مثل GPT-5 وClaude Sonnet 4 وGemini 2.5 Pro، إلى جانب نماذج مفتوحة المصدر أخرى.

الفكرة هنا ليست أن النموذج الصغير يتفوق بقدراته الخاصة على النماذج الأكبر، بل أنه يعرف متى يستخدم كل واحد منها، ومتى يكتفي بعدد قليل من الخطوات، ومتى يحتاج إلى تخطيط ثم تنفيذ ثم تحقق. هذا يشبه إلى حد ما دور قائد الأوركسترا الذي لا يعزف كل الآلات بنفسه، لكنه يعرف متى يدخل كل قسم وما الذي ينبغي أن يقدمه.

نتائج الاختبارات على البرمجة والاستدلال

بحسب النتائج المعلنة، حقق النظام متوسطاً بلغ 77.27% عبر مجموعة من الاختبارات الصعبة. وسجل 93.3% في اختبار AIME25 الرياضي، و87.5% في GPQA-Diamond، و83.93% في LiveCodeBench الخاص بالبرمجة.

ما يلفت الانتباه أن هذا الأداء لم يأت فقط على حساب زيادة الموارد. فالنظام كان أيضاً أكثر كفاءة في استهلاك الرموز. إذ أشارت النتائج إلى أن بعض الأنظمة المقارنة كانت تستخدم أكثر من 11,203 رمزاً لكل سؤال، بينما استخدم RL Conductor في المتوسط نحو 1,820 رمزاً فقط، مع متوسط ثلاث خطوات تقريباً في كل سير عمل.

هذا الفرق مهم جداً في البيئات التجارية، لأن تكلفة واجهات البرمجة ترتبط عادة بعدد الاستدعاءات وحجم الرموز المستهلكة. وبالتالي فإن أي تحسن في التوجيه لا ينعكس فقط على جودة الإجابة، بل أيضاً على كلفة التشغيل وزمن الاستجابة.

ماذا تعلم النظام عن نقاط قوة النماذج؟

أظهرت التجارب أن المنسق لم يوزع المهام عشوائياً، بل تعلم أن يربط نوع المهمة بالنموذج الأنسب لها. في الأسئلة البسيطة القائمة على معلومة مباشرة، كان ينجز المطلوب بخطوة واحدة أو باستخدام إعداد محدود من نموذجين. أما في مسائل البرمجة الصعبة، فكان يبني سير عمل أطول يضم مراحل تخطيط وتنفيذ ومراجعة.

كما كشفت النتائج أن النظام كان يميل في بعض مهام البرمجة إلى استخدام Gemini 2.5 Pro وClaude Sonnet 4 في التخطيط عالي المستوى، ثم يستعين بـGPT-5 في المرحلة النهائية لكتابة الشيفرة المحسنة. وفي بعض الحالات، كان يترك عملية التخطيط الكاملة لأحد النماذج القوية قبل أن يوزع بقية المهام على المجموعة.

هذه السلوكيات توضح أن قيمة النظام ليست فقط في اختيار النموذج، بل في تحديد الدور المناسب لكل نموذج داخل المهمة نفسها. وهذا فرق مهم عن أنظمة التوجيه البسيطة التي تختار نموذجاً واحداً لكل طلب ثم تتوقف عند هذا الحد.

من البحث إلى المنتج التجاري

رغم أن نسخة البحث الخاصة بالنموذج 7B ليست مطروحة للاستخدام العام، فإن الشركة حولت الفكرة إلى منتج تجاري تحت اسم Fugu. ويقدم هذا المنتج نظام تنسيق متعدد الوكلاء عبر واجهة برمجة متوافقة مع أسلوب OpenAI، ما يسمح للشركات بدمجه في تطبيقاتها الحالية دون إدارة مباشرة لعدد كبير من مفاتيح الواجهات أو منطق التوجيه الداخلي.

وتقول الشركة إن النظام موجه خصوصاً للقطاعات التي لم تحقق بعد مكاسب إنتاجية كبيرة من الذكاء الاصطناعي بسبب محدودية المسارات الثابتة، مثل قطاعات المال والدفاع وبعض التطبيقات المؤسسية المعقدة. كما طرحت الشركة نسختين من الخدمة: إصدار يركز على سرعة الاستجابة، وآخر يركز على أقصى أداء في الأعمال الثقيلة.

ماذا يعني ذلك لسوق الذكاء الاصطناعي؟

هذا الاتجاه يعكس تحولاً أوسع في سوق الذكاء الاصطناعي. فبدلاً من المنافسة على بناء نموذج واحد يفعل كل شيء، أصبحت هناك قيمة متزايدة في بناء طبقة تنسيق ذكية فوق مجموعة من النماذج المتخصصة. ومع ازدياد عدد النماذج المفتوحة والمغلقة، يصبح هذا النوع من الإدارة أكثر أهمية من مجرد تحسين أداء نموذج منفرد.

بالنسبة للشركات، قد يغير ذلك طريقة تصميم التطبيقات. إذا كانت فرق التطوير تقضي وقتاً طويلاً في تعديل المسارات وتحديث القواعد اليدوية، فإن استخدام منسق ديناميكي قد يكون أكثر جدوى. لكن ذلك لا يعني أن هذا النهج مناسب لكل الحالات. ففي المهام البسيطة جداً، قد يظل تشغيل نموذج محلي مباشر أقل كلفة وأكثر عملية.

كما تبرز هنا أسئلة تتعلق بالشفافية والحوكمة. فعندما ينشئ النظام مسارات عمل داخلية معقدة تلقائياً، يصبح من المهم فهم كيفية اتخاذ القرارات ومراقبة الأخطاء في الإجابات والحد من السلوك غير المتوقع. وترى الشركة أن هذه التحديات قريبة من مشكلات التتبع الموجودة أصلاً في واجهات النماذج المغلقة الحالية، مع الاعتماد على ضوابط تشغيلية للحد من المخاطر.

اتجاه يتجاوز النص والبرمجة

إذا أثبتت هذه الفكرة نجاحها على نطاق أوسع، فمن المرجح ألا تبقى محصورة في النصوص وكتابة الشيفرة. يمكن تخيل أنظمة مشابهة تدير مهام متعددة الوسائط تشمل الصور والعروض التقديمية وتحليل المستندات وربما أنظمة مادية أكثر استقلالية في المستقبل.

ما تقدمه Sakana AI في هذه المرحلة هو مؤشر على أن الطبقة التالية من الابتكار في الذكاء الاصطناعي قد لا تكون بالضرورة نموذجاً أضخم، بل نظاماً أذكى في اختيار من يعمل، ومتى يعمل، وكيف تتبادل النماذج المعلومات فيما بينها. ومع تزايد تنوع النماذج المتاحة، قد يصبح هذا النوع من التنسيق الديناميكي جزءاً أساسياً من بنية تطبيقات الذكاء الاصطناعي الحديثة.