الذكاء الاصطناعي والتقنية 28-Jun-2026 5 دقائق قراءة

مايكروسوفت تطرح إطار ASSERT مفتوح المصدر لاختبار سلوك وكلاء الذكاء الاصطناعي في المؤسسات

أعلنت مايكروسوفت عن إطار تقييم جديد ومفتوح المصدر يترجم المتطلبات المكتوبة إلى اختبارات قابلة للتنفيذ، في خطوة تستهدف تحسين حوكمة وكلاء الذكاء الاصطناعي قبل نشرهم في بيئات الإنتاج.

دخلت مايكروسوفت إلى سوق تقييم أنظمة الذكاء الاصطناعي المؤسسية بإطلاق إطار مفتوح المصدر جديد يهدف إلى فحص سلوك الوكلاء الذكيين قبل وصولهم إلى بيئات الإنتاج. وتأتي الخطوة في وقت تتسع فيه استخدامات هذه الأنظمة بسرعة، بينما ما يزال التحقق المنهجي من أدائها وسلامتها أقل نضجاً من وتيرة التبني نفسها.

الإطار الجديد يحمل اسم ASSERT، وهو اختصار لعبارة تشير إلى التقييم التكيّفي القائم على المواصفات واختبار الانحدار. والفكرة الأساسية فيه هي تحويل المتطلبات المكتوبة بلغة طبيعية، مثل السياسات الداخلية أو وثائق الحوكمة أو متطلبات المنتج، إلى اختبارات قابلة للتنفيذ يمكن إدراجها ضمن مسار التطوير والاختبار المستمر.

بهذا الأسلوب، لا يعود فريق التطوير مضطراً إلى بناء كل سيناريو تقييم يدوياً. بدلاً من ذلك، يقوم النظام بإنشاء حالات اختبار، ومجموعات بيانات، ومقاييس قياس، ولوحات نتائج انطلاقاً من النصوص التنظيمية أو الوظيفية التي تحدد ما يجب أن يفعله الوكيل وما لا يجب أن يفعله.

لماذا يصبح التقييم قضية أساسية الآن

تزايد انتشار وكلاء الذكاء الاصطناعي داخل الشركات رفع مستوى المخاطر التشغيلية المرتبطة بهم. فالوكيل قد ينجح في الاختبارات الأولية، لكنه يتصرف بصورة مختلفة بعد النشر، أو يخرج عن السياسة المحددة، أو ينتج مخرجات غير آمنة في الحالات الحدّية. وهذا ما يجعل الاعتماد على الاختبارات العامة أو المؤشرات القياسية وحدها غير كافٍ لبيئات الأعمال الحساسة.

المشكلة، وفق ما تقوله مايكروسوفت، ليست في أن النماذج لا تستطيع الإجابة فقط، بل في أن سلوك الوكلاء قد ينحرف عن أهداف المؤسسة عند التعامل مع بيانات حقيقية أو تعليمات غامضة أو مواقف غير متوقعة. لذلك تحاول الشركة دفع السوق نحو نمط أكثر صرامة من التقييم يربط بين متطلبات المنظمة وعمليات الاختبار اليومية.

وتشير تقديرات محللين في قطاع التكنولوجيا إلى أن غالبية المؤسسات لا تزال لا تجري اختبارات مسبقة كافية على الوكلاء قبل نشرهم. هذا الفراغ يفسر الاهتمام المتنامي بأدوات قادرة على أتمتة التقييم السلوكي بدلاً من الاكتفاء بالمراجعة اليدوية أو بالاعتماد على اختبارات عامة لا تعكس سياق الاستخدام الفعلي.

سوق تنافسي يتوسع بسرعة

إطلاق ASSERT لا يحدث في فراغ. فالسوق الذي يستهدفه بات يضم منصات متعددة تعمل على قياس أداء تطبيقات الذكاء الاصطناعي ورصد الانحرافات ومراقبة الجودة، من بينها أدوات تركّز على التتبع والتحقق والاختبار الآلي. وبذلك تدخل مايكروسوفت إلى مساحة تتنافس فيها شركات البنية التحتية البرمجية وأدوات التطوير ومنصات مراقبة النماذج على حل مشكلة واحدة: كيف يمكن التأكد من أن الوكيل الذكي سيتصرف كما هو متوقع عند النشر؟

وتكمن أهمية هذه الفئة من الأدوات في أنها لا تختبر النموذج باعتباره نظاماً لغوياً فقط، بل تركز على سلوكه داخل بيئة العمل. أي أنها تسأل: هل يلتزم بالسياسات؟ هل يتعامل مع الحالات الحساسة بالشكل الصحيح؟ هل يحافظ على الاتساق عبر التحديثات والإصدارات؟

هذا التحول من تقييم الأداء اللغوي إلى تقييم السلوك العملي يعكس مرحلة أكثر نضجاً في صناعة الذكاء الاصطناعي، حيث لم يعد السؤال محصوراً في دقة الإجابة، بل في سلامة القرار داخل مؤسسة لها متطلبات امتثال ومخاطر تشغيلية حقيقية.

المعايير الآلية لا تلغي الحاجة إلى البشر

من النقاط اللافتة في ASSERT أن مايكروسوفت تستخدم نماذج لغوية بوصفها حكاماً لتقييم المخرجات. ووفق ما أعلنته الشركة، فإن نتائج هذا التقييم الآلي تتوافق مع مراجعات البشر بنسبة تتراوح بين 80% و90% في الاختبارات الداخلية.

هذه النسبة قد تبدو مرتفعة بما يكفي لأتمتة جزء كبير من العمل، لكنها لا تعني الاستغناء عن المراجعة البشرية. فالتوافق الجيد مع البشر لا يحول الذكاء الاصطناعي إلى جهة حوكمة مستقلة، خصوصاً في الحالات التنظيمية المعقدة أو المواقف الغامضة أو المجالات عالية الحساسية مثل الخدمات المالية والصحة والامتثال القانوني.

النهج الأكثر واقعية، كما يراه محللون في الصناعة، يقوم على طبقات من الرقابة. في هذا النموذج، يتولى الذكاء الاصطناعي فحص كميات كبيرة من الحالات بصورة سريعة، بينما يحتفظ البشر بالسلطة النهائية في السيناريوهات ذات المخاطر المرتفعة أو التي تتطلب حكماً سياقياً دقيقاً.

كما يبرز تحدٍ آخر يتمثل في الانحياز أو عدم الاتساق عندما يستخدم نفس النوع من النماذج في توليد الاختبارات ثم في تقييمها. ولهذا السبب، فإن وجود أكثر من طريقة تقييم واحدة يبقى أمراً مهماً لتقليل المخاطر ومنع الاعتماد الكامل على إطار واحد قد يحمل افتراضاته الخاصة.

ماذا يعني الطرح مفتوح المصدر للمؤسسات

أطلقت مايكروسوفت ASSERT بموجب ترخيص MIT المفتوح المصدر، ما يمنح الشركات والمطورين القدرة على فحص الشيفرة وتعديلها ودمجها في مسارات العمل القائمة. وهذه النقطة مهمة للمؤسسات التي تبحث عن قابلية التخصيص وتريد تجنب الارتباط الكامل بمزود واحد.

لكن الانفتاح في الترخيص لا يعني تلقائياً إزالة كل المخاوف. فحتى عندما يكون الإطار متاحاً للجميع، تظل هناك أسئلة حول حياد معايير التقييم، وكيفية تعريف «السلوك المقبول»، ومن يقرر أوزان النقاط والحدود الفاصلة بين النجاح والفشل.

بمعنى آخر، المصدر المفتوح يقلل من مشكلات الاحتكار التقني والاعتماد على منصة واحدة، لكنه لا يحل وحده إشكاليات الثقة أو تضارب المصالح أو صلاحية معايير القياس نفسها. لذلك تحتاج المؤسسات إلى امتلاك سياساتها الداخلية الخاصة في التقييم، وعدم الاكتفاء بإطار خارجي واحد مهما كان واسع الاستخدام.

الرسالة الأوسع في سباق وكلاء الذكاء الاصطناعي

مايكروسوفت ترسل من خلال ASSERT رسالة واضحة للسوق: التحدي التالي في الذكاء الاصطناعي المؤسسي ليس فقط بناء وكلاء أكثر قدرة، بل بناء آليات أفضل للتأكد من أنهم يتصرفون بشكل آمن ومطابق للسياسات. ومع زيادة الاعتماد على هذه الأنظمة في سير العمل اليومي، يصبح الاختبار قبل الإنتاج جزءاً من البنية التحتية نفسها، لا مجرد خطوة إضافية.

هذا التوجه ينسجم مع التحول الأوسع في القطاع نحو «الذكاء الاصطناعي القابل للحوكمة»، حيث تتقاطع السرعة مع الامتثال، وتتقدم الحاجة إلى أدوات فحص سلوكي قابلة للتكرار على مجرد تحسينات في الأداء الخام. وإذا نجح هذا النمط في الانتشار، فقد يصبح تقييم الوكلاء شرطاً أساسياً مثل الاختبار الأمني واختبار الاعتمادية في مشاريع البرمجيات التقليدية.

في المرحلة الحالية، يبدو أن القيمة الحقيقية لمثل هذه الأدوات لا تكمن فقط في أتمتة التقييم، بل في جعل سياسات المؤسسة قابلة للتنفيذ داخل خط التطوير نفسه. وهذا ما يجعل ASSERT أكثر من مجرد إطار آخر في سوق مزدحم؛ إنه محاولة لربط النصوص التنظيمية بالاختبارات الفعلية، وتحويل الحوكمة من وثائق ثابتة إلى عملية تشغيلية مستمرة.