منصة AI IQ تشعل الجدل حول تقييم نماذج الذكاء

أطلقت منصة جديدة تحمل اسم AI IQ محاولة لافتة لتبسيط سوق نماذج الذكاء الاصطناعي عبر وضع أكثر من 50 نموذجاً على مقياس يشبه اختبارات الذكاء البشرية. الفكرة تبدو سهلة الفهم: تحويل نتائج النماذج في مجموعة كبيرة من الاختبارات إلى رقم واحد تقريبي، ثم عرض هذا الرقم على منحنى مشابه لما يعرف في اختبارات IQ لدى البشر.

لكن ما بدا للبعض أداة مفيدة لقراءة سوق سريع التعقيد، اعتبره آخرون تبسيطاً مفرطاً يخفي الفروق الحقيقية بين قدرات النماذج. وبين الترحيب والانتقاد، تكشف المنصة عن نقطة مهمة في صناعة الذكاء الاصطناعي اليوم: السوق لم يعد يبحث فقط عن أقوى نموذج، بل عن أفضل توازن بين الأداء والسعر والموثوقية.

فكرة المنصة ولماذا لفتت الانتباه

جاء الاهتمام بالمنصة لأنها تقدم تصوراً بصرياً سهل القراءة لسوق عادة ما يعرض نفسه عبر جداول طويلة ومعايير متفرقة يصعب على غير المتخصصين فهمها بسرعة. بدلاً من التنقل بين عشرات الاختبارات، تضع المنصة النماذج في ترتيب موحد يمكن النظر إليه خلال ثوان.

هذا الأسلوب جذب مسؤولين تقنيين ومتابعين للسوق، لأن المقارنة بين النماذج الكبرى أصبحت أكثر تعقيداً مع كثرة الإصدارات وتقارب النتائج. وفي المقابل، رأى باحثون أن اختزال قدرات أنظمة واسعة ومتغيرة في رقم واحد قد يمنح انطباعاً زائفاً بالدقة، خصوصاً أن النماذج قد تتفوق في مجال وتخفق بوضوح في مجال آخر.

منهجية AI IQ في حساب الدرجات

تعتمد المنصة على 12 معياراً موزعة على أربعة أبعاد رئيسية: الاستدلال المجرد، والاستدلال الرياضي، والقدرات البرمجية، والاستدلال الأكاديمي. وبعد ذلك يتم احتساب متوسط لهذه الأبعاد لإنتاج درجة مركبة نهائية.

في جانب الاستدلال المجرد، تستخدم المنصة اختبارات معروفة بصعوبتها في التعرف على الأنماط وحل المشكلات الجديدة. أما البعد الرياضي فيستند إلى معايير تشمل مسائل متقدمة واختبارات برهان ومسابقات رياضية. وفي القدرات البرمجية، تعتمد على معايير تقيس أداء النماذج في كتابة الكود وإصلاحه والتعامل مع بيئات تطوير حقيقية. بينما يركز البعد الأكاديمي على اختبارات واسعة تغطي المعرفة العلمية والتفكير التحليلي.

الخطوة الأكثر حساسية في المنهجية هي تحويل النتائج الخام في هذه الاختبارات إلى ما يشبه درجات الذكاء البشرية. وتقول المنصة إنها تستخدم منحنيات معايرة خاصة لتقدير مستوى الصعوبة، مع خفض سقف بعض الاختبارات الأسهل أو الأكثر عرضة لتأثرها ببيانات التدريب، حتى لا تمنح النماذج درجات مبالغاً فيها.

كما تتعامل المنصة بحذر مع البيانات الناقصة. فالنموذج لا يحصل على درجة مشتقة ما لم يكن لديه حضور كاف في الأبعاد المختلفة، كما أن غياب بعض النتائج لا يؤدي إلى تحسين ترتيبه تلقائياً، بل قد يسحب الدرجة إلى الأسفل بدلاً من ذلك.

الصدارة متقاربة بين النماذج الكبرى

وفق البيانات المعروضة حتى منتصف مايو 2026، يظهر أن GPT-5.5 من OpenAI يتصدر الترتيب بدرجة تقارب 136 على هذا المقياس. ويأتي قريباً منه Opus 4.7 من Anthropic وGPT-5.4 وGemini 3.1 Pro من Google، مع فروق محدودة للغاية بين النماذج الرائدة.

هذا التقارب في القمة مهم لأنه يعكس اتجاهاً متزايداً في السوق: النماذج الأفضل لم تعد متباعدة كما كانت قبل عامين أو ثلاثة، بل أصبحت متقاربة في الأداء عند المستويات العليا. وهذا يعني أن قرار الاختيار بين الشركات الكبرى لم يعد يعتمد فقط على سؤال من هو الأقوى، بل على عوامل أخرى مثل التكلفة والسرعة وجودة التفاعل والملاءمة للمهمة.

وفي الفئة الوسطى، تبرز نماذج من مختبرات صينية مثل Kimi وGLM وDeepSeek وQwen وMiniMax بنتائج تقارب 112 إلى 118. هذه المنطقة من السوق تكتسب أهمية متزايدة للشركات التي لا تحتاج إلى أقصى مستوى من الأداء في كل مهمة، لكنها تريد تكلفة أقل وكفاءة تشغيل أفضل.

إضافة مقياس للذكاء العاطفي

ما يميز AI IQ عن كثير من منصات التقييم الأخرى هو أنها لا تكتفي بما تسميه درجة الذكاء، بل تضيف أيضاً مقياساً منفصلاً لما تصفه بالذكاء العاطفي أو EQ. ويستند هذا الجزء إلى نتائج من اختبارات تقيس جودة الحوار، وفهم السياق، وطريقة التفاعل مع المستخدم.

هذا البعد يقدم ترتيباً مختلفاً عن الترتيب القائم على الاستدلال والمنطق فقط. فبحسب المنصة، يتقدم Opus 4.7 في هذا الجانب بدرجة تقارب 132، بينما تحافظ نماذج OpenAI على موقع قوي في الذكاء العام لكنها تتأخر قليلاً في هذا المحور. أما Gemini 3.1 Pro فيظهر في موقع متوازن بين الجانبين.

ومع ذلك، فإن هذا الجزء تحديداً أثار أسئلة حول التحيز. أحد الاختبارات المستخدمة في تقييم الجانب العاطفي يعتمد في حكمه على نموذج من Anthropic، وهو ما قد يمنح أفضلية غير مباشرة لنماذج الشركة نفسها. المنصة تقول إنها حاولت معالجة هذا الأمر عبر خصم جزء من النقاط من مكون معين عند احتساب نتائج نماذج Anthropic، لكن الجدل حول عدالة هذه الخطوة لم يتوقف.

التكلفة مقابل الأداء أهم من الترتيب وحده

من أكثر الرسوم فائدة في المنصة ذلك الذي يضع درجة النموذج أمام التكلفة الفعلية لاستخدامه في مهمة كبيرة نسبياً. هذا النوع من المقارنة يهم الشركات أكثر من مجرد معرفة من يحتل المركز الأول.

بحسب هذا التصور، فإن النماذج الأعلى أداء ليست دائماً الأكثر جدوى اقتصادياً. فبعض النماذج المتقدمة جداً تقع في فئة مرتفعة السعر، بينما تقدم نماذج أخرى أداء جيداً بتكلفة أقل بكثير. وتبرز هنا نماذج مثل GPT-5.4-mini وDeepSeek-V3.2 وMiniMax-M2.7 كخيارات متوازنة بين الأداء والسعر. كما تظهر بعض النماذج منخفضة الكلفة كحلول مناسبة للمهام الضخمة مثل التصنيف والاستخراج ومعالجة البيانات على نطاق واسع.

هذه النقطة تعكس واقعاً تشغيلياً مهماً: البنية المثلى لاستخدام الذكاء الاصطناعي داخل المؤسسات أصبحت تعتمد على توزيع المهام بين نماذج مختلفة، بحيث تستخدم النماذج الأغلى في المسائل الأصعب، بينما توكل الأعمال الروتينية أو الأقل حساسية إلى نماذج أرخص.

لماذا يرفض بعض الباحثين فكرة الرقم الواحد

الاعتراض الأساسي على AI IQ ليس تقنياً فقط، بل مفاهيمي أيضاً. فالنماذج اللغوية الكبيرة لا تملك قدرات متجانسة. قد تجيب بإتقان في الفيزياء أو البرمجة، ثم تخطئ في مهمة بسيطة جداً أو تسقط في تفاصيل منطقية يومية. هذه الطبيعة غير المتوازنة تجعل أي رقم موحد عرضة لأن يخفي أكثر مما يكشف.

ينظر منتقدون إلى هذا النوع من التقييم باعتباره يعطي شعوراً مبالغاً فيه بالوضوح. فحين يرى المستخدم رقماً واحداً، قد يظن أنه يعبر عن القدرة العامة للنموذج بشكل دقيق، بينما الواقع أن الأداء يتغير كثيراً بحسب نوع المهمة، وطريقة كتابة السؤال، وحداثة بيانات التدريب، وحتى أسلوب الاختبار نفسه.

هناك أيضاً انتقادات تتعلق بالشفافية. فرغم أن المنصة تكشف أسماء المعايير التي تستخدمها وتشرح الفكرة العامة للمعايرة، فإنها لا تنشر كل التفاصيل الرياضية والبيانات الخام بصورة تتيح للباحثين إعادة إنتاج النتائج بالكامل. وهذا أمر حساس في مجال يعتمد عادة على القابلية للتحقق.

ماذا تقول هذه المنصة عن سوق الذكاء الاصطناعي

بعيداً عن الجدل، تعكس AI IQ حقيقة واضحة: سوق النماذج بات مزدحماً إلى حد يجعل المقارنة صعبة حتى على المتخصصين. هناك عشرات النماذج المتقدمة من مزودين في الولايات المتحدة والصين وأوروبا، وكل شركة تعرض نتائجها عبر معايير مختلفة وبطرق قد تبرز نقاط قوتها أكثر من غيرها.

في هذا السياق، تبدو أي محاولة لتوحيد القراءة مغرية، حتى لو كانت غير كاملة. فالمؤسسات بحاجة إلى أدوات تساعدها على اتخاذ قرارات عملية، لا سيما مع الارتفاع السريع في عدد النماذج وتكلفة استخدامها. كما أن البيانات التي تعرضها المنصة تشير إلى تسارع كبير في تطور الأداء خلال نحو 30 شهراً، وهو ما يعني أن أنظمة التقييم نفسها ستحتاج إلى تحديث مستمر حتى لا تصبح متأخرة عن الواقع.

الخلاصة

منصة AI IQ ليست حكماً نهائياً على قدرات الذكاء الاصطناعي، لكنها تمثل محاولة جديدة لفهم سوق يتغير بسرعة كبيرة. قوتها الأساسية تكمن في تقديم صورة مقارنة تجمع بين الأداء وبعض مؤشرات الجودة والتكلفة في واجهة واحدة. أما ضعفها فيكمن في أن أي رقم مركب يظل أقل من تعقيد النماذج التي يحاول وصفها.

بالنسبة للشركات، الرسالة الأهم ليست أن نموذجاً ما يسبق الآخر بعدة نقاط، بل أن الفروق عند القمة أصبحت ضيقة، وأن اختيار النموذج المناسب صار مسألة تتعلق بالمهمة والتكلفة والتكامل أكثر من كونه سباقاً نحو المركز الأول. ومع استمرار تحسن النماذج، قد يصبح الذكاء الحقيقي في المؤسسات ليس امتلاك أفضل نموذج فقط، بل معرفة متى تستخدم كل نموذج وفي أي مهمة وبأي تكلفة.