الذكاء الاصطناعي يفشل في فهم تجميع الأثاث

تُظهر أبحاث حديثة في الذكاء الاصطناعي أن النماذج المتقدمة ما زالت بعيدة عن إتقان مهمة تبدو بسيطة للإنسان: فهم كيفية تجميع قطعة أثاث مسطحة من خلال فيديو تعليمي. وعلى الرغم من التطور السريع في نماذج الرؤية واللغة، فإن أداءها في هذا النوع من الاختبارات لا يزال متواضعًا، خاصة عندما تُطلب منها متابعة تسلسل الأحداث، والتعرّف إلى الأجزاء المتشابهة، وربط ما تراه على الشاشة بالخطوات الصحيحة في التجميع.

هذا النوع من المهام ليس مجرد اختبار طريف متعلق بأثاث منزلي، بل يمثل تحديًا مركبًا يجمع بين الإدراك البصري، والذاكرة الزمنية، وتتبع الأشياء عبر المشاهد المتغيرة، وفهم العلاقات المكانية بين القطع. لذلك أصبح تجميع الأثاث أداة مناسبة لقياس مدى قدرة النماذج الذكية على التعامل مع الفيديوهات التعليمية الواقعية، لا الصور الثابتة فقط.

النتيجة الأساسية التي توصلت إليها الدراسة واضحة: أفضل النماذج الحالية، بما فيها أنظمة كبرى من شركات معروفة، حققت تحسنًا محدودًا فقط فوق مستوى التخمين، وبقيت بعيدة جدًا عن أداء البشر. وهذا يشير إلى أن الفجوة بين الفهم اللغوي العام وبين الفهم البصري الزمني ما تزال كبيرة، حتى في الأنظمة التي تُعد من الأكثر تقدمًا اليوم.

لماذا تجميع الأثاث اختبار صعب للذكاء الاصطناعي؟

قد يبدو تجميع الأثاث مهمة يومية لا تستحق أن تتحول إلى معيار علمي، لكن قيمتها البحثية عالية لأن نجاح النظام فيها يتطلب أكثر من مجرد التعرف إلى شكل القطع. يجب على النموذج أن يفهم متى تتصل قطعتان ببعضهما، وما الجزء الذي يجب أن يُضاف أولًا، وكيف ينتقل الشكل من حالة إلى أخرى عبر الزمن، مع الحفاظ على تتبع بصري دقيق للأجزاء المتشابهة.

في الواقع، كثير من النماذج الذكية تجيد وصف المشهد العام أو تحديد أشياء ظاهرة في إطار واحد، لكنها تتعثر عندما يتعين عليها استخدام الفيديو نفسه لاستخلاص تسلسل منطقي للأحداث. وهنا تظهر المشكلة الحقيقية: ليس المهم أن ترى القطع، بل أن تفهم العلاقة بينها قبل وبعد الحركة، وأثناء الانتقال من خطوة إلى أخرى.

كما أن مقاطع التجميع الواقعية مليئة بالتحديات التي تربك الأنظمة الآلية، مثل تغيّر زاوية الكاميرا، وظهور أجزاء متشابهة جدًا في الشكل، واختفاء بعض القطع ثم عودتها إلى المشهد، إضافة إلى أن التعليمات قد تكون موزعة عبر أكثر من لحظة في الفيديو. هذه العناصر تجعل المهمة أقرب إلى اختبار شامل للمعرفة البصرية الزمنية، لا مجرد استدلال بسيط.

كيف بُنيت التجربة؟

اعتمد الباحثون على مجموعة من مقاطع الفيديو الواقعية التي تُظهر أشخاصًا وهم يركبون قطع أثاث من نوع flat-pack. ثم أعادوا تنظيم البيانات بطريقة تسمح بتقييم فهم النماذج للمشهد على مستوى أعمق، عبر حذف المقاطع التي لا تضيف قيمة بصرية حقيقية، مثل بطاقات التعليمات النصية، والتركيز بدلًا من ذلك على الأجزاء التي تتضمن حدثًا بصريًا قابلًا للتتبع.

ولتعزيز دقة القياس، أضيفت أيضًا إشارات بصرية مُعنونة، مع تحديد أجزاء الأثاث وعلاقات الاتصال بينها. وسمح ذلك بصياغة أسئلة متعددة الخيارات لا تختبر الحفظ أو التخمين فقط، بل تقيس قدرة النموذج على إدراك ما يحدث داخل الفيديو، وربط الخطوة الحالية بما سبقها وما يليها.

توزعت الأسئلة على أربعة أنماط رئيسية. النوع الأول يقيس ما إذا كانت قطعتان ستتصلان في النهاية. النوع الثاني يختبر قدرة النموذج على تتبع الأجزاء بعد خلط أرقامها أو تسمياتها. النوع الثالث يراجع فهم الترتيب الزمني لخطوات التجميع. أما النوع الرابع فيسأل عن الحدث الذي وقع مباشرة قبل أو بعد مشهد معين، وهو ما يتطلب تموضعًا زمنيًا دقيقًا، لا مجرد فهم عام للمقاطع.

وبلغ حجم المعيار النهائي 602 سؤالًا متعدد الاختيارات، موزعة على 50 فيديو مختلفًا. كما جرى تصميم الأسئلة يدويًا بدل الاعتماد الكامل على التوليد الآلي، لأن الأسئلة الآلية كثيرًا ما تسمح للنموذج بتجاوز الفيديو والاعتماد على أنماط ظاهرية أو تخمينات سريعة من الصورة الثابتة.

الأداء البشري مقابل أداء النماذج

حين جرى اختبار البشر على هذه المهمة، كان الفارق كبيرًا جدًا. المشاركون من خلفيات أكاديمية في علوم الحاسب حققوا نسبًا تجاوزت 90% في جميع الفئات تقريبًا، وهو ما يشير إلى أن الأسئلة نفسها كانت مفهومة وواضحة وليست ملتبسة. هذا مهم لأن أي معيار جيد يجب أن يكون صعبًا على النماذج، لكن قابلًا للحل بوضوح من قبل الإنسان.

في المقابل، لم تقترب النماذج من هذا المستوى. النماذج المغلقة والمتقدمة سجلت نتائج أفضل من العشوائية، لكنها بقيت منخفضة للغاية مقارنة بالبشر. كما أن نماذج مفتوحة المصدر كبيرة الحجم لم تقدم قفزة حقيقية، رغم أن بعضها تفوق نسبيًا على غيره في بعض الفئات الفرعية.

الأمر اللافت أن الفرق لم يكن مجرد ضعف في الإجابة النهائية، بل ظهر في أنماط الفشل نفسها. بعض النماذج واجه صعوبة خاصة في تتبع الأجزاء، بينما تعثرت أخرى في فهم التسلسل الزمني، أو في تحديد الاتصال النهائي بين القطع. وهذا يوحي بأن المشكلة ليست في جانب واحد فقط، بل في بنية الاستدلال متعدد الخطوات التي يتطلبها الفيديو.

هل تستخدم النماذج الفيديو فعلًا؟

للتأكد من أن هذه الأنظمة لا تعتمد على الصور الثابتة أو على تخمينات منطقية عامة، أجرى الباحثون تجربة إضافية أزالوا فيها الفيديو تمامًا، واحتفظوا فقط بالصورة والتعليمات البصرية المصاحبة. عند البشر، أدى ذلك إلى هبوط حاد في الأداء، وهو أمر متوقع لأن الفيديو كان يحمل الجزء الحاسم من المعلومات الزمنية.

أما النماذج، فقد تراجع أداؤها بدرجة أقل بكثير. في بعض الحالات بقيت النتائج مستقرة نسبيًا، بل تحسنت أحيانًا. هذه النتيجة مهمة للغاية لأنها توحي بأن بعض النماذج لم تكن تستفيد من الإطار الزمني للفيديو كما ينبغي، بل كانت تستند إلى مؤشرات بصرية ثابتة أو إلى استنتاجات عامة من المعرفة السابقة.

بمعنى آخر، الاختبار كشف أن المشكلة أعمق من مجرد غياب بعض البيانات أو الحاجة إلى نموذج أكبر. التحدي الحقيقي يكمن في جعل الأنظمة تفهم التغير عبر الزمن، لا المشهد المعزول فقط. وهذا ما يميز الإدراك البشري، الذي يتعامل مع الأشياء باعتبارها كيانات مستمرة حتى عندما تتحرك أو تختفي مؤقتًا من الإطار.

ما الدرس الأوسع لصناعة الذكاء الاصطناعي؟

توضح هذه النتائج أن التقدم في النماذج متعددة الوسائط لا يعني بالضرورة فهمًا حقيقيًا للبيئات الديناميكية. فالنظام قد يبدو قويًا عندما يصف صورة أو يجيب عن سؤال بصري مباشر، لكنه يواجه صعوبة واضحة عندما يُطلب منه الربط بين المراحل المختلفة في مشهد واحد متغير.

وهذا له أثر يتجاوز الأثاث إلى مجالات أخرى مثل الروبوتات، والصناعة، والزراعة، والخدمات، وكل بيئة تتطلب من الآلة أن تتعرف إلى الأجزاء، وتتابعها عبر الزمن، وتفهم متى يحدث الاتصال أو التغيير. لذلك فإن مثل هذه المعايير البحثية ليست مجرد ألعاب ذهنية، بل أدوات ضرورية لقياس مدى اقتراب الذكاء الاصطناعي من الفهم العملي للعالم.

كما أن الفشل في هذه المهمة يذكّر بأن التوسع في البيانات أو زيادة عدد المعلمات وحده لا يكفي. ما يحتاجه المجال هو تحسينات أعمق في تتبع الكائنات، والاستدلال المكاني، وربط الصورة بالحركة، وإدارة السياق الزمني الطويل دون فقدان الاتساق.

خلاصة المشهد

الرسالة النهائية من هذه التجربة البحثية بسيطة لكنها مهمة: الذكاء الاصطناعي ما زال جيدًا في كثير من المهام اللغوية والبصرية، لكنه لا يزال ضعيفًا عندما يُطلب منه فهم العالم كما يتحرك أمامه. وتجميع الأثاث، على بساطته الظاهرة، يكشف هذا القصور بوضوح.

البشر يستخدمون الفيديو لفهم ما يحدث خطوة بعد خطوة، بينما ما تزال النماذج تعتمد بدرجة كبيرة على إشارات سطحية أو على استنتاجات غير مكتملة. ولهذا تبقى المسافة واسعة بين رؤية المشهد وفهمه، وبين تحليل صورة ثابتة وتتبّع قصة كاملة داخل فيديو واحد.