تتجه أبحاث الذكاء الاصطناعي بشكل متزايد إلى معالجة سؤال أصبح ملحاً مع ارتفاع تكاليف التشغيل: كيف يمكن تقليل كلفة الاستدلال من دون التضحية بجودة المخرجات؟ وفي مجال توليد الفيديو تحديداً، تبدو الحاجة أكثر إلحاحاً، لأن هذا النوع من النماذج يستهلك موارد حوسبة وذاكرة أكبر بكثير من تطبيقات النصوص أو الصور الثابتة.
ضمن هذا السياق، ظهرت مقاربة بحثية جديدة من شنغهاي بالتعاون مع JD.com تحاول إعادة التفكير في الطريقة التي تتعامل بها النماذج مع الفيديو أثناء التوليد والفهم. الفكرة لا تقتصر على ضغط الفيديو النهائي، بل تمتد إلى بنية المعالجة الداخلية نفسها، بحيث لا تُعامل كل لقطة على أنها صورة جديدة بالكامل.
منطق مستعار من ضغط الفيديو التقليدي
العمل الجديد، الذي يحمل اسم AdaCodec: A Predictive Visual Code for Video MLLMs، يستلهم آلية الترميز المعروفة في صناعة الفيديو. فبدلاً من تخزين كل إطار بصورة كاملة، تعتمد برامج الترميز عادة على إطارات مرجعية كاملة، ثم تحفظ فقط الفروقات أو الحركات التي تطرأ على الإطارات اللاحقة.
هذه الطريقة هي التي تسمح بإنشاء ملفات فيديو صغيرة نسبياً مقارنة بالحجم الهائل للبيانات الخام. أما في نماذج الفيديو المعتمدة على الذكاء الاصطناعي، فغالباً ما تُعالج كل اللقطات بوصفها وحدات مستقلة تقريباً، وهو ما يرفع عدد الرموز المرئية ويزيد عبء الحساب، خاصة في المقاطع الطويلة أو المعقدة بصرياً.
المقترح الجديد يحاول نقل منطق الضغط التنبئي إلى قلب نموذج الذكاء الاصطناعي نفسه، بحيث تُستخدم الرموز المرئية الكاملة فقط في الإطارات الأهم، بينما تمثل الإطارات الوسيطة بتمثيلات أصغر وأكثر اقتصاداً.
كيف تعمل البنية الجديدة
تعتمد AdaCodec على تقسيم الفيديو إلى وحدات زمنية تتضمن إطارات مرجعية كاملة، تشبه إلى حد كبير ما يُعرف في عالم الفيديو باسم I-frames. هذه الإطارات تحمل المعلومات البصرية الأساسية للمشهد، وتُستخدم كنقاط ارتكاز لبقية التسلسل.
أما الإطارات التي تأتي بينها فتُختصر في تمثيلات مضغوطة تقوم على عنصرين: متجه الحركة الذي يصف موضع التغيير، والفرق المتبقي الذي يلتقط ما لم تستطع التنبؤات تفسيره بالكامل. بهذه الطريقة لا يحتاج النموذج إلى استهلاك موارد كبيرة لإعادة بناء كل لقطة من الصفر.
وتكمن أهمية هذا النهج في أنه لا يفترض أن الفيديو يتغير بوتيرة ثابتة. ففي اللقطات الهادئة أو المتكررة، يمكن للنظام الاعتماد على التمثيلات المضغوطة لفترات أطول. أما عند حدوث تغيير بصري كبير، مثل انتقال مفاجئ في المشهد أو كثرة القطع في المونتاج، فيتم إدخال إطار مرجعي جديد حتى يحتفظ النموذج بدقة الفهم.
استهداف الإطارات الأكثر أهمية
أحد أبرز الفروق بين AdaCodec والترميز التقليدي هو أن النظام لا يكتفي بوضع الإطارات المرجعية وفق فواصل زمنية ثابتة. بل يحاول تحديد اللحظات التي تستحق تمثيلاً كاملاً، اعتماداً على درجة التعقيد البصري ومدى صعوبة التنبؤ بما سيأتي بعدها.
هذا التفصيل مهم لأن توزيع الإطارات المرجعية بشكل منتظم لا يكون دائماً كافياً. فالمشهد الذي يبدأ هادئاً ثم يتحول فجأة إلى حركة كثيفة أو تغيير درامي في زاوية التصوير يحتاج إلى بنية مرنة، وإلا فقدت النموذج القدرة على التقاط التفاصيل الدقيقة التي تظهر في الجزء الأكثر حساسية من الفيديو.
عملياً، يعني ذلك أن النموذج يوجّه جزءاً أكبر من ميزانيته الحسابية إلى اللحظات التي تحمل معلومات حاسمة، بدلاً من إهدارها بالتساوي على كل الفريمات.
أداء قوي مع استهلاك أقل للرموز
بحسب النتائج المعلنة في الدراسة، تم اختبار AdaCodec فوق نموذج Qwen3-VL-8B عبر مجموعة من المعايير التي تغطي فهم الفيديو الطويل، والفهم الزمني، والفهم العام للمشاهد المصورة. وأظهرت المقاربة الجديدة قدرة على منافسة النموذج الأساسي أو تجاوزه في عدة حالات، رغم العمل بعدد أقل بكثير من الرموز المرئية.
وتشير الدراسة إلى أن النظام تمكن في أحد الإعدادات الأكثر صرامة من خفض استخدام الرموز المرئية بنحو 86% مع الحفاظ على أداء يضاهي خط الأساس أو يتجاوزه بشكل طفيف في اختبارات الفهم الطويل والزمني والعام للفيديو.
كما أفادت النتائج بأن الرموز التي تم توفيرها لم تضف فقط كفاءة تشغيلية، بل يمكن إعادة توظيفها في توسيع عدد الإطارات التي يعالجها النموذج، وهو ما أدى إلى تحسينات إضافية في الأداء عبر جميع اختبارات الفيديو الطويل والفهم الزمني.
أهمية اقتصادية لقطاع الذكاء الاصطناعي
تأتي أهمية هذه النتائج في وقت بدأت فيه الصناعة ككل تعيد حساباتها بشأن تكلفة الاستدلال. فالنماذج الأكبر والأكثر تعقيداً لم تعد تُقاس فقط بجودة مخرجاتها، بل أيضاً بمدى قابليتها للتشغيل بكفاءة على البنية التحتية المتاحة، سواء لدى الشركات الكبرى أو لدى الفرق الأصغر التي تعمل بموارد محدودة.
في هذا الإطار، يمثل تقليل عدد الرموز المرئية خطوة مؤثرة لأن الفيديو أحد أكثر أنواع البيانات استهلاكاً للذاكرة والطاقة. وكل خفض في هذا الحمل ينعكس مباشرة على السرعة، والتكلفة، والقدرة على التوسع في الإنتاج، خاصة في البيئات السحابية ومراكز البيانات.
وبالنسبة للباحثين والمطورين، فإن القيمة لا تكمن في الخفض العددي وحده، بل في إثبات أن فهم الفيديو لا يحتاج بالضرورة إلى معالجة كاملة ومكلفة لكل إطار، ما دام بالإمكان تصميم آلية أذكى تلتقط ما هو ثابت وما هو متغير.
اختبار عبر مجموعة واسعة من المعايير
شملت التجارب التي أجرتها الدراسة 11 معياراً تقيس جوانب متعددة من فهم الفيديو. وتوزعت هذه المعايير على ثلاثة محاور رئيسية: الأداء في الفيديو الطويل، والفهم الزمني، والفهم العام للفيديو.
في فئة الفيديو الطويل، استخدمت الدراسة معايير مثل MLVU وLongVideoBench وLVBench. أما الفهم الزمني فتم قياسه عبر TempCompass وMotionBench وTOMATO. وفي الفهم العام للفيديو شملت الاختبارات Video-MME وMVBench وNExT-QA وPerceptionTest وEgoSchema.
وأجريت المقارنات مع عدد من النماذج المفتوحة، إلى جانب استخدام بعض النماذج المغلقة كخطوط أساس مرجعية. الهدف من هذا التصميم كان التحقق من أن المكسب يعود فعلاً إلى آلية الترميز التنبئي، وليس إلى اختلافات جانبية في الموارد أو الإعدادات.
ماذا يعني ذلك لمستقبل فيديو الذكاء الاصطناعي
تشير AdaCodec إلى اتجاه أوسع في أبحاث الذكاء الاصطناعي: الانتقال من زيادة الحجم والقوة الحاسوبية فقط إلى تحسين البنية الداخلية للنموذج نفسه. فبدلاً من أن يكون التقدم مرهوناً بإضافة مزيد من المعلمات أو توسيع البنية الحسابية، يمكن تحقيق قفزات ملموسة عبر إعادة تصميم طريقة تمثيل البيانات.
هذا المنظور يبدو مهماً على نحو خاص في الفيديو، لأن المجال يجمع بين التعقيد الزمني والحجم البصري، ما يجعل أي تحسين في التمثيل أو التخزين أو التنبؤ ذا أثر مضاعف على التكلفة النهائية.
كما أن النهج الجديد قد يكون مفيداً للنماذج التي تُشغَّل محلياً أو على أجهزة أقل قوة، لا سيما إذا استمر الاتجاه نحو النشر الكفء والاعتماد على موارد محسوبة بدقة بدل الاستهلاك المفتوح.
وبينما لا يعني هذا أن حلول الترميز وحدها ستنهي تحديات توليد الفيديو بالذكاء الاصطناعي، فإنها تقدم مثالاً واضحاً على أن الابتكار في هذا المجال لم يعد يقتصر على زيادة الجودة البصرية، بل يشمل أيضاً الاقتصاد في الحوسبة وفهم القيمة الفعلية لكل إطار.
خلاصة
توضح AdaCodec أن الضغط على تكاليف الذكاء الاصطناعي لا يدفع فقط إلى تحسين العتاد أو تقليص حجم النماذج، بل أيضاً إلى ابتكار طرق أذكى لتمثيل البيانات. وفي حالة الفيديو، يبدو أن استلهام منطق الترميز التقليدي قد يفتح باباً عملياً لتقليل استهلاك الرموز وتسريع المعالجة من دون خسارة واضحة في الأداء.
إذا نجحت هذه المقاربة في التوسع خارج بيئة البحث، فقد تصبح جزءاً من الجيل القادم من أنظمة فهم الفيديو وتوليده، خصوصاً مع استمرار التركيز العالمي على الكفاءة، وخفض التكاليف، وتحسين العائد من كل مورد حاسوبي يُستثمر في الذكاء الاصطناعي.