بينترست تخفض تكلفة الذكاء الاصطناعي 90% عبر تخصيص Qwen3-VL

في وقت أصبحت فيه تكلفة استدعاء نماذج الذكاء الاصطناعي المتقدمة لكل صورة أو توصية عبئاً مالياً كبيراً، اختارت بينترست مساراً مختلفاً: لم تعتمد على النموذج الضخم كما هو، بل أعادت تصميم جزء أساسي منه بما يناسب بياناتها الخاصة. والنتيجة كانت خفضاً في التكاليف وصل إلى 90%، مع تحسن في الدقة بلغ 30%، وفق ما كشفه كبير مسؤولي التقنية في الشركة مات مادريغال.

تأتي هذه الخطوة من منصة تضم نحو 620 مليون مستخدم نشط شهرياً، وهو حجم يجعل أي قرار تقني يتعلق بالاستدلال أو التوصيات أو زمن الاستجابة مؤثراً مباشرة في تجربة المستخدم وفي فاتورة التشغيل. ومع هذا الحجم، لم يعد استخدام نموذج حدودي لكل صورة خياراً عملياً، خصوصاً في التطبيقات التي تتطلب معالجة مستمرة لملايين العناصر البصرية والبيانات الوصفية المرتبطة بها.

إعادة بناء طبقة الرؤية بدل الاكتفاء بالنموذج الجاهز

اعتمدت بينترست في هذه الحالة على نموذج Qwen3-VL مفتوح المصدر، لكنها لم تتركه يعمل بصيغته الافتراضية. فقد جرى تغيير عميق في طبقة الرؤية الخاصة به، عبر استبدال جزء من البنية بتمثيلات داخلية طورتها الشركة، ما أتاح لها دمج بياناتها الخاصة عن الصور واللوحات والمحتوى المرئي بصورة أكثر فاعلية.

الفكرة الأساسية هنا أن النموذج العام قد يكون جيداً في الفهم البصري، لكنه ليس بالضرورة الأمثل لمنتج يمتلك نوعاً فريداً من البيانات وسلوك مستخدمين مختلفاً. لذلك فضلت الشركة البناء على نموذج مفتوح المصدر قابل للتعديل، ثم تخصيصه ليخدم حالة استخدام محددة بدقة أعلى وتكلفة أقل.

ويعكس ذلك توجهاً أوسع في قطاع التقنية: الشركات التي تمتلك بيانات مميزة لم تعد ترى أن كبر حجم النموذج وحده يكفي، بل إن جودة البيانات وقدرتها على رفع قيمة النموذج بعد التخصيص قد تكون العامل الأكثر تأثيراً في النتائج النهائية.

الاعتماد على embeddings خاصة لتقليل الكلفة وزمن الاستجابة

أحد أهم عناصر التحسين كان إدخال embeddings خاصة ببينترست، وهي تمثيلات رقمية تُصاغ من بيانات الصور والوسوم والسياق والميتاداتا المرتبطة بكل عنصر. هذه التمثيلات يمكن حسابها مسبقاً خارج مسار الطلبات المباشرة، ثم إعادة تدريبها دورياً مع وصول بيانات جديدة، ما يخفف العبء وقت التشغيل ويقلل الحاجة إلى معالجة كل صورة بشكل منفصل في كل مرة.

بحسب مادريغال، هذا التصميم يمنح الشركة سياقاً أغنى حول الدبابيس والصور والمحتوى المرئي، وفي الوقت نفسه يحسن أداء النظام أثناء الاستدلال. فبدلاً من استدعاء النموذج وإعادة ترميز كل صورة في لحظة الطلب، يجري الاعتماد على تمثيلات جاهزة مسبقاً، وهو ما يقلل زمن الاستجابة بشكل كبير.

وأشار إلى أن الاعتماد على هذه المقاربة يختصر التأخير بدرجة كبيرة مقارنة بالحل التقليدي، إلى الحد الذي قد يجعل الأداء في السيناريوهات القديمة أسوأ بنحو 20 مرة عند الاستدلال. وبالنسبة لمنصة بحجم بينترست، فإن هذا الفرق ليس تفصيلاً تقنياً صغيراً، بل عنصر حاسم في قابلية التوسع والتشغيل.

من البحث البصري إلى التوصية الشخصية

لم يكن الهدف من هذا التعديل خفض التكلفة فقط، بل تحسين جودة التجربة التي تربط بين الإلهام والشراء. وبينترست لا تعمل كمنصة بحث تقليدية؛ بل كبيئة يبدأ فيها المستخدم بالتصفح والاستكشاف قبل أن تتشكل لديه نية واضحة للشراء أو التفاعل الأعمق مع المحتوى.

ولهذا بنت الشركة ما تسميه «رسم الذوق»، وهو نموذج ديناميكي يعبّر عن تفضيلات المستخدم المتغيرة بمرور الوقت. هذا الرسم لا يصف الشبكات الاجتماعية أو العلاقات بين الأشخاص، بل يركّز على الأذواق والاهتمامات والاتجاهات الجمالية التي قد تتبدل حسب النشاط والمحتوى الذي يتفاعل معه المستخدم.

ويتم تحديث هذه التمثيلات باستمرار مع كل إشارة جديدة، بحيث تتحول المنصة من مجرد مساحة إلهام عامة إلى نظام توصية شخصي يلتقط ما قد يفضله المستخدم لاحقاً. فإذا كان أحدهم يميل إلى التصاميم المستوحاة من منتصف القرن، بينما يفضل آخر الطابع الساحلي الكلاسيكي، فإن النظام يحاول استنتاج هذه الأنماط وإظهار محتوى ومنتجات تتوافق معها.

الاستفادة من المصدر المفتوح في التطبيقات الحساسة للنطاق

تعكس تجربة بينترست أيضاً كيف تغيّر الشركات نظرتها إلى المصدر المفتوح في الذكاء الاصطناعي. فبدلاً من اعتباره بديلاً أقل قدرة من النماذج التجارية المغلقة، صار يُنظر إليه كقاعدة مرنة يمكن تعديلها بعمق لتلبية احتياجات خاصة، خصوصاً عندما تكون لدى الشركة بيانات لا تتوافر لأي طرف آخر.

مادريغال لخص هذه الرؤية بالقول إن البيانات الفريدة قد تتفوق في أثرها على حجم النموذج نفسه، ما دامت قابلة للتخصيص الجيد. وهذا المنطق مهم في بيئات مثل بينترست، حيث لا تكفي جودة النموذج الخام، لأن القيمة الحقيقية تأتي من الربط بين الفهم البصري والميتا داتا وسلوك المستخدم والسياق التجاري.

كما أن تراخيص المصدر المفتوح المرنة تمنح فرق الهندسة قدرة أكبر على إزالة أو إعادة بناء أجزاء من البنية، وهو ما يصعب تحقيقه بنفس السهولة في النماذج المغلقة. وفي حالة بينترست، كانت هذه المرونة جوهرية للوصول إلى طبقة رؤية أقرب إلى احتياجات المنتج الفعلية.

دلالات أوسع لفرق الذكاء الاصطناعي في الشركات

القصة لا تتعلق بمنصة واحدة فحسب، بل تقدم مثالاً على الطريقة التي ستدار بها تطبيقات الذكاء الاصطناعي واسعة النطاق خلال المرحلة المقبلة. فمع ارتفاع كلفة التشغيل وتزايد الضغط على زمن الاستجابة، ستبحث الشركات أكثر عن حلول هجينة تجمع بين النماذج الجاهزة والبنية الداخلية المخصصة.

هذا النهج يتيح تحقيق توازن بين السرعة في البناء والقدرة على السيطرة على التكلفة والجودة. كما أنه يضع فرق البيانات والهندسة في موقع أكثر تأثيراً، لأن نجاح المشروع لن يعتمد فقط على اختيار النموذج، بل على جودة التمثيلات، وطريقة الفهرسة، وآليات التحديث المستمر، وقياس الأداء في بيئة إنتاجية حقيقية.

وبالنسبة للمنصات التي تعتمد على التوصية البصرية والاكتشاف، قد تكون هذه المقاربة حاسمة في الحفاظ على التفاعل والنمو. فكل تحسين في الفهم البصري أو تقليص في زمن الاستجابة ينعكس على احتمالات النقر والاكتشاف والشراء، وهي معايير أساسية لأي منصة ذات نشاط تجاري واسع النطاق.

وفي النهاية، تؤكد تجربة بينترست أن الذكاء الاصطناعي الفعّال ليس بالضرورة الأكثر ضخامة، بل قد يكون الأكثر مواءمة للبيانات والسياق والهدف التشغيلي. وعندما تمتلك الشركة معلومات غنية ومحددة، يصبح تخصيص النموذج وبناؤه داخلياً خياراً عملياً قد يفوق الاعتماد الكامل على النماذج العامة الجاهزة.