الذكاء الاصطناعي والتقنية 15-Jun-2026 6 دقائق قراءة

دراسة جديدة تقترح نظاماً لتوليد إعلانات مخصصة اعتماداً على سجل نقرات المستخدم نفسه

تقترح دراسة بحثية نظاماً جديداً لتوليد صور ونصوص إعلانية مخصصة لكل مستخدم بالاعتماد على تاريخه الفعلي في النقر داخل المنصة، بدلاً من الاكتفاء ببيانات الفئات العامة. ويعتمد النموذج على بنية توليدية موحدة تجمع بين فهم التفضيلات متعددة الوسائط وإنتاج المحتوى الإعلاني في إطار واحد.

تتجه أبحاث الذكاء الاصطناعي في الإعلان الرقمي إلى مرحلة أكثر دقة من مجرد استهداف الشرائح الديموغرافية الواسعة. فبدلاً من الاعتماد على افتراضات عامة حول العمر أو الموقع أو الاهتمامات المتوقعة، تقترح دراسة حديثة نظاماً يمكنه بناء الإعلان نفسه من سلوك المستخدم الفعلي، عبر تحليل ما نقر عليه سابقاً داخل المنصة ثم توليد صورة ونص يتماشيان مع تفضيلاته الفردية.

وتكمن أهمية هذا الاتجاه في أنه ينقل مفهوم التخصيص من مستوى الجماعات إلى مستوى الشخص الواحد. ففي كثير من الأنظمة الحالية، تُصمم الإعلانات بناءً على أنماط متكررة داخل مجموعات كبيرة من المستخدمين، بينما تفترض المقاربة الجديدة أن سجل التفاعل الشخصي يحتوي على إشارات أكثر ثراءً حول ما قد يجذب المستخدم لاحقاً. وبهذا المعنى، لا يعود الإعلان مجرد نتيجة لتحليل سياق عام، بل يصبح مخرَجاً مبنياً على ذاكرة تفضيلات محددة.

الدراسة الجديدة، التي جاءت عبر تعاون بحثي بين مؤسسات في الصين والولايات المتحدة، تعرض نظاماً موحداً لتوليد النصوص والصور الإعلانية اعتماداً على نماذج توليدية ذات بنية تسلسلية. ويختلف هذا المسار عن كثير من الأعمال السابقة التي فصلت بين توليد النص وتوليد الصورة، أو اعتمدت على نماذج انتشارية تدريجية. أما هنا، فيتم إنتاج المكونين معاً داخل إطار واحد يستند إلى التنبؤ المتتابع بالعناصر التالية في التسلسل.

من التخصيص الجماعي إلى التخصيص الفردي

في التطبيقات الإعلانية التقليدية، يعتمد النظام غالباً على مؤشرات مثل الفئة العمرية، ونوع الجهاز، وسياق التصفح، أو اهتمامات مجمعة من مستخدمين مشابهين. غير أن هذه المقاييس، رغم فعاليتها التجارية، لا تلتقط الفروق الدقيقة في الذوق الشخصي. فمستخدمان ينتميان إلى الفئة نفسها قد يتفاعلان مع أنماط بصرية ونصية مختلفة تماماً، وهو ما تسعى المقاربة الجديدة إلى معالجته.

المنهج المقترح ينطلق من سجل النقرات الخاص بالمستخدم المسجل دخوله إلى المنصة. أي أن النظام لا يكتفي بمعرفة المنتج الذي قد يكون مناسباً لقطاع معين، بل يدرس أيضاً صور المنتجات والنصوص التي جذبت هذا المستخدم بالتحديد في السابق. ومن ثم يحاول استنتاج عناصر ثابتة أو متكررة في تفضيلاته، مثل نمط العرض، أو نوع الألوان، أو شكل اللغة التسويقية، أو حتى طريقة ترتيب العناصر داخل الإعلان.

هذا التحول مهم لأنه يقدّم نموذجاً أقرب إلى "إعلانات مصممة" بدلاً من "إعلانات موجهة" بالمعنى المعتاد. كما أنه ينسجم مع تنامي قدرة النماذج التوليدية على إنتاج مواد تسويقية بسرعة كبيرة وبتكلفة منخفضة، ما يفتح الباب أمام استخدام أوسع لهذه الأدوات داخل بيئات التجارة الإلكترونية والمنصات الرقمية الكبيرة.

قاعدة بيانات ضخمة لتتبع التفضيلات

لتمكين هذا النوع من التخصيص، بنى الباحثون مجموعة بيانات جديدة مخصصة لهذا الغرض، تضم أكثر من 1.14 مليون مستخدم وما يقرب من 18.9 مليون سجل تفاعل بصري ونصي. وتصف الدراسة هذه البيانات بأنها من أكبر قواعد المعلومات المتاحة في مجال الإعلانات الشخصية متعددة الوسائط، إذ تجمع بين الصور والنصوص وتربطها مباشرة بسلوك المستخدم الفردي.

وتضم كل حالة في البيانات إعلاناً مستهدفاً، إلى جانب صورة المنتج نفسها، ووصف البائع، ونقاط البيع الأساسية، ثم تاريخاً سابقاً من النقرات على صور ونصوص أخرى. الهدف من هذا التنظيم هو إعطاء النموذج إشارات واضحة حول المنتج المراد الترويج له، وفي الوقت نفسه توفير سياق غني يعكس كيف تفاعل المستخدم مع محتوى مشابه في الماضي.

كما اعتمد الباحثون على أدوات تقنية لاستخراج المنتج من الصورة وتحرير الخلفية البصرية بحيث تصبح العلاقة بين المنتج والمشهد المحيط به قابلة للتقييم. وتعد هذه الخطوة مهمة لأن الإعلانات الرقمية لا تُقاس فقط بمدى ظهور المنتج نفسه، بل أيضاً بالطريقة التي يوضع بها داخل المشهد: الخلفية، والإضاءة، وتوزيع العناصر كلها تؤثر في الانطباع النهائي.

نموذج توليدي موحد بدل السلاسل المنفصلة

يعتمد النظام المقترح على بنية توليدية موحدة تجمع بين النص والصورة ضمن تسلسل واحد. وتبدأ العملية بتلقي تعليمات منظمة تشمل وصف المهمة، ومواصفات المنتج، وأبرز نقاطه التسويقية. بعد ذلك يولد النموذج النص الإعلاني أولاً، ثم ينتقل إلى توليد الصورة المناسبة، قبل أن تُمرر المخرجات إلى مفككات منفصلة لإعادة بناء النص والصورة النهائية.

هذا الأسلوب يختلف عن النماذج التي تنشئ النص في مرحلة، ثم تمرر الوصف إلى نموذج صورة مستقل في مرحلة لاحقة. فالتصميم الموحد يتيح للنظام أن يربط بين الجانبين بشكل أعمق، بحيث لا يبدو النص منفصلاً عن الصورة، ولا الصورة مجرد خلفية عشوائية للنص. ووفق الدراسة، فإن هذا الربط يساعد على تحقيق اتساق أفضل بين الرسالة التسويقية والمشهد البصري.

ولضمان بقاء الإعلان مرتبطاً بالمنتج نفسه، أضيفت وحدة تركز على إدراك المقدمة البصرية للمنتج، بحيث لا يبتعد التوليد عن العنصر الأساسي المراد تسويقه. كما استخدمت الدراسة تدريباً موجهاً يجعل النموذج أكثر التزاماً بالتعليمات الوصفية ونقاط البيع التي يقدّمها البائع، مع تنقية بعض الأمثلة غير المناسبة أثناء إعداد البيانات.

قياس جديد يركز على الخلفية البصرية

من أبرز ما قدمته الدراسة أيضاً مقياساً جديداً لتقييم هذا النوع من الإعلانات، تحت اسم Product Background Similarity. ويأتي هذا المقياس استجابةً لمشكلة شائعة في تقييم الإعلانات المولدة، وهي أن المقاييس العامة قد تلتقط التشابه بين المنتج نفسه لكنها لا تميّز بما يكفي بين اختلافات الخلفية أو السياق البصري المحيط به.

ولذلك صُمم المقياس الجديد ليكون أكثر حساسية لتغير البيئة البصرية التي يظهر فيها المنتج، لا لمجرد تطابق المنتج ذاته. هذا مهم لأن الإعلان الناجح قد يعرض المنتج نفسه في أكثر من سياق، مع اختلاف كبير في الانطباع النهائي الذي يتركه على المستخدم. وقد اختبر الباحثون هذا المقياس على أزواج من الصور التي تعرض المنتج نفسه في خلفيات مختلفة، بهدف قياس قدرة النظام على إدراك هذه الفروق الدقيقة.

وتشير النتائج الواردة في الدراسة إلى أن هذا المقياس يمنح تمييزاً أوضح بين الحالات المتشابهة وغير المتشابهة مقارنةً بعدة مقاييس معروفة في الرؤية الحاسوبية. وبالنسبة لتطبيق إعلاني يعتمد على الجاذبية البصرية، فإن حساسية التقييم للخلفية ليست تفصيلاً جانبياً، بل جزءاً أساسياً من فهم جودة المخرجات.

نتائج الاختبارات وأداء النموذج

أُجريت الاختبارات على بيانات عامة أولاً، ثم على مهمة التخصيص الفردي لاحقاً. وفي الاختبارات العامة، حقق النظام نتائج قوية في معايير جودة الصورة والجاذبية البصرية، كما سجل أداءً متقدماً في تقييم النص الإعلاني. ووفق الدراسة، ظل النموذج منافساً عبر المؤشرين البصري واللغوي، مع تفوق ملحوظ في بعض المقاييس على نماذج مقارنة شائعة.

أما في اختبار الإعلانات الشخصية، فقد جرى تقييم النظام على عينة من المستخدمين الذين لديهم سجلات تفاعل سابقة. وهنا تفوق النموذج على البدائل المقارنة في جميع المؤشرات المذكورة، سواء في تشابه الصورة المولدة مع الأنماط التي يتفاعل معها المستخدم، أو في قدرة النص على استحضار السمات والعبارات المرتبطة بالتفضيلات السابقة.

وتستند هذه النتائج إلى مقارنة مع نماذج وأطر أخرى تستخدم تقنيات مختلفة في توليد الصور أو النصوص. وتشير القراءة العامة للنتائج إلى أن إدخال بيانات المستخدم التاريخية، مع آليات لاستخلاص التفضيلات متعددة الوسائط، كان له أثر واضح في تحسين المخرجات. كما أظهرت الدراسة أن كل جزء من أجزاء المنهج، من اختيار العينات المشابهة إلى استخراج التفضيلات، أسهم بدرجة يمكن قياسها في الأداء النهائي.

بين الكفاءة التسويقية وحدود الخصوصية

رغم الجاذبية التقنية لهذا النوع من الإعلانات، تظل مسألة الخصوصية هي السؤال الأهم. فالنظام يعتمد بالكامل على بيانات سلوك المستخدم، ما يعني أن فعاليته ترتبط بمدى موافقة المستخدم على جمع هذه البيانات واستخدامها في التخصيص. ومن دون هذا القبول الصريح، تصبح الفكرة غير قابلة للتطبيق على نطاق واسع في كثير من الأسواق.

كما أن قابلية التوسع مرتبطة بوجود منصات كبيرة تمتلك بالفعل قاعدة مستخدمين واسعة وسجلات سلوكية غنية. ولهذا تبدو الفكرة أقرب إلى بيئات المنصات التجارية الضخمة أو المتاجر الرقمية الكبرى، حيث يمكن لبيانات النقرات والشراء أن تغذي النموذج باستمرار. أما خارج هذه البيئات، فقد يكون بناء مثل هذا المستوى من التخصيص أصعب بكثير.

ومع ذلك، تكشف الدراسة عن اتجاه واضح في الذكاء الاصطناعي التسويقي: الانتقال من الإعلان الذي "يستهدف" فئة معينة إلى الإعلان الذي "يتذكر" المستخدم الفردي. وإذا استمرت هذه الأدوات في التحسن، فقد يصبح تصميم الإعلان نفسه عملية تعتمد على سجل التفاعل أكثر من اعتمادها على التخمينات العامة حول الجمهور. عندها لن تكون المنافسة فقط على الوصول إلى المستخدم، بل على قدرة النظام على فهم ذائقته بدقة كافية لإنتاج إعلان يبدو أقرب إلى اختياره الشخصي منه إلى الرسالة الجماعية المعتادة.