أدخلت OpenAI تحديثاً جديداً على قدرات إنشاء الصور داخل ChatGPT عبر نموذج ChatGPT Images 2.0، وهو إصدار يركز على مشكلة ظلت لسنوات واحدة من أبرز نقاط الضعف في أدوات توليد الصور: كتابة النصوص داخل الصورة بشكل صحيح ومقروء. إلى جانب ذلك، يضيف النموذج تحسينات في فهم التعليمات الطويلة، والتعامل مع التخطيطات المعقدة، والحفاظ على الاتساق بين عدة صور ناتجة من طلب واحد.
في سوق مزدحم بالأدوات البصرية المعتمدة على الذكاء الاصطناعي، لا تأتي أهمية هذا الإصدار من جودة الصورة فقط، بل من انتقاله إلى مستوى أكثر عملية في الاستخدام اليومي. الفكرة هنا لم تعد مجرد إنتاج صورة جميلة، بل إنشاء مواد بصرية يمكن أن تخدم العروض التقديمية، والواجهات، والملصقات، والرسومات التوضيحية، والمحتوى متعدد اللغات.
ما الذي تغير في ChatGPT Images 2.0؟
يعتمد الإصدار الجديد على نموذج صور مدمج داخل ChatGPT، ومتاح أيضاً عبر واجهة برمجة التطبيقات باسم gpt-image-2. ووفق المعلومات المتاحة، يمثل هذا النموذج خطوة كبيرة مقارنة بالإصدارات السابقة، خصوصاً في ثلاث نقاط رئيسية: الالتزام بالتعليمات، ودقة النصوص داخل الصور، وفهم العلاقات المكانية بين العناصر.
هذا يعني أن المستخدم بات قادراً على طلب مشهد يحتوي على عناصر متعددة في مواقع محددة، مع نص ظاهر داخل التصميم، والحصول على نتيجة أقرب بكثير إلى المطلوب مقارنة بما كان شائعاً في الأجيال السابقة من مولدات الصور.
كما يدعم النموذج إنتاج صور بدقة تصل إلى 2K، مع نسب أبعاد مختلفة، ويستطيع في بعض الخطط إنشاء ما يصل إلى ثماني صور مترابطة من طلب واحد مع الحفاظ على ملامح الشخصيات أو البيئة البصرية نفسها عبر النتائج.
تحسن لافت في كتابة النصوص داخل الصور
أكثر ما يلفت الانتباه في هذا الإصدار هو التحسن الواضح في كتابة النصوص داخل الصورة. هذه النقطة مهمة لأن كثيراً من أدوات الذكاء الاصطناعي كانت تنتج أحرفاً مشوهة أو كلمات غير مفهومة عند محاولة تصميم لافتات أو واجهات أو إنفوغراف.
في ChatGPT Images 2.0 تبدو النصوص أكثر قابلية للقراءة، سواء كانت عناوين أو عناصر واجهات أو نصوص قصيرة داخل تصميمات منظمة. كما يظهر دعم أفضل للغات متعددة، بما في ذلك لغات غير لاتينية، وهو ما يوسع استخداماته في فرق العمل الدولية أو المشاريع التي تحتاج إلى محتوى محلي بلغات مختلفة.
لكن هذا لا يعني أن الأداء أصبح مثالياً في كل الحالات. ما زالت بعض المشاهد المعقدة أو التصميمات الكثيفة قد تحتاج إلى إعادة المحاولة أو تعديلات إضافية، إلا أن الفجوة بين المطلوب والنتيجة تقلصت بشكل واضح.
فهم أفضل للتعليمات الطويلة والمشاهد المركبة
من نقاط القوة المهمة أيضاً أن النموذج الجديد يتعامل بصورة أفضل مع الطلبات المفصلة. بدلاً من الاعتماد فقط على أوصاف قصيرة، يمكن للمستخدم كتابة تعليمات طويلة تحدد مكان العناصر، ونوع الإضاءة، وأسلوب المشهد، وحتى النص المطلوب إدخاله داخل التصميم.
هذا التطور مهم للمسوقين، ومصممي الواجهات، وفرق المحتوى، لأنهم غالباً لا يريدون صورة فنية عامة، بل مخرجات دقيقة قابلة للاستخدام. فعندما يُطلب مثلاً تصميم مشهد تقني مع شاشة هولوغرافية ونص محدد وانعكاسات إضاءة منطقية، يصبح الفرق بين الأداة الترفيهية والأداة المهنية واضحاً.
كما تشير التجربة العملية إلى أن النموذج يحتفظ بدرجة أفضل من الاتساق عند تعديل الصورة نفسها لاحقاً، بدلاً من إنتاج نسخة مختلفة بالكامل عند كل تغيير صغير.
وضعان للعمل حسب السرعة والجودة
يوفر النظام طريقتين أساسيتين للعمل. الأولى هي الوضع السريع الذي يركز على الإنجاز المباشر، وهو متاح على نطاق أوسع. أما الثانية فهي وضع يعتمد على معالجة أعمق للطلب قبل التوليد، ويستهدف الحالات التي تحتاج إلى جودة أعلى أو التزام أكبر بالبنية والتخطيط.
الوضع المتقدم مفيد بشكل خاص عندما تكون الصورة المطلوبة معقدة أو تحتوي على نصوص كثيرة أو تحتاج إلى تناسق بين عدة لقطات. لكن المقابل هو وقت انتظار أطول. بمعنى آخر، يحصل المستخدم على دقة أكبر، لكن ليس بالسرعة نفسها التي يقدمها الوضع السريع.
هذه المقايضة منطقية في الاستخدام المهني، لأن بعض المشاريع تحتاج إلى نتيجة أدق حتى لو استغرقت دقائق إضافية.
أدوات تحرير أكثر عملية بعد التوليد
لا يقتصر التطوير على إنشاء الصورة من الصفر، بل يمتد إلى تعديلها. يمكن للمستخدم طلب تغييرات لاحقة بالنص، مثل استبدال لون عنصر معين أو تعديل عبارة مكتوبة داخل المشهد، مع الحفاظ على بقية الصورة كما هي. وهذه ميزة مهمة لأنها تختصر دورة العمل المعتادة بين التوليد والمراجعة.
وتوجد أيضاً آلية لتحديد جزء معين من الصورة وتعديله وحده، ما يجعل التفاعل أقرب إلى أدوات التحرير التقليدية ولكن باللغة الطبيعية. هذا النوع من التعديل الموضعي يساعد في إصلاح التفاصيل الصغيرة دون الحاجة إلى إعادة إنشاء الصورة بالكامل.
كذلك يدعم النظام تغيير نسبة الأبعاد بسرعة، وهو أمر مفيد عند الحاجة إلى تكييف التصميم نفسه لمنصات مختلفة مثل القصص العمودية أو المنشورات الأفقية أو الصور المربعة.
إنتاج عدة صور متسقة من طلب واحد
من الميزات البارزة في ChatGPT Images 2.0 القدرة على إنتاج سلسلة من الصور المتسقة انطلاقاً من وصف واحد. الفائدة هنا لا تتعلق بعدد الصور فقط، بل بالحفاظ على هوية الشخصية أو المكان أو الأسلوب البصري عبر النتائج المختلفة.
هذه الخاصية تفتح الباب أمام استخدامات عملية مثل القصص المصورة، ولوحات المشاهد، وحملات الإعلانات التي تحتاج إلى أكثر من نسخة، أو حتى عروض المنتجات التي تتطلب مشاهد متعددة بالشخصية نفسها.
مع ذلك، يرتبط الوصول إلى هذه الإمكانية الكاملة بنوع الخطة المستخدمة، إذ إن بعض المستخدمين قد يواجهون قيوداً في عدد الصور أو في الوضع المتقدم المخصص للجودة الأعلى.
من هم أكثر المستفيدين من هذا النموذج؟
يبدو أن الفئات الأكثر استفادة من الإصدار الجديد تشمل صناع المحتوى، والمسوقين، ومصممي الواجهات، وفرق المنتجات، والمعلمين، والكتاب، والمطورين. السبب هو أن النموذج لا يكتفي بإنتاج صور جمالية، بل يمكنه المساهمة في أعمال تتطلب نصوصاً واضحة وتخطيطاً منطقياً.
على سبيل المثال، يمكن استخدامه في إنشاء صور للشبكات الاجتماعية، ونماذج أولية للواجهات، وإنفوغراف، ومواد تعليمية، ورسومات توضيحية للعروض، وحتى قوائم طعام أو ملصقات تحتوي على نصوص قابلة للقراءة.
أما المطورون، فيمكنهم الاستفادة منه عبر واجهة البرمجة لإدماج التوليد البصري داخل تطبيقاتهم أو أتمتة بعض مهام التصميم والإنتاج.
أين ما زالت القيود قائمة؟
رغم القفزة الواضحة، لا يخلو النموذج من قيود. فالوضع الأعلى جودة أبطأ من الخيارات السريعة، وبعض الصور قد تتضمن أخطاء بصرية أو تفاصيل تحتاج إلى تنظيف. كما أن النتائج ليست دائماً مثالية من أول محاولة، خاصة عندما تكون المطالب كثيرة جداً أو دقيقة إلى حد مبالغ فيه.
هناك أيضاً جانب عملي يتعلق بالوصول: بعض القدرات المتقدمة ليست متاحة بالكامل في الخطة المجانية، ما يعني أن التجربة الكاملة ترتبط غالباً بالاشتراك المدفوع أو باستخدام الواجهة البرمجية بحسب الحاجة.
وبالنسبة للمهام البسيطة جداً، قد يكون النموذج أكثر تعقيداً مما يحتاجه المستخدم. ليس كل مشروع يتطلب تفكيراً بصرياً متقدماً أو سلسلة من التعديلات المتتابعة.
مقارنة سريعة مع المنافسين
في مقارنة عامة مع أدوات منافسة، يتميز ChatGPT Images 2.0 في مجالين على وجه الخصوص: سهولة التعديل بالمحادثة، ودقة النصوص داخل الصورة. بعض المنصات الأخرى قد تقدم تحكماً فنياً أوسع أو أساليب بصرية مميزة جداً، لكنها لا تكون بنفس الكفاءة عندما يتعلق الأمر بالتخطيط المنظم أو الكتابة الواضحة أو تعديل النتائج بشكل تفاعلي.
بالمقابل، لا يزال لبعض المنافسين تفوق في مجالات مثل التحكم الإبداعي العميق، أو الاندماج مع بيئات تصميم احترافية أكبر، أو إنتاج صور فنية أكثر طابعاً وتنوعاً. لذلك فإن اختيار الأداة يعتمد على نوع العمل: هل المطلوب تصميم عملي منظم، أم تجربة بصرية فنية مفتوحة؟
خلاصة التقييم
يمثل ChatGPT Images 2.0 تقدماً واضحاً في مسار تحويل مولدات الصور من أدوات تجريبية إلى أدوات إنتاج فعلية. التحسن في كتابة النصوص، وفهم الأوامر المعقدة، وإجراء التعديلات الموضعية، والحفاظ على الاتساق بين عدة صور، كلها عناصر تجعل النموذج أكثر ملاءمة للاستخدام المهني اليومي.
ورغم أن البطء النسبي في الوضع الأعلى جودة وبعض الأخطاء البصرية ما زالت حاضرة، فإن الصورة العامة تشير إلى أداة أكثر نضجاً من الأجيال السابقة. بالنسبة للمستخدمين الذين يحتاجون إلى صور قابلة للاستخدام العملي، وليست مجرد مخرجات جميلة، فإن هذا الإصدار يضع معياراً جديداً في فئة توليد الصور بالذكاء الاصطناعي.