كل ما تحتاج معرفته عن نموذج 4o Image Generation المُذهل !

في بثٍ مباشرٍ قصير – كالعادة – كشفت شركة أبحاث الذكاء الاصطناعي OpenAI أمس الثلاثاء عن ميزة مُحسنة لتوليد الصور باستخدام نموذج GPT-4o قائلة: "في OpenAI، كنا نؤمن منذ فترة طويلة بأن توليد الصور يجب أن يكون جزءًا أساسيًا من قدرات النماذج لدينا. لهذا السبب، قمنا بدمج أحدث وأقوى مولّد صور نمتلكه في نموذج GPT-4o". من يستخدم هذا النموذج، سواء بالنسخة المجانية أو المدفوعة، يعرف أنه قادر على توليد الصور بالفعل، فما الذي أضافته OpenAI؟ أو بمعنى آخر؟ ما الذي يميز 4o Image Generation الجديد؟ وما حدوده؟ وهل النموذج متاحة للجميع؟ كل هذا وأكثر سنجيب عنه في هذا المقال انطلاقًا من السطور التالية.

توليد الصور باستخدام GPT-4o

ما هو نموذج 4o Image Generation ؟

حسَّنت OpenAI من ميزة توليد الصور الموجودة بالفعل في نموذج GPT-4o، إذ أطلقت نظامًا جديدًا يتيح للذكاء الاصطناعي الوصول إلى قاعدة معرفية أوسع وفهم السياقات بطريقة أفضل، بالتالي توليد صور أكثر واقعية. مشكلة النموذج السابق أنه كان يعاني مع الصور الواقعية، حيث كان يُنشئ مشاهد خلّابة وخيالية بامتياز، لكن يعجز عن إنشاء الصور العملية مثل تلك التي تحتوي على نصوص أو رسومات بيانية، فيكون من الواضح لأي شخص أن يتعرف عليها كصورة من إنشاء الذكاء الاصطناعي.

تقول OpenAI إن نموذج 4o Image Generation يتميز بقدرته على توليد الصور بدقة، حيث يمكنه كتابة النصوص داخل الصور بشكلٍ واضح بعيدًا عن التشوه الذي كنا نراه في النموذج القديم، فضلًا عن اتباع التعليمات أو الأوامر بدقة، والاستفادة من القاعدة المعرفية الضخمة التي يمتلكها وسياق المحادثة. فوق ذلك، يستطيع النموذج أن يُعدّل على الصور التي ترفعها له أو يستخدمها كمصدر إلهام لإنشاء تصاميم جديدة، مما يُسهّل من عملية إنشاء الصور التي تتخيلها بالضبط.

كيف يعمل النموذج الجديد ؟

درَّبت OpenAI نموذجها الجديد باستخدام مجموعة كبيرة من الصور والنصوص الموجودة على الإنترنت ليفهم العلاقة بين الصور والكلمات على أكمل وجه. ومع إضافة بعض التحسينات عقب التدريب، أصبح النموذج قادرًا على إنشاء صور دقيقة ومتناسقة تأخذ السياق في الحسبان وتوصّل الأفكار بسهولة وعُمق.

لقد أصبح نموذج توليد الصور الجديد بـ GPT-4o أكثر ذكاءً، حيث يستطيع فهم الصور والنصوص داخل المحادثات بدرجة أكبر مما يجعله يحافظ على التفاصيل التي تريدها ويُعدّل على الصور بذكاء. دللت OpenAI على هذا الأمر بالمثال الآتي: تخيل أنك تُصمم شخصية في لعبة فيديو وأردت أن تُعدّل على أشياء أخرى تُحيط بها. عندما تطلب من النموذج ذلك، فإنه سيتبع الأوامر بدقة وينتبه للتفاصيل تاركًا الشخصية وشأنها ليُعدّل ما حولها من تفاصيل وفقط كما طلبت. ما يمنح النموذج هذه الإمكانيات هو قدرته على التعامل من 10-20 عنصرًا مختلفًا في نفس الصورة بدقة، ولتفهم مدى أهمية الرقم، يجب أن تعلم أن معظم الأنظمة الأخرى تواجه صعوبة في مجرد التعامل مع 5-8 عناصر.

بدون أدنى مبالغة، فإن نموذج GPT-4o الجديد لتوليد الصور هو واحد من أفضل النماذج التي رأيتها، إن لم يكن الأفضل. ليصلك الإحساس الذي أود إيصاله، يكفي أن تدخل على مدونة OpenAI الرسمية وتمتع ناظريك بالصور التي استعرضتها OpenAI. التفاصيل الموجودة بهذه الصور جعلتني أحدق بها كالأبله؛ بالإضافة إلى الشرح المذكور أعلاه، تقول الشركة إن النموذج الجديد يستطيع التعلّم من الصور التي ترفعها للتحسينات المستقبلية، مثلما يجري على النصوص. بفضل قدرته الأصلية على توليد الصور، يتمكن GPT-4o من الربط بين المعرفة النصية والبصرية، كما أن تدريبه على مجموعة واسعة من الأساليب البصرية المختلفة يتيح له إنشاء الصور التي ستراها، لكن هل هذا يعني أنه غير محدود؟ لا؛ النموذج ليس مثاليًا.

حدود نموذج GPT-4o لتوليد الصور

تعترف OpenAI بنفسها أن النموذج ليس مثاليًا حيث قالت: "نحن ندرك أن هناك عدة مشكلات حاليًا، ونعمل على تحسينها بعد الإطلاق الأوليّ". من عيوب النموذج مثلًا أنه يقطع الصور الطويلة، مثل الملصقات، بشكل غير دقيق أحيانًا وبخاصة من الأسفل. كما أنه قد يولّد معلومات مُضللة لا سيما إن أعطيته أوامر غير واضحة، كذلك يواجه النموذج صعوبة في عرض أكثر من 10-20 عنصرًا في صور واحدة، مثل الجدول الدوري، وأخيرًا وليس آخرًا، قد يواجه النموذج صعوبة في عرض الحروف غير اللاتينية ويشوّه تناسق بعض الوجوه.

هل النموذج مجاني؟ وكيف أستخدمه ؟

نعم، النموذج الجديد لتوليد الصور باستخدام GPT-4o مجاني تمامًا ويمكن للمشتركين في جميع الخطط (عدا Enterprise وEducation الذين سيحصلون عليه قريبًا) استخدامه. بالنسبة للمطورين، فسيتم توفير النموذج من خلال API خلال الأسابيع القادمة. يجدر بالذكر أن النموذج يستغرق حوالي دقيقة في المتوسط لتوليد الصور نظرًا لأنه يحتاج إلى معالجةٍ عالية.

لتعرف ما إذا كان النموذج قد وصلك أم لا، افتح ChatGPT واكتب وصفًا لأي صورة تريد إنشائها ثم اضغط على "Enter" وسيتم إنشاء الصورة بكل بساطة، لكن اعلم أن هذه الميزة تحتاج تسجيل الدخول بحسابك.

عالم الكمبيوتر