-->

الجديد

جوجل تطلق نموذج Imagen 4.. تحسينات في النصوص ولكن هل تكفي لمنافسة Midjourney؟

author image

أعلنت شركة جوجل رسميًا عن إطلاق Imagen 4، أحدث إصدار من نماذجها لتوليد الصور بالذكاء الاصطناعي، في خطوة جديدة ضمن سباق التسلح المحتدم في عالم الذكاء الاصطناعي التوليدي. الإصدار الجديد لا يأتي فقط بتحسينات عامة، بل يركز بشكل خاص على حل إحدى أكبر المشاكل التي عانت منها النماذج السابقة: عرض النصوص بشكل دقيق وواضح داخل الصور.

ما الجديد في Imagen 4؟ وكم تبلغ تكلفته؟

تقدم جوجل نسختين من النموذج الجديد، لكل منهما استخدام وتكلفة مختلفة:

Imagen 4 (الأساسي): يُوصف بأنه "الخيار المناسب لمعظم المهام". يركز على تقديم توازن بين الجودة والكفاءة، وتبلغ تكلفة إنشاء الصورة الواحدة 0.04 دولار.

Imagen 4 Ultra (المتقدم): موجه للمستخدمين الذين يحتاجون إلى دقة فائقة وقدرة على اتباع التعليمات النصية المعقدة بشكل صارم. تكلفة الصورة الواحدة هنا أعلى بنسبة 50%، حيث تبلغ 0.06 دولار.

النموذجان متاحان حاليًا للمطورين عبر واجهة برمجة التطبيقات Gemini API، مع إمكانية تجربة محدودة ومجانية عبر منصة Google AI Studio.

حل مشكلة "النصوص المشوهة"

لطالما كانت قدرة نماذج الذكاء الاصطناعي على توليد نصوص مقروءة وواضحة داخل الصور (مثل لافتات الشوارع أو عناوين الكتب) نقطة ضعف كبيرة، حيث كانت النتائج غالبًا ما تكون مشوهة أو غير منطقية. جوجل تَعِد بأن Imagen 4 قد حقق "تحسنًا كبيرًا" في هذا الجانب، مما يجعله أداة أكثر فائدة للمصممين والمسوقين الذين يحتاجون إلى دمج النصوص مع الصور بشكل احترافي.

الحكم المبدئي: خطوة للأمام.. ولكن ليس قفزة

على الرغم من التحسينات، فإن الانطباع العام لدى الخبراء والمجتمع التقني هو أن نماذج جوجل لتوليد الصور لا تزال متأخرة خطوة عن منافسيها الرئيسيين، وتحديدًا DALL-E 3 من OpenAI و Midjourney 7. فالصور التي استعرضتها جوجل، رغم دقتها في اتباع التعليمات، لا تزال تفتقر أحيانًا إلى الجاذبية الفنية أو الواقعية المذهلة التي نراها في مخرجات النماذج المنافسة.

وهنا تظهر مفارقة في استراتيجية جوجل. فبينما يبدو أنها تلعب دور "المطارد" في مجال توليد الصور، فإنها تحقق تقدمًا هائلاً وتعتبر رائدة في مجال توليد الفيديو مع نموذجها الجديد Veo 3، الذي يُعتبر منافسًا مباشرًا وقويًا لنموذج Sora من OpenAI.

الخلاصة: أداة متخصصة وليست ثورة شاملة

يمثل إطلاق Imagen 4 تقدمًا مهمًا وملموسًا لجوجل، خاصة للمستخدمين الذين يحتاجون إلى توليد صور تحتوي على نصوص دقيقة. ومع ذلك، لا يبدو أن هذا الإصدار هو القفزة النوعية التي ستضع جوجل في صدارة سباق توليد الصور.

يبدو أن جوجل تركز على بناء منظومة ذكاء اصطناعي متكاملة، حيث قد تتفوق في بعض الجوانب (مثل الفيديو) بينما تستمر في تحسين جوانب أخرى (مثل الصور). ويبقى السؤال: هل ستكون هذه التحسينات التدريجية كافية في سوق لا يتوقف عن التطور بوتيرة جنونية؟

ما رأيك في استراتيجية جوجل؟ وهل تعتقد أن التركيز على تحسين النصوص هو الميزة التي تحتاجها للتفوق على المنافسين؟

 شاركنا وجهة نظرك في التعليقات!