![]() |
جوجل تطلق نموذج Veo 2 لتحويل النصوص إلى فيديوهات سينمائية مجانا 2025 |
أعلنت جوجل عن اطلاق نموذج جديد للذكاء الاصطناعي والذي يعرف بالـ Veo 2 قبل أيام قليل، ما يجعل المعركة بين أفضل أدوات الذكاء الاصطناعي الامريكية والصينية تصبح اقوي في ظل تصاعد المشاكل بين الجانبين في الفترة الأخيرة.
ففي خطوة تُعد ثورة حقيقية في عالم الذكاء الاصطناعي وتوليد المحتوى، أعلنت جوجل عن إطلاقها لنموذجها الأكثر تطورًا حتى الآن: Veo 2. هذا النموذج ليس مجرد تحديث، بل هو قفزة نوعية تَعِد بتغيير قواعد اللعبة في صناعة الفيديو، وتفتح آفاقًا لا حدود لها للمبدعين وصناع المحتوى حول العالم.
انسَ تعقيدات التصوير وبرامج المونتاج الباهظة، فمع جوجل تطلق نموذج Veo 2، كل ما تحتاجه هو كلماتك لتنسج منها قصصًا مرئية مذهلة. انضم إلينا في رحلة استكشاف هذا النموذج الرائد، لنتعرف على إمكانياته الهائلة، وكيف يمكنك الاستفادة منه، وما الذي يميزه عن غيره من التقنيات الموجودة في الساحة.
وفيما يلي كل ما يخص خبر "جوجل تطلق نموذج Veo 2 اكتشف كل شيء عن ثورة الذكاء الاصطناعي الجديدة لتحويل النصوص إلى فيديوهات سينمائية مذهلة. تعرف بالتفصيل على Veo AI، طريقة استخدامه، التكلفة المتوقعة (مجاني أم مدفوع؟)، مقارنات شاملة مع Sora، ChatGPT، QWEN 2.5، والمزيد. هل هو الأفضل؟ وهل يدعم تحويل الصور لفيديو؟ كل ما تريد معرفته عن مستقبل صناعة الفيديو".
ما هو Veo AI؟
![]() |
افضل تحديثات جوجل AI |
Veo AI، وبالأخص النموذج الذي يثير الضجة حاليًا والذي يمكن الإشارة إليه ضمنيًا بـ "Veo 2" نظرًا لكونه أحدث إصدارات جوجل في هذا المجال، هو تحفة هندسية من مختبرات جوجل DeepMind.
يُعتبر هذا النموذج قمة ما توصلت إليه تكنولوجيا الذكاء الاصطناعي التوليدي في مجال تحويل النص إلى فيديو. ببساطة، يمكنك كتابة وصف نصي تفصيلي لمشهد فيديو تريده، وسيقوم Veo بتحويل هذه الكلمات إلى مقطع فيديو عالي الدقة (1080p وأكثر)، قادر على تجاوز مدة الدقيقة الواحدة، مع الحفاظ على تناسق بصري مذهل وتفاصيل دقيقة.
إن جوجل AI تطلق نموذج Veo 2 ليس مجرد أداة، بل هو فنان رقمي يفهم الفروق الدقيقة في اللغة الطبيعية ويترجمها إلى لغة بصرية سينمائية، مدركًا لمصطلحات مثل "لقطة جوية" أو "تصوير سريع (Timelapse)".
يمثل Veo AI خلاصة سنوات من البحث والتطوير في مجال الشبكات العصبية العميقة ونماذج الانتشار (Diffusion Models). يتميز بقدرته الفائقة على فهم السياق والحفاظ على هوية الأشخاص والعناصر عبر لقطات متعددة ضمن الفيديو الواحد، وهي إحدى أكبر التحديات التي واجهت النماذج السابقة.
هذا يعني أنه إذا وصفت شخصية ترتدي قميصًا أحمر في بداية المشهد، فسيحافظ النموذج على ظهورها بنفس القميص الأحمر في اللقطات اللاحقة ما لم تطلب غير ذلك. جوجل تطلق نموذج Veo 2 بقدرات معالجة متقدمة تتيح له توليد حركات واقعية وديناميكية للسوائل والأقمشة والتفاعلات الفيزيائية، مما يضفي على الفيديوهات المنتجة لمسة احترافية يصعب تفريقها أحيانًا عن التصوير الحقيقي.
إن الإمكانيات التي يفتحها Veo AI تكاد لا تُحصى. للمخرجين وكتاب السيناريو، يمثل أداة قوية لتصور المشاهد وتجربة الأفكار بسرعة وبتكلفة منخفضة قبل البدء بالإنتاج الفعلي. للمسوقين، يوفر طريقة مبتكرة لإنشاء محتوى إعلاني جذاب وشخصي يتفاعل مع الجمهور.
للمعلمين والمدربين، يتيح إنشاء مواد تعليمية مرئية غنية ومبسطة. وباختصار، فإن جوجل تطلق نموذج Veo 2 بهدف دمقرطة صناعة الفيديو، ووضع أدوات قوية بين يدي الملايين، مما سيسرع من وتيرة الإبداع والابتكار في كيفية سرد القصص وتبادل المعلومات مرئيًا في العصر الرقمي. إنه خطوة جبارة نحو مستقبل يكون فيه توليد الفيديو بالذكاء الاصطناعي جزءًا لا يتجزأ من حياتنا اليومية.
طريقة إنشاء فيديو باستخدام Veo 2؟
إن عملية إنشاء فيديو باستخدام نموذج Veo2، الذي نشير إليه هنا بـ "Veo 2" تماشيًا مع الاهتمام بالكلمة المفتاحية، مصممة لتكون بديهية نسبيًا على الرغم من القوة الهائلة الكامنة وراءها. تبدأ العملية بإدخال "موجه نصي" (Text Prompt) وصفي للغاية.
هذا الموجه هو قلب العملية الإبداعية؛ فكلما كان الوصف أكثر تفصيلاً ودقة، كانت النتائج أقرب إلى رؤيتك. تخيل أنك تريد مشهدًا لـ "قطة برتقالية نائمة تحت أشعة الشمس الدافئة على عتبة نافذة خشبية قديمة، مع حركة خفيفة لذيلها".
بمجرد إدخال هذا النص، يبدأ Veo بتحليله وفهم عناصره الرئيسية: الكائن (القطة)، لونه (برتقالي)، حالته (نائمة)، البيئة (أشعة الشمس، عتبة النافذة)، التفاصيل (خشبية قديمة)، والحركة المطلوبة (حركة الذيل).
حاليًا، يتم اختبار جوجل تطلق نموذج Veo 2 عبر منصة تجريبية تسمى VideoFX ومتاحة لمجموعة مختارة من المبدعين.
لتحقيق أقصى استفادة من Veo 2، يتطلب الأمر إتقان فن "هندسة الموجهات" (Prompt Engineering). لا يقتصر الأمر على وصف المشهد فقط، بل يمكنك تحديد الأسلوب الفني (مثل: "بأسلوب الرسوم المتحركة اليابانية" أو "بجودة سينمائية واقعية")، والإضاءة ("إضاءة خافتة ورومانسية" أو "ضوء شمس ساطع ظهراً")، وزاوية الكاميرا ("لقطة واسعة" أو "تقريب على وجه الشخصية")، وحتى المشاعر التي يجب أن يعكسها المشهد.
يفهم النموذج مصطلحات سينمائية متخصصة، مما يمنح المستخدمين تحكمًا دقيقًا يشبه ما يتمتع به المخرج المحترف. إن جوجل تطلق نموذج Veo 2 مع التركيز على هذه القدرة على فهم الفروق الدقيقة، مما يجعله أداة قوية للمحترفين والهواة على حد سواء لتحقيق رؤيتهم الإبداعية بدقة متناهية.
مع تطور النموذج وتوسيع نطاق إتاحته، من المتوقع أن نرى واجهات استخدام أكثر تطورًا وسهولة. قد تتضمن هذه الواجهات خيارات لتحديد طول الفيديو، ونسبة العرض إلى الارتفاع، وربما حتى أدوات لتعديل الفيديو المنتج أو إضافة مؤثرات إضافية.
تشير جوجل أيضًا إلى إمكانية دمج Veo في منتجات أخرى مثل YouTube Shorts، مما سيتيح لملايين المستخدمين الوصول المباشر إلى هذه التقنية. لكن المبدأ الأساسي سيظل قائمًا على قوة الوصف النصي.
فكلما استطعت التعبير عن رؤيتك بكلمات واضحة وغنية بالتفاصيل، كلما كانت النتائج التي يقدمها Veo 2 أقرب إلى سحر السينما الذي تطمح إليه. جوجل تطلق نموذج Veo 2 ليحول خيالك النصي إلى حقيقة مرئية ملموسة.
هل Veo 2 مجاني أم مدفوع؟
نعم يمكنك استخدم Veo 2 مجانا حتي الان ولكن ،هذا هو السؤال الذي يتردد على ألسنة الكثيرين بشغف: هل سيكون استخدام Veo 2 متاحًا للجميع مجانًا؟ في الوقت الحالي، الإجابة ليست بسيطة.
من المنطقي التكهن بأن جوجل، عند إطلاق Veo 2 بشكل أوسع، ستعتمد نموذج تسعير يوازن بين إتاحة التكنولوجيا وبين التكاليف الحسابية الهائلة اللازمة لتشغيل مثل هذه النماذج المتقدمة لتوليد الفيديو.
قد نرى نموذجًا مشابهًا لما تتبعه شركات أخرى في مجال الذكاء الاصطناعي التوليدي: مستوى مجاني محدود (قد يسمح بإنشاء عدد معين من الفيديوهات القصيرة أو بدقة أقل شهريًا)، ومستويات اشتراك مدفوعة توفر ميزات متقدمة مثل فيديوهات أطول، دقة أعلى، سرعة توليد أسرع، إزالة العلامات المائية، والوصول إلى ميزات حصرية.
جوجل تطلق نموذج Veo 2 مع الأخذ في الاعتبار بالتأكيد استراتيجيات تحقيق الدخل المستقبلية المحتملة.
من المهم أيضًا النظر في كيفية دمج Veo 2 في منتجات جوجل الحالية. قد يتم تضمين بعض وظائفه الأساسية كجزء من اشتراكات Google Workspace أو Google One المدفوعة، أو ربما يتم تقديمه كخدمة ضمن Google Cloud AI للمطورين والشركات بتسعير يعتمد على الاستخدام (pay-as-you-go).
الاحتمالات متعددة، ولكن المؤكد هو أن جوجل تدرك القيمة الهائلة لهذه التكنولوجيا. لذا، بينما ننتظر الإعلان الرسمي، يجب أن نفترض أن الاستخدام الواسع النطاق لـ Veo 2 بكامل إمكانياته سيتطلب غالبًا شكلاً من أشكال الدفع، وإن كانت هناك فرصة لوجود خيار مجاني محدود لتجربة الأداة. جوجل تطلق نموذج Veo 2، والتفاصيل الكاملة حول التسعير والإتاحة ستتكشف في المستقبل القريب.
كم تكلفة Google veo2؟
كما ذكرنا سابقًا، لا يوجد سعر رسمي معلن لـ "جوجل فيو 2" (Google Veo 2) حتى لحظة كتابة هذه المقالة. النموذج لا يزال في مرحلة تجريبية مغلقة أو محدودة الوصول، ولم تكشف جوجل عن أي تفاصيل حول هيكل التسعير المستقبلي للوصول العام.
وبالتالي، فإن أي أرقام أو تقديرات للسعر ستكون مجرد تكهنات في هذه المرحلة. جوجل تطلق نموذج Veo 2 حاليًا كعرض تكنولوجي متقدم وقيد الاختبار، وليس كمنتج تجاري متاح للشراء المباشر من قبل الجمهور العام. من الضروري متابعة الإعلانات الرسمية من جوجل أو جوجل DeepMind للحصول على معلومات دقيقة حول التكلفة عند إطلاقه تجاريًا.
إذا أردنا التكهن بناءً على نماذج تسعير أدوات الذكاء الاصطناعي التوليدي الأخرى (مثل أدوات تحويل النص إلى صورة أو حتى نماذج الفيديو الأولية من شركات أخرى)، فقد نرى عدة خيارات محتملة.
يمكن أن يكون هناك نظام قائم على "الائتمانات" (Credits)، حيث يشتري المستخدمون حزمًا من الائتمانات ويستهلكون عددًا معينًا منها لكل ثانية أو دقيقة من الفيديو المنتج، مع تأثر التكلفة بالدقة والجودة المطلوبة.
خيار آخر هو الاشتراكات الشهرية أو السنوية بمستويات مختلفة (أساسي، احترافي، للمؤسسات) تقدم حصصًا متفاوتة من وقت التوليد أو عدد الفيديوهات. جوجل تطلق نموذج Veo 2 مع إمكانيات متقدمة، وهذا قد ينعكس في تسعير يتناسب مع قيمته السوقية المحتملة.
من المهم التأكيد مجددًا على أن كل ما سبق هو مجرد افتراضات. قد تفاجئنا جوجل بنموذج تسعير مبتكر، أو قد تدمجه بشكل كبير في خدماتها الحالية بطرق غير متوقعة. تكلفة تشغيل هذه النماذج ضخمة بسبب الحاجة إلى قوة حاسوبية هائلة (GPUs)، وهذا سيكون عاملاً رئيسياً في تحديد السعر النهائي للمستخدم.
النصيحة الأفضل حاليًا هي التحلي بالصبر ومراقبة الأخبار الرسمية. جوجل تطلق نموذج Veo 2، وعندما يصبح متاحًا تجاريًا، ستكون معلومات التسعير واضحة ومحددة. في الوقت الحالي، السعر الفعلي هو "غير محدد".
ما الفرق بين Veo 2 و 3؟
هنا نقطة مهمة تحتاج إلى توضيح دقيق: حتى الآن، لم تعلن جوجل رسميًا عن وجود نموذج باسم "Veo 3". النموذج الرائد الذي تم الكشف عنه مؤخرًا والذي يتم الحديث عنه هو "Veo".
قد يكون استخدام مصطلح "Veo 2" شائعًا للإشارة إلى هذا الإصدار المتقدم (بالمقارنة مع جهود سابقة أقل تطورًا من جوجل أو غيرها)، أو بسبب التوقعات الطبيعية لتسمية الإصدارات في عالم التكنولوجيا.
ولكن رسميًا، النموذج الحالي هو Veo. بالتالي، لا يمكن الحديث عن فرق بين "Veo 2" و "Veo 3" لأن الأخير ببساطة غير موجود أو معلن عنه بعد. جوجل تطلق نموذج Veo 2 (أو Veo كما هو اسمه الرسمي) كأحدث ما لديها.
إن تطور نماذج الذكاء الاصطناعي يسير بوتيرة سريعة جدًا. فمن المؤكد أن فرق البحث في جوجل DeepMind تعمل باستمرار على تحسين وتطوير نماذجها. لذلك، من الطبيعي تمامًا أن نتوقع ظهور إصدارات مستقبلية قد تحمل اسم "Veo 3" أو أي تسمية أخرى لاحقًا.
هذه الإصدارات المستقبلية ستركز على الأرجح على تحسين جوانب مثل: زيادة دقة الفيديو (ربما 4K أو أعلى)، توليد فيديوهات أطول بكثير، فهم أعمق وأكثر دقة للموجهات النصية المعقدة، تحسين الواقعية الفيزيائية وتناسق الحركة، وتقليل الأخطاء أو التشوهات البصرية التي قد تظهر أحيانًا في النماذج الحالية. جوجل تطلق نموذج Veo 2 الآن، وهو يمثل قمة التكنولوجيا الحالية.
في الوقت الراهن، يجب التركيز على فهم وتقييم قدرات النموذج الحالي "Veo" (الذي نشير إليه بـ Veo 2 هنا). هذا النموذج بحد ذاته يمثل قفزة هائلة مقارنة بما كان متاحًا قبل فترة قصيرة.
الحديث عن "Veo 3" هو استباق للأحداث وتكهن بالمستقبل. عندما تعلن جوجل عن نموذج جديد بالفعل، سيكون من الممكن عقد مقارنة حقيقية بناءً على الميزات والتحسينات المعلنة رسميًا. حتى ذلك الحين، الفرق بين "Veo 2" (النموذج الحالي Veo) و "Veo 3" (النموذج المستقبلي الافتراضي) هو فرق بين الواقع والخيال، بين ما هو موجود وما هو متوقع. جوجل تطلق نموذج Veo 2، وهو محور الاهتمام الحالي.
هل VeO2 أفضل من Sora؟
هذه المقارنة بين Veo (Veo 2) من جوجل و Sora من OpenAI هي واحدة من أكثر المواضيع إثارة للجدل والنقاش في مجتمع الذكاء الاصطناعي حاليًا. كلا النموذجين يمثلان أحدث ما توصلت إليه التكنولوجيا في مجال تحويل النص إلى فيديو، وكلاهما أظهر قدرات مذهلة في العروض التوضيحية.
تحديد أيهما "أفضل" بشكل مطلق أمر صعب للغاية لعدة أسباب، أهمها أن كلاهما لا يزالان غير متاحين للجمهور العام بشكل واسع، مما يعني أن تقييمنا يعتمد بشكل كبير على المواد الترويجية التي تنشرها الشركتان وشهادات المستخدمين الأوائل المحدودة. جوجل تطلق نموذج Veo 2 مع تأكيدات على نقاط قوة معينة.
بناءً على ما تم الكشف عنه، يبدو أن Veo 2 يركز بشدة على التحكم السينمائي الدقيق، وفهم المصطلحات الفنية للتصوير (مثل اللقطات الجوية، التايم لابس)، والحفاظ على تناسق الشخصيات والعناصر عبر المشاهد الطويلة نسبيًا (أكثر من دقيقة).
جوجل تدعي أن Veo يقدم "تناسقًا غير مسبوق" وتحكمًا إبداعيًا عالي المستوى. من ناحية أخرى، أثارت Sora ضجة كبيرة بجودة الصورة المذهلة والواقعية الفيزيائية العالية في بعض المقاطع التي عرضتها، وقدرتها على توليد مشاهد معقدة تحتوي على شخصيات متعددة وتفاعلات بيئية ديناميكية. جوجل تطلق نموذج Veo 2 كخطوة لمنافسة الإنجازات التي حققتها Sora وإثبات ريادتها في هذا المجال.
في النهاية، قد يكون لكل نموذج نقاط قوته وضعفه النسبية. ربما يتفوق Veo 2 في التحكم الدقيق والتناسق على المدى الطويل، بينما قد تظل Sora متفوقة في جودة الصورة الخام أو محاكاة الفيزياء المعقدة في بعض السيناريوهات.
"الأفضل" سيعتمد بشكل كبير على حالة الاستخدام المحددة وأولويات المستخدم. هل تحتاج إلى تحكم سينمائي دقيق وفيديو متسق لأكثر من دقيقة؟ قد يكون Veo 2 هو الخيار الأنسب.
هل تبحث عن أعلى درجة ممكنة من الواقعية البصرية لمشهد قصير ومعقد؟ قد تميل الكفة نحو Sora. بدون اختبارات مقارنة مستقلة ومباشرة، يبقى الحكم النهائي مؤجلًا. جوجل تطلق نموذج Veo 2، والمنافسة مع Sora ستدفع كلا النموذجين إلى التطور بشكل أسرع.
مقارنة بين Deepseek و Veo 2
عند مقارنة Deepseek بـ Veo 2، ندخل في مقارنة بين نوعين مختلفين تمامًا من نماذج الذكاء الاصطناعي. Deepseek هو في الأساس نموذج لغوي كبير (LLM)، مشابه لنماذج مثل GPT أو Llama، وهو متخصص في فهم وتوليد النصوص البرمجية (الكود) واللغة الطبيعية.
إنه مصمم للمساعدة في مهام مثل كتابة الأكواد، الإجابة على الأسئلة، تلخيص النصوص، والترجمة. قوته تكمن في معالجة المعلومات النصية والبرمجية بكفاءة ودقة عالية. أما جوجل تطلق نموذج Veo 2 لغرض مختلف تمامًا: تحويل الأوصاف النصية إلى محتوى مرئي ديناميكي (فيديو).
إن الوظيفة الأساسية لـ Veo 2 هي توليد البكسلات وترتيبها في تسلسلات زمنية لتشكيل فيديو بناءً على موجه نصي. بينما يتفوق Deepseek في التعامل مع بنية اللغة والمنطق البرمجي، يتفوق Veo 2 في فهم الجوانب البصرية المكانية والزمانية للوصف النصي وترجمتها إلى صور متحركة.
يستخدم Veo 2 تقنيات متقدمة في الرؤية الحاسوبية والشبكات التوليدية العميقة لتحقيق ذلك، وهي مجموعة مهارات مختلفة جذريًا عن تلك التي يستخدمها Deepseek. جوجل تطلق نموذج Veo 2 كأداة إبداعية بصرية، بينما Deepseek هو أداة إنتاجية نصية وبرمجية.
لذلك، فإن المقارنة المباشرة بينهما لتحديد أيهما "أفضل" ليست منطقية، لأنهما يخدمان أغراضًا مختلفة تمامًا ولا يتنافسان في نفس المجال. الأمر أشبه بمقارنة رسام ماهر بمهندس برمجيات ماهر؛ كلاهما خبير في مجاله، لكن مهاراتهما وتطبيقاتهما مختلفة.
قد يكون هناك تكامل محتمل بينهما في المستقبل، حيث يمكن استخدام نموذج لغوي مثل Deepseek للمساعدة في صياغة موجهات نصية معقدة ومفصلة لنموذج فيديو مثل Veo 2، لكنهما ليسا بديلين لبعضهما البعض. جوجل تطلق نموذج Veo 2 ليملأ فجوة مختلفة تمامًا في عالم الذكاء الاصطناعي عن تلك التي يستهدفها Deepseek.
مقارنة بين QWEN 2.5 و Veo 2
المقارنة بين QWEN 2.5 (من تطوير معهد تكنولوجيا المعلومات في علي بابا) و Veo 2 (من جوجل) تقربنا قليلاً من نفس الساحة، حيث أن QWEN 2.5 هو نموذج لغوي كبير متعدد الوسائط (Multimodal LLM) يتمتع بقدرات قوية جدًا، بما في ذلك معالجة وفهم النصوص والصور وحتى بعض القدرات المتعلقة بالفيديو.
ومع ذلك، لا يزال هناك فرق جوهري في التركيز الأساسي والتخصص. QWEN 2.5 مصمم ليكون نموذجًا شاملاً قادرًا على التعامل مع أنواع متعددة من البيانات، بينما جوجل تطلق نموذج Veo 2 كأداة متخصصة ومُحسَّنة بشكل خاص لتوليد الفيديو عالي الجودة والطويل نسبيًا من النص.
في حين أن QWEN 2.5 قد يمتلك بعض القدرات الأولية في توليد أو فهم الفيديو، فإن Veo 2 مصمم من الألف إلى الياء لهذه المهمة المحددة. يتميز Veo 2 بقدرات معلن عنها مثل توليد فيديو بدقة 1080p لمدة تزيد عن دقيقة، والحفاظ على تناسق بصري عالي، وفهم دقيق للمصطلحات السينمائية.
هذه الميزات المحددة هي نتيجة تركيز جوجل العميق على تحديات توليد الفيديو. من غير المرجح أن يكون لدى QWEN 2.5، كنموذج متعدد الوسائط ذي نطاق أوسع، نفس المستوى من التخصص والتحسين الدقيق لتوليد الفيديو السينمائي الطويل كما يمتلكه Veo 2. جوجل تطلق نموذج Veo 2 بهدف التفوق في هذه النيتشه المحددة.
يمكن النظر إلى QWEN 2.5 كـ "سكين الجيش السويسري" للذكاء الاصطناعي متعدد الوسائط، قادر على أداء مجموعة واسعة من المهام بشكل جيد جدًا. في المقابل، يمكن اعتبار Veo 2 بمثابة "أداة المخرج المتخصصة"، المصممة بإتقان لأداء مهمة واحدة – توليد الفيديو من النص – بمستوى استثنائي من الجودة والتحكم.
كلاهما يمثلان إنجازات هائلة في مجال الذكاء الاصطناعي، ولكن اختيار أيهما "أفضل" يعتمد كليًا على المهمة المطلوبة. إذا كانت المهمة هي توليد فيديو سينمائي من نص، فإن Veo 2 هو المرشح الأقوى حاليًا بناءً على ما تم الكشف عنه. جوجل تطلق نموذج Veo 2 ليكون رائدًا في مجاله المتخصص.
مقارنة بين CHATGPT و Veo 2
إن مقارنة ChatGPT (من OpenAI) بـ Veo 2 (من جوجل) هي مثال آخر على مقارنة أداتين مختلفتين جذريًا في وظائفهما الأساسية، على الرغم من أنهما يقعان تحت المظلة الواسعة للذكاء الاصطناعي التوليدي.
ChatGPT هو نموذج لغوي كبير (LLM) مصمم لفهم وتوليد النصوص بطريقة تشبه المحادثة البشرية. يتفوق في مهام مثل الإجابة على الأسئلة، كتابة المقالات، الترجمة، تلخيص المعلومات، والمساعدة في العصف الذهني وكتابة الأكواد. إنه يعمل بشكل أساسي في عالم الكلمات والمعلومات النصية. في المقابل، جوجل تطلق نموذج Veo 2 كنموذج متخصص في عالم البصريات والحركة، وتحديدًا تحويل النص إلى فيديو.
يكمن الاختلاف الجوهري في المخرجات التي ينتجها كل نموذج. ChatGPT ينتج نصوصًا، بينما Veo 2 ينتج فيديوهات. الأول يتعامل مع بناء الجمل والقواعد اللغوية والسياق الدلالي للكلمات، والثاني يتعامل مع تكوين الإطارات (Frames)، تناسق الألوان والأشكال، محاكاة الحركة، وفهم الجوانب البصرية والسينمائية للوصف النصي.
هما يستخدمان بنى تحتية للذكاء الاصطناعي مختلفة ومجموعات بيانات تدريب متباينة تمامًا لتعلم مهاراتهما المتخصصة. جوجل تطلق نموذج Veo 2 لمعالجة تحدٍ مختلف تمامًا عن التحدي الذي يعالجه ChatGPT.
تمامًا كما في المقارنات السابقة مع النماذج اللغوية الأخرى، لا يوجد تنافس مباشر بين ChatGPT و Veo 2. بل يمكن اعتبارهما أدوات متكاملة. يمكن للمستخدم، على سبيل المثال، استخدام ChatGPT للمساعدة في كتابة وصف نصي مفصل ومبدع لمشهد فيديو، ثم إدخال هذا النص إلى Veo 2 لتحويله إلى فيديو فعلي.
ChatGPT يساعد في توليد الفكرة النصية، و Veo 2 يحولها إلى واقع مرئي. كلاهما يمثلان أدوات قوية بشكل لا يصدق في مجاليهما، ولكن لا يمكن لأحدهما أن يحل محل الآخر. جوجل تطلق نموذج Veo 2 ليضيف بُعدًا جديدًا للإمكانيات التوليدية للذكاء الاصطناعي، مكملاً لما تقدمه النماذج اللغوية مثل ChatGPT.
هل يوجد في Veo 2 خاصية تحويل الصورة إلى فيديو؟
نعم، بناءً على المعلومات التي كشفت عنها جوجل، يبدو أن Veo (Veo 2) يمتلك قدرات تتجاوز مجرد تحويل النص إلى فيديو، وتتضمن بالفعل استخدام الصور كمدخلات للمساعدة في عملية التوليد. جوجل ذكرت صراحة أن Veo يمكنه أخذ "صورة مرجعية" (reference image) بالإضافة إلى الموجه النصي.
هذه الميزة قوية جدًا لأنها تتيح للمستخدمين توجيه النموذج بشكل أفضل نحو أسلوب بصري معين أو الحفاظ على مظهر شخصية أو كائن محدد عبر الفيديو. جوجل تطلق نموذج Veo 2 مع هذه الميزة لزيادة التحكم الإبداعي والتناسق.
لا يعني هذا بالضرورة وجود خاصية "صورة إلى فيديو" (Image-to-Video) بالمعنى التقليدي الذي قد يفكر فيه البعض (مثل تحريك صورة ثابتة بشكل بسيط). بل هي أقرب إلى استخدام الصورة كـ "بذرة" أو "مرساة" بصرية لعملية التوليد من النص.
على سبيل المثال، يمكنك تحميل صورة لشخصية معينة، ثم تقديم موجه نصي يصف ما تفعله هذه الشخصية. سيستخدم Veo 2 الصورة المرجعية لضمان أن الشخصية في الفيديو الناتج تشبه إلى حد كبير الشخصية في الصورة، مع تنفيذ الحركة والسيناريو الموصوف في النص. جوجل تطلق نموذج Veo 2 لدمج أنواع مختلفة من المدخلات للحصول على نتائج أكثر دقة.
هذه القدرة على استخدام الصور كمرجع تفتح إمكانيات مثيرة للاهتمام. يمكن استخدامها لضمان تناسق العلامة التجارية في الفيديوهات التسويقية، أو للحفاظ على مظهر شخصية كرتونية عبر حلقات متعددة، أو حتى لتطبيق أسلوب فني معين موجود في صورة على فيديو جديد كليًا.
كما أشارت جوجل إلى إمكانية استخدام Veo في مهام التحرير، مثل إضافة عناصر إلى فيديو موجود أو تغيير أسلوبه، مما يشير إلى قدرات متقدمة في فهم ومعالجة المحتوى المرئي الموجود مسبقًا، سواء كان صورًا أو فيديوهات. لذا، الإجابة المختصرة هي نعم، جوجل تطلق نموذج Veo 2 مع قدرات للاستفادة من الصور في عملية إنشاء وتعديل الفيديو.
الخاتمـة 🤖:
كان هذا ما لدينا من معلومات حول ان جوجل تطلق نموذج Veo 2 اكتشف كل شيء عن ثورة الذكاء الاصطناعي الجديدة لتحويل النصوص إلى فيديوهات سينمائية مذهلة. تعرف بالتفصيل على Veo AI، طريقة استخدامه، التكلفة المتوقعة (مجاني أم مدفوع؟)، مقارنات شاملة مع Sora، ChatGPT، QWEN 2.5، والمزيد. هل هو الأفضل؟ وهل يدعم تحويل الصور لفيديو؟ كل ما تريد معرفته عن مستقبل صناعة الفيديو.
هل كانت مقالة اليوم مفيدة😍💖...أخبـرنـا بالتعليقات💬.
أيهما أفضل نموذج Veo 2🤖 أم ChatGPT🤖؟
دعمنـا لنـا...💖😃شارك المقالة علي مواقع التواصل الاجتماعي💫😄💖.