در حالی که چت باتهای قدرتمند هوش مصنوعی مانند ChatGPT و Google Bard از مدلهای زبانی بزرگ پشتیبانی میکنند، ترکیب تصویر و ویدیو با استفاده از هوش مصنوعی بر اساس مدلهای Diffusion و GAN ساخته شدهاند. همه اینها بخشی از تجربه استفاده از Generative AI هستند. در این مقاله، نگاهی دقیقتر به بهترین تولیدکنندگان ویدیوی هوش مصنوعی میاندازیم. تاکنون تنها چند مدل هوش مصنوعی تبدیل متن به ویدئو به صورت آنلاین منتشر شده است، اما کدام یک خوب و قابل استفاده هستند؟ برای فهمیدن این موضوع، بیایید ادامه مطلب را بخوانیم و لیست بهترین تولیدکنندگان ویدئو هوش مصنوعی در سال 2023 را بررسی کنیم.
-
Runway Gen
بهترین تولید کننده ویدیوی هوش مصنوعی که می توانید در حال حاضر از آن استفاده کنید Runway Gen-2 است. پیش از این، Runway نسل ویدیو به ویدیو را با Gen-1 معرفی کرده بود و اکنون با مدل Gen-2، می توانید با استفاده از دستورات متنی از ابتدا ویدیو تولید کنید. مشابه prompt های Midjourney، می توانید صحنه، زوایای دوربین و غیره را توصیف کنید و نتایج باورنکردنی ایجاد می کند. من برخی از prompt ها را در Runway امتحان کردم، و نتیجه خوبی گرفتم.
بهترین بخش این است که می توانید یک تصویر به prompt خود اضافه کنید و Runway می تواند از تصویر موجود در ویدیو استفاده کند. خیلی باحال است، درست است؟ استفاده از آن تقریبا رایگان است. شما می توانید تا 4 ثانیه ویدیو با وضوح 720p تولید کنید و نزدیک به 10 ویدیو رایگان ایجاد کنید.
اگر تصمیم به دریافت طرح پولی (12 دلار در ماه) دارید، میتوانید ویدیوها را با کیفیت 4K تولید کنید، اما مدت زمان 4 ثانیه ثابت میماند. بنابراین اگر میخواهید بهترین ابزار هوش مصنوعی متن به ویدیو را امتحان کنید، Runway Gen-2 را بررسی کنید.
بررسی Runway Gen-2 (طرح رایگان و پولی از 12 دلار در ماه شروع می شود)
-
ModelScope
ModelScope یک مدل تبدیل متن به ویدئو است که توسط آزمایشگاه هوش DAMO Vision Alibaba تامین مالی شده است و با گذشت زمان بسیار بهتر شده است. بر اساس مدل Diffusion ساخته شده و بر روی 1.7 میلیارد پارامتر آموزش داده شده است. در حال حاضر، فقط از ورودی انگلیسی پشتیبانی میکند و میتواند ویدیوهایی مطابق با ورودی متن تولید کند.
خوشبختانه، این پروژه در Hugging Face در دسترس است، بنابراین می توانید از آن برای تولید ویدیوهای هوش مصنوعی استفاده کنید. اما به خاطر داشته باشید که فقط میتواند یک ویدیوی ۲ ثانیهای تولید کند و یک واترمارک “Shutterstock” روی ویدیو وجود دارد. من آن را امتحان کردم و به نظر کار آن خوب است
بررسی ModelScope (رایگان)
-
Zeroscope
Zeroscope یکی دیگر از مدل های تبدیل متن به ویدئو است که از ModelScope مشتق شده است. Zeroscope می تواند ویدیوهای هوش مصنوعی با کیفیت بالا در رزولوشن1024 در 576 ایجاد کند. مدل آن با وزن اصلی ModeScope و با 9923 کلیپ و 29769 فریم برچسب گذاری شده در 24 فریم (رزولوشن 1024 x 576) آموزش دیده است. در نتیجه خروجی بهتری از ModelScope ایجاد می کند.
دو مدل Zeroscope وجود دارد: zeroscope_v2_576w و zeroscope_v2_XL. از مدل zeroscope_v2_576w برای تولید ویدیو و zeroscope_v2_XL برای ارتقا کیفیت محتوای تولید شده با وضوح بالاتر استفاده می شود. می توانید نسخه ی نمایشی این تولید کننده ویدیوی هوش مصنوعی را در Hugging Face مشاهده کنید.
بررسی Zeroscope (رایگان)
-
VideoCrafter
VideoCrafter یک جعبه ابزار هوش مصنوعی برای ایجاد ویدیو از طریق پیام های متنی است و با استفاده از Tencent توسعه داده شده است. برخلاف سایر مدلهای تولید ویدیو با هوش مصنوعی، میتواند ویدیوهای حداکثر ۸ ثانیه ای ایجاد کند و از وضوحهای مختلف نیز پشتیبانی میکند.
سه روش مختلف برای استفاده از VideoCrafter وجود دارد. میتوانید از تولید متن به ویدیو، تولید ویدیوی هوش مصنوعی شخصی با استفاده از LoRA و تولید ویدیوی قابل کنترل استفاده کنید. هر سه حالت به شما امکان میدهند ویدیوهای هوش مصنوعی ایجاد کنید. اگر یک GPU قدرتمند با حداقل 7 گیگابایت VRAM دارید، می توانید VideoCrafter را به صورت محلی روی دستگاه خود اجرا کنید. با این حال، نسخه ی نمایشی Hugging Face به صورت آنلاین در دسترس است که می توانید آن را در زیر امتحان کنید.
بررسی VideoCrafter (رایگان)
-
Synthesia
Synthesia یک ابزار هوش مصنوعی است که می توانید از آن برای ایجاد ویدیوهای حرفه ای هوش مصنوعی در عرض چند دقیقه استفاده کنید. می توانید از آن برای ایجاد آموزش، مستندات ویدئویی، ارائه، فروش و موارد دیگر استفاده کنید. از این نظر، این یک تولیدکننده ویدیوی هوش مصنوعی نیست که بتواند از پیام متنی شما برای ایجاد چیزی از ابتدا استفاده کند. در Synthesia، میتوانید از بین بیش از 140 آواتار هوش مصنوعی مختلف انتخاب کنید و هر متنی را به بیش از 120 زبان به گفتار تبدیل کنید.
در اصل برای ایجاد ویدیوهای حرفه ای نیازی به ساخت استودیو و خرید سخت افزار گران قیمت ندارید. با کاراکتر هوش مصنوعی Synthesia و ابزار داخلی تبدیل متن به گفتار، می توانید به سرعت شروع به تولید محتوا کنید. تنها کاری که باید انجام دهید این است که اسکریپت ویدیو را وارد کنید.
پس منتظر چی هستید؟ پیش بروید و Synthesia را امتحان کنید تا ویدیوهای هوش مصنوعی عالی بسازید. اگر به دنبال جایگزینی برای Synthesia هستید، می توانید HeyGen و Pictory را بررسی کنید.
بررسی Synthesia (یک ویدیوی رایگان، طرح پولی از 22.50 دلار در ماه شروع می شود)
-
Kaiber
Kaiber به خودی خود یک تولید کننده ویدئو با هوش مصنوعی نیست، اما می تواند انیمیشن هایی از موضوعات مختلف در اشکال مختلف هنری ایجاد کند. میتوانید یک prompt متنی وارد کنید، تصویر خود را آپلود کنید یا یک آهنگ را آپلود کنید، و میتواند همه چیز را بگیرد و از موتور پیشرفته تولید هوش مصنوعی خود برای ایجاد انیمیشن جذاب استفاده کند. همچنین میتوانید ویدیوهای خود را آپلود کنید و آنها را در استایل ها و شکل های مختلف تغییر دهید.
اگرچه این برنامه کاملا رایگان نیست. شما یک دوره آزمایشی رایگان 7 روزه دریافت می کنید، اما برای آن، باید جزئیات کارت خود را اضافه کنید و در طرح اشتراک 5 دلاری آن مشترک شوید. به زبان ساده، Kaiber یک ابزار هوش مصنوعی است که شما باید آن را امتحان کنید تا تصاویر و ویدیوهای خود را ارتقا دهید.
بررسی Kaiber (7 روز آزمایشی رایگان، طرح پولی از 5 دلار در ماه شروع می شود)
-
Wonder Studio
Wonder Studio یک ابزار تولید ویدیو با هوش مصنوعی برای مصرف کنندگان عمومی نیست، اما فیلمسازان و سازندگان محتوا را هدف قرار داده است. این به شما اجازه می دهد تا بدون نیاز به اعمال VFX به صورت دستی، یک شخصیت تولید شده توسط رایانه را به صورت خودکار در یک صحنه اکشن زنده متحرک کنید. در اصل می تواند 80 تا 90 درصد کارهای VFX و 3D را به صورت خودکار انجام دهئ و به خوبی کار می کند. نیازی به استفاده از نرم افزارهای پیچیده سه بعدی یا استفاده از سخت افزارهای گران قیمت نیست.
Wonder Studio می تواند به طور خودکار بازیگر را در صحنه ها شناسایی کند و کاراکتر CG را فریم به فریم بدون کار سنگین VFX اعمال کند. بنابراین اگر فیلمساز نوپایی هستید که باید کارهای سنگین VFX را سریع انجام دهید، باید نگاهی به Wonder Studio بیندازید.
بررسی Wonder Studio
-
Phenaki and Google Imagen Video
گوگل مدل متن به تصویر خود را برای عموم منتشر نکرده است، اما مدل هایی را که این شرکت روی آن کار می کند، اعلام کرده است. جستجو بر روی Imagen Video بر اساس مدل های Cascaded Diffusion کار می کند. می تواند ویدیوهایی با کیفیت بالا با وضوح 1280 در 768 با سرعت 24 فریم بر ثانیه تولید کند.
گوگل همچنین در حال کار بر روی Phenaki است، یک مدل تبدیل متن به ویدیو که میتواند ویدیوهای واقعی را با پیامهای متنی ترکیب کند. هر دو مدل در دست توسعه هستند، و ما وقتی یک تولید کننده ویدیوی هوش مصنوعی در دست داریم، این کار را نمی کنیم. با این حال، می توانید مقالات آن را از لینک های زیر مطالعه کنید.
بررسی Google Imagen Video و Phenaki
-
Meta’s Make-A-Video
متا ابزار هوش مصنوعی Make-A-Video خود را معرفی کرده است که می تواند از متن ها ویدیو تولید کند. شما می توانید با استفاده از متن، تصاویر یا ورودی ویدئو، ویدئوهای واقعی، سورئال و شخصی سازی شده ایجاد کنید. مدل متا قادر به ایجاد ویدیوهای حرکتی از یک تصویر است. همچنین می توانید چندین تصویر را به عنوان ورودی اضافه کنید، و می تواند حرکت را برای ایجاد ویدیوهای رویایی ایجاد کند.
طبق مقاله تحقیقاتی متا، مدل تولید ویدیوی آن نسبت به مدلهای نمایشی دیگر سه برابر کارایی بهتری دارد. این پروژه هم چنین برای عموم باز نیست، اما می توانید ثبت نام کنید و از متا درخواست دسترسی کنید.
بررسی Meta’s Make-A-Video
-
Nvidia’s Latent Diffusion Model
در آخر،Nvidia مدل پخش پنهان ویدیویی با کیفیت بالا خود را معرفی کرده است که میتواند با استفاده از پیامهای متنی، ویدیوهای با وضوح بالا را تولید کند. می تواند ویدیوهایی با رزولوشن 1280 در 2048 با سرعت 24 فریم بر ثانیه تولید کند که عالی است. بیشتر ویدیوهای آن ۵ ثانیه زمان دارند، اما همچنین میتواند ویدیوهای ۵ دقیقهای طولانیتر با وضوح 512 در 1024 تولید کند. همچنین میتوانید ورودیهای تصویر اضافه کنید و ویدیوهای هوش مصنوعی شخصی ایجاد کنید.
در فضای سنتز ویدیو، من فکر می کنم Nvidia به عنوان یکی از نقش آفرینان کلیدی در آینده ظاهر خواهد شد. در همین حال، Nvidia دموهای ویدئویی متعددی را در وب سایت خود به نمایش گذاشته است که می توانید در زیر مشاهده کنید.
بررسیNvidia