Під час конференції для розробників I/O вівторок Google оголосила, що її остання генеративна модель відео зі штучним інтелектом, Veo, здатна створювати “високоякісні” відео з роздільною здатністю 1080p, тривалістю понад хвилину і в різних візуальних і кінематографічних стилях.
Що таке Veo?
Згідно з прес-релізом Google, Veo має «просунуте розуміння природної мови», що дозволяє моделі розуміти кінематографічні терміни, такі як «таймлапс» або «аерофотозйомка ландшафту». Користувачі можуть впливати на бажаний результат за допомогою текстових, графічних або відеопідказок, і Google стверджує, що отримані відео будуть “більш послідовними та узгодженими”, зображуючи більш реалістичні рухи людей, тварин та об’єктів у кадрі.
Генеральний директор Google DeepMind Деміс Хассабіс (Demis Hassabis) заявив на прес-конференції в понеділок, що результати відео можна покращити за допомогою додаткових підказок, і що Google вивчає додаткові функції, які дозволять Veo створювати розкадровки та довші сцени.
Як і у випадку з багатьма подібними попередніми версіями моделей штучного інтелекту, більшості людей, які сподіваються випробувати Veo самостійно, швидше за все, доведеться почекати деякий час. Google запрошує обраних режисерів і творців поекспериментувати з моделлю, щоб визначити, як вона може найкраще підтримувати творчих людей, і спиратиметься на цю співпрацю, щоб забезпечити «творцям право голосу» в розробці технологій штучного інтелекту Google.
Читати також: Що таке SoraAI?
Функції Veo
Деякі функції Veo також будуть доступні для «обраних творців протягом найближчих тижнів» у приватному попередньому перегляді в VideoFX – ви можете записатися в список очікування, щоб отримати шанс випробувати їх раніше. Крім того, Google також планує додати деякі зі своїх можливостей до YouTube Shorts «у майбутньому».
Це одна з декількох моделей генерації відео, які Google створив за останні кілька років: від Phenaki та Imagen Video, які створювали грубі, часто спотворені відеокліпи, до моделі Lumiere, яку він продемонстрував у січні цього року. Остання була однією з найбільш вражаючих моделей, які ми бачили до анонсу Sora в лютому, а Google заявила, що Veo ще більш здатна розуміти, що відбувається у відео, імітувати реальну фізику, рендерити вихідні дані у високій чіткості тощо.
Тим часом OpenAI вже презентує Sora в Голлівуді і планує випустити його для широкої публіки пізніше цього року, попередньо дражнячись в березні, що він може бути готовий через «кілька місяців». Компанія також планує включити аудіо в Sora і може зробити модель доступною безпосередньо в додатках для редагування відео, таких як Adobe Premiere Pro. Враховуючи, що Veo також позиціонується як інструмент для кінематографістів, перевага OpenAI може ускладнити конкуренцію з проектом Google.