Sora — це текст‑до‑відео модель від OpenAI, анонсована у лютому 2024 року та публічно запущена в грудні 2024 для передплатників ChatGPT Plus і Pro. Вона може перетворювати текстові підказки (prompts) у відео високої якості — до 20 секунд у 1080p.
Прагнучи випередити конкурентів, компанія OpenAI, яку підтримує Microsoft, представила свою останню інновацію – передову модель перетворення тексту у відео під назвою Sora.
Цей крок свідчить про прагнення OpenAI підтримувати конкурентну перевагу в галузі штучного інтелекту (ШІ), що стрімко розвивається, в умовах, коли інструменти для перетворення тексту у відео стають все більш помітними.
Що таке Sora?
Sora, що в перекладі з японської означає “небо”, – це модель дифузії тексту у відео, здатна створювати хвилинні відеоролики, які важко відрізнити від реальних подій.
“Sora може створювати відео тривалістю до 60 секунд з високодеталізованими сценами, складним рухом камери та кількома персонажами з яскравими емоціями”, – йдеться у повідомленні OpenAI на платформі X (колишній Twitter).
Компанія стверджує, що нова модель може генерувати реалістичні відео, використовуючи нерухомі зображення або існуючі кадри, надані користувачем.
“Ми вчимо ШІ розуміти і моделювати фізичний світ у русі, з метою навчання моделей, які допомагають людям вирішувати проблеми, що вимагають взаємодії з реальним світом”, – йдеться в повідомленні в блозі.
Як можна буде використовувати Sora в роботі?
Команда viddaleno прогнозує що Sora кардинально змінить ринок праці для відеомейкерів, режисерів, контент мейкерів та всієї відео індустрії. Стануть затребувані сценаристи, промп спеціалісти і менш затребувані відео мейкери. Буде більш цінуватись універсальність. Загалом все йде до того, як описав Сем Альтман, що компанії з маленьким штатом стануть генерувати мільярдні прибутки з допомогою штучного інтелекту.
Як можна спробувати штучний інтелект Sora?
Більшості з нас доведеться почекати, перш ніж отримати в свої руки нову модель ШІ. Хоча компанія анонсувала модель “текст-відео” ще 15 лютого, вона все ще перебуває на стадії red-teaming.
Red teaming – це практика, в якій команда експертів, відома як “червона команда”, імітує реальне використання для виявлення вразливостей і слабких місць у системі.
“Ми також надаємо доступ до ряду візуальних художників, дизайнерів і режисерів, щоб отримати зворотній зв’язок про те, як удосконалити модель, щоб вона була максимально корисною для творчих професіоналів”, – зазначили в компанії.
Втім, компанія поділилася кількома демонстраційними прикладами в блозі, а генеральний директор OpenAI поділився відео з підказками, які запитували користувачі на X.
Як працює Sora?
Уявіть, що ви починаєте зі статичного, зашумленого зображення на телевізорі і повільно видаляєте нечіткість, поки не побачите чітке, рухоме відео. Саме цим займається Sora. Це спеціальна програма, яка використовує “трансформаторну архітектуру” для поступового видалення шуму та створення відео.
Вона може генерувати цілі відео одразу, а не тільки покадрово. Задавши моделі текстові описи, користувачі можуть керувати вмістом відео, наприклад, переконатися, що людина залишається видимою, навіть якщо вона на мить відійшла за межі екрана.
Подумайте про моделі GPT, які генерують текст на основі слів. Sora робить щось подібне, але із зображеннями та відео. Вона розбиває відео на менші частини, які називаються патчами.
“Sora ґрунтується на попередніх дослідженнях моделей DALL-E та GPT. Вона використовує техніку рекапсуляції з DALL-E 3, яка передбачає створення високоописових підписів для візуальних навчальних даних. В результаті модель здатна більш точно слідувати текстовим інструкціям користувача у згенерованому відео”, – йдеться в повідомленні компанії.
Однак компанія не надала жодних подробиць про те, на яких саме даних навчається модель.
У блозі компанія визнала, що нинішня модель має “слабкі місця”. Вона заявила, що модель може зіткнутися з проблемами в “точному моделюванні фізики складної сцени і може не розуміти конкретні випадки причинно-наслідкових зв’язків”.
Він додав, що модель також може плутати просторові деталі підказки, наприклад, плутати ліве і праве, і може мати труднощі з точним описом подій, які відбуваються в часі, наприклад, слідувати певній траєкторії камери.