Sora может создавать видео продолжительностью до 60 секунд с высокодетализированными сценами и сложным движением камеры.
Стремясь опередить конкурентов, компания OpenAI, которую поддерживает Microsoft, представила свою последнюю инновацию — передовую модель преобразования текста в видео под названием Sora.
Этот шаг свидетельствует о стремлении OpenAI поддерживать конкурентное преимущество в стремительно развивающейся области искусственного интеллекта (ИИ) в условиях, когда инструменты для преобразования текста в видео становятся все более заметными.
Что такое Sora?
Sora, что в переводе с японского означает «небо», — это модель диффузии текста в видео, способная создавать минутные видеоролики, которые трудно отличить от реальных событий.
«Sora может создавать видео продолжительностью до 60 секунд с высокодетализированными сценами, сложным движением камеры и несколькими персонажами с яркими эмоциями», — говорится в сообщении OpenAI на платформе X (бывший Twitter).
Компания утверждает, что новая модель может генерировать реалистичные видео, используя неподвижные изображения или существующие кадры, предоставленные пользователем.
«Мы учим ИИ понимать и моделировать физический мир в движении, с целью обучения моделей, которые помогают людям решать проблемы, требующие взаимодействия с реальным миром», — говорится в сообщении в блоге.
Как можно будет использовать Sora в работе?
Команда viddaleno прогнозирует что Sora кардинально изменит рынок труда для видеомейкеров, режиссеров, контент мейкеров и всей видео индустрии. Станут востребованы сценаристы, промп специалисты и менее востребованы видео мейкеры. Будет более цениться универсальность. В общем все идет к тому, как описал Сэм Альтман, что компании с маленьким штатом станут генерировать миллиардные прибыли с помощью искусственного интеллекта.
Как можно попробовать искусственный интеллект Sora?
Большинству из нас придется подождать, прежде чем получить в свои руки новую модель ИИ. Хотя компания анонсировала модель «текст-видео» еще 15 февраля, она все еще находится на стадии red-teaming.
Red teaming — это практика, в которой команда экспертов, известная как «красная команда», имитирует реальное использование для выявления уязвимостей и слабых мест в системе.
«Мы также предоставляем доступ к ряду визуальных художников, дизайнеров и режиссеров, чтобы получить обратную связь о том, как усовершенствовать модель, чтобы она была максимально полезной для творческих профессионалов», — отметили в компании.
Впрочем, компания поделилась несколькими демонстрационными примерами в блоге, а генеральный директор OpenAI поделился видео с подсказками, которые спрашивали пользователи на X.
Как работает Sora?
Представьте, что вы начинаете со статического, зашумленного изображения на телевизоре и медленно удаляете нечеткость, пока не увидите четкое, движущееся видео. Именно этим занимается Sora. Это специальная программа, которая использует «трансформаторную архитектуру» для постепенного удаления шума и создания видео.
Она может генерировать целые видео сразу, а не только покадрово. Задав модели текстовые описания, пользователи могут управлять содержимым видео, например, убедиться, что человек остается видимым, даже если он на мгновение отошел за пределы экрана.
Подумайте о моделях GPT, которые генерируют текст на основе слов. Sora делает нечто подобное, но с изображениями и видео. Она разбивает видео на меньшие части, называемые патчами.
«Sora основывается на предыдущих исследованиях моделей DALL-E и GPT. Она использует технику рекапсуляции с DALL-E 3, которая предусматривает создание высокоописательных подписей для визуальных учебных данных. В результате модель способна более точно следовать текстовым инструкциям пользователя в сгенерированном видео», — говорится в сообщении компании.
Однако компания не предоставила никаких подробностей о том, на каких именно данных обучается модель.
Модель имеет «слабые места»
В блоге компания признала, что нынешняя модель имеет «слабые места».
Она заявила, что модель может столкнуться с проблемами в «точном моделировании физики сложной сцены и может не понимать конкретные случаи причинно-следственных связей».
Он добавил, что модель также может путать пространственные детали подсказки, например, путать левое и правое, и может иметь трудности с точным описанием событий, которые происходят во времени, например, следовать определенной траектории камеры.