Новый ИИ от Google создает видео и звуковые дорожки
Новый ИИ от Google создает видео и звуковые дорожки

Google представил Veo 3, новую модель искусственного интеллекта для генерации видео, которая может создавать не только видеоконтент, но и звуковые дорожки, включая звуковые эффекты и диалоги. На конференции разработчиков Google I/O компания рассказала о возможностях Veo 3, которая превосходит своего предшественника Veo 2 по качеству создаваемых материалов.

Veo 3 доступен для подписчиков плана AI Ultra стоимостью 249,99 долларов в месяц, и его можно использовать через приложение Google Gemini. Пользователи могут задавать модели текстовые или графические подсказки.

“Мы выходим из эпохи немого кино в генерации видео,” - заявил Демис Хасабис, CEO Google DeepMind. “Вы можете описать персонажей и окружение, а также предложить диалоги с указанием, как они должны звучать.”

Рынок генераторов видео становится все более насыщенным, с появлением новых стартапов, таких как Runway, Lightricks, Genmo и других, наряду с крупными игроками, такими как OpenAI и Alibaba. В этом контексте Veo 3 может выделиться благодаря своей способности синхронизировать звуки с видео автоматически, используя свои технологии.

В качестве примера работы модели была представлена видеозапись, где Veo 3 создает кулинарный контент.

Разработка Veo 3 стала возможна благодаря предыдущей работе DeepMind в области “видео в аудио”. В прошлом году DeepMind анонсировал технологии, которые могут генерировать звуковые дорожки для видео, обучая модели на комбинации звуков, диалогов и видеоклипов.

Хотя точные источники контента для обучения Veo 3 не раскрываются, существует вероятность, что в качестве данных использовался контент с YouTube, который принадлежит Google. DeepMind ранее указывал, что модели, такие как Veo, могут обучаться на материалах с этой платформы.

Чтобы предотвратить возможные злоупотребления и создание дипфейков, DeepMind использует собственную технологию водяных знаков SynthID для встраивания невидимых маркеров в сгенерированные кадры.

Несмотря на то что компании, такие как Google, представляют Veo 3 как мощный инструмент для творчества, многие художники выражают опасения по поводу влияния таких технологий на индустрию. Исследование, проведенное Гильдией анимации, прогнозирует, что более 100,000 рабочих мест в кино, телевидении и анимации в США могут быть затронуты ИИ к 2026 году.

Кроме того, Google анонсировал обновления для Veo 2, включая возможность загрузки изображений персонажей и объектов для лучшей согласованности, а также поддержку различных движений камеры. Эти новые функции Veo 2 будут доступны на платформе Vertex AI API в ближайшие недели.