Почему Sora, новый инструмент OpenAI вызывает удивление

Sora — это новый генератор текста в видео от OpenAI, создателя ChatGPT. Вот что мы знаем о новом инструменте, вызывающем в равной степени беспокойство и волнение.

Создатель ChatGPT теперь погружается в мир видео, созданного искусственным интеллектом (ИИ).

Встречайте Sora — новый генератор текста в видео от OpenAI. Инструмент, который компания из Сан-Франциско представила в четверг, использует генеративный искусственный интеллект для мгновенного создания коротких видеороликов на основе письменных команд.

Сора не первый, кто демонстрирует подобную технологию. Но отраслевые аналитики отмечают высокое качество видео, показываемых этим инструментом, и отмечают, что его внедрение знаменует собой значительный скачок как для OpenAI, так и для будущего преобразования текста в видео в целом.

Тем не менее, как и все, что сегодня происходит в быстро растущем пространстве искусственного интеллекта, такая технология также вызывает опасения по поводу потенциальных этических и социальных последствий. Вот что вам нужно знать.

почему Sora вызывает удивлени

Содержание

Что может Сора и могу ли я ее использовать?

Sora — это генератор текста в видео, позволяющий создавать видеоролики продолжительностью до 60 секунд на основе письменных подсказок с использованием генеративного искусственного интеллекта. Модель также может генерировать видео из существующего неподвижного изображения.

Генеративный ИИ — это отрасль ИИ, которая может создавать что-то новое. Примеры включают чат-боты, такие как ChatGPT от OpenAI, и генераторы изображений, такие как DALL-E и Midjourney.

Заставить систему искусственного интеллекта генерировать видео — более новая и сложная задача, но она опирается на некоторые из тех же технологий.

Sora пока недоступна для публичного использования (OpenAI заявляет, что сотрудничает с политиками и художниками перед официальным выпуском инструмента), и мы еще многого не знаем. Но после объявления в четверг компания поделилась несколькими примерами видеороликов, созданных Sora, чтобы продемонстрировать, на что она способна.

Генеральный директор OpenAI Сэм Альтман также обратился к X, платформе, ранее известной как Twitter, чтобы попросить пользователей социальных сетей присылать быстрые идеи.

Позже он поделился реалистично подробными видеороликами, которые отвечали на такие подсказки, как «два золотистых ретривера ведут подкастинг на вершине горы» и «велогонка по океану с участием разных животных в роли спортсменов, едущих на велосипедах, под видом камеры дрона».

Хотя видеоролики, созданные с помощью Sora, могут отображать сложные, невероятно подробные сцены, OpenAI отмечает, что у них все же есть некоторые недостатки, в том числе некоторые пространственные и причинно-следственные элементы.

Например, OpenAI добавляет на своем веб-сайте: «Человек может откусить кусочек файла cookie, но после этого на файле cookie может не остаться следа откусывания».

Какие еще существуют видеоинструменты, созданные искусственным интеллектом?

Sora от OpenAI — не первый в своем роде. Google, Meta и стартап Runway ML входят в число компаний, продемонстрировавших подобную технологию.

Тем не менее, отраслевые аналитики подчеркивают очевидное качество и впечатляющую длину видеороликов Sora, опубликованных до сих пор.

Фред Хавмейер, руководитель отдела исследований искусственного интеллекта и программного обеспечения в США в Macquarie, сказал, что запуск Sora знаменует собой большой шаг вперед для отрасли.

«Вы не только можете создавать более длинные видеоролики (я понимаю, до 60 секунд), но и создаваемые видеоролики выглядят более нормально и, кажется, на самом деле больше уважают физику и реальный мир», — сказал Хавемейер.

«В видеопотоках не так много видеороликов или фрагментов «зловещей долины», которые выглядят… неестественными».

Несмотря на то, что за последний год был достигнут «огромный прогресс» в видео, генерируемом искусственным интеллектом, включая появление Stable Video Diffusion в ноябре прошлого года, старший аналитик Forrester Роуэн Карран сказал, что такие видео требуют большего «сшивания» для обеспечения согласованности персонажей и сцен.

Однако последовательность и продолжительность видеороликов Соры представляют собой «новые возможности для творческих людей включать элементы видео, созданного искусственным интеллектом, в более традиционный контент, а теперь даже создавать полноценные повествовательные видеоролики из одной или нескольких подсказок», сказал Карран The Associated Press по электронной почте в пятницу.

Каковы потенциальные риски?

Хотя способности Соры поразили наблюдателей с момента запуска в четверг, беспокойство по поводу этических и социальных последствий использования видео, созданного ИИ, также сохраняется.

Например, Хавемейер указывает на существенные риски в потенциально напряженном избирательном цикле 2024 года.

Наличие «потенциально волшебного» способа создания видеороликов, которые могут выглядеть и звучать реалистично, создает ряд проблем в политике и за ее пределами, добавил он, указывая на проблемы мошенничества, пропаганды и дезинформации.

«Негативные внешние эффекты генеративного ИИ станут важной темой для дискуссий в 2024 году», — сказал Хавемейер. «Это серьезная проблема, с которой каждому бизнесу и каждому человеку придется столкнуться в этом году».

Технологические компании по-прежнему играют решающую роль, когда дело доходит до управления ИИ и его рисков, поскольку правительства во всем мире работают над тем, чтобы наверстать упущенное.

В декабре Европейский Союз достиг соглашения о первых в мире всеобъемлющих правилах ИИ, но закон вступит в силу только через два года после окончательного утверждения.

В четверг OpenAI заявила, что принимает важные меры безопасности, прежде чем сделать Sora широко доступной.

«Мы работаем с красными командами — экспертами в таких областях, как дезинформация, разжигающий ненависть контент и предвзятость, — которые будут состязательно тестировать модель», — написали в компании.

«Мы также создаем инструменты, помогающие обнаруживать вводящий в заблуждение контент, например классификатор обнаружения, который может определить, когда видео было создано Sora».

Вице-президент OpenAI по глобальным вопросам Анна Маканджу подтвердила это, выступая в пятницу на Мюнхенской конференции по безопасности, где OpenAI и 19 других технологических компаний пообещали добровольно работать вместе для борьбы с дипфейками выборов, созданными ИИ .

Она отметила, что компания выпускает Сору «весьма осторожно».

В то же время OpenAI раскрыла ограниченную информацию о том, как была построена Сора.

В техническом отчете OpenAI не раскрывается, какие источники изображений и видео использовались для обучения Соры, и компания не сразу ответила на запрос о дальнейших комментариях в пятницу.

Релиз Sora также появился на фоне судебных исков против OpenAI и ее делового партнера Microsoft со стороны некоторых авторов и The New York Times по поводу использования ею защищенных авторским правом письменных произведений для обучения ChatGPT.