Sora от OpenAI обучался на видеороликах Netflix?

Sora — одна из лучших моделей преобразования текста в видео на рынке. Когда OpenAI анонсировала её в начале декабря 2024 года, она создавала практически фотореалистичные видео (хотя и с заметными ошибками). Газета Washington Post обнаружила, что для обучения мог использоваться контент из Netflix, TikTok и Twitch .

Обучение только с использованием общедоступных данных?

На момент объявления OpenAI сообщила, что Sora обучалась с использованием общедоступных и лицензированных данных , не уточняя при этом источники. Газета Washington Post (которая сотрудничает с калифорнийской компанией) создала сотни видеороликов, обнаружив, что многие из них похожи на те, что показаны в фильмах, телешоу, играх и социальных сетях.

Некоторые видео, сгенерированные Sora (около 20 секунд без звука), по-видимому, представляют собой фрагменты из сериала Netflix (Среда), популярных игр (Minecraft) и TikTok. В финальных видео также присутствуют логотипы и водяные знаки компаний, предоставляющих оригинальный контент, что подтверждает их использование для обучения модели.

Однако это не обязательно означает, что контент был скопирован или получен от правообладателя. Он мог быть «снят» с видеохостингов (например, YouTube) или социальных сетей, куда был загружен без согласия правообладателя. Представители Netflix и Twitch заявили, что их компании не имеют соглашений с OpenAI.

Условия YouTube запрещают загрузку видео. В прошлом году группа создателей контента подала в суд на OpenAI из-за использования аудиотрансляций видео для обучения модели ChatGPT. Калифорнийская компания получила несколько жалоб на использование книг, статей и других источников. OpenAI пока не получала жалоб на данные, использованные для обучения Sora, вероятно, из-за низкого качества конечного продукта.

Источник: The Washington Post