
Протечки документов, полученные от 404 Media, показывают, что NVIDIA аллегорически собирала видеоролики из интернета, такие как кадры из фильмов и игр, для своих продуктов искусственного интеллекта. В результате клиенты, использующие эти продукты и инструменты, подвергаются риску непреднамеренного нарушения авторских прав.
Как и другие разработчики инструментов искусственного интеллекта, Nvidia нуждается в обучающих данных для своих тестов, видеороликов и аудиогенераторов, чтобы 'учиться' созданию ресурсов. Скрапинг данных обычно означает практику подачи существующих видеороликов, текста и аудио в модели обучения без получения разрешения от тех, кто их создал.
Эта техника означает, что YouTube и Netflix (и компании, чьи медиаматериалы размещены на этих платформах) имеют материалы с авторскими правами, взятые без согласия.
Регуляторы в США и ЕС до сих пор определяют, нарушает ли скрапинг данных правила об авторских правах. Доклад 404 Media подчеркивает, насколько технологические компании играют свободно с законом об авторских правах, когда дело доходит до генеративного искусственного интеллекта, и как другие отрасли, такие как развлечения и игры, могут быть затронуты этими выборами.
Сотрудники компании выразили беспокойство по поводу этого поведения в сообщениях, рассмотренных изданием. Несмотря на эти опасения, NVIDIA сообщила 404 Media, что ее директивы по скрапингу 'полностью соответствуют букве и духу закона об авторских правах. [...] Добросовестное использование защищает возможность использования произведения в трансформационных целях, таких как обучение модели'.
Разработчики игр и их материнские компании являются правообладателями, и YouTube является важной платформой для отрасли. Взятие их работ без разрешения создает огромное нарушение доверия с компанией, которая часто использует игры от крупных студий для продажи своих услуг и продуктов.
NVIDIA AI-инженеры хотели видеоролики геймплея, чтобы улучшить свои обучающие данные
Сотрудник, выступивший для издания, утверждает, что ему и другим было поручено захватывать полноценные видеоролики, которые могли бы помочь обучить модель искусственного интеллекта технологической компании, и что видеоматериалы игр особенно ценились инженерами. Получение таких материалов для наборов данных требовало совместной работы с облачным сервисом GeForceNow от NVIDIA.
В одном разговоре в Slack старший исследовательский аналитик Джим Фэн отметил возможности стриминга сервиса для захвата и хранения видео. Все эти 'высококачественные видеоролики геймплея', он сказал, являются 'очень полезными' данными для извлечения.
'Мы будем тесно сотрудничать с [GeForceNow] и связанными инженерными группами для установки захвата данных с живой игры, масштабирования конвейера и обработки их для обучения', - пояснил он.
Однако сотрудникам, поднимавшим опасения, также якобы было сказано менеджерами проекта, что скрапинг был 'решением руководства', о котором не стоит беспокоиться. 'Открытый правовой вопрос' (например, нарушение условий обслуживания YouTube) якобы будет урегулирован в будущем.
В истории 404 цитаты из внутренних документов и каналов Slack от нескольких исследователей искусственного интеллекта показывают активные усилия NVIDIA по избежанию плохой рекламы. Ее вице-президент по исследованиям Мин-Ю Лиу подчеркнул, что не может быть 'отрицательного настроения', если компания не опубликует никаких исследований о своих загрузках данных.
'То, что мы здесь делаем, приведет к нулевым публикациям,' - написал Лиу. Он и другой персонал также создали собственных скраперов данных для YouTube и учетную запись API, чтобы помочь в процессе.
Пока регуляторы не определят, что нарушает и что не нарушает авторские права в мире генеративного искусственного интеллекта, NVIDIA и другие компании вероятно будут действовать в юридической серой зоне. Как сказал Роберт Махари из MIT журналу 404, доказать, что скрапинг данных может быть 'технически очень сложно'.
'Лучшей [компания] политикой в менеджменте стимулов является не рассказывать людям, на чем вы обучались,' - сказал он. 'Так что, пока вы никому не расскажете, это будет действительно сложно доказать'.
Полный, подробный отчет 404 Media о скрапинге данных NVIDIA можно прочитать здесь.