OpenAI: невозможно обучить ИИ высшего уровня и избежать авторских прав

OpenAI: невозможно обучить ИИ высшего уровня и избежать авторских прав

Исходный узел: 3052150

OpenAI заявила, что было бы «невозможно» создать нейронные сети высшего уровня, отвечающие сегодняшним потребностям, без использования работ людей, защищенных авторским правом. Лаборатория, поддерживаемая Microsoft, которая считает, что она законно собирает указанный контент для обучения своих моделей, заявила, что использование материалов, являющихся общественным достоянием, на которые не распространяются авторские права, приведет к созданию программного обеспечения для искусственного интеллекта, не отвечающего требованиям.

Это утверждение прозвучало в то время, когда мир машинного обучения мчится вперед к кирпичной стене закона об авторском праве. Буквально на этой неделе в отчете IEEE был сделан вывод о том, что Midjourney и DALL-E 3 от OpenAI, два основных сервиса искусственного интеллекта для преобразования текстовых подсказок в изображения, могут воссоздавать защищенные авторским правом сцены из фильмов и видеоигр на основе своих обучающих данных.

Ассоциация Исследование, в соавторстве с Гэри Маркусом, экспертом и критиком в области искусственного интеллекта, и Ридом Саутеном, цифровым иллюстратором, документирует многочисленные случаи «плагиата», в которых OpenAI и DALL-E 3 визуализируют по существу схожие версии сцен из фильмов, фотографий знаменитых актеры и контент видеоигр.

Маркус и Саутен говорят, что почти наверняка Midjourney и OpenAI обучали свои модели создания изображений ИИ на материалах, защищенных авторским правом.

Законно ли это и рискуют ли поставщики ИИ или их клиенты понести ответственность, остается спорным вопросом. Однако выводы отчета могут поддержать тех, кто подает в суд на Midjourney и производителя DALL-E OpenAI за нарушение авторских прав.

Пользователи могут не знать, когда они создают изображение, нарушают ли они авторские права.

«И OpenAI, и Midjourney вполне способны создавать материалы, которые могут нарушать авторские права и товарные знаки», — написали они. «Эти системы не информируют пользователей, когда они это делают. Они не предоставляют никакой информации о происхождении созданных ими изображений. Пользователи могут не знать, когда они создают изображение, нарушают ли они авторские права».

Ни одна из компаний не раскрыла полностью данные обучения, используемые для создания моделей ИИ.

Это не просто цифровые художники бросая вызов компаниям, занимающимся искусственным интеллектом. Недавно газета «Нью-Йорк Таймс» подал в суд на OpenAI потому что его текстовая модель ChatGPT будет выдавать почти дословные копии платных статей газеты. Авторы книг подали аналогичные иски, как и разработчики программного обеспечения.

Предварительный исследованиям указал, что ChatGPT OpenAI можно уговорить воспроизвести обучающий текст. А те, кто подает в суд на Microsoft и GitHub, утверждают, что модель помощника по кодированию Copilot будет воспроизводить код более или менее дословно.

Саутен заметил, что Midjourney взимает плату с клиентов, создающих контент, нарушающий авторские права, и получает прибыль за счет доходов от подписки. «Пользователям MJ [Midjourney] не нужно продавать изображения из-за потенциального нарушения авторских прав, MJ уже получает прибыль от их создания», — он высказал мнение, повторяя аргумент, приведенный в отчете IEEE.

OpenAI также взимает плату за подписку и, таким образом, получает прибыль таким же образом. Ни OpenAI, ни Midjourney не ответили на запросы о комментариях.

Однако OpenAI в понедельник опубликовала блоге рассмотрение иска New York Times, который, по мнению продавца ИИ, необоснован. Удивительно, но в лаборатории заявили, что если ее нейронные сети генерируют контент, нарушающий авторские права, то это «ошибка».

В общей сложности выскочка сегодня утверждала, что: активно сотрудничает с новостными организациями; обучение работе с данными, защищенными авторским правом, дает право на защиту добросовестного использования в соответствии с законом об авторском праве; «срыгивание» — редкая ошибка, которую мы пытаемся свести к нулю»; а в New York Times есть тщательно отобранные примеры воспроизведения текста, которые не отражают типичное поведение.

Закон будет решать

Об этом рассказал Тайлер Очоа, профессор юридического факультета Университета Санта-Клары в Калифорнии. Регистр что, хотя выводы отчета IEEE, вероятно, помогут сторонам в исках по поводу авторских прав, они не должны этого делать – потому что авторы статьи, по его мнению, исказили происходящее.

«Они пишут: «Можно ли заставить модели, генерирующие изображения, производить плагиат на основе материалов, защищенных авторскими правами?» … [Мы] обнаружили, что ответ однозначно положительный, даже без прямого запроса плагиата».

Очоа поставил под сомнение этот вывод, утверждая, что подсказки, которые «ввели авторы отчета, демонстрируют, что они действительно напрямую требуют плагиатских результатов. В каждом отдельном приглашении упоминается название конкретного фильма, указывается соотношение сторон и во всех случаях, кроме одного, слова «фильм» и «скриншот» или «скриншот». (Единственное исключение описывает изображение, которое они хотели воспроизвести. )”

Профессор права сказал, что проблема закона об авторском праве заключается в том, кто несет ответственность за эти плагиатские результаты: создатели модели ИИ или люди, которые попросили модель ИИ воспроизвести популярную сцену.

«Генеративная модель искусственного интеллекта способна создавать оригинальные выходные данные, а также воспроизводить сцены, напоминающие сцены из входных данных, защищенных авторским правом, при соответствующем запросе», — объяснил Очоа. «Это следует анализировать как случай сопутствующего нарушения прав: лицо, которое предложило модель, является основным нарушителем, и создатели модели несут ответственность только в том случае, если они были проинформированы о основном нарушении и не предприняли разумных шагов, чтобы остановить это."

Очоа сказал, что генеративные модели ИИ с большей вероятностью воспроизведут определенные изображения, если в их наборе обучающих данных имеется несколько экземпляров этих изображений.

«В этом случае маловероятно, чтобы данные обучения включали целые фильмы; гораздо более вероятно, что обучающие данные включали кадры из фильмов, которые распространялись в качестве рекламных кадров для фильма», — сказал он. «Эти изображения были воспроизведены несколько раз в обучающих данных, потому что средствам массовой информации было предложено распространять эти изображения в рекламных целях, и они делали это.

«Было бы принципиально несправедливо со стороны владельца авторских прав поощрять широкое распространение неподвижных изображений в рекламных целях, а затем жаловаться на то, что эти изображения имитируются ИИ, потому что данные обучения включали несколько копий одних и тех же изображений».

Очоа сказал, что предпринимаются шаги по ограничению такого поведения моделей ИИ. «Вопрос в том, нужно ли им это делать, когда человек, который ввел запрос, явно хотел, чтобы ИИ воспроизвел узнаваемое изображение, а киностудии, создавшие оригинальные неподвижные изображения, явно хотели, чтобы эти неподвижные изображения были широко распространены. ," он сказал.

«Лучше было бы задать вопрос: как часто это происходит, когда в подсказке не упоминается конкретный фильм или не описывается конкретный персонаж или сцена? Я думаю, что непредвзятый исследователь, скорее всего, обнаружит, что ответ — редко (возможно, почти никогда)».

Тем не менее, контент, защищенный авторским правом, по-видимому, является важным топливом для обеспечения хорошего функционирования этих моделей.

OpenAI защищается перед лордами

В ответ на запрос Комитет по коммуникациям и цифровым технологиям Палаты лордов Великобритании представил доклад OpenAI о рисках и возможностях моделей искусственного интеллекта. представление [PDF] предупреждение о том, что его модели не будут работать без обучения на контенте, защищенном авторским правом.

«Поскольку авторское право сегодня распространяется практически на все виды человеческого выражения, включая сообщения в блогах, фотографии, сообщения на форумах, фрагменты программного кода и правительственные документы, было бы невозможно обучать сегодняшние ведущие модели ИИ без использования материалов, защищенных авторским правом», — заявили в суперлаборатории. .

«Ограничение обучающих данных книгами и рисунками, являющимися общественным достоянием, созданными более века назад, могло бы стать интересным экспериментом, но не позволило бы создать системы искусственного интеллекта, отвечающие потребностям сегодняшних граждан».

Компания AI biz заявила, что считает, что она соблюдает закон об авторском праве и что обучение материалам, защищенным авторским правом, является законным, хотя это допускает, что «еще предстоит проделать работу для поддержки и расширения возможностей создателей».

Это мнение, которое звучит как дипломатическое признание этических опасений по поводу компенсации за сомнительное добросовестное использование произведений, защищенных авторским правом, следует рассматривать в сочетании с утверждением отчета IEEE о том, что «мы обнаружили доказательства того, что старший инженер-программист Midjourney принимал участие в разговор в феврале 2022 года о том, как обойти закон об авторском праве путем «отмывания» данных «с помощью точно настроенного кодекса».

Маркус, соавтор отчета IEEE, выразил скептицизм по поводу усилий OpenAI получить в Великобритании зеленый свет для своей текущей деловой практики.

«Примерный перевод: мы не станем баснословно богатыми, если вы не позволите нам воровать, поэтому, пожалуйста, не делайте воровство преступлением!» он написал в соцсети после. «Не заставляйте нас платить лицензирование сборы тоже! Конечно, Netflix может платить миллиарды в год в виде лицензионных сборов, но we не должно быть! Нам больше денег, мур!»

OpenAI предложила возместить ущерб корпоративным клиентам ChatGPT и API против исков об авторских правах, но не в том случае, если клиент или конечные пользователи клиента «знали или должны были знать, что выходные данные нарушают или могут нарушать авторские права» или если клиент обошел функции безопасности, среди прочих ограничений. Таким образом, просьба к DALL-E 3 воссоздать знаменитую сцену из фильма, которая, как следует знать пользователям, вероятно, защищена авторским правом, не будет претендовать на возмещение ущерба.

Midjourney применила противоположный подход, пообещав выследить и подать в суд на клиентов, причастных к нарушению прав, чтобы возместить судебные издержки, возникшие в связи с соответствующими исками.

«Если вы сознательно нарушаете чью-либо интеллектуальную собственность, и это будет стоить нам денег, мы найдем вас и заберем у вас эти деньги», — заявили в Midjourney. Условия Предоставления Услуг состояние. «Мы могли бы также предпринять другие меры, например попытаться добиться от суда взыскания с вас судебных издержек. Не делай этого». ®

Отметка времени:

Больше от Регистр