В современном мире мы окружены различными источниками письменной информации, информации, которая, как мы обычно предполагаем, была написана другими людьми. Будь то книги, блоги, новостные статьи, сообщения на форумах, отзывы на странице продукта или обсуждения в социальных сетях и разделах комментариев, предполагается, что текст, который мы читаем, написан другим человеком. Однако с годами вероятность того, что это предположение окажется ложным, становится все более вероятной, в последнее время из-за больших языковых моделей (LLM), таких как GPT-2 и GPT-3, которые могут генерировать правдоподобные абзацы практически по любой теме по запросу.
Это поднимает вопрос о том, приближаемся ли мы к моменту, когда мы больше не сможем быть достаточно уверены в том, что онлайн-комментарий, новостная статья или даже целые книги и сценарии фильмов не были созданы алгоритмом или, возможно, даже где онлайн-чат с новым горячим совпадением оказывается просто тем, что вы начинаете с бесчувственной коллекцией кода, который был обучен и настроен для максимального взаимодействия с клиентами. (Примечание редактора: нет, мы здесь не играем в эту игру.)
Поскольку такой сгенерированный машиной контент и взаимодействия начинают играть все большую роль, возникает вопрос как о том, как можно обнаружить такой сгенерированный контент, так и о том, имеет ли значение то, что контент был сгенерирован алгоритмом, а не человеком. .
Скука против злобы
У Джорджа Оруэлла Девятнадцать восемьдесят четыре, Уинстон Смит описывает отдел Министерства правды, который называется «Департамент художественной литературы», где машины постоянно штампуют свежие романы, основанные на определенных темах. Тем временем в музыкальном отделе новая музыка создается с помощью другой системы, называемой версификатором.
Тем не менее, каким бы антиутопичным ни был этот вымышленный мир, этот созданный машиной контент по сути безвреден, как замечает Уинстон позже в книге, когда он наблюдает, как женщина в процветающем районе города поет последнюю песенку, добавляя свою эмоциональную напряженность к песня о любви, выплюнутая бесчувственной и бездумной машиной. Это подводит нас к наиболее распространенному использованию машинного контента, который, по мнению многих, является просто формой автоматизации.
Обобщающим термином здесь является «автоматизированная журналистика', и имеет был в использовании с уважаемыми журналистскими агентствами, такими как Reuters, AP и другими, уже много лет. Варианты использования здесь просты и понятны: это системы, которые настроены на сбор информации о динамике акций, квартальных отчетах компаний, результатах спортивных матчей или местных выборах и выпуске статей по заданному шаблону. Очевидным преимуществом является то, что комнаты, полные журналистов, утомительно копирующих оценки и показатели эффективности в шаблоны статей, могут быть заменены компьютерным алгоритмом.
В этих случаях работа, которая включает в себя журналистский или художественный эквивалент переворачивания гамбургеров в заведении быстрого питания, заменяется алгоритмом, который никогда не надоедает и не отвлекается, в то время как люди могут выполнять более интеллектуально сложную работу. Мало кто станет утверждать, что в таком виде автоматизации есть проблема, поскольку по сути она делает именно то, что нам обещали.
Ситуация становится сомнительной, когда ее используют в гнусных целях, например, для привлечения поискового трафика с помощью машинно-генерированные статьи которые пытаются что-то продать читателю. Хотя в последнее время это привело к значительное возмущение В случае с CNET дело в том, что это невероятно прибыльный подход, поэтому мы можем увидеть его в будущем. В конце концов, большая языковая модель может сгенерировать целую стопку статей за то время, которое требуется писателю-человеку, чтобы записать несколько абзацев текста.
В большей степени серая зона связана с оказанием помощи писателю-человеку, что становится проблемой в мире научных публикаций, поскольку недавно покрытый by The Guardian. , которые сами устроили небольшой трюк в сентябре 2020 года, когда они опубликовала статью который был создан GPT-3 LLM. Предостережение заключалось в том, что это был не прямой результат LLM, а то, что человек-редактор собрал из нескольких результатов, сгенерированных GPT-3. Это весьма показательно для того, как обычно используются LLM, и намекает на некоторые из их самых больших недостатков.
Нет неправильных ответов
По своей сути LLM похож на GPT-3 представляет собой тесно взаимосвязанную базу данных значений, созданную на основе входных текстов, образующих набор обучающих данных. В случае GPT-3 это соответствует размеру базы данных (модели) около 800 ГБ. Для поиска в этой базе данных предоставляется строка запроса – обычно в виде вопроса или ведущей фразы – которая после обработки формирует входные данные для алгоритма подбора кривой. По сути, это определяет вероятность того, что входной запрос будет связан с разделом модели.
После того как вероятное совпадение найдено, выходные данные могут быть сгенерированы на основе наиболее вероятного следующего соединения в базе данных модели. Это позволяет LLM находить конкретную информацию в большом наборе данных и создавать теоретически бесконечно длинные тексты. Однако он не может определить, имеет ли смысл входной запрос или имеет ли логический смысл вывод, который он генерирует. Все, что может определить алгоритм, — это следует ли он наиболее вероятному курсу с возможными изменениями, которые могут исказить выходные данные.
Проблема с текстами, генерируемыми LLM, до сих пор считается проблемой повторения, хотя ее можно решить с помощью некоторых настроек, которые придают выводу «память», позволяющую сократить количество раз использования определенного слова. Что труднее решить, так это абсолютную уверенность в результатах LLM, поскольку у него нет возможности убедиться, что он просто производит ерунду и будет с радостью продолжать болтать.
Тем не менее, несмотря на это, когда люди подвергаются воздействию текстов, сгенерированных GPT-3 и GPT-2, как в исследование, проведенное в 2021 г. Элизабет Кларк и др., вероятность того, что они распознают тексты, созданные этими LLM, даже после некоторого обучения, не превышает 55%, что делает это примерно похожей на чистую случайность. Почему же люди так плохо распознают эти тексты, созданные LLM, и, возможно, компьютеры могут нам здесь помочь?
Статистика против интуиции
Когда человека спрашивают, был ли данный текст создан человеком или сгенерирован машиной, он, скорее всего, будет предполагать, основываясь на своем собственном опыте, «интуитивном предчувствии» и, возможно, на ряде подсказок. В 2019 бумага Себастьян Германн и др. Предлагают статистический подход к обнаружению машинно-генерируемого текста в дополнение к выявлению ряда гнусных экземпляров автоматически сгенерированного текста. К ним относятся фейковые комментарии, направленные против сетевого нейтралитета США, и вводящие в заблуждение обзоры.
Статистический подход, подробно описанный Gehrmann et al. называется «Тестовая комната модели гигантского языка» (GLTR, Источник на GitHub) предполагает анализ данного текста на предмет его предсказуемости. Эту характеристику читатели часто называют «поверхностностью» машинного текста, поскольку он продолжает болтаться по абзацам, не говоря особо многого. С помощью такого инструмента, как GLTR, такой текст в визуальном представлении будет светиться в основном зеленым, поскольку он использует ограниченный и предсказуемый словарный запас.
In документ, представленный Дафной Ипполито и др. (PDF) на заседании Ассоциации компьютерной лингвистики 2020 года будут рассмотрены различные подходы к обнаружению машинно-генерируемого текста, а также эффективность этих методов, используемых по отдельности, а не в сочетании. В эти методы включен подход анализа top-k, используемый GLTR, а также альтернативные подходы отбора проб ядер (top-p) и другие.
В конечном итоге в этом исследовании испытуемые-люди набрали в среднем 74% при классификации текстов GPT-2, причем автоматизированная система дискриминатора в целом показала лучший результат. Следует отметить исследование, проведенное Ари Хольцман и др. об этом говорится в заключении, в котором отмечается, что текст, написанный человеком, обычно имеет ритм, который то входит, то выходит из зоны низкой вероятности. Это не только делает текст интересным для чтения, но и дает ключ к пониманию того, что делает текст естественным для читателя.
При использовании современных LLM, таких как GPT-3, такой подход, как отбор проб ядра, предложенный Хольцманом и др. это то, что обеспечивает более естественную ритмичность, которую можно ожидать от текста, написанного человеком. Вместо того, чтобы выбирать из списка топ-k вариантов, вы выбираете из пула кандидатов с динамически изменяемым размером: массы вероятности. Результирующий список опций top-p обеспечивает гораздо более богатый результат, чем подход top-k, который использовался с GPT-2 и kin.
Это также означает, что при автоматическом анализе текста необходимо учитывать несколько подходов. Для анализа читателем-человеком различие между текстом top-k (GPT-2) и top-p (GPT-3) будет резким, причем последний тип, скорее всего, будет идентифицирован как написанный человеком.
Неопределенные времена
Таким образом, может показаться, что ответом на вопрос, был ли данный текст создан человеком или нет, является однозначное «может быть». Хотя статистический анализ может дать некоторые подсказки относительно вероятности того, что текст был создан с помощью LLM, в конечном итоге окончательное решение должно быть за человеком, который может не только определить, соответствует ли текст проверке семантически и контекстуально, но и проверить предполагаемый источник текста на предмет его подлинности.
Естественно, существует множество ситуаций, когда не имеет значения, кто написал текст, если информация в нем фактически верна. Тем не менее, когда существует вероятность гнусного намерения или намерения обмануть, необходимо проявлять должную осмотрительность. Даже при наличии алгоритмов автоматического обнаружения и при обученном и осторожном пользователе ответственность за перекрестные ссылки на информацию и выяснение того, может ли заявление, сделанное случайным аккаунтом в социальных сетях, быть подлинным, лежит на читателе.
(Примечание редактора: Этот пост о попытке OpenAI обнаружить собственную прозу появилось между написанием и публикацией этой статьи. Их результаты не так уж хороши, и, как и все, что касается «Открытого» ИИ, их методы не разглашаются публично. Однако вы можете попробовать классификатор.)
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://hackaday.com/2023/02/01/detecting-machine-generated-content-an-easier-task-for-machine-or-human/
- 1
- 2019
- 2020
- a
- О нас
- Absolute
- Учетная запись
- дополнение
- плюс
- После
- алгоритм
- алгоритмы
- Все
- позволяет
- Несмотря на то, что
- анализ
- анализ
- и
- Другой
- ответ
- подхода
- подходы
- ПЛОЩАДЬ
- спорить
- около
- гайд
- статьи
- художественный
- Объединение
- предположение
- Автоматизированный
- Автоматический
- автоматизация
- основанный
- в основном
- Медведи
- становиться
- становление
- не являетесь
- Лучшая
- между
- больший
- Крупнейшая
- Немного
- блоги
- книга
- Книги
- Скучающий
- Приносит
- Каденция
- под названием
- кандидатов
- не могу
- случаев
- случаев
- осторожный
- определенный
- сложные
- шанс
- характеристика
- проверка
- Город
- CNET
- код
- лыжных шлемов
- сочетании
- комментарий
- Комментарии
- Общий
- Компания
- компьютер
- компьютеры
- Обеспокоенность
- заключение
- доверие
- связи
- считается
- постоянно
- содержание
- копирование
- Основные
- курс
- покрытый
- Создайте
- создали
- кредит
- кривая
- Клиенты
- Порез
- данным
- набор данных
- База данных
- окончательный
- Кафедра
- описано
- Несмотря на
- подробный
- Определять
- определяет
- усердие
- обсуждение
- не
- вниз
- антиутопия
- легче
- редактор
- эффективность
- Выборы
- охватывая
- обязательство
- Весь
- Эквивалент
- по существу
- Эфир (ETH)
- Даже
- НИКОГДА
- многое
- точно,
- превышать
- ожидаемый
- Впечатления
- не настоящие
- Фэшн
- БЫСТРО
- Обратная связь
- несколько
- Рассказы
- вымышленный
- фильм
- окончательный
- Найдите
- примерка
- после
- следующим образом
- питание
- Forbes
- форма
- формы
- Форум
- найденный
- от
- полный
- будущее
- игра
- в общем
- порождать
- генерируется
- генерирует
- Юрий
- получить
- получающий
- гигант
- Дайте
- данный
- большой
- Зелёная
- имеющий
- сильно
- помощь
- здесь
- подсказки
- Как
- Однако
- HTTPS
- человек
- Людей
- идентифицированный
- идентифицирующий
- in
- включают
- включены
- невероятно
- информация
- вход
- вместо
- намерение
- взаимодействие
- взаимосвязано
- интересный
- изоляция
- вопрос
- IT
- совместная
- Журналисты
- Сохранить
- Родственники
- Вид
- язык
- большой
- последний
- ведущий
- привело
- легкий
- Вероятно
- Ограниченный
- лингвистика
- Список
- локальным
- Длинное
- дольше
- любят
- Низкий
- машина
- Продукция
- сделанный
- ДЕЛАЕТ
- Создание
- многих
- Масса
- Совпадение
- Вопрос
- Вопросы
- макс-ширина
- максимальный
- означает
- Между тем
- Медиа
- заседания
- просто
- методы
- Метрика
- может быть
- министерство
- модель
- Модели
- Модерн
- БОЛЕЕ
- самых
- с разными
- Музыка
- натуральный
- сеть
- сетевая нейтральность
- Новые
- Новости
- следующий
- отметил,
- номер
- Соблюдает
- Очевидный
- ONE
- онлайн
- оппозиция
- Опции
- заказ
- Другое
- Другое
- Магазины
- собственный
- бумага & картон
- проходит
- шаблон
- производительность
- возможно
- человек
- Часть
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- правдоподобный
- Играть
- игры
- Много
- Точка
- бассейн
- После
- Блог
- практика
- предсказуемый
- представлены
- вероятность
- Проблема
- обработка
- Продукт
- выгодную
- обещанный
- предложило
- обеспечивать
- при условии
- приводит
- публично
- опубликованный
- Издательство
- целей
- положил
- вопрос
- повышения
- случайный
- ассортимент
- достигать
- Читать
- читатель
- читатели
- Reading
- недавно
- Связанный
- остатки
- заменить
- Отчеты
- представление
- просил
- решен
- уважаемый
- в результате
- Итоги
- Reuters
- Отзывы
- Роли
- Комната
- Комнаты
- грубо
- счет
- скрипты
- Поиск
- Раздел
- разделах
- продаем
- смысл
- сентябрь
- набор
- просто
- обстоятельства
- Размер
- So
- Соцсети
- социальные сети
- некоторые
- удалось
- Источник
- Источники
- конкретный
- Спорт
- стек
- сильно
- заявление
- статистический
- По-прежнему
- акции
- прямой
- простой
- Кабинет
- такие
- окруженный
- система
- системы
- взять
- принимает
- Сложность задачи
- шаблоны
- тестXNUMX
- Ассоциация
- Будущее
- информация
- мир
- их
- сами
- вещи
- время
- раз
- в
- Сегодняшних
- вместе
- инструментом
- тема
- трафик
- специалистов
- Обучение
- В конечном счете
- us
- использование
- Информация о пользователе
- Наши ценности
- различный
- Против
- Что
- Что такое
- будь то
- который
- в то время как
- КТО
- Википедия.
- будете
- в
- без
- женщина
- Word
- Работа
- Мир
- бы
- писатель
- письменный
- Неправильно
- лет
- зефирнет