Обнаружение машинного контента: более простая задача для машины или человека?

Переиздано Платоном

Читают: 0

В современном мире мы окружены различными источниками письменной информации, информации, которая, как мы обычно предполагаем, была написана другими людьми. Будь то книги, блоги, новостные статьи, сообщения на форумах, отзывы на странице продукта или обсуждения в социальных сетях и разделах комментариев, предполагается, что текст, который мы читаем, написан другим человеком. Однако с годами вероятность того, что это предположение окажется ложным, становится все более вероятной, в последнее время из-за больших языковых моделей (LLM), таких как GPT-2 и GPT-3, которые могут генерировать правдоподобные абзацы практически по любой теме по запросу.

Это поднимает вопрос о том, приближаемся ли мы к моменту, когда мы больше не сможем быть достаточно уверены в том, что онлайн-комментарий, новостная статья или даже целые книги и сценарии фильмов не были созданы алгоритмом или, возможно, даже где онлайн-чат с новым горячим совпадением оказывается просто тем, что вы начинаете с бесчувственной коллекцией кода, который был обучен и настроен для максимального взаимодействия с клиентами. (Примечание редактора: нет, мы здесь не играем в эту игру.)

Поскольку такой сгенерированный машиной контент и взаимодействия начинают играть все большую роль, возникает вопрос как о том, как можно обнаружить такой сгенерированный контент, так и о том, имеет ли значение то, что контент был сгенерирован алгоритмом, а не человеком. .

Скука против злобы

У Джорджа Оруэлла Девятнадцать восемьдесят четыре, Уинстон Смит описывает отдел Министерства правды, который называется «Департамент художественной литературы», где машины постоянно штампуют свежие романы, основанные на определенных темах. Тем временем в музыкальном отделе новая музыка создается с помощью другой системы, называемой версификатором.

Тем не менее, каким бы антиутопичным ни был этот вымышленный мир, этот созданный машиной контент по сути безвреден, как замечает Уинстон позже в книге, когда он наблюдает, как женщина в процветающем районе города поет последнюю песенку, добавляя свою эмоциональную напряженность к песня о любви, выплюнутая бесчувственной и бездумной машиной. Это подводит нас к наиболее распространенному использованию машинного контента, который, по мнению многих, является просто формой автоматизации.

Обобщающим термином здесь является «автоматизированная журналистика', и имеет был в использовании с уважаемыми журналистскими агентствами, такими как Reuters, AP и другими, уже много лет. Варианты использования здесь просты и понятны: это системы, которые настроены на сбор информации о динамике акций, квартальных отчетах компаний, результатах спортивных матчей или местных выборах и выпуске статей по заданному шаблону. Очевидным преимуществом является то, что комнаты, полные журналистов, утомительно копирующих оценки и показатели эффективности в шаблоны статей, могут быть заменены компьютерным алгоритмом.

В этих случаях работа, которая включает в себя журналистский или художественный эквивалент переворачивания гамбургеров в заведении быстрого питания, заменяется алгоритмом, который никогда не надоедает и не отвлекается, в то время как люди могут выполнять более интеллектуально сложную работу. Мало кто станет утверждать, что в таком виде автоматизации есть проблема, поскольку по сути она делает именно то, что нам обещали.

Ситуация становится сомнительной, когда ее используют в гнусных целях, например, для привлечения поискового трафика с помощью машинно-генерированные статьи которые пытаются что-то продать читателю. Хотя в последнее время это привело к значительное возмущение В случае с CNET дело в том, что это невероятно прибыльный подход, поэтому мы можем увидеть его в будущем. В конце концов, большая языковая модель может сгенерировать целую стопку статей за то время, которое требуется писателю-человеку, чтобы записать несколько абзацев текста.

В большей степени серая зона связана с оказанием помощи писателю-человеку, что становится проблемой в мире научных публикаций, поскольку недавно покрытый by The Guardian. , которые сами устроили небольшой трюк в сентябре 2020 года, когда они опубликовала статью который был создан GPT-3 LLM. Предостережение заключалось в том, что это был не прямой результат LLM, а то, что человек-редактор собрал из нескольких результатов, сгенерированных GPT-3. Это весьма показательно для того, как обычно используются LLM, и намекает на некоторые из их самых больших недостатков.

Нет неправильных ответов

По своей сути LLM похож на GPT-3 представляет собой тесно взаимосвязанную базу данных значений, созданную на основе входных текстов, образующих набор обучающих данных. В случае GPT-3 это соответствует размеру базы данных (модели) около 800 ГБ. Для поиска в этой базе данных предоставляется строка запроса – обычно в виде вопроса или ведущей фразы – которая после обработки формирует входные данные для алгоритма подбора кривой. По сути, это определяет вероятность того, что входной запрос будет связан с разделом модели.

После того как вероятное совпадение найдено, выходные данные могут быть сгенерированы на основе наиболее вероятного следующего соединения в базе данных модели. Это позволяет LLM находить конкретную информацию в большом наборе данных и создавать теоретически бесконечно длинные тексты. Однако он не может определить, имеет ли смысл входной запрос или имеет ли логический смысл вывод, который он генерирует. Все, что может определить алгоритм, — это следует ли он наиболее вероятному курсу с возможными изменениями, которые могут исказить выходные данные.

Проблема с текстами, генерируемыми LLM, до сих пор считается проблемой повторения, хотя ее можно решить с помощью некоторых настроек, которые придают выводу «память», позволяющую сократить количество раз использования определенного слова. Что труднее решить, так это абсолютную уверенность в результатах LLM, поскольку у него нет возможности убедиться, что он просто производит ерунду и будет с радостью продолжать болтать.

Тем не менее, несмотря на это, когда люди подвергаются воздействию текстов, сгенерированных GPT-3 и GPT-2, как в исследование, проведенное в 2021 г. Элизабет Кларк и др., вероятность того, что они распознают тексты, созданные этими LLM, даже после некоторого обучения, не превышает 55%, что делает это примерно похожей на чистую случайность. Почему же люди так плохо распознают эти тексты, созданные LLM, и, возможно, компьютеры могут нам здесь помочь?

Статистика против интуиции

<img data-attachment-id="573573" data-permalink="https://hackaday.com/2023/02/01/detecting-machine-generated-content-an-easier-task-for-machine-or-human/gehrmann_et_al_2019_figure_1_top_k_overlay_gltr/" data-orig-file="https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human-1.jpg" data-orig-size="381,318" data-comments-opened="1" data-image-meta="{"aperture":"0","credit":"","camera":"","caption":"","created_timestamp":"0","copyright":"","focal_length":"0","iso":"0","shutter_speed":"0","title":"","orientation":"0"}" data-image-title="gehrmann_et_al_2019_figure_1_top_k_overlay_GLTR" data-image-description data-image-caption="

(Фото: Германн и др., 2019 г.)

” data-medium-file=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human.jpg” data-large-file=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human.jpg” decoding=”async” loading=”lazy” class=”size-medium wp-image-573573″ src=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human.jpg” alt width=”381″ height=”318″ srcset=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human-1.jpg 381w, https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human-1.jpg?resize=250,209 250w” sizes=”(max-width: 381px) 100vw, 381px”>

(Фото: Германн и др., 2019 г.)

Когда человека спрашивают, был ли данный текст создан человеком или сгенерирован машиной, он, скорее всего, будет предполагать, основываясь на своем собственном опыте, «интуитивном предчувствии» и, возможно, на ряде подсказок. В 2019 бумага Себастьян Германн и др. Предлагают статистический подход к обнаружению машинно-генерируемого текста в дополнение к выявлению ряда гнусных экземпляров автоматически сгенерированного текста. К ним относятся фейковые комментарии, направленные против сетевого нейтралитета США, и вводящие в заблуждение обзоры.

Статистический подход, подробно описанный Gehrmann et al. называется «Тестовая комната модели гигантского языка» (GLTR, Источник на GitHub) предполагает анализ данного текста на предмет его предсказуемости. Эту характеристику читатели часто называют «поверхностностью» машинного текста, поскольку он продолжает болтаться по абзацам, не говоря особо многого. С помощью такого инструмента, как GLTR, такой текст в визуальном представлении будет светиться в основном зеленым, поскольку он использует ограниченный и предсказуемый словарный запас.

In документ, представленный Дафной Ипполито и др. (PDF) на заседании Ассоциации компьютерной лингвистики 2020 года будут рассмотрены различные подходы к обнаружению машинно-генерируемого текста, а также эффективность этих методов, используемых по отдельности, а не в сочетании. В эти методы включен подход анализа top-k, используемый GLTR, а также альтернативные подходы отбора проб ядер (top-p) и другие.

В конечном итоге в этом исследовании испытуемые-люди набрали в среднем 74% при классификации текстов GPT-2, причем автоматизированная система дискриминатора в целом показала лучший результат. Следует отметить исследование, проведенное Ари Хольцман и др. об этом говорится в заключении, в котором отмечается, что текст, написанный человеком, обычно имеет ритм, который то входит, то выходит из зоны низкой вероятности. Это не только делает текст интересным для чтения, но и дает ключ к пониманию того, что делает текст естественным для читателя.

При использовании современных LLM, таких как GPT-3, такой подход, как отбор проб ядра, предложенный Хольцманом и др. это то, что обеспечивает более естественную ритмичность, которую можно ожидать от текста, написанного человеком. Вместо того, чтобы выбирать из списка топ-k вариантов, вы выбираете из пула кандидатов с динамически изменяемым размером: массы вероятности. Результирующий список опций top-p обеспечивает гораздо более богатый результат, чем подход top-k, который использовался с GPT-2 и kin.

Это также означает, что при автоматическом анализе текста необходимо учитывать несколько подходов. Для анализа читателем-человеком различие между текстом top-k (GPT-2) и top-p (GPT-3) будет резким, причем последний тип, скорее всего, будет идентифицирован как написанный человеком.

Неопределенные времена

Таким образом, может показаться, что ответом на вопрос, был ли данный текст создан человеком или нет, является однозначное «может быть». Хотя статистический анализ может дать некоторые подсказки относительно вероятности того, что текст был создан с помощью LLM, в конечном итоге окончательное решение должно быть за человеком, который может не только определить, соответствует ли текст проверке семантически и контекстуально, но и проверить предполагаемый источник текста на предмет его подлинности.

Естественно, существует множество ситуаций, когда не имеет значения, кто написал текст, если информация в нем фактически верна. Тем не менее, когда существует вероятность гнусного намерения или намерения обмануть, необходимо проявлять должную осмотрительность. Даже при наличии алгоритмов автоматического обнаружения и при обученном и осторожном пользователе ответственность за перекрестные ссылки на информацию и выяснение того, может ли заявление, сделанное случайным аккаунтом в социальных сетях, быть подлинным, лежит на читателе.

(Примечание редактора: Этот пост о попытке OpenAI обнаружить собственную прозу появилось между написанием и публикацией этой статьи. Их результаты не так уж хороши, и, как и все, что касается «Открытого» ИИ, их методы не разглашаются публично. Однако вы можете попробовать классификатор.)

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://hackaday.com/2023/02/01/detecting-machine-generated-content-an-easier-task-for-machine-or-human/

Отметка времени: 1 февраля 2023

Отметка времени: 2 января, 2023

Пока это было весело, телеметрия Falcon 9 теперь зашифрована

Исходный кластер:

Взломать день

Исходный узел: 805842

Отметка времени: 8 Апрель, 2021

Этот цельный клиновой шип, вырезанный лазером, плотно фиксирует деревянные соединения

Исходный кластер:

Взломать день

Исходный узел: 2992898

Отметка времени: Декабрь 4, 2023

Открытая система мониторинга автомобиля — окно в душу вашего электромобиля

Исходный кластер:

Взломать день

Исходный узел: 3084369

Отметка времени: 25 января, 2024

Бесплатный телевизор с подвохом: новое нормальное или неизбежное аппаратное золото?

Исходный кластер:

Взломать день

Исходный узел: 2653871

Отметка времени: 15 мая 2023

Переиздано Платоном

G-код становится двоичным с предлагаемым новым форматом

Современный танец или клавишные? Почему не оба!

Врумба получает обновления и спойлер

Гироскопическая монорельсовая дорога: как улучшить поезда с помощью гироскопа

Рентгеновские компьютерные томографы с EBay возвращены к жизни

ESP32 не нужно много

Modulex — давно потерянный родственник LEGO

Уборка снега на велосипеде

Пока это было весело, телеметрия Falcon 9 теперь зашифрована

Этот цельный клиновой шип, вырезанный лазером, плотно фиксирует деревянные соединения

Открытая система мониторинга автомобиля — окно в душу вашего электромобиля

Бесплатный телевизор с подвохом: новое нормальное или неизбежное аппаратное золото?

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись