Суть дела: демистификация копирования в обучении студентов магистратуры - DATAVERSITY

Переиздано Платоном

Читают: 0

За последние 15 месяцев в заголовках доминировал прогресс, достигнутый в области генеративного искусственного интеллекта и моделей больших языков (LLM) после внедрения и доступности ChatGPT для общественности.

Строительным блоком этого прогресса стала архитектура модели Transformer, изложенная командой исследователей Google в статье под названием «Внимание это все, что вам нужно». Как следует из названия, ключевой особенностью всех моделей Трансформеров является механизм внимания, определенный в статье следующим образом:

«Функция внимания может быть описана как сопоставление запроса и набора пар ключ-значение с выходными данными, где запрос, ключи, значения и выходные данные являются векторами. Выходные данные вычисляются как взвешенная сумма значений, где вес, присвоенный каждому значению, вычисляется с помощью функции совместимости запроса с соответствующим ключом».

Характерной чертой генеративных моделей ИИ является массовое потребление входных данных, которые могут состоять из текста, изображений, аудиофайлов, видеофайлов или любой комбинации входных данных (случай, обычно называемый «мультимодальным»). С точки зрения авторского права важный вопрос (из многих важных вопросов), который следует задать, заключается в том, сохраняются ли учебные материалы в большая языковая модель (LLM), производимый различными поставщиками LLM. Чтобы ответить на этот вопрос, нам нужно понять, как обрабатываются текстовые материалы. Далее следует краткое нетехническое описание именно этого аспекта обучения LLM.

Люди общаются на естественном языке, располагая слова в последовательности; правила последовательности и конкретной формы слова продиктованы конкретным языком (например, английским). Важной частью архитектуры всех программных систем, обрабатывающих текст (и, следовательно, всех систем искусственного интеллекта, которые это делают), является то, как представлять этот текст так, чтобы функции системы могли выполняться наиболее эффективно. Поэтому ключевым шагом в обработке текстового ввода в языковых моделях является разделение пользовательского ввода на специальные «слова», которые может понять система ИИ. Эти специальные слова называются «токены». Компонент, отвечающий за это, называется «токенайзер». Существует множество типов токенизаторов. Например, OpenAI и Azure OpenAI используют метод токенизации подслов под названием «Кодирование пар байтов (BPE)» для своих моделей на основе генеративного предварительно обученного преобразователя (GPT). BPE — это метод, который объединяет наиболее часто встречающиеся пары символов или байтов в один токен до тех пор, пока не будет достигнуто определенное количество токенов или размер словаря. Чем больше размер словаря, тем более разнообразные и выразительные тексты может генерировать модель.

После того как система ИИ преобразует входной текст в токены, она кодирует токены в числа и преобразует обработанные ею последовательности в векторы, называемые «встраиванием слов». Вектор — это упорядоченный набор чисел. Его можно представить как строку или столбец таблицы. Эти векторы представляют собой представления токенов, которые сохраняют свое исходное представление на естественном языке, заданное в виде текста. Важно понимать роль вложений слов, когда речь идет об авторском праве, поскольку вложения формируют представления (или кодировки) целых предложений или даже абзацев и, следовательно, в векторных комбинациях, даже целые документы в многомерном векторном пространстве. Именно благодаря этим внедрениям система ИИ фиксирует и сохраняет значение и взаимосвязи слов естественного языка.

Встраивания используются практически во всех задачах, которые выполняет генеративная система искусственного интеллекта (например, генерация текста, обобщение текста, классификация текста, перевод текста, генерация изображений, генерация кода и т. д.). Вложения слов обычно хранятся в векторных базах данных, но подробное описание всех подходов к хранению выходит за рамки этой статьи, поскольку существует большое количество используемых поставщиков, процессов и практик.

Как уже упоминалось, почти все LLM основаны на архитектуре Transformer, которая задействует механизм внимания. Последнее позволяет технологии искусственного интеллекта просматривать целые предложения и даже абзацы как единое целое, а не как простые последовательности символов. Это позволяет программному обеспечению фиксировать различные контексты, в которых может встречаться слово, и, поскольку эти контексты предоставляются работами, используемыми в обучении, включая работы, защищенные авторским правом, они не являются произвольными. Таким образом, в системе ИИ сохраняется оригинальное использование слов, выражение оригинального произведения. Его можно воспроизводить и анализировать, а также лечь в основу новых выражений (которые, в зависимости от конкретных обстоятельств, можно охарактеризовать как «производное произведение» на языке авторского права).

LLM сохраняют выражения оригинальных произведений, на которых они обучались. Они формируют внутренние представления текста в специально созданных векторных пространствах и при наличии соответствующих входных данных в качестве триггера могут воспроизводить оригинальные произведения, которые использовались в их обучении. Системы искусственного интеллекта получают постоянную выгоду от контента, включая контент, защищенный авторским правом, который используется для обучения LLM, на котором они основаны. LLM распознают контекст слов на основе выражения слов в оригинальной работе. И этот контекст в совокупности приносит пользу системе искусственного интеллекта в тысячах или миллионах произведений, защищенных авторским правом, используемых в обучении. Эти оригинальные произведения могут быть воссозданы системой искусственного интеллекта, поскольку они хранятся в векторах — представлениях токенов в векторном пространстве, которые сохраняют их исходное представление на естественном языке — произведения, защищенного авторским правом. С точки зрения авторских прав, определение того, сохраняются ли учебные материалы в LLM, является сутью вопроса, и ясно, что ответ на этот вопрос – да.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/

Отметка времени: 2 февраля 2024

Отметка времени: Декабрь 14, 2023

Переиздано Платоном

Демонстрация DataStax: создание эффективного конвейера потоковой передачи данных с помощью Apache Cassandra и Apache Pulsar

Моя карьера в сфере данных. Эпизод 46: Синтия Кейн Фицджеральд, менеджер университета, аналитика бизнес-аналитики, Антиохийский университет – DATAVERSITY

Чего ожидать в 2024 году: доминирование гибридной и мультиоблачной архитектуры – DATAVERSITY

Моя карьера в сфере данных, 2 сезон, 2 серия: Джон Лэдли, директор Sonrai – DATAVERSITY

data.world интегрируется со Snowflake для предоставления новых показателей качества данных – DATAVERSITY

12 декабря Вебинар Data-Ed: Лучшие практики управления данными – DATAVERSITY

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись