За последние 15 месяцев в заголовках доминировал прогресс, достигнутый в области генеративного искусственного интеллекта и моделей больших языков (LLM) после внедрения и доступности ChatGPT для общественности.
Строительным блоком этого прогресса стала архитектура модели Transformer, изложенная командой исследователей Google в статье под названием «Внимание это все, что вам нужно». Как следует из названия, ключевой особенностью всех моделей Трансформеров является механизм внимания, определенный в статье следующим образом:
«Функция внимания может быть описана как сопоставление запроса и набора пар ключ-значение с выходными данными, где запрос, ключи, значения и выходные данные являются векторами. Выходные данные вычисляются как взвешенная сумма значений, где вес, присвоенный каждому значению, вычисляется с помощью функции совместимости запроса с соответствующим ключом».
Характерной чертой генеративных моделей ИИ является массовое потребление входных данных, которые могут состоять из текста, изображений, аудиофайлов, видеофайлов или любой комбинации входных данных (случай, обычно называемый «мультимодальным»). С точки зрения авторского права важный вопрос (из многих важных вопросов), который следует задать, заключается в том, сохраняются ли учебные материалы в большая языковая модель (LLM), производимый различными поставщиками LLM. Чтобы ответить на этот вопрос, нам нужно понять, как обрабатываются текстовые материалы. Далее следует краткое нетехническое описание именно этого аспекта обучения LLM.
Люди общаются на естественном языке, располагая слова в последовательности; правила последовательности и конкретной формы слова продиктованы конкретным языком (например, английским). Важной частью архитектуры всех программных систем, обрабатывающих текст (и, следовательно, всех систем искусственного интеллекта, которые это делают), является то, как представлять этот текст так, чтобы функции системы могли выполняться наиболее эффективно. Поэтому ключевым шагом в обработке текстового ввода в языковых моделях является разделение пользовательского ввода на специальные «слова», которые может понять система ИИ. Эти специальные слова называются «токены». Компонент, отвечающий за это, называется «токенайзер». Существует множество типов токенизаторов. Например, OpenAI и Azure OpenAI используют метод токенизации подслов под названием «Кодирование пар байтов (BPE)» для своих моделей на основе генеративного предварительно обученного преобразователя (GPT). BPE — это метод, который объединяет наиболее часто встречающиеся пары символов или байтов в один токен до тех пор, пока не будет достигнуто определенное количество токенов или размер словаря. Чем больше размер словаря, тем более разнообразные и выразительные тексты может генерировать модель.
После того как система ИИ преобразует входной текст в токены, она кодирует токены в числа и преобразует обработанные ею последовательности в векторы, называемые «встраиванием слов». Вектор — это упорядоченный набор чисел. Его можно представить как строку или столбец таблицы. Эти векторы представляют собой представления токенов, которые сохраняют свое исходное представление на естественном языке, заданное в виде текста. Важно понимать роль вложений слов, когда речь идет об авторском праве, поскольку вложения формируют представления (или кодировки) целых предложений или даже абзацев и, следовательно, в векторных комбинациях, даже целые документы в многомерном векторном пространстве. Именно благодаря этим внедрениям система ИИ фиксирует и сохраняет значение и взаимосвязи слов естественного языка.
Встраивания используются практически во всех задачах, которые выполняет генеративная система искусственного интеллекта (например, генерация текста, обобщение текста, классификация текста, перевод текста, генерация изображений, генерация кода и т. д.). Вложения слов обычно хранятся в векторных базах данных, но подробное описание всех подходов к хранению выходит за рамки этой статьи, поскольку существует большое количество используемых поставщиков, процессов и практик.
Как уже упоминалось, почти все LLM основаны на архитектуре Transformer, которая задействует механизм внимания. Последнее позволяет технологии искусственного интеллекта просматривать целые предложения и даже абзацы как единое целое, а не как простые последовательности символов. Это позволяет программному обеспечению фиксировать различные контексты, в которых может встречаться слово, и, поскольку эти контексты предоставляются работами, используемыми в обучении, включая работы, защищенные авторским правом, они не являются произвольными. Таким образом, в системе ИИ сохраняется оригинальное использование слов, выражение оригинального произведения. Его можно воспроизводить и анализировать, а также лечь в основу новых выражений (которые, в зависимости от конкретных обстоятельств, можно охарактеризовать как «производное произведение» на языке авторского права).
LLM сохраняют выражения оригинальных произведений, на которых они обучались. Они формируют внутренние представления текста в специально созданных векторных пространствах и при наличии соответствующих входных данных в качестве триггера могут воспроизводить оригинальные произведения, которые использовались в их обучении. Системы искусственного интеллекта получают постоянную выгоду от контента, включая контент, защищенный авторским правом, который используется для обучения LLM, на котором они основаны. LLM распознают контекст слов на основе выражения слов в оригинальной работе. И этот контекст в совокупности приносит пользу системе искусственного интеллекта в тысячах или миллионах произведений, защищенных авторским правом, используемых в обучении. Эти оригинальные произведения могут быть воссозданы системой искусственного интеллекта, поскольку они хранятся в векторах — представлениях токенов в векторном пространстве, которые сохраняют их исходное представление на естественном языке — произведения, защищенного авторским правом. С точки зрения авторских прав, определение того, сохраняются ли учебные материалы в LLM, является сутью вопроса, и ясно, что ответ на этот вопрос – да.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/
- :имеет
- :является
- :нет
- :куда
- 15%
- a
- О нас
- через
- Ad
- AI
- AI модели
- Системы искусственного интеллекта
- Все
- позволяет
- почти
- an
- проанализированы
- и
- ответ
- любой
- подходы
- соответствующий
- произвольный
- архитектура
- МЫ
- AS
- спросить
- внешний вид
- назначенный
- At
- внимание
- аудио
- свободных мест
- Лазурный
- основанный
- основа
- BE
- , так как:
- было
- Преимущества
- Beyond
- Заблокировать
- Строительство
- но
- by
- под названием
- CAN
- захватить
- перехватывает
- случаев
- определенный
- характеристика
- отличающийся
- символы
- ChatGPT
- обстоятельства
- классификация
- Очистить
- код
- Column
- сочетание
- комбинации
- выходит
- общаться
- совместимость
- компонент
- вычисленный
- потребление
- содержание
- контекст
- контексты
- копирование
- авторское право
- соответствующий
- может
- данным
- базы данных
- ДАТАВЕРСИЯ
- определенный
- в зависимости
- выводить
- описано
- описание
- подробный
- определения
- диктовали
- Разное
- DM
- do
- Документация
- доминируют
- e
- каждый
- эффективно
- кодирование
- Английский
- Весь
- озаглавленный
- существенный
- Эфир (ETH)
- Даже
- События
- Каждая
- точно,
- пример
- выражение
- выражения
- выразительный
- Особенность
- Файлы
- фокусировка
- после
- следующим образом
- Что касается
- форма
- часто
- от
- функция
- Функции
- порождать
- поколение
- генеративный
- Генеративный ИИ
- данный
- Есть
- Последние новости
- Сердце
- помощь
- Как
- How To
- HTTPS
- изображение
- генерация изображения
- изображений
- важную
- in
- В том числе
- вход
- затраты
- в нашей внутренней среде,
- в
- Введение
- Запускает
- IT
- Основные
- ключи
- язык
- большой
- больше
- LLM
- сделанный
- многих
- отображение
- массивный
- материалы
- Вопрос
- Май..
- смысл
- механизм
- упомянутый
- меров
- слияния
- метод
- миллионы
- модель
- Модели
- месяцев
- БОЛЕЕ
- самых
- натуральный
- Естественный язык
- Необходимость
- НейриПС
- Новые
- Новостные рассылки
- нетехнических
- номер
- номера
- происходить
- происходящий
- of
- on
- OpenAI
- or
- оригинал
- изложенные
- выходной
- пар
- бумага & картон
- часть
- мимо
- выполнены
- выполняет
- Вечный
- перспектива
- размещение
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- После
- практически
- практиками
- консервированный
- процесс
- обрабатываемых
- Процессы
- обработка
- Произведенный
- Прогресс
- при условии
- что такое варган?
- запрос
- вопрос
- Вопросы
- скорее
- достиг
- признавать
- назвало
- Отношения
- представлять
- представление
- исследователи
- ответственный
- сохранять
- сохраняется
- Роли
- РЯД
- условиями,
- сфера
- последовательность действий
- набор
- одинарной
- Размер
- So
- Software
- Space
- пространства
- особый
- конкретный
- Шаг
- диск
- хранить
- магазины
- Предлагает
- сумма
- система
- системы
- ТАБЛИЦЫ
- Сложность задачи
- команда
- Технологии
- текст
- Классификация текста
- генерация текста
- текстовый
- чем
- который
- Ассоциация
- их
- Там.
- следовательно
- Эти
- они
- think
- этой
- те
- тысячи
- Через
- Название
- в
- знак
- лексемизацию
- Лексемы
- Train
- специалистов
- Обучение
- трансформатор
- Переводы
- вызвать
- Типы
- понимать
- до
- на
- использование
- используемый
- Информация о пользователе
- обычно
- ценностное
- Наши ценности
- разнообразие
- различный
- поставщики
- Видео
- Вид
- просматриваемые
- законопроект
- Путь..
- we
- еженедельно
- вес
- были
- Что
- когда
- будь то
- который
- все
- широкий
- в
- Word
- слова
- Работа
- работает
- Да
- являетесь
- зефирнет