Изображение от автора | Создатель изображений Bing
Долли 2.0 — это модель большого языка (LLM) с открытым исходным кодом, основанная на инструкциях, которая была точно настроена на наборе данных, созданном человеком. Его можно использовать как в исследовательских, так и в коммерческих целях.
Изображение из Обнимающее пространство для лица от RamAnanth1
Ранее команда Databricks выпустила Долли 1.0, LLM, который демонстрирует способность следовать инструкциям, подобную ChatGPT, и стоит менее 30 долларов США за обучение. Он использовал набор данных команды Стэнфордской альпаки, который находился под ограниченной лицензией (только для исследований).
В Dolly 2.0 эта проблема решена путем тонкой настройки языковой модели параметров 12B (пифия) на высококачественной инструкции, созданной человеком, в следующем наборе данных, который был помечен сотрудником Datbricks. И модель, и набор данных доступны для коммерческого использования.
Dolly 1.0 обучалась на наборе данных Стэнфордской альпаки, созданном с использованием API OpenAI. Набор данных содержит выходные данные ChatGPT и не позволяет никому использовать его для конкуренции с OpenAI. Короче говоря, вы не сможете создать коммерческого чат-бота или языковое приложение на основе этого набора данных.
Большинство последних моделей, выпущенных за последние несколько недель, страдали от одних и тех же проблем. Альпака, Koala, GPT4Всеи Викунья. Чтобы обойти это, нам нужно создать новые высококачественные наборы данных, которые можно будет использовать для коммерческого использования, и именно это команда Databricks сделала с набором данных databricks-dolly-15k.
Новый набор данных содержит 15,000 XNUMX высококачественных пар подсказка/ответ, размеченных человеком, которые можно использовать для разработки инструкций по настройке больших языковых моделей. блоки данных-долли-15к набор данных поставляется с Непортированная лицензия Creative Commons Attribution-ShareAlike 3.0, что позволяет любому использовать его, изменять и создавать на его основе коммерческое приложение.
Как они создали набор данных databricks-dolly-15k?
Исследование OpenAI бумаги утверждает, что исходная модель InstructGPT была обучена на 13,000 13 приглашениях и ответах. Используя эту информацию, команда Databricks начала над ней работать, и оказалось, что создание 5,000 тысяч вопросов и ответов оказалось сложной задачей. Они не могут использовать синтетические данные или генеративные данные искусственного интеллекта, и им приходится генерировать оригинальные ответы на каждый вопрос. Именно здесь они решили использовать XNUMX сотрудников Databricks для создания данных, генерируемых человеком.
Databricks организовали конкурс, в котором 20 лучших производителей этикеток получат большую награду. В этом конкурсе приняли участие 5,000 сотрудников Databricks, которые были очень заинтересованы в LLM.
Dolly-v2-12b не является современной моделью. В некоторых оценочных тестах он уступает dolly-v1-6b. Это может быть связано с составом и размером базовых наборов данных для точной настройки. Семейство моделей Dolly находится в стадии активной разработки, поэтому в будущем вы можете увидеть обновленную версию с улучшенными характеристиками.
Короче говоря, модель dolly-v2-12b показала себя лучше, чем EleutherAI/gpt-neox-20b и EleutherAI/pythia-6.9b.
Изображение из Бесплатная Долли
Dolly 2.0 имеет 100% открытый исходный код. Он поставляется с обучающим кодом, набором данных, весами модели и конвейером вывода. Все компоненты пригодны для коммерческого использования. Вы можете опробовать модель на сайте Hugging Face Spaces. Долли V2 от RamAnanth1.
Изображение из Обнимая лицо
Ресурс:
Демо-версия Долли 2.0: Долли V2 от RamAnanth1
Абид Али Аван (@ 1abidaliawan) — сертифицированный специалист по анализу данных, который любит создавать модели машинного обучения. В настоящее время он занимается созданием контента и ведением технических блогов по технологиям машинного обучения и обработки данных. Абид имеет степень магистра в области управления технологиями и степень бакалавра в области телекоммуникаций. Его видение состоит в том, чтобы создать продукт искусственного интеллекта с использованием графовой нейронной сети для студентов, борющихся с психическими заболеваниями.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Чеканка будущего с Эдриенн Эшли. Доступ здесь.
- Источник: https://www.kdnuggets.com/2023/04/dolly-20-chatgpt-open-source-alternative-commercial.html?utm_source=rss&utm_medium=rss&utm_campaign=dolly-2-0-chatgpt-open-source-alternative-for-commercial-use
- :имеет
- :является
- :нет
- $UP
- 000
- 1
- 20
- a
- способность
- активный
- AI
- Все
- позволяет
- альтернатива
- an
- и
- ответы
- кто угодно
- API
- Применение
- МЫ
- около
- автор
- доступен
- награда
- основанный
- BE
- тесты
- Беркли
- Лучшая
- большой
- Bing
- блоги
- изоферменты печени
- строить
- Строительство
- by
- CAN
- не могу
- Сертифицированные
- Chatbot
- ChatGPT
- код
- коммерческая
- Commons
- конкурировать
- компоненты
- содержит
- содержание
- контентного создание
- конкурс
- Расходы
- Создайте
- создали
- создание
- В настоящее время
- данным
- наука о данных
- ученый данных
- Databricks
- Наборы данных
- решенный
- Степень
- Демо
- Проект
- Развитие
- DID
- трудный
- Долли
- Сотрудник
- сотрудников
- Проект и
- оценка
- Каждая
- Экспонаты
- Face
- семья
- несколько
- фокусировка
- после
- Что касается
- от
- будущее
- порождать
- порождающий
- генеративный
- получить
- график
- Графическая нейронная сеть
- Есть
- he
- высококачественный
- имеет
- HTML
- HTTPS
- болезнь
- изображение
- in
- информация
- заинтересованный
- вопрос
- вопросы
- IT
- JPG
- КДнаггетс
- язык
- большой
- Фамилия
- последний
- изучение
- Лицензия
- такое как
- машина
- обучение с помощью машины
- управление
- мастер
- психический
- Психические заболевания
- может быть
- модель
- Модели
- изменять
- Необходимость
- сеть
- нервный
- нейронной сети
- Новые
- of
- on
- только
- открытый
- с открытым исходным кодом
- OpenAI
- or
- оригинал
- выходной
- пар
- параметр
- участие
- производительность
- трубопровод
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Продукт
- профессиональный
- целей
- вопрос
- Вопросы
- выпустил
- исследованиям
- решен
- ограниченный
- s
- то же
- Наука
- Ученый
- набор
- Короткое
- Размер
- So
- некоторые
- Источник
- Space
- пространства
- Стэнфорд
- и политические лидеры
- современное состояние
- Области
- Борющийся
- Студенты
- подходящее
- синтетический
- синтетические данные
- Сложность задачи
- команда
- Технический
- технологии
- Технологии
- телекоммуникация
- чем
- который
- Ассоциация
- Будущее
- они
- этой
- в
- топ
- Train
- специалистов
- Обучение
- под
- лежащий в основе
- обновление
- использование
- используемый
- через
- версия
- видение
- законопроект
- we
- Недели
- были
- Что
- который
- КТО
- Работа
- бы
- письмо
- являетесь
- зефирнет