Dolly 2.0: ChatGPT Open Source Alternative For Commercial Use

Heruitgegeven door Plato

volgers: 0

Dolly 2.0: ChatGPT Open Source-alternatief voor commercieel gebruik
Afbeelding van auteur | Bing Afbeeldingsmaker

Dollie 2.0 is een open-source, instructie-gevolgd, groot taalmodel (LLM) dat is afgestemd op een door mensen gegenereerde dataset. Het kan zowel voor onderzoek als voor commerciële doeleinden worden gebruikt.

Dolly 2.0: ChatGPT Open Source-alternatief voor commercieel gebruik
Afbeelding van Gezichtsruimte knuffelen door RamAnanth1

Eerder bracht het Databricks-team Dollie 1.0, LLM, die een ChatGPT-achtige instructie volgt en minder dan $ 30 kost om te trainen. Het gebruikte de gegevensset van het Stanford Alpaca-team, die onder een beperkte licentie viel (alleen onderzoek).

Dolly 2.0 heeft dit probleem opgelost door het 12B-parametertaalmodel te verfijnen (Pythia) op een door mensen gegenereerde instructie van hoge kwaliteit in de volgende dataset, die is gelabeld door een medewerker van Datbricks. Zowel het model als de dataset zijn beschikbaar voor commercieel gebruik.

Dolly 1.0 is getraind op een Stanford Alpaca-dataset, die is gemaakt met OpenAI API. De dataset bevat de uitvoer van ChatGPT en voorkomt dat iemand deze gebruikt om te concurreren met OpenAI. Kortom, op basis van deze dataset kun je geen commerciële chatbot of taalapplicatie bouwen.

De meeste van de nieuwste modellen die de afgelopen weken zijn uitgebracht, hadden dezelfde problemen, zoals modellen Alpaca, Koala, GPT4Alle en Vicuna. Om dit te omzeilen, moeten we nieuwe hoogwaardige datasets maken die voor commercieel gebruik kunnen worden gebruikt, en dat is wat het Databricks-team heeft gedaan met de databricks-dolly-15k-dataset.

De nieuwe dataset bevat 15,000 hoogwaardige door mensen gelabelde prompt/response-paren die kunnen worden gebruikt voor het ontwerpen van instructies voor het afstemmen van grote taalmodellen. De databricks-dolly-15k dataset wordt meegeleverd Creative Commons Naamsvermelding-GelijkDelen 3.0 Unported-licentie, waarmee iedereen het kan gebruiken, wijzigen en er een commerciële toepassing op kan maken.

Hoe hebben ze de databricks-dolly-15k-dataset gemaakt?

Het OpenAI-onderzoek papier stelt dat het oorspronkelijke InstructGPT-model is getraind op 13,000 prompts en reacties. Door deze informatie te gebruiken, begon het Databricks-team eraan te werken en het bleek dat het genereren van 13 vragen en antwoorden een moeilijke taak was. Ze kunnen geen synthetische data of AI-generatieve data gebruiken, en ze moeten originele antwoorden op elke vraag genereren. Hier hebben ze besloten om 5,000 medewerkers van Databricks in te zetten om door mensen gegenereerde data te creëren.

De Databricks hebben een wedstrijd uitgeschreven, waarbij de top 20 labelers een grote prijs zouden krijgen. Aan deze wedstrijd deden 5,000 Databricks-medewerkers mee die zeer geïnteresseerd waren in LLM's

De dolly-v2-12b is geen state-of-the-art model. Het presteert slechter dan dolly-v1-6b in sommige evaluatiebenchmarks. Dit kan te wijten zijn aan de samenstelling en omvang van de onderliggende fijnafstemmingsdatasets. De Dolly-modelfamilie wordt actief ontwikkeld, dus mogelijk ziet u in de toekomst een bijgewerkte versie met betere prestaties.

Kortom, het model dolly-v2-12b heeft beter gepresteerd dan EleutherAI/gpt-neox-20b en EleutherAI/pythia-6.9b.

Dolly 2.0: ChatGPT Open Source-alternatief voor commercieel gebruik
Afbeelding van Gratis Dollie

Dolly 2.0 is 100% open-source. Het wordt geleverd met trainingscode, dataset, modelgewichten en inferentiepijplijn. Alle componenten zijn geschikt voor commercieel gebruik. Je kunt het model uitproberen op Hugging Face Spaces Dolly V2 door RamAnanth1.

Dolly 2.0: ChatGPT Open Source-alternatief voor commercieel gebruik
Afbeelding van Gezicht knuffelen

Resource:

Dolly 2.0-demo: Dolly V2 door RamAnanth1

Abid Ali Awan (@1abidaliawan) is een gecertificeerde datawetenschapper-professional die dol is op het bouwen van machine learning-modellen. Momenteel richt hij zich op het creëren van content en het schrijven van technische blogs over machine learning en data science-technologieën. Abid heeft een Master in Technologie Management en een Bachelor in Telecommunicatie Engineering. Zijn visie is om een AI-product te bouwen met behulp van een grafisch neuraal netwerk voor studenten die worstelen met een psychische aandoening.