Unsloth を使用した Tiny-Llama モデルの微調整

プラトン再発行

フォロワー： 0

概要

Llama モデルと Mistral モデルがリリースされた後、オープンソース LLM が OpenAI の脚光を浴びるようになりました。それ以来、Llama および Mistral アーキテクチャに基づいて複数のモデルがリリースされ、GPT-3.5 Turbo、Claude、Gemini などの独自モデルと同等のパフォーマンスを発揮します。しかし、これらのモデルは大きすぎて民生用ハードウェアで使用できません。

しかし最近、新しいクラスの LLM が出現しています。これらは、サブ 7B パラメータカテゴリの LLM です。パラメータが少ないため、7B モデルと同等の効率を維持しながら、民生用ハードウェアで実行できるほどコンパクトになります。 Tiny-Llama-1B、Microsoft の Phi-2、Alibaba の Qwen-3b などのモデルは、ローカルで実行したりエッジで展開したりする大規模なモデルの優れた代替品となります。同時に、下流のタスクに対してベースモデルを最大限に活用するには、微調整が重要です。
ここでは、ベースを微調整する方法を検討します。タイニーラマモデルクリーンアップされた Alpaca データセット上で。

学習目標

微調整とそのさまざまな方法を理解します。
効率的に微調整するためのツールとテクニックについて学びます。
トレーニングログを記録するための WandB について学びます。
Colab の Alpaca データセットで Tiny-Llama を微調整します。

この記事は、の一部として公開されました データサイエンスブログ。

LLM 微調整とは何ですか?

微調整は、事前トレーニングされたモデルに新しい知識を学習させるプロセスです。事前トレーニング済みモデルは、大量のデータでトレーニングされた汎用モデルです。ただし、ほとんどの場合、意図したとおりに動作しないため、モデルを特定のユースケースに適応させるには微調整が最も効果的な方法です。たとえば、ベース LLM シングルターン QA でのテキスト生成はうまくいきますが、チャットモデルのような複数ターンの会話では苦労します。

複数ターンの会話を行えるようにするには、基本モデルを対話のトランスクリプトでトレーニングする必要があります。事前トレーニングされたモデルをさまざまなアバターに成形するには、微調整が不可欠です。微調整モデルの品質は、データの品質と基本モデルの機能によって決まります。 LoRA、QLoRA など、モデルの微調整には複数の方法があります。

これらの概念について簡単に説明しましょう。

ロラ

LoRA は Low-rank Adaptation の略で、元の重み行列の低ランク近似を介してすべてのパラメータを更新するのではなく、いくつかのトレーニング可能なパラメータを選択する一般的な微調整手法です。 LoRA モデルは、計算量が少ないハードウェアでより速く微調整できます。

QLoRA

QLoRA または Quantized LoRA は、LoRA よりもさらに一歩進んだものです。完全精度モデルの代わりに、LoRA を適用する前にモデルの重みを量子化して浮動小数点精度を下げます。量子化は、より高いビット値をより低い値にダウンキャストするプロセスです。 4 ビットの量子化プロセスには、16 ビットの重みを 4 ビットの浮動小数点値に量子化することが含まれます。

モデルを量子化すると、元のモデルと同等の精度でモデルサイズが大幅に縮小されます。 QLoRA では、量子化されたモデルを取得し、それに LoRA を適用します。モデルは、llama.cpp、AWQ、bitsandbytes など、複数の方法で量子化できます。

Unsloth による微調整

Unsloth は、一般的な大規模言語モデルをより迅速に微調整するためのオープンソースプラットフォームです。 Llama-2 や Mistral などの人気のある LLM と、Yi、Open-hermes などの派生製品をサポートしています。カスタム Triton カーネルと手動バックプロップエンジンを実装して、モデルトレーニングの速度を向上させます。

ここでは、Unsloth を使用して、ベースの 4 ビット量子化された Tiny-Llama モデルを微調整します。アルパカデータセット。モデルはビットとバイトで量子化され、カーネルは OpenAI の Triton で最適化されます。

WandB を使用したロギング

機械学習では、トレーニングと評価のメトリクスをログに記録することが重要です。これにより、列車の運行の全体像が得られます。重みとバイアス (WandB) は、機械学習実験を視覚化および追跡するためのオープンソースライブラリです。トレーニング指標をリアルタイムで視覚化するための専用の Web アプリがあります。また、実稼働モデルを一元管理することもできます。 WandB は、Tiny-Llama の微調整実行を追跡するためにのみ使用します。

WandB を使用するには、無料アカウントにサインアップして、 APIキー.

それでは、モデルの微調整を始めましょう。

Tiny-Llama を微調整するにはどうすればよいですか?

微調整は計算負荷の高いタスクです。 10 ～ 15 GB の VRAM を搭載したマシンが必要です。または、Colab の無料の Tesla T4 GPU ランタイムを使用できます。

次に、Unsloth と WandB をインストールします

%%capture
import torch
major_version, minor_version = torch.cuda.get_device_capability()
!pip install wandb
if major_version >= 8:
    # Use this for new GPUs like Ampere, Hopper GPUs (RTX 30xx, RTX 40xx, A100, H100, L40)
    !pip install "unsloth[colab_ampere] @ git+https://github.com/unslothai/unsloth.git"
else:
    # Use this for older GPUs (V100, Tesla T4, RTX 20xx)
    !pip install "unsloth[colab] @ git+https://github.com/unslothai/unsloth.git"
pass

次に、Unsloth を使用して 4 ビット量子化事前トレーニングモデルをロードします。

from unsloth import FastLanguageModel
import torch
max_seq_length = 4096 # Choose any! We auto support RoPE Scaling internally!
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/tinyllama-bnb-4bit", # "unsloth/tinyllama" for 16bit loading
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)

これにより、モデルがローカルにインストールされます。 4 ビットモデルのサイズは約 760 MB になります。

今すぐお申し込みください PEFT 4 ビット Tiny-Llama モデルに変換します。

model = FastLanguageModel.get_peft_model(
    model,
    r = 32, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 32,
    lora_dropout = 0, # Currently only supports dropout = 0
    bias = "none",    # Currently only supports bias = "none"
    use_gradient_checkpointing = True, # @@@ IF YOU GET OUT OF MEMORY - set to True @@@
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

データを準備する

次のステップは、微調整用にデータセットを準備することです。先ほども言いましたが、洗浄したものを使用します。アルパカデータセット。これは、元の Alpaca データセットのクリーンなバージョンです。命令入力応答形式に従います。 Alpaca データの例は次のとおりです。

それでは、データを準備しましょう。

@title prepare data

#alpaca_prompt = """Below is an instruction that describes a task, paired with an input that
 provides further context.
 Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

EOS_TOKEN = tokenizer.eos_token
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    inputs       = examples["input"]
    outputs      = examples["output"]
    texts = []
    for instruction, input, output in zip(instructions, inputs, outputs):
        # Must add EOS_TOKEN, otherwise your generation will go on forever!
        text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }
pass

from datasets import load_dataset
dataset = load_dataset("yahma/alpaca-cleaned", split = "train")
dataset = dataset.map(formatting_prompts_func, batched = True,)

次に、データを train データと eval データに分割します。評価データが大きくなるとトレーニングが遅くなるため、小さな評価データを使用しました。

dataset_dict = dataset.train_test_split(test_size=0.004)

WandB の構成

次に、現在のランタイムで重みとバイアスを構成します。

# @title wandb init
import wandb
wandb.login()

プロンプトが表示されたら、WandB にログインするための API キーを入力します。

環境変数を設定します。

%env WANDB_WATCH=all
%env WANDB_SILENT=true

電車模型

これまでに、4 ビットモデルをロードし、LoRA 構成を作成し、データセットを準備し、WandB を構成しました。次のステップは、データに基づいてモデルをトレーニングすることです。そのためには、Trl ライブラリからトレーナーを定義する必要があります。 Trl の SFTrainer を使用します。ただし、その前に、WandB を初期化し、適切なトレーニング引数を定義します。

import os

from trl import SFTTrainer
from transformers import TrainingArguments
from transformers.utils import logging
import wandb

logging.set_verbosity_info()
project_name = "tiny-llama" 
entity = "wandb"
# os.environ["WANDB_LOG_MODEL"] = "checkpoint"

wandb.init(project=project_name, name = "tiny-llama-unsloth-sft")

トレーニング引数

args = TrainingArguments(
        per_device_train_batch_size = 2,
        per_device_eval_batch_size=2,
        gradient_accumulation_steps = 4,
        evaluation_strategy="steps",
        warmup_ratio = 0.1,
        num_train_epochs = 1,
        learning_rate = 2e-5,
        fp16 = not torch.cuda.is_bf16_supported(),
        bf16 = torch.cuda.is_bf16_supported(),
        optim = "adamw_8bit",
        weight_decay = 0.1,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
        report_to="wandb",  # enable logging to W&B
        # run_name="tiny-llama-alpaca-run",  # name of the W&B run (optional)
        logging_steps=1,  # how often to log to W&B
        logging_strategy = 'steps',
        save_total_limit=2,
    )

これはトレーニングにとって重要です。 GPU の使用率を低く抑えるには、トレーニング、バッチ評価、および勾配の累積ステップを低く抑えます。 logging_steps は、メトリクスが WandB に記録されるまでのステップ数です。

次に、SFTTrainer を初期化します。

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset_dict["train"],
    eval_dataset=dataset_dict["test"],
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = True, # Packs short sequences together to save time!
    args = args,
)

さあ、トレーニングを始めましょう。

trainer_stats = trainer.train()
wandb.finish()

トレーニングの実行中、WandB はトレーニングと評価のメトリクスを追跡します。指定されたダッシュボードリンクにアクセスすると、リアルタイムで表示されます。

これは、Colab ノートブックで実行したときのスクリーンショットです。

トレーニング速度は、トレーニングと評価のデータサイズ、トレーニングと評価のバッチサイズ、エポック数などの複数の要因によって決まります。 GPU 使用率の問題が発生した場合は、バッチおよび勾配累積ステップサイズを減らしてみてください。トレーニングのバッチサイズ =batch_size_per_device * gradient_accumulation_steps。そして、最適化ステップの数 = トレーニングデータの合計/バッチサイズです。パラメーターを試してみて、どれがより効果的に機能するかを確認できます。

WandB ダッシュボードでトレーニングとトレーニングの評価損失を視覚化できます。

列車損失

評価損失

推論

LoRA アダプターをローカルに保存することも、HuggingFace リポジトリーにプッシュすることもできます。

model.save_pretrained("lora_model") # Local saving
# model.push_to_hub("your_name/lora_model", token = "...") # Online saving

保存したモデルをディスクからロードして、推論に使用することもできます。

if False:
    from unsloth import FastLanguageModel
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name = "lora_model", # YOUR MODEL YOU USED FOR TRAINING
        max_seq_length = max_seq_length,
        dtype = dtype,
        load_in_4bit = load_in_4bit,
    )

inputs = tokenizer(
[
    alpaca_prompt.format(
        "capital of France?", # instruction
        "", # input
        "", # output - leave this blank for a generation!
    )
]*1, return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
tokenizer.batch_decode(outputs)

モデル応答のストリーミング用。

from transformers import TextStreamer

text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 64)

つまり、これはすべて、WandB ログを使用して Tiny-Llama モデルを微調整することについてでした。

ここにあるコラボノート同様に。

まとめ

小型 LLM は、パーソナルコンピューター、携帯電話、その他のウェアラブルなど、コンピューティングが制限されたハードウェアに展開する場合に有益です。微調整により、これらのモデルはダウンストリームタスクでのパフォーマンスを向上させることができます。この記事では、データセットの基本言語モデルを微調整する方法を学びました。