QLoRA를 사용하여 Llama 2를 미세 조정하고 AWS Inferentia2를 사용하여 Amazon SageMaker에 배포

플라톤에 의해 재발행

팔로워 : 0

이 게시물에서는 PEFT(Parameter-Efficient Fine-Tuning) 방법을 사용하여 Llama 2 모델을 미세 조정하고 미세 조정된 모델을 AWS 인퍼렌시아2. 우리는 AWS 뉴런 AWS Inferentia2 디바이스에 액세스하고 고성능의 이점을 누릴 수 있는 SDK(소프트웨어 개발 키트)입니다. 그런 다음 다음으로 구동되는 대규모 모델 추론 컨테이너를 사용합니다. 딥 자바 라이브러리 (DJLServing)을 모델 서비스 솔루션으로 사용합니다.

솔루션 개요

QLoRa를 사용한 효율적인 미세 조정 Llama2

Llama 2 LLM(대형 언어 모델) 제품군은 7억~70억 개의 매개변수 범위에 이르는 사전 학습되고 미세 조정된 생성 텍스트 모델 컬렉션입니다. Llama 2는 공개적으로 이용 가능한 소스에서 얻은 2조 개의 토큰 데이터를 바탕으로 사전 훈련되었습니다. AWS 고객은 다운스트림 작업에 대한 더 나은 성능을 달성하기 위해 고객 자신의 데이터를 사용하여 Llama 2 모델을 미세 조정하는 경우가 있습니다. 그러나 Llama 2 모델의 매개변수 수가 많기 때문에 전체 미세 조정에는 엄청나게 많은 비용과 시간이 소요될 수 있습니다. PEFT(Parameter-Efficient Fine-Tuning) 접근 방식은 사전 훈련된 모델의 대부분의 매개변수를 동결하면서 소수의 추가 모델 매개변수만 미세 조정하여 이 문제를 해결할 수 있습니다. PEFT에 대한 자세한 내용은 다음을 참조하세요. 게시. 이번 포스팅에서는 QLoRa Llama 2 7B 모델을 미세 조정합니다.

Amazon SageMaker를 사용하여 Inf2에 미세 조정된 모델 배포

AWS Inferentia2는 추론 워크로드용으로 특별히 설계된 ML(기계 학습) 가속기이며, AWS의 다른 추론 최적화 인스턴스에 비해 생성 AI 및 LLM 워크로드에 대해 최대 40% 저렴한 비용으로 고성능을 제공합니다. 이 게시물에서는 Amazon Elastic Compute Cloud(Amazon EC2) 2세대 Inferentia2 액셀러레이터인 AWS Inferentia2를 갖춘 InfXNUMX 인스턴스(각각 XNUMX개 포함) NeuronCores-v2. 각 NeuronCore-v2는 Tensor, Vector, Scalar 및 GPSIMD 엔진의 2가지 주요 엔진을 갖춘 독립적인 이기종 컴퓨팅 유닛입니다. 여기에는 데이터 위치성을 극대화하기 위한 온칩 소프트웨어 관리형 SRAM 메모리가 포함되어 있습니다. InfXNUMX에 대한 여러 블로그가 게시되었으므로 독자는 이 내용을 참조할 수 있습니다. 게시 & 선적 서류 비치 Inf2에 대한 자세한 내용은

Inf2에 모델을 배포하려면 Inf2 하드웨어 위에서 실행되는 소프트웨어 계층인 AWS Neuron SDK가 필요합니다. AWS Neuron은 AWS Inferentia에서 딥 러닝 워크로드를 실행하는 데 사용되는 SDK입니다. AWS 트레이닝 기반 인스턴스. 엔드투엔드 ML 개발 수명 주기에서 새 모델을 구축하고, 이러한 모델을 교육 및 최적화하고, 프로덕션을 위해 배포할 수 있습니다. AWS Neuron에는 딥 러닝이 포함되어 있습니다. 컴파일러, 런타임및 검색을 TensorFlow 및 PyTorch와 같은 널리 사용되는 프레임워크와 기본적으로 통합됩니다. 이번 블로그에서 우리가 사용할 transformers-neuronx이는 변환기 디코더 추론 워크플로를 위한 AWS Neuron SDK의 일부입니다. 그것 지원 Llama 2를 포함한 다양한 인기 모델.

모델을 배포하려면 아마존 세이지 메이커, 우리는 일반적으로 Neuron SDK와 같은 필수 라이브러리가 포함된 컨테이너를 사용합니다. transformers-neuronx 모델 제공 구성요소도 마찬가지입니다. Amazon SageMaker는 유지 관리합니다. 딥 러닝 컨테이너 (DLC)에는 대규모 모델 호스팅을 위한 인기 있는 오픈 소스 라이브러리가 포함되어 있습니다. 이번 포스팅에서는 뉴런을 위한 대형 모델 추론 컨테이너. 이 컨테이너에는 Inf2에 Llama 2 모델을 배포하는 데 필요한 모든 것이 포함되어 있습니다. Amazon SageMaker에서 LMI를 시작하는 데 필요한 리소스는 기존 게시물(블로그 1, 블로그 2, 블로그 3) 이 주제에 대해. 즉, 추가 코드를 작성하지 않고도 컨테이너를 실행할 수 있습니다. 당신은 사용할 수 있습니다 기본 핸들러 원활한 사용자 경험을 위해 지원되는 모델 이름 중 하나와 로드 시간 구성 가능한 매개변수를 전달합니다. 이는 Inf2 인스턴스에서 LLM을 컴파일하고 제공합니다. 예를 들어 배포하려면 OpenAssistant/llama2-13b-orca-8k-3319, 다음과 같은 구성을 제공할 수 있습니다(예: serving.properties 파일). ~ 안에 serving.properties, 모델 유형을 다음과 같이 지정합니다. llama2-13b-orca-8k-3319, 배치 크기는 4, 텐서 병렬도는 2, 그게 전부입니다. 구성 가능한 매개변수의 전체 목록은 다음을 참조하세요. 모든 DJL 구성 옵션.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python 
# default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. 
option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

또는 다음과 같이 고유한 모델 핸들러 파일을 작성할 수 있습니다. 예하지만 이를 위해서는 DJLServing API 간의 브리지 역할을 하는 모델 로딩 및 추론 방법을 구현해야 합니다.

사전 조건

다음 목록에는 이 블로그 게시물에 설명된 모델을 배포하기 위한 전제 조건이 간략하게 설명되어 있습니다. 다음 중 하나를 구현할 수 있습니다. AWS 관리 콘솔 또는 최신 버전을 사용하여 AWS 명령 줄 인터페이스 (AWS CLI).

연습

다음 섹션에서는 코드를 두 부분으로 나누어 살펴보겠습니다.

Llama2-7b 모델을 미세 조정하고 모델 아티팩트를 지정된 Amazon S3 버킷 위치에 업로드합니다.
Amazon SageMaker에서 호스팅되는 DJL 제공 컨테이너를 사용하여 Inferentia2에 모델을 배포합니다.

지침이 포함된 전체 코드 샘플은 여기에서 찾을 수 있습니다. GitHub의 저장소.

1부: PEFT를 사용하여 Llama2-7b 모델 미세 조정

최근 논문에서 소개된 방법을 사용하겠습니다. QLoRA: 언어 생성을 위한 양자화 인식 하위 어댑터 튜닝 Tim Dettmers 외. QLoRA는 성능 저하 없이 미세 조정 중에 대규모 언어 모델의 메모리 공간을 줄이는 새로운 기술입니다.

참고 : 다음에 표시된 llama2-7b 모델의 미세 조정은 Amazon에서 테스트되었습니다. SageMaker Studio 노트북 Python 2.0 GPU 최적화 커널을 사용하여 ml.g5.2xlarge 인스턴스 유형. 모범 사례로 다음을 사용하는 것이 좋습니다. 아마존 세이지 메이커 스튜디오 자체 개발 환경(IDE) 출시 아마존 가상 프라이빗 클라우드 (Amazon VPC). 이를 통해 표준 AWS 네트워킹 및 보안 기능을 사용하여 VPC 내부 및 외부의 네트워크 트래픽을 제어, 모니터링 및 검사 할 수 있습니다. 자세한 내용은 프라이빗 VPC를 사용하여 Amazon SageMaker Studio 연결 보호.

기본 모델 양자화

먼저 다음을 사용하여 4비트 양자화로 양자화된 모델을 로드합니다. 허깅페이스 트랜스포머 다음과 같이 라이브러리:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf"

# The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k"

#Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False

compute_dtype = getattr(torch, bnb_4bit_compute_dtype)

bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
)

# Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

학습 데이터세트 로드

다음으로, 다음과 같이 미세 조정 단계를 위해 모델에 공급하기 위해 데이터 세트를 로드합니다.

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

어댑터 레이어 연결

여기에는 다음과 같이 구성된 훈련 가능한 작은 어댑터 레이어를 연결합니다. Lora구성 Hugging Face's에 정의된 페프트 도서관.

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model)

## Setting up LoRA configuration
lora_r = 64

# Alpha parameter for LoRA scaling
lora_alpha = 16

# Dropout probability for LoRA layers
lora_dropout = 0.1

peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

모델 훈련

위에 표시된 LoRA 구성을 사용하여 하이퍼 매개변수와 함께 Llama2 모델을 미세 조정합니다. 모델 학습을 위한 코드 조각은 다음과 같습니다.

# Set training parameters
training_arguments = TrainingArguments(...)

trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
)

# Train model
trainer.train()

# Save trained model
trainer.model.save_pretrained(new_model)

모델 가중치 병합

위에서 실행된 미세 조정 모델은 훈련된 LoRA 어댑터 가중치를 포함하는 새로운 모델을 생성했습니다. 다음 코드 조각에서는 추론을 위해 미세 조정된 모델을 사용할 수 있도록 어댑터를 기본 모델과 병합합니다.

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload()

save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB")

# Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

Amazon S3에 모델 가중치 업로드

1부의 마지막 단계에서는 병합된 모델 가중치를 지정된 Amazon S3 위치에 저장합니다. 모델 가중치는 Amazon SageMaker의 모델 제공 컨테이너에서 Inferentia2 인스턴스를 사용하여 모델을 호스팅하는 데 사용됩니다.

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

2부: SageMaker LMI 컨테이너를 사용하여 AWS Inf2로 추론하기 위한 QLoRA 모델 호스팅

이 섹션에서는 QLoRA 미세 조정 모델을 Amazon SageMaker 호스팅 환경에 배포하는 단계를 살펴보겠습니다. 우리는 DJL 서빙 SageMaker의 컨테이너 DLC, 이는 변압기-neuronx 이 모델을 호스팅할 라이브러리입니다. 이 설정은 모델을 AWS Inferentia2 액셀러레이터에 쉽게 로드하고, 여러 NeuronCore에서 모델을 병렬화하며, HTTP 엔드포인트를 통한 서비스 제공을 활성화합니다.

모델 아티팩트 준비

DJL은 다음을 포함하여 다양한 딥 러닝 최적화 라이브러리를 지원합니다. 딥스피드, 더 빠른 변압기 그리고 더. 모델별 구성의 경우 다음을 제공합니다. serving.properties 다음과 같은 주요 매개변수를 사용합니다. tensor_parallel_degree 및 model_id 모델 로딩 옵션을 정의합니다. 그만큼 model_id Hugging Face 모델 ID이거나 모델 가중치가 저장되는 Amazon S3 경로일 수 있습니다. 이 예에서는 미세 조정된 모델의 Amazon S3 위치를 제공합니다. 다음 코드 스니펫은 모델 제공에 사용되는 속성을 보여줍니다.

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

이것을 참조하십시오 선적 서류 비치 다음을 통해 사용할 수 있는 구성 가능한 옵션에 대한 자세한 내용은 serving.properties. 사용하고 있으니 참고해주세요 option.n_position=512 더 빠른 AWS Neuron 컴파일을 위해 이 블로그를 방문하세요. 더 큰 입력 토큰 길이를 시도하려면 독자가 미리 모델을 사전 컴파일하는 것이 좋습니다(참조 EC2의 AOT 사전 컴파일 모델). 그렇지 않으면 컴파일 시간이 너무 길어지면 시간 초과 오류가 발생할 수 있습니다.

후 serving.properties 파일이 정의되면 파일을 tar.gz 다음과 같은 형식:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

그런 다음 tar.gz를 Amazon S3 버킷 위치에 업로드합니다.

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

Amazon SageMaker 모델 엔드포인트 생성

Inf2 인스턴스를 사용하여 제공하기 위해 Amazon을 사용합니다. SageMaker LMI 컨테이너 DJL NeuronX 지원. 이것을 참고하세요 게시 추론을 위해 DJL NeuronX 컨테이너를 사용하는 방법에 대한 자세한 내용을 확인하세요. 다음 코드는 Amazon SageMaker Python SDK를 사용하여 모델을 배포하는 방법을 보여줍니다.

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
)

# Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge"

endpoint_name = sagemaker.utils.name_from_base("lmi-model")

# Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name)

# our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

테스트 모델 엔드포인트

모델이 성공적으로 배포되면 예측자에 샘플 요청을 보내 엔드포인트를 검증할 수 있습니다.

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]"

response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
)

print(json.loads(response)['generated_text'])

샘플 출력은 다음과 같이 표시됩니다.

데이터 분석의 맥락에서, 머신러닝(ML)은 통계의 범위를 반복적으로 좁혀 복잡성과 정확도를 높여 데이터세트에서 예측력을 추출할 수 있는 통계 기법을 말합니다.

머신러닝은 새로운 통계 기법이 아니라 기존 기법을 결합한 것입니다. 또한 특정 데이터 세트와 함께 사용하거나 특정 결과를 생성하도록 설계되지 않았습니다. 오히려 모든 데이터 세트에 적응하고 결과를 예측할 수 있을 만큼 유연하게 설계되었습니다.

정리

SageMaker 엔드포인트를 더 이상 실행하지 않기로 결정한 경우 다음을 사용하여 삭제할 수 있습니다. Python용 AWS SDK(boto3), AWS CLI 또는 Amazon SageMaker 콘솔. 또한 Amazon SageMaker Studio 리소스 종료 더 이상 필요하지 않습니다.

결론

이 게시물에서는 단일 GPU 인스턴스를 사용하여 2비트 양자화 기능이 있는 LoRA 어댑터를 사용하여 Llama7-4b 모델을 미세 조정하는 방법을 보여주었습니다. 그런 다음 DJL 제공 컨테이너를 사용하여 Amazon SageMaker에서 호스팅되는 Inf2 인스턴스에 모델을 배포했습니다. 마지막으로 SageMaker Python SDK를 사용한 텍스트 생성 예측으로 Amazon SageMaker 모델 엔드포인트를 검증했습니다. 계속해서 시도해 보십시오. 우리는 귀하의 의견을 듣고 싶습니다. AWS Inferentia의 더 많은 기능과 새로운 혁신에 대한 업데이트를 계속 지켜봐 주시기 바랍니다.

AWS Neuron에 대한 추가 예는 다음을 참조하십시오. AWS 뉴런 샘플.

저자에 관하여

웨이 테 AWS의 수석 AI/ML 전문가 솔루션 아키텍트입니다. 그는 Amazon Machine Learning 서비스와 기계 학습 기반 솔루션에 중점을 두고 고객이 AWS 여정을 발전시킬 수 있도록 돕는 데 열정을 쏟고 있습니다. 업무 외에는 가족과 함께 캠핑, 낚시, 등산 등 야외 활동을 즐깁니다.

칭웨나는 리 Amazon Web Services의 기계 학습 전문가입니다. 그는 박사 학위를 받았습니다. 그는 고문의 연구 보조금 계좌를 깨고 그가 약속 한 노벨상을 전달하지 못한 후 Operations Research에서 현재 그는 금융 서비스 및 보험 업계의 고객이 AWS에서 기계 학습 솔루션을 구축하도록 돕습니다. 여가 시간에는 읽기와 가르치기를 좋아합니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/fine-tune-llama-2-using-qlora-and-deploy-it-on-amazon-sagemaker-with-aws-inferentia2/

타임 스탬프 : 2023 년 12 월 13 일

타임 스탬프 : 2023 년 5 월 17 일

플라톤에 의해 재발행

품질과 책임에 대해 대규모 언어 모델 평가 | 아마존 웹 서비스

MLOps용 Amazon Comprehend 플라이휠 소개

Amazon Textract 및 Amazon A2I를 사용하여 사람의 감독으로 거래 문서의 디지털화 자동화

VPC를 지원하는 Amazon Kendra S3 커넥터를 사용하여 정확하게 답변 검색

향상된 평가 및 분석을 위한 Amazon Textract Bulk Document Uploader 소개 | 아마존 웹 서비스

AWS Lake Formation을 사용하여 오프라인에서 Amazon SageMaker Feature Store에 대한 액세스 제어

Amazon SageMaker Data Wrangler를 사용하여 데이터 준비 및 Studio Labs를 사용하여 ML 학습 및 실험

Amazon SageMaker JumpStart에서 대규모 언어 모델로 서버리스 회의 요약 백엔드 구축 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정