Reduza o tempo de inferência para modelos BERT usando pesquisa de arquitetura neural e ajuste automatizado de modelo SageMaker | Amazon Web Services

Republicado por Platão

seguidores: 0

Nesta postagem, demonstramos como usar a poda estrutural baseada em pesquisa de arquitetura neural (NAS) para compactar um modelo BERT ajustado para melhorar o desempenho do modelo e reduzir os tempos de inferência. Modelos de linguagem pré-treinados (PLMs) estão passando por rápida adoção comercial e empresarial nas áreas de ferramentas de produtividade, atendimento ao cliente, pesquisa e recomendações, automação de processos de negócios e criação de conteúdo. A implantação de endpoints de inferência de PLM normalmente está associada a maior latência e maiores custos de infraestrutura devido aos requisitos de computação e à redução da eficiência computacional devido ao grande número de parâmetros. A remoção de um PLM reduz o tamanho e a complexidade do modelo, mantendo seus recursos preditivos. PLMs eliminados alcançam menor consumo de memória e menor latência. Demonstramos isso, eliminando um PLM e trocando a contagem de parâmetros e o erro de validação para uma tarefa de destino específica, e somos capazes de obter tempos de resposta mais rápidos quando comparados ao modelo PLM básico.

A otimização multiobjetivo é uma área de tomada de decisão que otimiza mais de uma função objetivo, como consumo de memória, tempo de treinamento e recursos computacionais, para serem otimizados simultaneamente. A poda estrutural é uma técnica para reduzir o tamanho e os requisitos computacionais do PLM, removendo camadas ou neurônios/nós enquanto tenta preservar a precisão do modelo. Ao remover camadas, a poda estrutural atinge taxas de compressão mais altas, o que leva a uma dispersão estruturada amigável ao hardware que reduz os tempos de execução e de resposta. A aplicação de uma técnica de remoção estrutural a um modelo PLM resulta em um modelo mais leve com menor consumo de memória que, quando hospedado como um endpoint de inferência no SageMaker, oferece maior eficiência de recursos e custo reduzido quando comparado ao PLM original ajustado.

Os conceitos ilustrados nesta postagem podem ser aplicados a aplicações que utilizam recursos de PLM, como sistemas de recomendação, análise de sentimento e mecanismos de busca. Especificamente, você pode usar essa abordagem se tiver equipes dedicadas de aprendizado de máquina (ML) e ciência de dados que ajustam seus próprios modelos de PLM usando conjuntos de dados específicos de domínio e implantam um grande número de pontos de extremidade de inferência usando Amazon Sage Maker. Um exemplo é um varejista on-line que implanta um grande número de pontos de extremidade de inferência para resumo de texto, classificação de catálogo de produtos e classificação de sentimento de feedback de produto. Outro exemplo pode ser um prestador de cuidados de saúde que utiliza pontos finais de inferência PLM para classificação de documentos clínicos, reconhecimento de entidades nomeadas a partir de relatórios médicos, chatbots médicos e estratificação de risco do paciente.

Visão geral da solução

Nesta seção, apresentamos o fluxo de trabalho geral e explicamos a abordagem. Primeiro, usamos um Estúdio Amazon SageMaker caderno para ajustar um modelo BERT pré-treinado em uma tarefa de destino usando um conjunto de dados específico de domínio. BERT (Representações de codificador bidirecional de transformadores) é um modelo de linguagem pré-treinado baseado no arquitetura do transformador usado para tarefas de processamento de linguagem natural (PNL). A pesquisa de arquitetura neural (NAS) é uma abordagem para automatizar o projeto de redes neurais artificiais e está intimamente relacionada à otimização de hiperparâmetros, uma abordagem amplamente utilizada na área de aprendizado de máquina. O objetivo do NAS é encontrar a arquitetura ideal para um determinado problema, pesquisando um grande conjunto de arquiteturas candidatas usando técnicas como otimização sem gradiente ou otimizando as métricas desejadas. O desempenho da arquitetura normalmente é medido usando métricas como perda de validação. Ajuste automático de modelos do SageMaker (AMT) automatiza o processo tedioso e complexo de encontrar as combinações ideais de hiperparâmetros do modelo de ML que produzem o melhor desempenho do modelo. AMT usa algoritmos de pesquisa inteligentes e avaliações iterativas usando uma variedade de hiperparâmetros especificados por você. Ele escolhe os valores dos hiperparâmetros que criam um modelo com melhor desempenho, conforme medido por métricas de desempenho, como precisão e pontuação F-1.

A abordagem de ajuste fino descrita nesta postagem é genérica e pode ser aplicada a qualquer conjunto de dados baseado em texto. A tarefa atribuída ao BERT PLM pode ser uma tarefa baseada em texto, como análise de sentimento, classificação de texto ou perguntas e respostas. Nesta demonstração, a tarefa alvo é um problema de classificação binária onde o BERT é usado para identificar, a partir de um conjunto de dados que consiste em uma coleção de pares de fragmentos de texto, se o significado de um fragmento de texto pode ser inferido do outro fragmento. Nós usamos o Reconhecendo conjunto de dados de implicação textual do conjunto de benchmarking GLUE. Realizamos uma pesquisa multiobjetivo usando o SageMaker AMT para identificar as sub-redes que oferecem compensações ideais entre a contagem de parâmetros e a precisão da previsão para a tarefa alvo. Ao realizar uma pesquisa multiobjetivo, começamos definindo a precisão e a contagem de parâmetros como os objetivos que pretendemos otimizar.

Dentro da rede BERT PLM, pode haver sub-redes modulares e independentes que permitem que o modelo tenha recursos especializados, como compreensão de linguagem e representação de conhecimento. O BERT PLM usa uma sub-rede de autoatenção com várias cabeças e uma sub-rede feed-forward. Uma camada de autoatenção com múltiplas cabeças permite que o BERT relacione diferentes posições de uma única sequência, a fim de calcular uma representação da sequência, permitindo que múltiplas cabeças atendam a vários sinais de contexto. A entrada é dividida em vários subespaços e a autoatenção é aplicada a cada um dos subespaços separadamente. Múltiplos cabeçotes em um PLM de transformador permitem que o modelo atenda conjuntamente às informações de diferentes subespaços de representação. Uma sub-rede feed-forward é uma rede neural simples que obtém a saída da sub-rede de autoatenção com várias cabeças, processa os dados e retorna as representações finais do codificador.

O objetivo da amostragem aleatória de sub-redes é treinar modelos BERT menores que possam funcionar bem o suficiente nas tarefas alvo. Amostramos 100 sub-redes aleatórias do modelo BERT básico ajustado e avaliamos 10 redes simultaneamente. As sub-redes treinadas são avaliadas quanto às métricas objetivas e o modelo final é escolhido com base nas compensações encontradas entre as métricas objetivas. Visualizamos o Frente de Pareto para as sub-redes amostradas, que contém o modelo podado que oferece o compromisso ideal entre a precisão do modelo e o tamanho do modelo. Selecionamos a sub-rede candidata (modelo BERT podado por NAS) com base no tamanho do modelo e na precisão do modelo que estamos dispostos a negociar. Em seguida, hospedamos os endpoints, o modelo base BERT pré-treinado e o modelo BERT podado em NAS usando SageMaker. Para realizar testes de carga, usamos Gafanhoto, uma ferramenta de teste de carga de código aberto que você pode implementar usando Python. Executamos testes de carga em ambos os endpoints usando Locust e visualizamos os resultados usando a frente de Pareto para ilustrar a compensação entre tempos de resposta e precisão para ambos os modelos. O diagrama a seguir fornece uma visão geral do fluxo de trabalho explicado nesta postagem.

Pré-requisitos

Para esta postagem são necessários os seguintes pré-requisitos:

Você também precisa aumentar o cota de serviço para acessar pelo menos três instâncias de instâncias ml.g4dn.xlarge no SageMaker. O tipo de instância ml.g4dn.xlarge é a instância de GPU econômica que permite executar PyTorch nativamente. Para aumentar a cota de serviço, conclua as etapas a seguir:

No console, navegue até Cotas de serviço.
Escolha Gerenciar cotas, escolha Amazon Sage Maker, Em seguida, escolha Ver cotas.

Pesquise “ml-g4dn.xlarge para uso de trabalho de treinamento” e selecione o item de cota.
Escolha Solicitar aumento no nível da conta.

Escolha Aumentar o valor da cota, insira um valor de 5 ou superior.
Escolha SOLICITAÇÃO.

A aprovação da cota solicitada pode levar algum tempo para ser concluída, dependendo das permissões da conta.

Abra o SageMaker Studio no console do SageMaker.

Escolha Terminal do sistema para Utilitários e arquivos.

Execute o seguinte comando para clonar o GitHub repo para a instância do SageMaker Studio:
```
git clone https://github.com/aws/amazon-sagemaker-examples.git
```
Navegar para amazon-sagemaker-examples/hyperparameter_tuning/neural_architecture_search_llm.
Abra o arquivo nas_for_llm_with_amt.ipynb.
Configure o ambiente com um ml.g4dn.xlarge instância e escolha Selecionar.

Configure o modelo BERT pré-treinado

Nesta seção, importamos o conjunto de dados Recognizing Textual Entailment da biblioteca de conjuntos de dados e dividimos o conjunto de dados em conjuntos de treinamento e validação. Este conjunto de dados consiste em pares de frases. A tarefa do BERT PLM é reconhecer, dados dois fragmentos de texto, se o significado de um fragmento de texto pode ser inferido do outro fragmento. No exemplo a seguir, podemos inferir o significado da primeira frase a partir da segunda frase:

Phrase 1: A man with a beard, wearing a red shirt with gray sleeves and work gloves, pulling on a rope.
Phrase 2: A bearded man pulls a rope

Carregamos o conjunto de dados de implicação de reconhecimento textual do COLA conjunto de benchmarking através do biblioteca de conjunto de dados do Hugging Face dentro do nosso roteiro de treinamento (./training.py). Dividimos o conjunto de dados de treinamento original do GLUE em um conjunto de treinamento e validação. Em nossa abordagem, ajustamos o modelo BERT básico usando o conjunto de dados de treinamento e, em seguida, realizamos uma pesquisa multiobjetivo para identificar o conjunto de sub-redes que se equilibram de maneira ideal entre as métricas objetivas. Usamos o conjunto de dados de treinamento exclusivamente para ajustar o modelo BERT. No entanto, usamos dados de validação para a pesquisa multiobjetivo, medindo a precisão no conjunto de dados de validação de validação.

Ajuste o BERT PLM usando um conjunto de dados específico do domínio

Os casos de uso típicos para um modelo BERT bruto incluem previsão da próxima frase ou modelagem de linguagem mascarada. Para usar o modelo BERT básico para tarefas posteriores, como implicação de reconhecimento textual, temos que ajustar ainda mais o modelo usando um conjunto de dados específico do domínio. Você pode usar um modelo BERT ajustado para tarefas como classificação de sequência, resposta a perguntas e classificação de token. No entanto, para os fins desta demonstração, usamos o modelo ajustado para classificação binária. Ajustamos o modelo BERT pré-treinado com o conjunto de dados de treinamento que preparamos anteriormente, usando os seguintes hiperparâmetros:

hyperparameters["per_device_train_batch_size"] = 8
hyperparameters["per_device_eval_batch_size"] = 8
hyperparameters["learning_rate"] = 2e-05
hyperparameters["num_train_epochs"] = 5
hyperparameters["save_strategy"] = "epoch"
hyperparameters[
"is_regression"
] = False  # set this to True if your dataset is a regression dataset, for example STSB

Salvamos o ponto de verificação do treinamento do modelo em um Serviço de armazenamento simples da Amazon (Amazon S3), para que o modelo possa ser carregado durante a pesquisa multiobjetivo baseada em NAS. Antes de treinarmos o modelo, definimos as métricas como época, perda de treinamento, número de parâmetros e erro de validação:

session = Session()
s3_bucket = session.default_bucket()
s3_bucket_prefix = "nas_amt/model_checkpoint"
s3_path = f"s3://{s3_bucket}/{s3_bucket_prefix}"

metric_definitions = [
    {"Name": "epoch", "Regex": "epoch: ([0-9.]+)"},
    {"Name": "training-loss", "Regex": "training loss: ([0-9.]+)"},
    {"Name": "num-parameters", "Regex": "number of parameters: ([0-9.]+)"},
    {"Name": "validation-error", "Regex": "validation error: ([0-9.]+)"},
]

sm_args = dict(
    entry_point="training.py",
    source_dir=os.path.abspath(""),
    instance_type="ml.g4dn.xlarge",
    instance_count=1,
    py_version="py39",
    framework_version="1.13",
    transformers_version="4.26",
    max_run=3600 * 72,
    role=get_execution_role(),
    checkpoint_local_path="/opt/ml/checkpoints",
    hyperparameters=hyperparameters,
    checkpoint_s3_uri=s3_path,
    metric_definitions=metric_definitions,
)
est = PyTorch(**sm_args)
est.fit()

Após o início do processo de ajuste fino, o trabalho de treinamento leva cerca de 15 minutos para ser concluído.

Realize uma pesquisa multiobjetivo para selecionar sub-redes e visualizar os resultados

Na próxima etapa, realizamos uma pesquisa multiobjetivo no modelo BERT de base ajustado, amostrando sub-redes aleatórias usando SageMaker AMT. Para acessar uma sub-rede dentro da super-rede (o modelo BERT ajustado), mascaramos todos os componentes do PLM que não fazem parte da sub-rede. Mascarar uma super-rede para encontrar sub-redes em um PLM é uma técnica usada para isolar e identificar padrões de comportamento do modelo. Observe que os transformadores Hugging Face precisam que o tamanho oculto seja um múltiplo do número de cabeças. O tamanho oculto em um PLM de transformador controla o tamanho do espaço vetorial de estado oculto, o que afeta a capacidade do modelo de aprender representações e padrões complexos nos dados. Em um BERT PLM, o vetor de estado oculto tem tamanho fixo (768). Não podemos alterar o tamanho oculto e, portanto, o número de caras deve estar em [1, 3, 6, 12].

Em contraste com a otimização de objetivo único, no cenário multiobjetivo, normalmente não temos uma solução única que otimize simultaneamente todos os objetivos. Em vez disso, pretendemos coletar um conjunto de soluções que domine todas as outras soluções em pelo menos um objetivo (como erro de validação). Agora podemos iniciar a busca multiobjetivo através do AMT definindo as métricas que queremos reduzir (erro de validação e número de parâmetros). As sub-redes aleatórias são definidas pelo parâmetro max_jobs e o número de jobs simultâneos é definido pelo parâmetro max_parallel_jobs. O código para carregar o ponto de verificação do modelo e avaliar a sub-rede está disponível no arquivo evaluate_subnetwork.py script.

# Maximum number of sub-networks we will evaluate
max_jobs = 100
max_parallel_jobs = 5

# Entry point script to load the super-network and evaluate a sub-network
entry_point = "evaluate_subnetwork.py"

# Command line arguments for the entry point script
hyperparameters = {"model_name_or_path": model_type, "output_dir": "./tmp", "task_name": "rte"}

# Define the metric we want to minimize
metric_definitions = [
    {"Name": "num-parameters", "Regex": "number of parameters: ([0-9.]+)"},
    {"Name": "validation-error", "Regex": "validation error: ([0-9.]+)"},
]

# Define HuggingFace estimator
estimator = HuggingFace(
    entry_point=entry_point,
    source_dir="./",
    instance_type="ml.g4dn.xlarge",  # instance types for the SageMaker training jobs
    instance_count=1,
    py_version="py39",
    framework_version="1.13",
    pytorch_version="1.13",
    transformers_version="4.26",
    max_run=3600 * 72,
    role=get_execution_role(),
    volume_size=125,
    model_uri=s3_path,
    hyperparameters=hyperparameters,
)

current_time = datetime.now().strftime("%m-%d-%Y-%H-%M-%S")
tuning_job_name = f"nas-search-{current_time}"

# Search space to define sub-networks
hyperparameter_ranges = {
    "num_layers": IntegerParameter(0, 12),
    # To meet HuggingFace constraints, we can only set the number of head to these values
    "num_heads": CategoricalParameter([1, 3, 6, 12]),
    "num_units": IntegerParameter(0, 3072),
}

# Define AMT Tuner object
my_tuner = HyperparameterTuner(
    estimator=estimator,
    objective_metric_name="validation-error",
    hyperparameter_ranges=hyperparameter_ranges,
    metric_definitions=metric_definitions,
    max_jobs=max_jobs,
    strategy="Random",
    random_seed=seed,
    objective_type="Minimize",
    max_parallel_jobs=max_parallel_jobs,
)

# Start hyperparameter tuning job
my_tuner.fit(job_name=tuning_job_name)

A tarefa de ajuste do AMT leva aproximadamente 2 horas e 20 minutos para ser executada. Após a execução bem-sucedida do trabalho de ajuste AMT, analisamos o histórico do trabalho e coletamos as configurações da sub-rede, como número de cabeçotes, número de camadas, número de unidades e as métricas correspondentes, como erro de validação e número de parâmetros. A captura de tela a seguir mostra o resumo de um trabalho de sintonizador AMT bem-sucedido.

A seguir, visualizamos os resultados usando um conjunto de Pareto (também conhecido como fronteira de Pareto ou conjunto ótimo de Pareto), que nos ajuda a identificar conjuntos ideais de sub-redes que dominam todas as outras sub-redes na métrica objetiva (erro de validação):

history = my_tuner.analytics().dataframe()
data = []
configs = []
for i, t in enumerate(my_tuner.analytics().training_job_summaries()):
    jn = t["TrainingJobName"]
    df = sagemaker.analytics.TrainingJobAnalytics(jn).dataframe()

    row = history[history["TrainingJobName"] == jn]
    config = {
        "num-heads": int(row["num_heads"].iloc[0].strip('"')),
        "num-layers": int(row["num_layers"]),
        "num-units": int(row["num_units"]),
    }
    configs.append(config)

    p = []
    for j, metric in enumerate(metric_definitions):
        metric_name = metric["Name"]
        if "metric_name" not in df.keys():
            continue
        y = float(df[df["metric_name"] == metric_name]["value"])
        p.append(y)
    if len(p) > 0:
        data.append(p)

data = np.array(data)

Primeiro, coletamos os dados do trabalho de ajuste do AMT. Então plotamos o conjunto de Pareto usando matplotlob.pyplot com número de parâmetros no eixo x e erro de validação no eixo y. Isto implica que quando passamos de uma sub-rede do conjunto de Pareto para outra, devemos sacrificar o desempenho ou o tamanho do modelo, mas melhorar o outro. Em última análise, o conjunto de Pareto nos proporciona flexibilidade para escolher a sub-rede que melhor atende às nossas preferências. Podemos decidir quanto queremos reduzir o tamanho da nossa rede e quanto desempenho estamos dispostos a sacrificar.

import matplotlib.pyplot as plt
from multi_objective import get_pareto_optimal

# get results of the un-pruned network
df = sagemaker.analytics.TrainingJobAnalytics(est.jobs[0].name).dataframe()
validation_error_unpruned_network = float(df[df["metric_name"] == "validation-error"].value.min())
params_unpruned_network = int(df[df["metric_name"] == "num-parameters"].value.min())
plt.scatter(
params_unpruned_network,
validation_error_unpruned_network,
marker="o",
s=80,
facecolors="none",
edgecolors="C3",
linewidth=2,
label="un-pruned super-network",
)
# get Pareto optimal points
idx = get_pareto_optimal(data)
x = data[idx, 0]
y = data[idx, 1]
plt.scatter(
x,
y,
marker="o",
s=80,
facecolors="none",
edgecolors="C0",
linewidth=2,
label="Pareto front (sub-networks)",
)
plt.xlabel("number of parameters")
plt.ylabel("validation error")
plt.legend()
plt.xscale("log")
plt.grid(linewidth="1", alpha=0.4, which="both")

Implante o modelo BERT ajustado e o modelo de sub-rede otimizado para NAS usando SageMaker

Em seguida, implantamos o maior modelo em nosso conjunto de Pareto que leva à menor quantidade de degeneração de desempenho para um Endpoint SageMaker. O melhor modelo é aquele que fornece um equilíbrio ideal entre o erro de validação e o número de parâmetros para o nosso caso de uso.

# Let's take the largest model in the Pareto set
indicies = np.arange(len(configs))[idx]
pareto_optimal_sub_networks = [configs[i] for i in indicies]
config_to_deploy = pareto_optimal_sub_networks[-1]  

from sagemaker.huggingface.model import HuggingFaceModel

# create Hugging Face Model Class
huggingface_model = HuggingFaceModel(
    model_data=s3_path + "/model.tar.gz",
    role=get_execution_role(),
    transformers_version="4.26",
    pytorch_version="1.13",
    py_version="py39",
    entry_point="inference.py",
    source_dir="./",
    env={"SM_HPS": json.dumps(config_to_deploy)},
)

# deploy model to SageMaker Inference
predictor = huggingface_model.deploy(initial_instance_count=1, instance_type="ml.g4dn.xlarge")

Comparação de modelos

Pegamos um modelo BERT básico pré-treinado, ajustamos-o usando um conjunto de dados específico de domínio, executamos uma pesquisa NAS para identificar sub-redes dominantes com base nas métricas objetivas e implantamos o modelo removido em um endpoint SageMaker. Além disso, pegamos o modelo BERT básico pré-treinado e implantamos o modelo básico em um segundo endpoint SageMaker. A seguir, corremos teste de carga usando Locust em ambos os endpoints de inferência e avaliou o desempenho em termos de tempo de resposta.

Primeiro, importamos as bibliotecas Locust e Boto3 necessárias. Em seguida, construímos metadados de solicitação e registramos o horário de início a ser usado para teste de carga. Em seguida, a carga útil é passada para a API de invocação do endpoint SageMaker por meio do BotoClient para simular solicitações reais do usuário. Usamos o Locust para gerar vários usuários virtuais para enviar solicitações em paralelo e medir o desempenho do endpoint sob carga. Os testes são executados aumentando o número de usuários para cada um dos dois terminais, respectivamente. Após a conclusão dos testes, o Locust gera um arquivo CSV de estatísticas de solicitação para cada um dos modelos implantados.

def send(self):
        request_meta = {
            "request_type": "InvokeEndpoint",
            "name": "SageMaker",
            "start_time": time.time(),
            "response_length": 0,
            "response": None,
            "context": {},
            "exception": None,
        }
        start_perf_counter = time.perf_counter()

        try:
            response = self.sagemaker_client.invoke_endpoint(
                EndpointName=self.endpoint_name,
                Body=self.payload,
                ContentType=self.content_type,
            )
            logging.info(response["Body"].read())
        except Exception as e:
            request_meta["exception"] = e

        request_meta["response_time"] = (
            time.perf_counter() - start_perf_counter
        ) * 1000

        events.request.fire(**request_meta)

A seguir, geramos os gráficos de tempo de resposta a partir dos arquivos CSV baixados após a execução dos testes com o Locust. O objetivo de traçar o tempo de resposta versus o número de usuários é analisar os resultados do teste de carga, visualizando o impacto do tempo de resposta dos endpoints do modelo. No gráfico a seguir, podemos ver que o endpoint do modelo podado NAS atinge um tempo de resposta menor em comparação com o endpoint do modelo BERT base.

No segundo gráfico, que é uma extensão do primeiro gráfico, observamos que após cerca de 70 usuários, o SageMaker começa a limitar o endpoint do modelo BERT básico e lança uma exceção. No entanto, para o endpoint do modelo removido do NAS, a limitação ocorre entre 90 e 100 usuários e com um tempo de resposta menor.

Nos dois gráficos, observamos que o modelo podado tem um tempo de resposta mais rápido e é melhor dimensionado quando comparado ao modelo não podado. À medida que dimensionamos o número de endpoints de inferência, como é o caso dos usuários que implantam um grande número de endpoints de inferência para seus aplicativos de PLM, os benefícios de custo e a melhoria de desempenho começam a se tornar bastante substanciais.

limpar

Para excluir os endpoints do SageMaker para o modelo BERT básico ajustado e o modelo removido do NAS, conclua as seguintes etapas:

No console SageMaker, escolha Inferência e Pontos finais no painel de navegação.
Selecione o endpoint e exclua-o.

Alternativamente, no notebook SageMaker Studio, execute os seguintes comandos fornecendo os nomes dos endpoints:

predictor.delete_model()
predictor.delete_endpoint()

Conclusão

Nesta postagem, discutimos como usar NAS para podar um modelo BERT ajustado. Primeiro treinamos um modelo BERT básico usando dados específicos do domínio e o implantamos em um endpoint SageMaker. Realizamos uma pesquisa multiobjetivo no modelo BERT básico ajustado usando SageMaker AMT para uma tarefa alvo. Visualizamos a frente de Pareto e selecionamos o modelo BERT otimizado para NAS de Pareto e implantamos o modelo em um segundo endpoint SageMaker. Realizamos testes de carga usando Locust para simular usuários consultando ambos os endpoints e medimos e registramos os tempos de resposta em um arquivo CSV. Plotamos o tempo de resposta versus o número de usuários para ambos os modelos.

Observamos que o modelo BERT removido teve um desempenho significativamente melhor tanto no tempo de resposta quanto no limite de otimização da instância. Concluímos que o modelo removido do NAS foi mais resiliente a um aumento de carga no endpoint, mantendo um tempo de resposta menor mesmo quando mais usuários estressaram o sistema em comparação com o modelo BERT básico. Você pode aplicar a técnica NAS descrita nesta postagem a qualquer modelo de linguagem grande para encontrar um modelo podado que possa executar a tarefa alvo com um tempo de resposta significativamente menor. Você pode otimizar ainda mais a abordagem usando a latência como parâmetro, além da perda de validação.

Embora usemos NAS nesta postagem, a quantização é outra abordagem comum usada para otimizar e compactar modelos PLM. A quantização reduz a precisão dos pesos e ativações em uma rede treinada de ponto flutuante de 32 bits para larguras de bits mais baixas, como números inteiros de 8 ou 16 bits, o que resulta em um modelo compactado que gera inferência mais rápida. A quantização não reduz o número de parâmetros; em vez disso, reduz a precisão dos parâmetros existentes para obter um modelo compactado. A remoção do NAS remove redes redundantes em um PLM, o que cria um modelo esparso com menos parâmetros. Normalmente, a remoção e a quantização do NAS são usadas juntas para compactar PLMs grandes a fim de manter a precisão do modelo, reduzir perdas de validação e, ao mesmo tempo, melhorar o desempenho e reduzir o tamanho do modelo. As outras técnicas comumente usadas para reduzir o tamanho dos PLMs incluem destilação de conhecimento, fatoração de matrizes e cascatas de destilação.

A abordagem proposta na postagem do blog é adequada para equipes que usam o SageMaker para treinar e ajustar os modelos usando dados específicos do domínio e implantar os endpoints para gerar inferência. Se você procura um serviço totalmente gerenciado que ofereça uma escolha de modelos básicos de alto desempenho necessários para criar aplicativos generativos de IA, considere usar Rocha Amazônica. Se você estiver procurando modelos de código aberto pré-treinados para uma ampla variedade de casos de uso de negócios e quiser acessar modelos de soluções e blocos de anotações de exemplo, considere usar JumpStart do Amazon SageMaker. Uma versão pré-treinada do modelo base Hugging Face BERT que usamos nesta postagem também está disponível no SageMaker JumpStart.

Sobre os autores

Aparajithan Vaidyanathan é arquiteto principal de soluções empresariais na AWS. Ele é um arquiteto de nuvem com mais de 24 anos de experiência projetando e desenvolvendo sistemas de software corporativos, de grande escala e distribuídos. Ele é especialista em IA generativa e engenharia de dados de aprendizado de máquina. Ele é um aspirante a corredor de maratona e seus hobbies incluem caminhadas, andar de bicicleta e passar tempo com sua esposa e dois filhos.