Skróć czas wnioskowania dla modeli BERT, korzystając z wyszukiwania architektury neuronowej i automatycznego dostrajania modeli SageMaker | Usługi internetowe Amazon

Opublikowane ponownie przez Plato

Obserwuje: 0

W tym poście pokazujemy, jak używać przycinania strukturalnego w oparciu o wyszukiwanie architektury neuronowej (NAS) w celu skompresowania precyzyjnie dostrojonego modelu BERT w celu poprawy wydajności modelu i skrócenia czasu wnioskowania. Wstępnie wytrenowane modele językowe (PLM) przechodzą szybkie wdrażanie w handlu i przedsiębiorstwach w obszarach narzędzi zwiększających produktywność, obsługi klienta, wyszukiwania i rekomendacji, automatyzacji procesów biznesowych i tworzenia treści. Wdrażanie punktów końcowych wnioskowania PLM wiąże się zazwyczaj z większymi opóźnieniami i wyższymi kosztami infrastruktury ze względu na wymagania obliczeniowe i zmniejszoną wydajnością obliczeniową ze względu na dużą liczbę parametrów. Przycinanie PLM zmniejsza rozmiar i złożoność modelu, zachowując jednocześnie jego możliwości predykcyjne. Oczyszczone PLM zapewniają mniejsze zużycie pamięci i mniejsze opóźnienia. Wykazujemy to, przycinając PLM i pomijając liczbę parametrów oraz błąd sprawdzania poprawności dla konkretnego zadania docelowego, i jesteśmy w stanie osiągnąć krótszy czas reakcji w porównaniu z podstawowym modelem PLM.

Optymalizacja wielocelowa to obszar podejmowania decyzji, który optymalizuje jednocześnie więcej niż jedną funkcję celu, taką jak zużycie pamięci, czas szkolenia i zasoby obliczeniowe. Przycinanie strukturalne to technika mająca na celu zmniejszenie rozmiaru i wymagań obliczeniowych PLM poprzez przycinanie warstw lub neuronów/węzłów przy jednoczesnej próbie zachowania dokładności modelu. Usuwając warstwy, przycinanie strukturalne umożliwia osiągnięcie wyższych współczynników kompresji, co prowadzi do przyjaznej dla sprzętu uporządkowanej rzadkości, która skraca czas działania i czas reakcji. Zastosowanie techniki czyszczenia strukturalnego w modelu PLM skutkuje lżejszym modelem o mniejszym zużyciu pamięci, który hostowany jako punkt końcowy wnioskowania w SageMaker oferuje lepszą efektywność wykorzystania zasobów i obniżone koszty w porównaniu z oryginalnym, precyzyjnie dostrojonym PLM.

Koncepcje zilustrowane w tym poście można zastosować w aplikacjach korzystających z funkcji PLM, takich jak systemy rekomendacji, analiza nastrojów i wyszukiwarki. W szczególności możesz zastosować to podejście, jeśli masz dedykowane zespoły zajmujące się uczeniem maszynowym (ML) i analizą danych, które dostrajają własne modele PLM przy użyciu zestawów danych specyficznych dla domeny i wdrażają dużą liczbę punktów końcowych wnioskowania przy użyciu Amazon Sage Maker. Jednym z przykładów jest sprzedawca internetowy, który wdraża dużą liczbę punktów końcowych wnioskowania na potrzeby podsumowań tekstowych, klasyfikacji katalogu produktów i klasyfikacji opinii o produktach. Innym przykładem może być podmiot świadczący opiekę zdrowotną, który wykorzystuje punkty końcowe wnioskowania PLM do klasyfikacji dokumentów klinicznych, rozpoznawania nazwanych podmiotów na podstawie raportów medycznych, chatbotów medycznych i stratyfikacji ryzyka pacjenta.

Omówienie rozwiązania

W tej sekcji przedstawiamy ogólny przepływ pracy i wyjaśniamy podejście. Najpierw używamy Studio Amazon SageMaker notatnik dostrojenie wstępnie wyszkolonego modelu BERT do docelowego zadania przy użyciu zbioru danych specyficznego dla domeny. BERTI (Dwukierunkowe reprezentacje koderów z Transformers) to wstępnie wytrenowany model językowy oparty na architektura transformatora używany do zadań związanych z przetwarzaniem języka naturalnego (NLP). Przeszukiwanie architektury neuronowej (NAS) to podejście do automatyzacji projektowania sztucznych sieci neuronowych i jest ściśle powiązane z optymalizacją hiperparametrów, szeroko stosowanym podejściem w dziedzinie uczenia maszynowego. Celem NAS jest znalezienie optymalnej architektury dla danego problemu poprzez przeszukanie dużego zestawu potencjalnych architektur przy użyciu technik takich jak optymalizacja bez gradientów lub optymalizacja pożądanych wskaźników. Wydajność architektury jest zwykle mierzona za pomocą wskaźników, takich jak utrata walidacji. Automatyczne strojenie modeli SageMaker (AMT) automatyzuje żmudny i złożony proces znajdowania optymalnych kombinacji hiperparametrów modelu ML, które zapewniają najlepszą wydajność modelu. AMT wykorzystuje inteligentne algorytmy wyszukiwania i oceny iteracyjne przy użyciu zakresu określonych hiperparametrów. Wybiera wartości hiperparametrów, aby utworzyć model, który działa najlepiej, mierząc metryki wydajności, takie jak dokładność i wynik F-1.

Podejście dostrajające opisane w tym poście ma charakter ogólny i można je zastosować do dowolnego zbioru danych tekstowych. Zadanie przydzielone BERT PLM może być zadaniem tekstowym, takim jak analiza nastrojów, klasyfikacja tekstu lub pytania i odpowiedzi. W tym pokazie docelowym zadaniem jest problem klasyfikacji binarnej, w którym BERT służy do określenia, na podstawie zbioru danych składającego się ze zbioru par fragmentów tekstu, czy znaczenie jednego fragmentu tekstu można wywnioskować z drugiego fragmentu. Używamy Rozpoznawanie zbioru danych związanych z tekstem z pakietu porównawczego GLUE. Przeprowadzamy wyszukiwanie wielocelowe za pomocą SageMaker AMT w celu zidentyfikowania podsieci, które oferują optymalne kompromisy między liczbą parametrów a dokładnością przewidywania dla docelowego zadania. Przeprowadzając wyszukiwanie wielocelowe, zaczynamy od zdefiniowania dokładności i liczby parametrów jako celów, które chcemy zoptymalizować.

W sieci BERT PLM mogą istnieć modułowe, samodzielne podsieci, które umożliwiają modelowi posiadanie wyspecjalizowanych funkcji, takich jak rozumienie języka i reprezentacja wiedzy. BERT PLM wykorzystuje wielogłowicową podsieć samouważności i podsieć ze sprzężeniem zwrotnym. Wielogłowa warstwa samouważności umożliwia BERT powiązanie różnych pozycji pojedynczej sekwencji w celu obliczenia reprezentacji sekwencji, umożliwiając wielu głowicom obsługę wielu sygnałów kontekstu. Dane wejściowe są dzielone na wiele podprzestrzeni, a samouważność jest stosowana oddzielnie do każdej z podprzestrzeni. Wiele głowic w transformatorze PLM umożliwia modelowi wspólne przetwarzanie informacji z różnych podprzestrzeni reprezentacji. Podsieć ze sprzężeniem zwrotnym to prosta sieć neuronowa, która pobiera dane wyjściowe z wielogłowicowej podsieci samouważności, przetwarza dane i zwraca ostateczną reprezentację kodera.

Celem losowego próbkowania podsieci jest uczenie mniejszych modeli BERT, które mogą wystarczająco dobrze wykonywać docelowe zadania. Próbujemy 100 losowych podsieci ze dopracowanego podstawowego modelu BERT i oceniamy 10 sieci jednocześnie. Wyszkolone podsieci są oceniane pod kątem obiektywnych metryk, a ostateczny model jest wybierany na podstawie kompromisów znalezionych pomiędzy obiektywnymi metrykami. Wizualizujemy Przód Pareta dla próbkowanych podsieci, które zawierają oczyszczony model oferujący optymalny kompromis pomiędzy dokładnością modelu a rozmiarem modelu. Wybieramy kandydującą podsieć (model BERT oczyszczony przez NAS) w oparciu o rozmiar modelu i dokładność modelu, na które jesteśmy gotowi zaradzić. Następnie hostujemy punkty końcowe, wstępnie wytrenowany model podstawowy BERT i model BERT oczyszczony z NAS przy użyciu SageMaker. Do przeprowadzenia testów obciążeniowych używamy Szarańcza, narzędzie do testowania obciążenia typu open source, które można wdrożyć za pomocą języka Python. Przeprowadzamy testy obciążenia na obu punktach końcowych za pomocą Locust i wizualizujemy wyniki za pomocą frontu Pareto, aby zilustrować kompromis między czasem reakcji a dokładnością w przypadku obu modeli. Poniższy diagram przedstawia przegląd przepływu pracy wyjaśnionego w tym poście.

Wymagania wstępne

Na to stanowisko wymagane są następujące wymagania wstępne:

Należy także zwiększyć limit usług aby uzyskać dostęp do co najmniej trzech instancji ml.g4dn.xlarge w SageMaker. Typ instancji ml.g4dn.xlarge to ekonomiczna instancja GPU, która umożliwia natywne uruchamianie PyTorch. Aby zwiększyć limit usług, wykonaj następujące kroki:

W konsoli przejdź do Przydziałów usług.
W razie zamówieenia projektu Zarządzaj limitamiwybierz Amazon Sage Maker, A następnie wybierz Zobacz limity.

Wyszukaj „ml-g4dn.xlarge do wykorzystania zadań szkoleniowych” i wybierz element przydziału.
Dodaj Poproś o zwiększenie na poziomie konta.

W razie zamówieenia projektu Zwiększ wartość limituwprowadź wartość 5 lub wyższą.
Dodaj PROŚBA.

Zatwierdzenie żądanego limitu może zająć trochę czasu, w zależności od uprawnień konta.

Otwórz SageMaker Studio z konsoli SageMaker.

Dodaj Terminal systemowy dla Narzędzia i pliki.

Uruchom następujące polecenie, aby sklonować plik GitHub repo do instancji SageMaker Studio:
```
git clone https://github.com/aws/amazon-sagemaker-examples.git
```
Nawigować do amazon-sagemaker-examples/hyperparameter_tuning/neural_architecture_search_llm.
Otwórz plik nas_for_llm_with_amt.ipynb.
Skonfiguruj środowisko za pomocą pliku ml.g4dn.xlarge instancja i wybierz Wybierz.

Skonfiguruj wstępnie wytrenowany model BERT

W tej sekcji importujemy zestaw danych Recognizing Textual Entailment z biblioteki zestawów danych i dzielimy go na zestawy szkoleniowe i walidacyjne. Ten zbiór danych składa się z par zdań. Zadaniem BERT PLM jest rozpoznanie, na podstawie dwóch fragmentów tekstu, czy znaczenie jednego fragmentu tekstu można wywnioskować z drugiego fragmentu. W poniższym przykładzie możemy wywnioskować znaczenie pierwszego wyrażenia z drugiego wyrażenia:

Phrase 1: A man with a beard, wearing a red shirt with gray sleeves and work gloves, pulling on a rope.
Phrase 2: A bearded man pulls a rope

Ładujemy zestaw danych dotyczących rozpoznawania tekstu z pliku KLEJ pakiet testów porównawczych za pośrednictwem biblioteka zbiorów danych z Hugging Face w naszym skrypcie szkoleniowym (./training.py). Podzieliliśmy oryginalny zbiór danych szkoleniowych z GLUE na zbiór uczący i walidacyjny. W naszym podejściu dostrajamy podstawowy model BERT za pomocą zbioru danych szkoleniowych, a następnie przeprowadzamy wielocelowe wyszukiwanie w celu zidentyfikowania zestawu podsieci, które optymalnie równoważą obiektywne metryki. Używamy zbioru danych szkoleniowych wyłącznie do dostrojenia modelu BERT. Jednakże używamy danych walidacyjnych do wyszukiwania wielocelowego, mierząc dokładność w zbiorze danych walidacyjnych wstrzymanych.

Dostosuj BERT PLM, korzystając ze zbioru danych specyficznego dla domeny

Typowe przypadki użycia surowego modelu BERT obejmują przewidywanie następnego zdania lub modelowanie języka maskowanego. Aby wykorzystać podstawowy model BERT do dalszych zadań, takich jak rozpoznawanie tekstu, musimy jeszcze bardziej dostroić model, korzystając ze zbioru danych specyficznego dla domeny. Dopracowanego modelu BERT można używać do zadań takich jak klasyfikacja sekwencji, odpowiadanie na pytania i klasyfikacja tokenów. Jednakże na potrzeby tego pokazu używamy dopracowanego modelu klasyfikacji binarnej. Dostrajamy wstępnie wytrenowany model BERT za pomocą zbioru danych szkoleniowych, który przygotowaliśmy wcześniej, korzystając z następujących hiperparametrów:

hyperparameters["per_device_train_batch_size"] = 8
hyperparameters["per_device_eval_batch_size"] = 8
hyperparameters["learning_rate"] = 2e-05
hyperparameters["num_train_epochs"] = 5
hyperparameters["save_strategy"] = "epoch"
hyperparameters[
"is_regression"
] = False  # set this to True if your dataset is a regression dataset, for example STSB

Zapisujemy punkt kontrolny uczenia modelu do pliku Usługa Amazon Simple Storage (Amazon S3), dzięki czemu model można załadować podczas wyszukiwania wieloobiektowego w oparciu o NAS. Zanim wytrenujemy model, definiujemy metryki, takie jak epoka, strata uczenia, liczba parametrów i błąd walidacji:

session = Session()
s3_bucket = session.default_bucket()
s3_bucket_prefix = "nas_amt/model_checkpoint"
s3_path = f"s3://{s3_bucket}/{s3_bucket_prefix}"

metric_definitions = [
    {"Name": "epoch", "Regex": "epoch: ([0-9.]+)"},
    {"Name": "training-loss", "Regex": "training loss: ([0-9.]+)"},
    {"Name": "num-parameters", "Regex": "number of parameters: ([0-9.]+)"},
    {"Name": "validation-error", "Regex": "validation error: ([0-9.]+)"},
]

sm_args = dict(
    entry_point="training.py",
    source_dir=os.path.abspath(""),
    instance_type="ml.g4dn.xlarge",
    instance_count=1,
    py_version="py39",
    framework_version="1.13",
    transformers_version="4.26",
    max_run=3600 * 72,
    role=get_execution_role(),
    checkpoint_local_path="/opt/ml/checkpoints",
    hyperparameters=hyperparameters,
    checkpoint_s3_uri=s3_path,
    metric_definitions=metric_definitions,
)
est = PyTorch(**sm_args)
est.fit()

Po rozpoczęciu procesu dostrajania ukończenie zadania szkoleniowego zajmuje około 15 minut.

Przeprowadź wyszukiwanie wielocelowe, aby wybrać podsieci i zwizualizować wyniki

W następnym kroku przeprowadzamy wieloobiektowe wyszukiwanie w dopracowanym podstawowym modelu BERT, próbkując losowe podsieci za pomocą SageMaker AMT. Aby uzyskać dostęp do podsieci w ramach supersieci (dopracowany model BERT), maskujemy wszystkie komponenty PLM, które nie są częścią podsieci. Maskowanie supersieci w celu znalezienia podsieci w PLM to technika stosowana do izolowania i identyfikowania wzorców zachowania modelu. Należy pamiętać, że transformatory Hugging Face wymagają ukrytego rozmiaru będącego wielokrotnością liczby głów. Rozmiar ukryty w transformatorze PLM steruje rozmiarem przestrzeni wektorów stanu ukrytego, co wpływa na zdolność modelu do uczenia się złożonych reprezentacji i wzorców w danych. W BERT PLM wektor stanu ukrytego ma stały rozmiar (768). Nie możemy zmienić ukrytego rozmiaru, dlatego liczba głów musi wynosić [1, 3, 6, 12].

W przeciwieństwie do optymalizacji jednocelowej, w ustawieniu wielocelowym zazwyczaj nie mamy jednego rozwiązania, które jednocześnie optymalizuje wszystkie cele. Zamiast tego staramy się zebrać zbiór rozwiązań, które dominują nad wszystkimi innymi rozwiązaniami w co najmniej jednym celu (takim jak błąd walidacji). Teraz możemy rozpocząć wieloobiektowe przeszukiwanie za pomocą AMT, ustawiając metryki, które chcemy zredukować (błąd walidacji i liczba parametrów). Losowe podsieci są definiowane przez parametr max_jobs a liczba jednoczesnych zadań jest określona przez parametr max_parallel_jobs. Kod ładujący punkt kontrolny modelu i oceniający podsieć jest dostępny w pliku evaluate_subnetwork.py skrypt.

# Maximum number of sub-networks we will evaluate
max_jobs = 100
max_parallel_jobs = 5

# Entry point script to load the super-network and evaluate a sub-network
entry_point = "evaluate_subnetwork.py"

# Command line arguments for the entry point script
hyperparameters = {"model_name_or_path": model_type, "output_dir": "./tmp", "task_name": "rte"}

# Define the metric we want to minimize
metric_definitions = [
    {"Name": "num-parameters", "Regex": "number of parameters: ([0-9.]+)"},
    {"Name": "validation-error", "Regex": "validation error: ([0-9.]+)"},
]

# Define HuggingFace estimator
estimator = HuggingFace(
    entry_point=entry_point,
    source_dir="./",
    instance_type="ml.g4dn.xlarge",  # instance types for the SageMaker training jobs
    instance_count=1,
    py_version="py39",
    framework_version="1.13",
    pytorch_version="1.13",
    transformers_version="4.26",
    max_run=3600 * 72,
    role=get_execution_role(),
    volume_size=125,
    model_uri=s3_path,
    hyperparameters=hyperparameters,
)

current_time = datetime.now().strftime("%m-%d-%Y-%H-%M-%S")
tuning_job_name = f"nas-search-{current_time}"

# Search space to define sub-networks
hyperparameter_ranges = {
    "num_layers": IntegerParameter(0, 12),
    # To meet HuggingFace constraints, we can only set the number of head to these values
    "num_heads": CategoricalParameter([1, 3, 6, 12]),
    "num_units": IntegerParameter(0, 3072),
}

# Define AMT Tuner object
my_tuner = HyperparameterTuner(
    estimator=estimator,
    objective_metric_name="validation-error",
    hyperparameter_ranges=hyperparameter_ranges,
    metric_definitions=metric_definitions,
    max_jobs=max_jobs,
    strategy="Random",
    random_seed=seed,
    objective_type="Minimize",
    max_parallel_jobs=max_parallel_jobs,
)

# Start hyperparameter tuning job
my_tuner.fit(job_name=tuning_job_name)

Wykonanie zadania strojenia AMT zajmuje około 2 godzin i 20 minut. Po pomyślnym uruchomieniu zadania dostrajania AMT analizujemy historię zadania i zbieramy konfiguracje podsieci, takie jak liczba głowic, liczba warstw, liczba jednostek i odpowiednie metryki, takie jak błąd sprawdzania poprawności i liczba parametrów. Poniższy zrzut ekranu pokazuje podsumowanie udanego zadania tunera AMT.

Następnie wizualizujemy wyniki za pomocą zbioru Pareto (znanego również jako granica Pareto lub zbiór optymalny Pareto), który pomaga nam zidentyfikować optymalne zbiory podsieci, które dominują nad wszystkimi innymi podsieciami w obiektywnej metryce (błąd walidacji):

history = my_tuner.analytics().dataframe()
data = []
configs = []
for i, t in enumerate(my_tuner.analytics().training_job_summaries()):
    jn = t["TrainingJobName"]
    df = sagemaker.analytics.TrainingJobAnalytics(jn).dataframe()

    row = history[history["TrainingJobName"] == jn]
    config = {
        "num-heads": int(row["num_heads"].iloc[0].strip('"')),
        "num-layers": int(row["num_layers"]),
        "num-units": int(row["num_units"]),
    }
    configs.append(config)

    p = []
    for j, metric in enumerate(metric_definitions):
        metric_name = metric["Name"]
        if "metric_name" not in df.keys():
            continue
        y = float(df[df["metric_name"] == metric_name]["value"])
        p.append(y)
    if len(p) > 0:
        data.append(p)

data = np.array(data)

Najpierw zbieramy dane z zadania strojenia AMT. Następnie wykreślamy zbiór Pareto za pomocą matplotlob.pyplot z liczbą parametrów na osi x i błędem walidacji na osi y. Oznacza to, że kiedy przechodzimy z jednej podsieci zestawu Pareto do innej, musimy albo poświęcić wydajność, albo rozmiar modelu, ale ulepszyć drugą. Ostatecznie zestaw Pareto zapewnia nam elastyczność wyboru podsieci, która najlepiej odpowiada naszym preferencjom. Możemy zdecydować, jak bardzo chcemy zmniejszyć rozmiar naszej sieci i ile wydajności jesteśmy skłonni poświęcić.

import matplotlib.pyplot as plt
from multi_objective import get_pareto_optimal

# get results of the un-pruned network
df = sagemaker.analytics.TrainingJobAnalytics(est.jobs[0].name).dataframe()
validation_error_unpruned_network = float(df[df["metric_name"] == "validation-error"].value.min())
params_unpruned_network = int(df[df["metric_name"] == "num-parameters"].value.min())
plt.scatter(
params_unpruned_network,
validation_error_unpruned_network,
marker="o",
s=80,
facecolors="none",
edgecolors="C3",
linewidth=2,
label="un-pruned super-network",
)
# get Pareto optimal points
idx = get_pareto_optimal(data)
x = data[idx, 0]
y = data[idx, 1]
plt.scatter(
x,
y,
marker="o",
s=80,
facecolors="none",
edgecolors="C0",
linewidth=2,
label="Pareto front (sub-networks)",
)
plt.xlabel("number of parameters")
plt.ylabel("validation error")
plt.legend()
plt.xscale("log")
plt.grid(linewidth="1", alpha=0.4, which="both")

Wdróż precyzyjnie dostrojony model BERT i model podsieci zoptymalizowany pod kątem NAS za pomocą SageMaker

Następnie wdrażamy największy model w naszym zbiorze Pareto, który prowadzi do najmniejszego pogorszenia wydajności do a Punkt końcowy SageMaker. Najlepszy model to taki, który zapewnia optymalny kompromis między błędem walidacji a liczbą parametrów dla naszego przypadku użycia.

# Let's take the largest model in the Pareto set
indicies = np.arange(len(configs))[idx]
pareto_optimal_sub_networks = [configs[i] for i in indicies]
config_to_deploy = pareto_optimal_sub_networks[-1]  

from sagemaker.huggingface.model import HuggingFaceModel

# create Hugging Face Model Class
huggingface_model = HuggingFaceModel(
    model_data=s3_path + "/model.tar.gz",
    role=get_execution_role(),
    transformers_version="4.26",
    pytorch_version="1.13",
    py_version="py39",
    entry_point="inference.py",
    source_dir="./",
    env={"SM_HPS": json.dumps(config_to_deploy)},
)

# deploy model to SageMaker Inference
predictor = huggingface_model.deploy(initial_instance_count=1, instance_type="ml.g4dn.xlarge")

Porównanie modeli

Wzięliśmy wstępnie wytrenowany podstawowy model BERT, dostroiliśmy go przy użyciu zestawu danych specyficznego dla domeny, przeprowadziliśmy wyszukiwanie NAS w celu zidentyfikowania dominujących podsieci w oparciu o obiektywne metryki i wdrożyliśmy oczyszczony model w punkcie końcowym SageMaker. Ponadto wykorzystaliśmy wstępnie wytrenowany podstawowy model BERT i wdrożyliśmy model podstawowy w drugim punkcie końcowym SageMaker. Następnie pobiegliśmy testowanie obciążenia używając Locust na obu punktach końcowych wnioskowania i oceniając wydajność pod względem czasu odpowiedzi.

Najpierw importujemy niezbędne biblioteki Locust i Boto3. Następnie konstruujemy metadane żądania i rejestrujemy czas rozpoczęcia, który ma zostać wykorzystany do testowania obciążenia. Następnie ładunek jest przekazywany do interfejsu API wywoływania punktu końcowego SageMaker za pośrednictwem BotoClient w celu symulowania żądań rzeczywistych użytkowników. Używamy Locust do tworzenia wielu wirtualnych użytkowników w celu równoległego wysyłania żądań i pomiaru wydajności punktu końcowego pod obciążeniem. Testy przeprowadzane są poprzez zwiększenie liczby użytkowników odpowiednio dla każdego z dwóch punktów końcowych. Po zakończeniu testów Locust generuje plik CSV ze statystykami żądań dla każdego z wdrożonych modeli.

def send(self):
        request_meta = {
            "request_type": "InvokeEndpoint",
            "name": "SageMaker",
            "start_time": time.time(),
            "response_length": 0,
            "response": None,
            "context": {},
            "exception": None,
        }
        start_perf_counter = time.perf_counter()

        try:
            response = self.sagemaker_client.invoke_endpoint(
                EndpointName=self.endpoint_name,
                Body=self.payload,
                ContentType=self.content_type,
            )
            logging.info(response["Body"].read())
        except Exception as e:
            request_meta["exception"] = e

        request_meta["response_time"] = (
            time.perf_counter() - start_perf_counter
        ) * 1000

        events.request.fire(**request_meta)

Następnie generujemy wykresy czasu odpowiedzi z plików CSV pobranych po uruchomieniu testów z Locustem. Celem wykreślenia czasu odpowiedzi w funkcji liczby użytkowników jest analiza wyników testów obciążenia poprzez wizualizację wpływu czasu odpowiedzi punktów końcowych modelu. Na poniższym wykresie widać, że punkt końcowy modelu oczyszczonego przez NAS osiąga krótszy czas odpowiedzi w porównaniu z punktem końcowym podstawowego modelu BERT.

Na drugim wykresie, będącym rozwinięciem pierwszego wykresu, obserwujemy, że po około 70 użytkownikach SageMaker zaczyna ograniczać punkt końcowy podstawowego modelu BERT i zgłasza wyjątek. Jednak w przypadku punktu końcowego modelu oczyszczonego z serwera NAS ograniczanie następuje między 90–100 użytkownikami i przy krótszym czasie reakcji.

Z dwóch wykresów obserwujemy, że model przycięty ma szybszy czas reakcji i lepiej się skaluje w porównaniu z modelem nieprzyciętym. W miarę skalowania liczby punktów końcowych wnioskowania, jak ma to miejsce w przypadku użytkowników, którzy wdrażają dużą liczbę punktów końcowych wnioskowania w swoich aplikacjach PLM, korzyści kosztowe i poprawa wydajności zaczynają być dość znaczne.

Sprzątać

Aby usunąć punkty końcowe SageMaker dla dostrojonego podstawowego modelu BERT i modelu oczyszczonego przez NAS, wykonaj następujące kroki:

W konsoli SageMaker wybierz Wnioskowanie i Punkty końcowe w okienku nawigacji.
Wybierz punkt końcowy i usuń go.

Alternatywnie, w notatniku SageMaker Studio uruchom następujące polecenia, podając nazwy punktów końcowych:

predictor.delete_model()
predictor.delete_endpoint()

Wnioski

W tym poście omówiliśmy, jak używać NAS do przycinania dopracowanego modelu BERT. Najpierw przeszkoliliśmy podstawowy model BERT przy użyciu danych specyficznych dla domeny i wdrożyliśmy go w punkcie końcowym SageMaker. Przeprowadziliśmy wieloobiektowe wyszukiwanie w precyzyjnie dostrojonym podstawowym modelu BERT przy użyciu narzędzia SageMaker AMT do zadania docelowego. Zwizualizowaliśmy przód Pareto i wybraliśmy optymalny dla Pareto model BERT oczyszczony z NAS, a następnie wdrożyliśmy model w drugim punkcie końcowym SageMaker. Przeprowadziliśmy testy obciążenia przy użyciu Locust, aby symulować użytkowników wysyłających zapytania do obu punktów końcowych, a także zmierzyliśmy i zarejestrowaliśmy czasy odpowiedzi w pliku CSV. Dla obu modeli wykreśliliśmy czas odpowiedzi w funkcji liczby użytkowników.

Zaobserwowaliśmy, że oczyszczony model BERT działał znacznie lepiej zarówno pod względem czasu odpowiedzi, jak i progu ograniczania instancji. Doszliśmy do wniosku, że model oczyszczony z NAS był bardziej odporny na zwiększone obciążenie punktu końcowego, utrzymując krótszy czas reakcji, nawet gdy więcej użytkowników obciążało system w porównaniu z podstawowym modelem BERT. Możesz zastosować technikę NAS opisaną w tym poście do dowolnego dużego modelu językowego, aby znaleźć uproszczony model, który może wykonać docelowe zadanie ze znacznie krótszym czasem odpowiedzi. Można dodatkowo zoptymalizować podejście, używając opóźnienia jako parametru oprócz utraty walidacji.

Chociaż w tym poście używamy serwera NAS, kwantyzacja jest kolejnym powszechnym podejściem stosowanym do optymalizacji i kompresji modeli PLM. Kwantyzacja zmniejsza precyzję wag i aktywacji w wytrenowanej sieci z 32-bitowej liczby zmiennoprzecinkowej do mniejszych szerokości bitowych, takich jak 8-bitowe lub 16-bitowe liczby całkowite, co skutkuje skompresowanym modelem, który generuje szybsze wnioskowanie. Kwantyzacja nie zmniejsza liczby parametrów; zamiast tego zmniejsza precyzję istniejących parametrów, aby uzyskać skompresowany model. Oczyszczanie NAS usuwa nadmiarowe sieci z PLM, co tworzy rzadki model z mniejszą liczbą parametrów. Zwykle oczyszczanie i kwantyzacja NAS są używane razem w celu kompresji dużych PLM w celu utrzymania dokładności modelu, zmniejszenia strat podczas sprawdzania poprawności przy jednoczesnej poprawie wydajności i zmniejszeniu rozmiaru modelu. Inne powszechnie stosowane techniki zmniejszania rozmiaru PLM obejmują destylacja wiedzy, faktoryzacja macierzy, kaskady destylacyjne.

Podejście zaproponowane w poście na blogu jest odpowiednie dla zespołów korzystających z SageMaker do trenowania i dostrajania modeli przy użyciu danych specyficznych dla domeny oraz wdrażania punktów końcowych w celu generowania wnioskowań. Jeśli szukasz w pełni zarządzanej usługi oferującej wybór wydajnych modeli podstawowych potrzebnych do tworzenia generatywnych aplikacji AI, rozważ skorzystanie z Amazońska skała macierzysta. Jeśli szukasz wstępnie wytrenowanych modeli typu open source do szerokiego zakresu zastosowań biznesowych i chcesz uzyskać dostęp do szablonów rozwiązań i przykładowych notatników, rozważ użycie Amazon SageMaker JumpStart. Wstępnie wytrenowana wersja podstawowego modelu obudowy Hugging Face BERT, którego użyliśmy w tym poście, jest również dostępna w SageMaker JumpStart.

O autorach

Aparajithan Vaidyanathan jest głównym architektem rozwiązań dla przedsiębiorstw w AWS. Jest architektem chmury z ponad 24-letnim doświadczeniem w projektowaniu i tworzeniu systemów oprogramowania dla przedsiębiorstw, wielkoskalowych i rozproszonych. Specjalizuje się w generatywnej sztucznej inteligencji i inżynierii danych w uczeniu maszynowym. Jest początkującym maratończykiem, a jego hobby to piesze wędrówki, jazda na rowerze i spędzanie czasu z żoną i dwoma chłopcami.

Aaron Klein jest starszym naukowcem stosowanym w AWS, pracującym nad zautomatyzowanymi metodami uczenia maszynowego dla głębokich sieci neuronowych.