Vähennä BERT-mallien päättelyaikaa käyttämällä hermoarkkitehtuurihakua ja SageMakerin automaattista mallin viritystä | Amazon Web Services

Julkaissut Platon

seuraajia: 0

Tässä viestissä osoitamme, kuinka käyttää hermoarkkitehtuurihakuun (NAS) perustuvaa rakenteellista karsimista hienosäädetyn BERT-mallin pakkaamiseen mallin suorituskyvyn parantamiseksi ja päättelyaikojen lyhentämiseksi. Valmiiksi koulutetut kielimallit (PLM) ovat nopeassa kaupallisessa ja yrityskäytössä tuottavuustyökalujen, asiakaspalvelun, haun ja suositusten, liiketoimintaprosessien automatisoinnin ja sisällöntuotannon aloilla. PLM-päätepäätepisteiden käyttöönottoon liittyy tyypillisesti korkeampi latenssi ja korkeammat infrastruktuurikustannukset laskentavaatimuksista johtuen ja laskennallinen tehokkuus parametrien suuren määrän vuoksi. PLM:n karsiminen vähentää mallin kokoa ja monimutkaisuutta säilyttäen samalla sen ennustamisominaisuudet. Karsitetut PLM:t saavuttavat pienemmän muistitilan ja pienemmän latenssin. Osoitamme, että karsimalla PLM:ää ja vaihtamalla pois parametrien lukumäärä ja validointivirhe tietylle kohdetehtävälle, ja pystymme saavuttamaan nopeammat vasteajat verrattuna perus-PLM-malliin.

Monitavoiteoptimointi on päätöksenteon osa-alue, joka optimoi useamman kuin yhden tavoitefunktion, kuten muistinkulutuksen, harjoitusajan ja laskentaresurssit, optimoitavaksi samanaikaisesti. Rakenneleikkaus on tekniikka, jolla pienennetään PLM:n kokoa ja laskennallisia vaatimuksia karsimalla kerroksia tai hermosoluja/solmuja samalla kun pyritään säilyttämään mallin tarkkuus. Poistamalla kerroksia rakenteellisella karsimisella saavutetaan korkeammat pakkausnopeudet, mikä johtaa laitteistoystävälliseen rakenteelliseen harvuuteen, joka lyhentää ajo- ja vasteaikoja. Rakenteellisen karsintatekniikan soveltaminen PLM-malliin johtaa kevyempään malliin, jolla on pienempi muistitila, joka, kun se isännöidään päätepisteenä SageMakerissa, tarjoaa paremman resurssitehokkuuden ja pienemmät kustannukset verrattuna alkuperäiseen hienosäädettyyn PLM:ään.

Tässä viestissä kuvattuja käsitteitä voidaan soveltaa sovelluksiin, jotka käyttävät PLM-ominaisuuksia, kuten suositusjärjestelmiä, mielipideanalyysiä ja hakukoneita. Erityisesti voit käyttää tätä lähestymistapaa, jos sinulla on omistettu koneoppimis- (ML) ja datatiederyhmiä, jotka hienosäätävät omia PLM-mallejaan käyttämällä verkkotunnuskohtaisia tietojoukkoja ja ottavat käyttöön suuren määrän päättelypäätepisteitä käyttämällä Amazon Sage Maker. Yksi esimerkki on online-jälleenmyyjä, joka käyttää useita päätelmäpäätepisteitä tekstiyhteenvetoon, tuoteluettelon luokitteluun ja tuotepalautteen mielialan luokitteluun. Toinen esimerkki voi olla terveydenhuollon tarjoaja, joka käyttää PLM-päätelmäpäätepisteitä kliinisten asiakirjojen luokitteluun, nimettyjen entiteettien tunnistamiseen lääketieteellisistä raporteista, lääketieteellisistä chatboteista ja potilaiden riskien kerrostamiseen.

Ratkaisun yleiskatsaus

Tässä osiossa esittelemme yleisen työnkulun ja selitämme lähestymistavan. Ensin käytämme an Amazon SageMaker Studio muistikirja hienosäätää esikoulutetun BERT-mallin kohdetehtävässä verkkotunnuskohtaisen tietojoukon avulla. BERTI (Bidirectional Encoder Representations from Transformers) on valmiiksi koulutettu kielimalli, joka perustuu muuntajan arkkitehtuuri käytetään luonnollisen kielen käsittelyyn (NLP). Neuralarchitektuurihaku (NAS) on keino automatisoida keinotekoisten hermoverkkojen suunnittelua, ja se liittyy läheisesti hyperparametrien optimointiin, joka on laajalti käytetty lähestymistapa koneoppimisen alalla. NAS:n tavoitteena on löytää optimaalinen arkkitehtuuri tietylle ongelmalle etsimällä laajasta ehdokasarkkitehtuurijoukosta käyttämällä tekniikoita, kuten gradienttivapaata optimointia tai optimoimalla haluttuja mittareita. Arkkitehtuurin suorituskykyä mitataan tyypillisesti mittareilla, kuten validointihäviöllä. SageMaker automaattinen mallin viritys (AMT) automatisoi ikävän ja monimutkaisen prosessin löytää ML-mallin hyperparametrien optimaaliset yhdistelmät, jotka tuottavat parhaan mallin suorituskyvyn. AMT käyttää älykkäitä hakualgoritmeja ja iteratiivisia arvioita käyttämällä määrittämiäsi hyperparametreja. Se valitsee hyperparametriarvot, jotka luovat mallin, joka toimii parhaiten suoritusmittareilla, kuten tarkkuudella ja F-1-pisteillä mitattuna.

Tässä viestissä kuvattu hienosäätömenetelmä on yleinen ja sitä voidaan soveltaa mihin tahansa tekstipohjaiseen tietojoukkoon. BERT PLM:lle määritetty tehtävä voi olla tekstipohjainen tehtävä, kuten tunneanalyysi, tekstin luokittelu tai Q&A. Tässä esittelyssä kohdetehtävä on binäärinen luokitteluongelma, jossa BERT:n avulla tunnistetaan tekstinpätkäparien kokoelmasta koostuvasta tietojoukosta, voidaanko yhden tekstifragmentin merkitys päätellä toisesta fragmentista. Käytämme Tunnistetaan tekstin aiheuttama tietoaineisto GLUE-benchmarking-sarjasta. Suoritamme monitavoitehaun SageMaker AMT:n avulla tunnistaaksemme aliverkot, jotka tarjoavat optimaalisen kompromissin parametrien määrän ja kohdetehtävän ennustetarkkuuden välillä. Kun suoritamme usean tavoitteen haun, aloitamme tarkkuuden ja parametrien määrän määrittelemisellä tavoitteiksi, joita pyrimme optimoimaan.

BERT PLM -verkossa voi olla modulaarisia, itsenäisiä aliverkkoja, jotka mahdollistavat mallin erikoisominaisuuksien, kuten kielen ymmärtämisen ja tiedon esittämisen. BERT PLM käyttää monipäistä itsehuomio-aliverkkoa ja syöte-aliverkkoa. Monipäinen itsehuomiokerros antaa BERT:lle mahdollisuuden yhdistää yksittäisen sekvenssin eri paikat voidakseen laskea sekvenssin esityksen sallimalla useiden päiden huolehtia useista kontekstisignaaleista. Syöttö on jaettu useisiin aliavaruuksiin ja itsehuomiota sovelletaan kuhunkin alitilaan erikseen. Muuntaja-PLM:n useat päät mahdollistavat sen, että malli voi yhdessä käsitellä tietoa eri esitysaliavaruuksista. Forward-aliverkko on yksinkertainen hermoverkko, joka ottaa lähdön monipäisestä itsehuomio-aliverkosta, käsittelee tiedot ja palauttaa lopulliset kooderiesitykset.

Satunnaisen aliverkon otannan tavoitteena on kouluttaa pienempiä BERT-malleja, jotka pystyvät suoriutumaan riittävän hyvin kohdetehtävissä. Otamme näytteen 100 satunnaisesta aliverkosta hienosäädetystä BERT-perusmallista ja arvioimme 10 verkkoa samanaikaisesti. Koulutetut aliverkot arvioidaan objektiivisten mittareiden osalta ja lopullinen malli valitaan objektiivisten mittareiden välillä löydettyjen kompromissien perusteella. Visualisoimme Pareto edessä näytteitetyille aliverkoille, jotka sisältävät karsitun mallin, joka tarjoaa optimaalisen kompromissin mallin tarkkuuden ja mallin koon välillä. Valitsemme ehdokasaliverkon (NAS-karsittu BERT-malli) mallin koon ja mallin tarkkuuden perusteella, joista olemme valmiita vaihtamaan. Seuraavaksi isännöimme päätepisteitä, esikoulutettua BERT-perusmallia ja NAS-karsittua BERT-mallia SageMakerin avulla. Kuormitustestauksen suorittamiseen käytämme heinäsirkka, avoimen lähdekoodin kuormitustestaustyökalu, jonka voit toteuttaa Pythonilla. Suoritamme kuormitustestauksen molemmissa päätepisteissä käyttämällä Locustia ja visualisoimme tulokset Pareto-rintamalla havainnollistamaan molempien mallien vasteaikojen ja tarkkuuden välistä kompromissia. Seuraava kaavio tarjoaa yleiskatsauksen tässä viestissä selitetystä työnkulusta.

Edellytykset

Tätä virkaa varten vaaditaan seuraavat edellytykset:

Sinun on myös lisättävä palvelukiintiö päästäksesi vähintään kolmeen ml.g4dn.xlarge-instanssiin SageMakerissa. Ilmentymätyyppi ml.g4dn.xlarge on kustannustehokas GPU-instanssi, jonka avulla voit ajaa PyTorchia natiivisti. Voit kasvattaa palvelukiintiötä suorittamalla seuraavat vaiheet:

Siirry konsolissa kohtaan Palvelukiintiöt.
varten Hallitse kiintiöitä, valitse Amazon Sage Maker, valitse sitten Näytä kiintiöt.

Etsi "ml-g4dn.xlarge for training job use use" ja valitse kiintiökohta.
Valita Pyydä korotusta tilitasolla.

varten Kasvata kiintiön arvoa, anna arvo 5 tai suurempi.
Valita Pyydä.

Pyydetty kiintiön hyväksyntä saattaa kestää jonkin aikaa tilin käyttöoikeuksista riippuen.

Avaa SageMaker Studio SageMaker-konsolista.

Valita Järjestelmän pääte varten Apuohjelmat ja tiedostot.

Suorita seuraava komento kloonataksesi GitHub repo SageMaker Studio -esiintymään:
```
git clone https://github.com/aws/amazon-sagemaker-examples.git
```
Navigoida johonkin amazon-sagemaker-examples/hyperparameter_tuning/neural_architecture_search_llm.
Avaa tiedosto nas_for_llm_with_amt.ipynb.
Määritä ympäristö käyttämällä ml.g4dn.xlarge ja valitse valita.

Aseta esikoulutettu BERT-malli

Tässä osiossa tuomme Recognizing Textual Entailment -tietojoukon tietojoukkokirjastosta ja jaamme tietojoukon koulutus- ja validointijoukoiksi. Tämä tietojoukko koostuu lausepareista. BERT PLM:n tehtävänä on tunnistaa kahden tekstifragmentin perusteella, voidaanko toisen tekstikatkelman merkitys päätellä toisesta fragmentista. Seuraavassa esimerkissä voimme päätellä ensimmäisen lauseen merkityksen toisesta lauseesta:

Phrase 1: A man with a beard, wearing a red shirt with gray sleeves and work gloves, pulling on a rope.
Phrase 2: A bearded man pulls a rope

Lataamme tekstintunnistusta koskevan tietojoukon tiedostosta lIIMA benchmarking-sarjan kautta tietojoukkokirjasto Hugging Facesta harjoituskäsikirjoituksessamme (./training.py). Jaoimme alkuperäisen harjoitustietojoukon GLUEsta koulutus- ja validointijoukoksi. Lähestymistapassamme hienosäädämme BERT-perusmallia käyttämällä koulutustietojoukkoa, minkä jälkeen suoritamme usean tavoitteen haun tunnistaaksemme joukon aliverkkoja, jotka tasapainottavat optimaalisesti tavoitemittareiden välillä. Käytämme harjoitustietoaineistoa yksinomaan BERT-mallin hienosäätöön. Käytämme kuitenkin validointitietoja usean tavoitteen hakuun mittaamalla tarkkuutta pitoajan validointitietojoukossa.

Hienosäädä BERT PLM käyttämällä verkkotunnuskohtaista tietojoukkoa

Raaka BERT-mallin tyypillisiä käyttötapauksia ovat seuraavan lauseen ennustaminen tai maskikielimallinnus. Jotta voisimme käyttää BERT-perusmallia loppupään tehtäviin, kuten tekstintunnistukseen, meidän on hienosäädettävä mallia edelleen käyttämällä verkkotunnuskohtaista tietojoukkoa. Voit käyttää hienosäädettyä BERT-mallia tehtäviin, kuten sekvenssiluokitukseen, kysymyksiin vastaamiseen ja merkkien luokitteluun. Tässä demossa käytämme kuitenkin hienosäädettyä mallia binääriluokitukseen. Hienosäädämme esikoulutettua BERT-mallia aiemmin laatimallamme harjoitustietojoukolla käyttämällä seuraavia hyperparametreja:

hyperparameters["per_device_train_batch_size"] = 8
hyperparameters["per_device_eval_batch_size"] = 8
hyperparameters["learning_rate"] = 2e-05
hyperparameters["num_train_epochs"] = 5
hyperparameters["save_strategy"] = "epoch"
hyperparameters[
"is_regression"
] = False  # set this to True if your dataset is a regression dataset, for example STSB

Tallennamme mallikoulutuksen tarkistuspisteen an Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri, jotta malli voidaan ladata NAS-pohjaisen moniobjektiivihaun aikana. Ennen kuin harjoitamme mallia, määritämme mittarit, kuten epookki, harjoitushäviö, parametrien lukumäärä ja validointivirhe:

session = Session()
s3_bucket = session.default_bucket()
s3_bucket_prefix = "nas_amt/model_checkpoint"
s3_path = f"s3://{s3_bucket}/{s3_bucket_prefix}"

metric_definitions = [
    {"Name": "epoch", "Regex": "epoch: ([0-9.]+)"},
    {"Name": "training-loss", "Regex": "training loss: ([0-9.]+)"},
    {"Name": "num-parameters", "Regex": "number of parameters: ([0-9.]+)"},
    {"Name": "validation-error", "Regex": "validation error: ([0-9.]+)"},
]

sm_args = dict(
    entry_point="training.py",
    source_dir=os.path.abspath(""),
    instance_type="ml.g4dn.xlarge",
    instance_count=1,
    py_version="py39",
    framework_version="1.13",
    transformers_version="4.26",
    max_run=3600 * 72,
    role=get_execution_role(),
    checkpoint_local_path="/opt/ml/checkpoints",
    hyperparameters=hyperparameters,
    checkpoint_s3_uri=s3_path,
    metric_definitions=metric_definitions,
)
est = PyTorch(**sm_args)
est.fit()

Kun hienosäätöprosessi alkaa, harjoitustyö kestää noin 15 minuuttia.

Valitse aliverkostot ja visualisoi tulokset suorittamalla usean kohteen haku

Seuraavassa vaiheessa suoritamme moniobjektiivisen haun hienosäädetylle BERT-perusmallille ottamalla näytteitä satunnaisista aliverkoista SageMaker AMT:n avulla. Päästäksemme aliverkkoon superverkon sisällä (hienoviritetty BERT-malli), peitämme kaikki PLM:n komponentit, jotka eivät ole osa aliverkkoa. Superverkon peittäminen aliverkkojen löytämiseksi PLM:stä on tekniikka, jota käytetään eristämään ja tunnistamaan mallin käyttäytymismalleja. Huomaa, että Hugging Face -muuntajat tarvitsevat piilotetun koon ollakseen monikertainen päiden lukumäärästä. Muuntajan PLM:n piilotettu koko ohjaa piilotilavektoriavaruuden kokoa, mikä vaikuttaa mallin kykyyn oppia monimutkaisia esityksiä ja kuvioita tiedossa. BERT PLM:ssä piilotilavektori on kiinteän kokoinen (768). Emme voi muuttaa piilotettua kokoa, ja siksi päiden lukumäärän on oltava [1, 3, 6, 12].

Toisin kuin yhden tavoitteen optimoinnissa, monen tavoitteen asetuksissa meillä ei yleensä ole yhtä ratkaisua, joka optimoi kaikki tavoitteet samanaikaisesti. Sen sijaan pyrimme keräämään joukon ratkaisuja, jotka hallitsevat kaikkia muita ratkaisuja ainakin yhdessä tavoitteessa (kuten validointivirhe). Nyt voidaan aloittaa monitavoitehaku AMT:n kautta asettamalla mittarit, joita haluamme vähentää (validointivirhe ja parametrien määrä). Satunnaiset aliverkot määritellään parametrilla max_jobs ja samanaikaisten töiden määrä määritellään parametrilla max_parallel_jobs. Koodi mallin tarkistuspisteen lataamiseksi ja aliverkon arvioimiseksi on saatavilla osoitteessa evaluate_subnetwork.py skriptejä.

# Maximum number of sub-networks we will evaluate
max_jobs = 100
max_parallel_jobs = 5

# Entry point script to load the super-network and evaluate a sub-network
entry_point = "evaluate_subnetwork.py"

# Command line arguments for the entry point script
hyperparameters = {"model_name_or_path": model_type, "output_dir": "./tmp", "task_name": "rte"}

# Define the metric we want to minimize
metric_definitions = [
    {"Name": "num-parameters", "Regex": "number of parameters: ([0-9.]+)"},
    {"Name": "validation-error", "Regex": "validation error: ([0-9.]+)"},
]

# Define HuggingFace estimator
estimator = HuggingFace(
    entry_point=entry_point,
    source_dir="./",
    instance_type="ml.g4dn.xlarge",  # instance types for the SageMaker training jobs
    instance_count=1,
    py_version="py39",
    framework_version="1.13",
    pytorch_version="1.13",
    transformers_version="4.26",
    max_run=3600 * 72,
    role=get_execution_role(),
    volume_size=125,
    model_uri=s3_path,
    hyperparameters=hyperparameters,
)

current_time = datetime.now().strftime("%m-%d-%Y-%H-%M-%S")
tuning_job_name = f"nas-search-{current_time}"

# Search space to define sub-networks
hyperparameter_ranges = {
    "num_layers": IntegerParameter(0, 12),
    # To meet HuggingFace constraints, we can only set the number of head to these values
    "num_heads": CategoricalParameter([1, 3, 6, 12]),
    "num_units": IntegerParameter(0, 3072),
}

# Define AMT Tuner object
my_tuner = HyperparameterTuner(
    estimator=estimator,
    objective_metric_name="validation-error",
    hyperparameter_ranges=hyperparameter_ranges,
    metric_definitions=metric_definitions,
    max_jobs=max_jobs,
    strategy="Random",
    random_seed=seed,
    objective_type="Minimize",
    max_parallel_jobs=max_parallel_jobs,
)

# Start hyperparameter tuning job
my_tuner.fit(job_name=tuning_job_name)

AMT-viritystyö kestää noin 2 tuntia ja 20 minuuttia. Kun AMT-viritystyö on suoritettu onnistuneesti, jäsennämme työn historian ja keräämme aliverkon konfiguraatiot, kuten päiden lukumäärän, kerrosten lukumäärän, yksiköiden lukumäärän ja vastaavat mittarit, kuten validointivirheen ja parametrien lukumäärän. Seuraava kuvakaappaus näyttää yhteenvedon onnistuneesta AMT-viritintyöstä.

Seuraavaksi visualisoimme tulokset käyttämällä Pareto-joukkoa (tunnetaan myös nimellä Pareto Frontier tai Pareto-optimaalinen joukko), joka auttaa meitä tunnistamaan optimaaliset aliverkkojen joukot, jotka hallitsevat kaikkia muita aliverkkoja tavoitemittarissa (validointivirhe):

history = my_tuner.analytics().dataframe()
data = []
configs = []
for i, t in enumerate(my_tuner.analytics().training_job_summaries()):
    jn = t["TrainingJobName"]
    df = sagemaker.analytics.TrainingJobAnalytics(jn).dataframe()

    row = history[history["TrainingJobName"] == jn]
    config = {
        "num-heads": int(row["num_heads"].iloc[0].strip('"')),
        "num-layers": int(row["num_layers"]),
        "num-units": int(row["num_units"]),
    }
    configs.append(config)

    p = []
    for j, metric in enumerate(metric_definitions):
        metric_name = metric["Name"]
        if "metric_name" not in df.keys():
            continue
        y = float(df[df["metric_name"] == metric_name]["value"])
        p.append(y)
    if len(p) > 0:
        data.append(p)

data = np.array(data)

Ensin keräämme tiedot AMT-viritystyöstä. Sitten piirrämme Pareto-joukon käyttämällä matplotlob.pyplot parametrien lukumäärä x-akselilla ja validointivirhe y-akselilla. Tämä tarkoittaa, että kun siirrymme Pareto-joukon aliverkosta toiseen, meidän on joko uhrattava suorituskyky tai mallin koko, mutta parannettava toista. Viime kädessä Pareto-sarja tarjoaa meille joustavuuden valita mieltymyksiimme parhaiten sopiva aliverkko. Voimme päättää, kuinka paljon haluamme pienentää verkostomme kokoa ja kuinka paljon suorituskykyä olemme valmiita uhraamaan.

import matplotlib.pyplot as plt
from multi_objective import get_pareto_optimal

# get results of the un-pruned network
df = sagemaker.analytics.TrainingJobAnalytics(est.jobs[0].name).dataframe()
validation_error_unpruned_network = float(df[df["metric_name"] == "validation-error"].value.min())
params_unpruned_network = int(df[df["metric_name"] == "num-parameters"].value.min())
plt.scatter(
params_unpruned_network,
validation_error_unpruned_network,
marker="o",
s=80,
facecolors="none",
edgecolors="C3",
linewidth=2,
label="un-pruned super-network",
)
# get Pareto optimal points
idx = get_pareto_optimal(data)
x = data[idx, 0]
y = data[idx, 1]
plt.scatter(
x,
y,
marker="o",
s=80,
facecolors="none",
edgecolors="C0",
linewidth=2,
label="Pareto front (sub-networks)",
)
plt.xlabel("number of parameters")
plt.ylabel("validation error")
plt.legend()
plt.xscale("log")
plt.grid(linewidth="1", alpha=0.4, which="both")

Ota käyttöön hienosäädetty BERT-malli ja NAS-optimoitu aliverkkomalli SageMakerin avulla

Seuraavaksi otamme käyttöön Pareto-sarjamme suurimman mallin, joka johtaa pienimpään suorituskyvyn heikkenemiseen SageMaker-päätepiste. Paras malli on se, joka tarjoaa optimaalisen kompromissin validointivirheen ja parametrien lukumäärän välillä käyttötapauksessamme.

# Let's take the largest model in the Pareto set
indicies = np.arange(len(configs))[idx]
pareto_optimal_sub_networks = [configs[i] for i in indicies]
config_to_deploy = pareto_optimal_sub_networks[-1]  

from sagemaker.huggingface.model import HuggingFaceModel

# create Hugging Face Model Class
huggingface_model = HuggingFaceModel(
    model_data=s3_path + "/model.tar.gz",
    role=get_execution_role(),
    transformers_version="4.26",
    pytorch_version="1.13",
    py_version="py39",
    entry_point="inference.py",
    source_dir="./",
    env={"SM_HPS": json.dumps(config_to_deploy)},
)

# deploy model to SageMaker Inference
predictor = huggingface_model.deploy(initial_instance_count=1, instance_type="ml.g4dn.xlarge")

Mallivertailu

Otimme valmiiksi koulutetun BERT-perusmallin, hienosäädimme sitä verkkotunnuskohtaisella tietojoukolla, suoritimme NAS-haun hallitsevien aliverkkojen tunnistamiseksi objektiivisten mittareiden perusteella ja otimme karsitun mallin käyttöön SageMaker-päätepisteessä. Lisäksi otimme valmiiksi koulutetun BERT-perusmallin ja otimme perusmallin käyttöön toisessa SageMaker-päätepisteessä. Seuraavaksi juoksimme kuormitustestaus käyttämällä Locustia molemmissa päätepisteissä ja arvioinut suorituskykyä vasteajan suhteen.

Ensin tuomme tarvittavat Locust- ja Boto3-kirjastot. Sitten rakennamme pyynnön metatiedot ja kirjaamme aloitusajan käytettäväksi kuormitustestauksessa. Sitten hyötykuorma välitetään SageMaker-päätepisteen kutsusovellusliittymälle BotoClient-sovelluksen kautta todellisten käyttäjien pyyntöjen simuloimiseksi. Käytämme Locustia synnyttämään useita virtuaalisia käyttäjiä lähettämään pyyntöjä rinnakkain ja mittaamaan päätepisteen suorituskykyä kuormituksen alaisena. Testit suoritetaan lisäämällä käyttäjien määrää kummallekin päätepisteelle, vastaavasti. Kun testit on suoritettu, Locust tulostaa pyyntötilastojen CSV-tiedoston jokaiselle käyttöönotetulle mallille.

def send(self):
        request_meta = {
            "request_type": "InvokeEndpoint",
            "name": "SageMaker",
            "start_time": time.time(),
            "response_length": 0,
            "response": None,
            "context": {},
            "exception": None,
        }
        start_perf_counter = time.perf_counter()

        try:
            response = self.sagemaker_client.invoke_endpoint(
                EndpointName=self.endpoint_name,
                Body=self.payload,
                ContentType=self.content_type,
            )
            logging.info(response["Body"].read())
        except Exception as e:
            request_meta["exception"] = e

        request_meta["response_time"] = (
            time.perf_counter() - start_perf_counter
        ) * 1000

        events.request.fire(**request_meta)

Seuraavaksi luomme vasteaikakaaviot CSV-tiedostoista, jotka on ladattu Locust-testien suorittamisen jälkeen. Vasteajan ja käyttäjien lukumäärän kuvaajan tarkoituksena on analysoida kuormitustestauksen tuloksia visualisoimalla mallin päätepisteiden vasteajan vaikutus. Seuraavassa kaaviossa voimme nähdä, että NAS-karsittu mallin päätepiste saavuttaa lyhyemmän vasteajan verrattuna BERT-perusmallin päätepisteeseen.

Toisessa kaaviossa, joka on ensimmäisen kaavion jatke, havaitsemme, että noin 70 käyttäjän jälkeen SageMaker alkaa kuristaa BERT-perusmallin päätepistettä ja tekee poikkeuksen. NAS-karsitussa mallin päätepisteessä kuristus tapahtuu kuitenkin 90–100 käyttäjän välillä ja pienemmällä vasteajalla.

Näistä kahdesta kaaviosta huomaamme, että karsitulla mallilla on nopeampi vasteaika ja se skaalautuu paremmin kuin karsimaton malli. Kun skaalaamme päättelypäätepisteiden määrää, kuten käyttäjille, jotka ottavat käyttöön suuren määrän päättelypäätepisteitä PLM-sovelluksiinsa, kustannusedut ja suorituskyvyn paraneminen alkavat olla melko merkittäviä.

Puhdistaa

Voit poistaa SageMaker-päätepisteet hienosäädetystä BERT-perusmallista ja NAS-karsitusta mallista suorittamalla seuraavat vaiheet:

Valitse SageMaker-konsolissa Päättely ja Endpoints navigointipaneelissa.
Valitse päätepiste ja poista se.

Vaihtoehtoisesti voit suorittaa seuraavat komennot SageMaker Studio -muistikirjasta antamalla päätepisteiden nimet:

predictor.delete_model()
predictor.delete_endpoint()

Yhteenveto

Tässä viestissä keskustelimme siitä, kuinka NAS:ia käytetään hienosäädetyn BERT-mallin karsimiseen. Koulutimme ensin BERT-perusmallin käyttämällä verkkotunnuskohtaisia tietoja ja otimme sen käyttöön SageMaker-päätepisteessä. Teimme monitavoitehaun hienosäädetylle BERT-perusmallille käyttämällä kohdetehtävää SageMaker AMT:tä. Visualisoimme Pareto-rintaman ja valitsimme Paretolle optimaalisen NAS-karsitun BERT-mallin ja otimme mallin käyttöön toiseen SageMaker-päätepisteeseen. Suoritimme kuormitustestauksen Locustilla simuloidaksemme käyttäjiä, jotka kyselevät sekä päätepisteitä, että mittasimme ja tallensimme vasteajat CSV-tiedostoon. Piirimme molempien mallien vasteajan vs. käyttäjien lukumäärän.

Havaitsimme, että karsittu BERT-malli toimi huomattavasti paremmin sekä vasteajassa että ilmentymän kuristuskynnyksessä. Päätimme, että NAS-karsittu malli oli kestävämpi päätepisteen lisääntyneelle kuormitukselle ja säilytti lyhyemmän vasteajan, vaikka useammat käyttäjät rasittivat järjestelmää verrattuna BERT-perusmalliin. Voit soveltaa tässä viestissä kuvattua NAS-tekniikkaa mihin tahansa suureen kielimalliin löytääksesi karsitun mallin, joka pystyy suorittamaan kohdetehtävän huomattavasti pienemmällä vasteajalla. Voit optimoida lähestymistapaa edelleen käyttämällä latenssia parametrina validointihäviön lisäksi.

Vaikka käytämme NAS:ia tässä viestissä, kvantisointi on toinen yleinen lähestymistapa, jota käytetään PLM-mallien optimointiin ja pakkaamiseen. Kvantisointi vähentää painotusten ja aktivointien tarkkuutta koulutetussa verkossa 32-bittisestä liukulukusta pienempiin bittileveyksiin, kuten 8-bittisiin tai 16-bittisiin kokonaislukuihin, mikä johtaa pakattuun malliin, joka tuottaa nopeamman päättelyn. Kvantisointi ei vähennä parametrien määrää; sen sijaan se heikentää olemassa olevien parametrien tarkkuutta saadakseen pakatun mallin. NAS-karsiminen poistaa redundantit verkot PLM:stä, mikä luo harvaan mallin, jossa on vähemmän parametreja. Tyypillisesti NAS-karsimista ja kvantisointia käytetään yhdessä suurten PLM:ien pakkaamiseen mallin tarkkuuden ylläpitämiseksi, validointihäviöiden vähentämiseksi ja suorituskyvyn parantamiseksi sekä mallin koon pienentämiseksi. Muita yleisesti käytettyjä tekniikoita PLM:ien koon pienentämiseksi ovat tiedon tislaus, matriisifaktorointija tislauskaskadit.

Blogitekstissä ehdotettu lähestymistapa sopii tiimeille, jotka käyttävät SageMakeria mallien kouluttamiseen ja hienosäätämiseen verkkotunnuskohtaisten tietojen avulla ja päätepisteiden käyttöönottamiseksi päätelmien luomiseksi. Jos etsit täysin hallittua palvelua, joka tarjoaa valikoiman tehokkaita perusmalleja, joita tarvitaan luovien tekoälysovellusten rakentamiseen, harkitse Amazonin kallioperä. Jos etsit valmiiksi koulutettuja avoimen lähdekoodin malleja monenlaisiin yrityskäyttötapauksiin ja haluat käyttää ratkaisumalleja ja esimerkkimuistikirjoja, harkitse Amazon SageMaker JumpStart. Esikoulutettu versio Hugging Face BERT -peruskotelomallista, jota käytimme tässä viestissä, on saatavana myös SageMaker JumpStartista.

Tietoja Tekijät

Aparajithan Vaidyanathan on johtava yritysratkaisujen arkkitehti AWS:ssä. Hän on pilviarkkitehti, jolla on yli 24 vuoden kokemus yritys-, suur- ja hajautettujen ohjelmistojärjestelmien suunnittelusta ja kehittämisestä. Hän on erikoistunut generatiiviseen tekoälyyn ja koneoppimisen tietotekniikkaan. Hän on intohimoinen maratonjuoksija ja hänen harrastuksiaan ovat vaellus, pyöräily ja ajanvietto vaimonsa ja kahden pojan kanssa.