LLM-ide eeltöötlemine ja peenhäälestus kiiresti ja kulutõhusalt Amazon EMR-i serverita ja Amazon SageMakeri abil | Amazoni veebiteenused

Taasavaldanud Platon

järgijaid: 0

Suured keelemudelid (LLM-id) muutuvad üha populaarsemaks ning uusi kasutusjuhtumeid uuritakse pidevalt. Üldiselt saate luua rakendusi, mida toidavad LLM-id, lisades oma koodisse kiire inseneri. Siiski on juhtumeid, kus olemasoleva LLM-i küsimine ei õnnestu. Siin võib aidata mudeli peenhäälestus. Prompt engineering tähendab mudeli väljundi suunamist sisendviipade loomise kaudu, samas kui peenhäälestus on mudeli koolitamine kohandatud andmekogumite järgi, et see sobiks paremini konkreetsete ülesannete või domeenide jaoks.

Enne mudeli peenhäälestamist peate leidma ülesandepõhise andmestiku. Üks tavaliselt kasutatav andmekogum on Üldine roomamise andmestik. Common Crawli korpus sisaldab petabaite andmeid, mida on regulaarselt kogutud alates 2008. aastast, ning sisaldab veebilehtede töötlemata andmeid, metaandmete väljavõtteid ja tekstiväljavõtteid. Lisaks kasutatava andmestiku kindlaksmääramisele on vajalik andmete puhastamine ja töötlemine vastavalt peenhäälestuse spetsiifilistele vajadustele.

Hiljuti tegime koostööd kliendiga, kes soovis eeltöödelda uusima Common Crawli andmestiku alamhulka ja seejärel oma LLM-i puhastatud andmetega täpsustada. Klient otsis, kuidas seda AWS-is kõige kuluefektiivsemalt saavutada. Pärast nõuete arutamist soovitasime kasutada Amazon EMR serverita nende andmete eeltöötluse platvormina. EMR Serverless sobib hästi suuremahuliseks andmetöötluseks ja välistab vajaduse taristu hoolduse järele. Kulude osas võetakse tasu ainult iga töö jaoks kasutatud ressursside ja kestuse alusel. Klient suutis EMR Serverlessi abil nädala jooksul eeltöödelda sadu TB andmeid. Pärast andmete eeltöötlemist kasutasid nad Amazon SageMaker LLM-i peenhäälestamiseks.

Selles postituses tutvustame teile kliendi kasutusjuhtu ja kasutatud arhitektuuri.

Järgmistes jaotistes tutvustame esmalt ühist roomamise andmestikku ning seda, kuidas uurida ja filtreerida vajalikke andmeid. Amazonase Athena maksab ainult skannitud andmemahu eest ning seda kasutatakse andmete kiireks uurimiseks ja filtreerimiseks, olles samas kulutõhus. EMR Serverless pakub Sparki andmetöötluseks kuluefektiivset ja hooldusvaba võimalust ning seda kasutatakse filtreeritud andmete töötlemiseks. Järgmisena kasutame Amazon SageMaker JumpStart peenhäälestamiseks Lama 2 mudel eeltöödeldud andmestikuga. SageMaker JumpStart pakub kõige levinumate kasutusjuhtude jaoks lahenduste komplekti, mida saab juurutada vaid mõne klõpsuga. LLM-i (nt Llama 2) peenhäälestamiseks ei pea te koodi kirjutama. Lõpuks juurutame peenhäälestatud mudeli, kasutades Amazon SageMaker ja võrrelge sama küsimuse tekstiväljundi erinevusi originaal- ja peenhäälestatud Llama 2 mudelite vahel.

Selle lahenduse arhitektuuri illustreerib järgmine diagramm.

Enne lahenduse üksikasjadesse sukeldumist täitke järgmised eeltingimused.

Common Crawl on avatud korpuse andmestik, mis saadakse enam kui 50 miljardi veebilehe roomamisel. See sisaldab tohutul hulgal struktureerimata andmeid mitmes keeles, alates 2008. aastast kuni petabaitide tasemeni. Seda uuendatakse pidevalt.

GPT-3 treenimisel moodustab Common Crawl andmestik 60% selle treeningandmetest, nagu on näidatud järgmisel diagrammil (allikas: Keelemudelid on väheõppijad).

Teine oluline andmestik, mida tasub mainida, on C4 andmestik. C4, lühend sõnadest Colossal Clean Crawled Corpus, on andmestik, mis on tuletatud Common Crawli andmestiku järeltöötlusest. Meta LLaMA dokumendis kirjeldasid nad kasutatud andmekogumeid, millest Common Crawl moodustas 67% (kasutab 3.3 TB andmeid) ja C4 15% (kasutab 783 GB andmeid). Dokumendis rõhutatakse erinevalt eeltöödeldud andmete kaasamise olulisust mudeli jõudluse parandamiseks. Vaatamata sellele, et algsed C4 andmed olid osa Common Crawlist, valis Meta nende andmete ümbertöödeldud versiooni.

Selles jaotises käsitleme levinumaid viise ühise roomamise andmekogumiga suhtlemiseks, filtreerimiseks ja töötlemiseks.

Common Crawli toorandmekogum sisaldab kolme tüüpi andmefaile: veebilehe töötlemata andmed (WARC), metaandmed (WAT) ja teksti ekstraktimine (WET).

Pärast 2013. aastat kogutud andmed salvestatakse WARC-vormingus ja need sisaldavad vastavaid metaandmeid (WAT) ja teksti väljavõtete andmeid (WET). Andmekogum asub Amazon S3-s, seda värskendatakse kord kuus ja sellele pääseb juurde otse AWS Marketplace.

$  aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2023-23/
PRE segments/
2023-06-21  00:34:08       2164  cc-index-table.paths.gz
2023-06-21  00:34:08        637 cc-index.paths.gz
2023-06-21  05:52:05       2724 index.html
2023-06-21  00:34:09     161064  non200responses.paths.gz
2023-06-21  00:34:10     160888 robotstxt.paths.gz
2023-06-21  00:34:10        480 segment.paths.gz
2023-06-21  00:34:11     161082 warc.paths.gz
2023-06-21  00:34:12     160895 wat.paths.gz
2023-06-21  00:34:12     160898 wet.paths.gz

Ühise roomamise andmestik sisaldab ka andmete filtreerimiseks indeksitabelit, mida nimetatakse cc-index-tableiks.

cc-index-tabel on olemasolevate andmete register, mis pakub tabelipõhist WARC-failide indeksit. See võimaldab hõlpsalt otsida teavet, näiteks seda, milline WARC-fail vastab konkreetsele URL-ile.

Näiteks saate luua Athena tabeli, et kaardistada cc-indeksi andmed järgmise koodiga:

CREATE  EXTERNAL TABLE IF NOT EXISTS ccindex (
  url_surtkey                   STRING,
  url                           STRING,
  url_host_name                 STRING,
  url_host_tld                  STRING,
  url_host_2nd_last_part        STRING,
  url_host_3rd_last_part        STRING,
  url_host_4th_last_part        STRING,
  url_host_5th_last_part        STRING,
  url_host_registry_suffix      STRING,
  url_host_registered_domain    STRING,
  url_host_private_suffix       STRING,
  url_host_private_domain       STRING,
  url_host_name_reversed        STRING,
  url_protocol                  STRING,
  url_port                      INT,
  url_path                      STRING,
  url_query                     STRING,
  fetch_time                    TIMESTAMP,
  fetch_status                  SMALLINT,
  fetch_redirect                STRING,
  content_digest                STRING,
  content_mime_type             STRING,
  content_mime_detected         STRING,
  content_charset               STRING,
  content_languages             STRING,
  content_truncated             STRING,
  warc_filename                 STRING,
  warc_record_offset            INT,
  warc_record_length            INT,
  warc_segment                  STRING)
PARTITIONED  BY (
  crawl                         STRING,
  subset                        STRING)
STORED  AS parquet
LOCATION  's3://commoncrawl/cc-index/table/cc-main/warc/';
 
# add partitions
MSCK  REPAIR TABLE ccindex

# query
select  * from ccindex 
where  crawl = 'CC-MAIN-2018-05' 
  and  subset = 'warc' 
  and  url_host_tld = 'no' 
limit  10

Eelnevad SQL-laused näitavad, kuidas luua Athena tabelit, lisada partitsioone ja käivitada päring.

Filtreerige andmeid Common Crawli andmestikust

Nagu näete tabeli loomise SQL-lausest, on mitu välja, mis aitavad andmeid filtreerida. Näiteks kui soovite saada Hiina dokumentide arvu teatud perioodi jooksul, võib SQL-lause olla järgmine:

SELECT
  url,
  warc_filename,
  content_languages
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-14'
  OR crawl = 'CC-MAIN-2023-23')
  AND subset = 'warc'
  AND content_languages ='zho'
LIMIT  10000

Kui soovite edasist töötlemist teha, saate tulemused salvestada teise S3 ämbrisse.

Analüüsige filtreeritud andmeid

. Üldine Crawl GitHubi hoidla pakub mitmeid PySparki näiteid toorandmete töötlemiseks.

Vaatame näidet jooksmisest server_count.py (skripti näide, mille pakub Common Crawl GitHubi repo) asukohas asuvatel andmetel s3://commoncrawl/crawl-data/CC-MAIN-2023-23/segments/1685224643388.45/warc/.

Esiteks vajate Sparki keskkonda, näiteks EMR Sparki. Näiteks saate käivitada Amazon EMR-i EC2 klastris us-east-1 (kuna andmestik on sees us-east-1). EMR-i kasutamine EC2 klastris võib aidata teil enne tööde esitamist tootmiskeskkonda testida.

Pärast EMR-i käivitamist EC2 klastris peate klastri esmasesse sõlme SSH-sse sisse logima. Seejärel pakendage Pythoni keskkond ja esitage skript (vt Conda dokumentatsioon Miniconda installimiseks):

#  create conda environment
conda  create -y -n example -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio

#  package the conda env
conda  activate example
conda  pack -o environment.tar.gz

#  get script from common crawl github
git  clone https://github.com/commoncrawl/cc-pyspark.git

#  copy target file path to local
aws  s3 cp s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz .
gzip  -d warc.paths.gz

#  put warc list to hdfs
hdfs  dfs -put warc.paths

#  submit job
spark-submit  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python 
--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/  
--master yarn  
--deploy-mode cluster 
--archives environment.tar.gz#environment 
--py-files cc-pyspark/sparkcc.py  cc-pyspark/server_count.py --input_base_url  s3://commoncrawl/ ./warc.paths count_demo

Kõigi viidete töötlemine failis warc.path võib võtta aega. Demo eesmärkidel saate töötlemisaega parandada järgmiste strateegiatega.

Laadige fail alla s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz oma kohalikku arvutisse, pakkige see lahti ja laadige seejärel HDFS-i või Amazon S3-sse. Põhjus on selles, et gzip-faili ei saa poolitada. Faili paralleelseks töötlemiseks peate selle lahti pakkima.
Muuda warc.path faili, kustutage suurem osa selle ridu ja säilitage ainult kaks rida, et töö palju kiiremini käiks.

Pärast töö lõpetamist näete tulemust s3://xxxx-common-crawl/output/, Parketi formaadis.

Rakendage kohandatud omamise loogikat

Common Crawl GitHubi repo pakub WARC-failide töötlemiseks ühtset lähenemisviisi. Üldiselt saate pikendada CCSparkJob alistama ühe meetodi (process_record), mis on paljudel juhtudel piisav.

Vaatame viimaste filmide IMDB arvustuste saamiseks näidet. Esiteks peate IMDB saidil failid välja filtreerima:

SELECT
  url,
  warc_filename,
  url_host_name
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
LIMIT  1000

Seejärel saate hankida IMDB ülevaateandmeid sisaldavaid WARC-failide loendeid ja salvestada WARC-failide nimed loendina tekstifailis.

Teise võimalusena võite kasutada EMR Sparki, hankida WARC-failide loend ja salvestada see Amazon S3-sse. Näiteks:

sql  = """SELECT
  warc_filename
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
"""

warc_list  = spark.sql(sql)

#  write result list to s3
warc_list.coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/warclist/imdb_warclist")

Väljundfail peaks välja nägema sarnane s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt.

Järgmine samm on nendest WARC-failidest kasutajate arvustuste eraldamine. Saate pikendada CCSparkJob alistama process_record() meetod:

from  sparkcc import CCSparkJob
from  bs4 import BeautifulSoup
from  urllib.parse import urlsplit
 
class  IMDB_Extract_Job(CCSparkJob):
    name = "IMDB_Reviews"
 
    def process_record(self, record):
        if self.is_response_record(record):
            # WARC response record
            domain =  urlsplit(record.rec_headers['WARC-Target-URI']).hostname
            if domain == 'www.imdb.com':
                # get web contents
                contents = (
                    record.content_stream()
                        .read()
                        .decode("utf-8", "replace")
                )
 
                # parse with beautiful soup
                soup =  BeautifulSoup(contents, "html.parser")
 
                # get reviews
                review_divs =  soup.find_all(class_="text show-more__control")
                for div in review_divs:
                    yield div.text,1
 
 
if  __name__ == "__main__":
    job = IMDB_Extract_Job()
    job.run()

Eelmise skripti saate salvestada kui imdb_extractor.py, mida kasutate järgmistes sammudes. Pärast andmete ja skriptide ettevalmistamist saate filtreeritud andmete töötlemiseks kasutada EMR Serverlessi.

EMR serverita

EMR Serverless on serverita juurutusvõimalus suurte andmeanalüütikarakenduste käitamiseks, kasutades avatud lähtekoodiga raamistikke, nagu Apache Spark ja Hive, ilma klastreid või servereid konfigureerimata, haldamata ja skaleerimata.

EMR Serverlessi abil saate käitada analüütika töökoormust mis tahes ulatuses automaatse skaleerimisega, mis muudab ressursside suurust sekunditega, et vastata muutuvatele andmemahtudele ja töötlemisnõuetele. EMR Serverless skaleerib ressursse automaatselt üles ja alla, et pakkuda teie rakendusele õiget mahtu, ja maksate ainult selle eest, mida kasutate.

Ühise roomamise andmestiku töötlemine on üldiselt ühekordne töötlemisülesanne, mistõttu sobib see EMR-i serverita töökoormuse jaoks.

Looge EMR-i serverita rakendus

Saate luua EMR-i serverita rakenduse EMR Studio konsoolil. Tehke järgmised sammud.

Valige EMR Studio konsoolil Rakendused all Serverita navigeerimispaanil.
Vali Loo rakendus.

Sisestage rakendusele nimi ja valige Amazon EMR-i versioon.

Kui on vaja juurdepääsu VPC ressurssidele, lisage kohandatud võrguseade.

Vali Loo rakendus.

Teie Sparki serverita keskkond on seejärel valmis.

Enne kui saate EMR Spark Serverlessile töö esitada, peate ikkagi looma täitmisrolli. Viitama Amazon EMR Serverlessiga alustamine rohkem üksikasju.

Töötle tavalisi roomamisandmeid rakendusega EMR Serverless

Kui teie EMR Spark Serverless rakendus on valmis, tehke andmete töötlemiseks järgmised toimingud.

Valmistage ette Conda keskkond ja laadige see Amazon S3-sse, mida kasutatakse EMR Spark Serverlessi keskkonnana.
Laadige käivitatavad skriptid üles S3 ämbrisse. Järgmises näites on kaks skripti.
1. imbd_extractor.py – kohandatud loogika andmestikust sisu eraldamiseks. Sisu leiate sellest postitusest varem.
2. cc-pyspark/sparkcc.py – PySparki raamistiku näide Üldine Crawl GitHubi repo, mis on vajalik kaasata.
Esitage PySparki töö EMR Serverless Sparkile. Selle näite käitamiseks oma keskkonnas määratlege järgmised parameetrid.
1. rakenduse ID – Teie EMR-i serverita rakenduse ID.
2. hukkamine-roll-arn - teie EMR-i serverita täitmise roll. Selle loomiseks vaadake Looge töö käitusaegne roll.
3. WARC-faili asukoht - teie WARC-failide asukoht. s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt sisaldab filtreeritud WARC-failide loendit, mille hankisite selles postituses varem.
4. spark.sql.warehouse.dir – Vaikimisi lao asukoht (kasutage oma S3 kataloogi).
5. säde.arhiivid – Koostatud Conda keskkonna S3 asukoht.
6. spark.submit.pyFiles – ettevalmistatud PySparki skript sparkcc.py.

Vaadake järgmist koodi:

# 1. create conda environment
conda  create -y -n imdb -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio bs4
 
# 2. package the conda  env, and upload to s3
conda  activate imdb 
conda  pack -o imdbenv.tar.gz
aws  s3 cp imdbenv.tar.gz s3://xxxx-common-crawl/env/
 
# 3. upload scripts to S3
aws  s3 cp imdb_extractor.py s3://xxxx-common-crawl/scripts/
aws  s3 cp cc-pyspark/sparkcc.py s3://xxxx-common-crawl/scripts/
 
# 4. submit job to EMR Serverless
#!/bin/bash
aws  emr-serverless start-job-run 
    --application-id 00fdsobht2skro2l 
    --execution-role-arn  arn:aws:iam::xxxx:role/EMR-Serverless-JobExecutionRole 
    --name imdb-retrive 
    --job-driver '{
        "sparkSubmit": {
          "entryPoint":  "s3://xxxx-common-crawl/scripts/imdb_extractor.py",
          "entryPointArguments":  ["--input_base_url" ,"s3://commoncrawl/",  "s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt",  "imdb_reviews", "--num_output_partitions",  "1"],
          "sparkSubmitParameters":  "--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/ --conf  spark.network.timeout=10000000 —conf  spark.executor.heartbeatInterval=10000000 —conf spark.executor.instances=100  —conf spark.executor.cores=4 —conf spark.executor.memory=16g —conf  spark.driver.memory=16g   —conf  spark.archives=s3://xxxx-common-crawl/env/imdbenv.tar.gz#environment —conf  spark.emr-serverless.driverEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python  —conf spark.emr-serverless.driverEnv.PYSPARK_PYTHON=./environment/bin/python  —conf spark.executorEnv.PYSPARK_PYTHON=./environment/bin/python —conf  spark.submit.pyFiles=s3://xxxx-common-crawl/scripts/sparkcc.py“
        }
}'

Pärast töö lõpetamist salvestatakse ekstraktitud ülevaated Amazon S3-sse. Sisu kontrollimiseks võite kasutada Amazon S3 Selecti, nagu on näidatud järgmisel ekraanipildil.

Kaalutlused

Kohandatud koodiga tohutute andmemahtude käsitlemisel tuleb arvestada järgmiste punktidega.

Mõned kolmanda osapoole Pythoni teegid ei pruugi Condas saadaval olla. Sellistel juhtudel saate PySparki käituskeskkonna loomiseks lülituda Pythoni virtuaalsele keskkonnale.
Kui töödeldakse tohutul hulgal andmeid, proovige luua ja kasutada nende paralleelseerimiseks mitut EMR Serverless Sparki rakendust. Iga rakendus käsitleb faililoendite alamhulka.
Common Crawl andmete filtreerimisel või töötlemisel võib Amazon S3 puhul ilmneda aeglustumise probleem. Seda seetõttu, et andmeid salvestav S3-salv on avalikult juurdepääsetav ja teised kasutajad võivad andmetele samal ajal juurde pääseda. Selle probleemi leevendamiseks saate lisada korduskatsemehhanismi või sünkroonida konkreetsed andmed Common Crawl S3 ämbrist oma ämbrisse.

Peenhäälestage Llama 2 rakendusega SageMaker

Pärast andmete ettevalmistamist saate sellega Llama 2 mudelit peenhäälestada. Saate seda teha SageMaker JumpStarti abil ilma koodi kirjutamata. Lisateabe saamiseks vaadake Peenhäälestage Llama 2 teksti genereerimiseks rakenduses Amazon SageMaker JumpStart.

Selle stsenaariumi korral viite läbi domeeni kohandamise peenhäälestuse. Selle andmestiku puhul koosneb sisend CSV-, JSON- või TXT-failist. Peate sisestama kõik ülevaateandmed TXT-faili. Selleks saate esitada EMR Spark Serverlessile lihtsa Sparki töö. Vaadake järgmist näidiskoodilõiku:

# disable generating _SUCCESS file
spark.conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs",  "false")

data  = spark.read.parquet("s3://xxxx-common-crawl/output/imdb_reviews/")

data.select('Key').coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/llama2/train/")

Pärast treeningandmete ettevalmistamist sisestage andmete asukoht Treeningu andmekogum, siis vali Rong.

Saate jälgida koolitustöö olekut.

Hinnake peenhäälestatud mudelit

Pärast koolituse lõppu valige juurutada SageMaker JumpStartis oma peenhäälestatud mudeli juurutamiseks.

Kui mudel on edukalt juurutatud, valige Avage märkmik, mis suunab teid ettevalmistatud Jupyteri märkmikusse, kus saate oma Pythoni koodi käitada.

Märkmiku jaoks saate kasutada pilti Data Science 2.0 ja Python 3 tuuma.

Seejärel saate selles sülearvutis hinnata peenhäälestatud mudelit ja originaalmudelit.

endpoint_name_original = "jumpstart-dft-meta-textgeneration-llama-2-7b-origin"
endpoint_name_fine_tuned = "jumpstart-ftc-meta-textgeneration-llama-2-7b"

payload = {
    "inputs": "The review of movie 'A Woman of Paris: A Drama of Fate' is ",
    "parameters": {
        "max_new_tokens": 256,
        "top_p": 0.9,
        "temperature": 0.6,
        "return_full_text": True,
    },
        }
    
def query_endpoint(payload, endpoint_name):
    client = boto3.client("sagemaker-runtime")
    response = client.invoke_endpoint(
        EndpointName=endpoint_name,
        ContentType="application/json",
        Body=json.dumps(payload),
        CustomAttributes="accept_eula=true",
    )
    response = response["Body"].read().decode("utf8")
    response = json.loads(response)
    print(endpoint_name + ": n" + response[0]['generation'])


query_endpoint(payload, endpoint_name_original)
print("n-----#################-----n")
query_endpoint(payload, endpoint_name_fine_tuned)

Järgmised on kaks vastust, mille algmudel ja peenhäälestatud mudel samale küsimusele tagastasid.

Varustasime mõlemale modellile sama lause: "Filmi "Pariisi naine: saatusedraama" arvustus on" ja laseme neil lause lõpetada.

Algne mudel väljastab mõttetud laused:

"The review of movie 'A woman of Paris: A Drama of Fate' is 3.0/5.

A Woman of Paris: A Drama of Fate(1923)

A Woman of Paris: A Drama of Fate movie released on 17 October, 1992. The movie is directed by. A Woman of Paris: A Drama of Fate featured Jeanne Eagles, William Haines, Burr McIntosh and Jack Rollens in lead rols.

..."

Seevastu peenhäälestatud mudeli väljundid sarnanevad pigem filmiarvustusega:

" The review of movie 'A Woman of Paris: A Drama of Fate' is 6.3/10. I liked the story, the plot, the character, the background. The performances are amazing. Rory (Judy Davis) is an Australian photographer who travels to Africa to photograph the people, wildlife, and scenery. She meets Peter (Donald Sutherland), a zoologist, and they begin a relationship..."

Ilmselgelt toimib peenhäälestatud mudel selle konkreetse stsenaariumi korral paremini.

Koristage

Pärast selle harjutuse lõpetamist täitke oma ressursside puhastamiseks järgmised sammud.

Kustutage S3 ämber mis salvestab puhastatud andmestiku.
Peatage EMR-i serverita keskkond.
Kustutage SageMakeri lõpp-punkt mis majutab LLM-i mudelit.
Kustutage SageMakeri domeen mis juhib teie märkmikke.

Teie loodud rakendus peaks vaikimisi peatuma automaatselt pärast 15-minutilist tegevusetust.

Üldjuhul ei pea te Athena keskkonda puhastama, sest kui te seda ei kasuta, siis pole tasusid.

Järeldus

Selles postituses tutvustasime Common Crawli andmestikku ja seda, kuidas kasutada EMR Serverlessi andmete töötlemiseks LLM-i peenhäälestamiseks. Seejärel demonstreerisime, kuidas kasutada SageMaker JumpStarti LLM-i peenhäälestamiseks ja ilma koodita juurutamiseks. Lisateavet EMR Serverlessi kasutusjuhtude kohta leiate artiklist Amazon EMR serverita. Lisateavet Amazon SageMaker JumpStarti mudelite hostimise ja peenhäälestuse kohta leiate jaotisest Sagemaker JumpStart dokumentatsioon.

Autoritest

Shijian Tang on Amazon Web Servicesi analüüsilahenduste spetsialist.

Matthew Liem on Amazon Web Services'i vanemlahenduste arhitektuurijuht.

Dalei Xu on Amazon Web Servicesi analüüsilahenduste spetsialist.

Yuanjun Xiao on Amazon Web Servicesi vanemlahenduste arhitekt.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/big-data/preprocess-and-fine-tune-llms-quickly-and-cost-effectively-using-amazon-emr-serverless-and-amazon-sagemaker/

Ajatempel: Veebruar 1, 2024

Ajatempel: Jan 3, 2023

Taasavaldanud Platon

Kuidas Ontraport vähendas AWS Glue'i abil andmetöötluskulusid 80% võrra Amazoni veebiteenused

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto