Hitro in stroškovno učinkovito predhodno obdelajte in natančno nastavite LLM z uporabo Amazon EMR Serverless in Amazon SageMaker | Spletne storitve Amazon

Ponovno objavil Platon

Spremljevalci: 0

Veliki jezikovni modeli (LLM) postajajo vse bolj priljubljeni, pri čemer se nenehno raziskujejo novi primeri uporabe. Na splošno lahko izdelate aplikacije, ki jih poganjajo LLM, tako da v svojo kodo vključite hitro inženirstvo. Vendar pa obstajajo primeri, ko poziv obstoječemu LLM ne uspe. Tu lahko pomaga fina nastavitev modela. Pri hitrem inženiringu gre za usmerjanje izhodnih podatkov modela z oblikovanjem vhodnih pozivov, medtem ko pri natančnem uravnavanju gre za usposabljanje modela na naborih podatkov po meri, da postane bolj primeren za posebne naloge ali domene.

Preden lahko natančno prilagodite model, morate najti nabor podatkov, specifičen za nalogo. En nabor podatkov, ki se pogosto uporablja, je Nabor podatkov skupnega pajkanja. Korpus Common Crawl vsebuje petabajte podatkov, ki se redno zbirajo od leta 2008, in vsebuje neobdelane podatke spletnih strani, izvlečke metapodatkov in izvlečke besedila. Poleg določanja, kateri niz podatkov je treba uporabiti, je potrebno čiščenje in obdelava podatkov glede na posebne potrebe natančnega prilagajanja.

Nedavno smo sodelovali s stranko, ki je želela predhodno obdelati podmnožico najnovejšega nabora podatkov Common Crawl in nato natančno prilagoditi svoj LLM s prečiščenimi podatki. Stranka je iskala, kako bi lahko to dosegla na najbolj stroškovno učinkovit način na AWS. Po razpravi o zahtevah smo priporočili uporabo Amazon EMR brez strežnika kot njihovo platformo za predhodno obdelavo podatkov. EMR Serverless je zelo primeren za obsežno obdelavo podatkov in odpravlja potrebo po vzdrževanju infrastrukture. Kar zadeva stroške, se zaračunava samo glede na vire in trajanje, uporabljeno za vsako opravilo. Stranka je lahko z EMR Serverless vnaprej obdelala na stotine TB podatkov v enem tednu. Ko so podatke predhodno obdelali, so jih uporabili Amazon SageMaker za natančno nastavitev LLM.

V tej objavi vas popeljemo skozi strankin primer uporabe in uporabljeno arhitekturo.

V naslednjih razdelkih najprej predstavimo nabor podatkov Common Crawl ter kako raziskati in filtrirati podatke, ki jih potrebujemo. Amazonska Atena zaračuna samo velikost podatkov, ki jih skenira, in se uporablja za hitro raziskovanje in filtriranje podatkov, hkrati pa je stroškovno učinkovit. EMR Serverless ponuja stroškovno učinkovito možnost brez vzdrževanja za obdelavo podatkov Spark in se uporablja za obdelavo filtriranih podatkov. Nato uporabimo Amazon SageMaker JumpStart za natančno nastavitev Model Llama 2 s predhodno obdelanim naborom podatkov. SageMaker JumpStart ponuja nabor rešitev za najpogostejše primere uporabe, ki jih je mogoče namestiti z le nekaj kliki. Za natančno nastavitev LLM-ja, kot je Llama 2, vam ni treba napisati kode. Na koncu uvedemo natančno nastavljen model z Amazon SageMaker in primerjajte razlike v izpisu besedila za isto vprašanje med originalnim in natančno nastavljenim modelom Llama 2.

Naslednji diagram prikazuje arhitekturo te rešitve.

Preden se poglobite v podrobnosti rešitve, dokončajte naslednje predpogojne korake:

Common Crawl je nabor odprtih korpusnih podatkov, pridobljen s pajkanjem več kot 50 milijard spletnih strani. Vključuje ogromne količine nestrukturiranih podatkov v več jezikih, začenši od leta 2008 do petabajtne ravni. Nenehno se posodablja.

Pri usposabljanju GPT-3 nabor podatkov Common Crawl predstavlja 60 % podatkov o usposabljanju, kot je prikazano v naslednjem diagramu (vir: Jezikovni modeli se učijo le malo posnetkov).

Drug pomemben nabor podatkov, ki ga je vredno omeniti, je nabor podatkov C4. C4, okrajšava za Colossal Clean Crawled Corpus, je nabor podatkov, ki izhaja iz naknadne obdelave nabora podatkov Common Crawl. V dokumentu LLaMA družbe Meta so orisali uporabljene nize podatkov, pri čemer Common Crawl predstavlja 67 % (uporablja 3.3 TB podatkov) in C4 15 % (uporablja 783 GB podatkov). Članek poudarja pomen vključevanja različno vnaprej obdelanih podatkov za izboljšanje učinkovitosti modela. Kljub temu, da so izvirni podatki C4 del Common Crawl, se je Meta odločila za ponovno obdelano različico teh podatkov.

V tem razdelku pokrivamo običajne načine za interakcijo, filtriranje in obdelavo nabora podatkov Common Crawl.

Nabor neobdelanih podatkov Common Crawl vključuje tri vrste podatkovnih datotek: neobdelane podatke spletnih strani (WARC), metapodatke (WAT) in ekstrakcijo besedila (WET).

Podatki, zbrani po letu 2013, so shranjeni v formatu WARC in vključujejo ustrezne metapodatke (WAT) in podatke o ekstrakciji besedila (WET). Nabor podatkov se nahaja v Amazon S3, posodablja se mesečno in je do njega mogoče neposredno dostopati AWS Marketplace.

$  aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2023-23/
PRE segments/
2023-06-21  00:34:08       2164  cc-index-table.paths.gz
2023-06-21  00:34:08        637 cc-index.paths.gz
2023-06-21  05:52:05       2724 index.html
2023-06-21  00:34:09     161064  non200responses.paths.gz
2023-06-21  00:34:10     160888 robotstxt.paths.gz
2023-06-21  00:34:10        480 segment.paths.gz
2023-06-21  00:34:11     161082 warc.paths.gz
2023-06-21  00:34:12     160895 wat.paths.gz
2023-06-21  00:34:12     160898 wet.paths.gz

Nabor podatkov Common Crawl ponuja tudi indeksno tabelo za filtriranje podatkov, ki se imenuje cc-index-table.

cc-index-table je indeks obstoječih podatkov, ki zagotavlja indeks datotek WARC na osnovi tabele. Omogoča preprosto iskanje informacij, na primer katera datoteka WARC ustreza določenemu URL-ju.

Ustvarite lahko na primer tabelo Athena za preslikavo podatkov cc-index z naslednjo kodo:

CREATE  EXTERNAL TABLE IF NOT EXISTS ccindex (
  url_surtkey                   STRING,
  url                           STRING,
  url_host_name                 STRING,
  url_host_tld                  STRING,
  url_host_2nd_last_part        STRING,
  url_host_3rd_last_part        STRING,
  url_host_4th_last_part        STRING,
  url_host_5th_last_part        STRING,
  url_host_registry_suffix      STRING,
  url_host_registered_domain    STRING,
  url_host_private_suffix       STRING,
  url_host_private_domain       STRING,
  url_host_name_reversed        STRING,
  url_protocol                  STRING,
  url_port                      INT,
  url_path                      STRING,
  url_query                     STRING,
  fetch_time                    TIMESTAMP,
  fetch_status                  SMALLINT,
  fetch_redirect                STRING,
  content_digest                STRING,
  content_mime_type             STRING,
  content_mime_detected         STRING,
  content_charset               STRING,
  content_languages             STRING,
  content_truncated             STRING,
  warc_filename                 STRING,
  warc_record_offset            INT,
  warc_record_length            INT,
  warc_segment                  STRING)
PARTITIONED  BY (
  crawl                         STRING,
  subset                        STRING)
STORED  AS parquet
LOCATION  's3://commoncrawl/cc-index/table/cc-main/warc/';
 
# add partitions
MSCK  REPAIR TABLE ccindex

# query
select  * from ccindex 
where  crawl = 'CC-MAIN-2018-05' 
  and  subset = 'warc' 
  and  url_host_tld = 'no' 
limit  10

Prejšnji stavki SQL prikazujejo, kako ustvariti tabelo Athena, dodati particije in zagnati poizvedbo.

Filtrirajte podatke iz nabora podatkov Common Crawl

Kot lahko vidite iz stavka SQL za ustvarjanje tabele, obstaja več polj, ki lahko pomagajo filtrirati podatke. Na primer, če želite pridobiti število kitajskih dokumentov v določenem obdobju, je lahko stavek SQL naslednji:

SELECT
  url,
  warc_filename,
  content_languages
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-14'
  OR crawl = 'CC-MAIN-2023-23')
  AND subset = 'warc'
  AND content_languages ='zho'
LIMIT  10000

Če želite izvesti nadaljnjo obdelavo, lahko rezultate shranite v drugo vedro S3.

Analizirajte filtrirane podatke

O Repozitorij Common Crawl GitHub ponuja več primerov PySpark za obdelavo neobdelanih podatkov.

Poglejmo primer teka server_count.py (primer skripta, ki ga zagotavlja repo Common Crawl GitHub) o podatkih, ki se nahajajo v s3://commoncrawl/crawl-data/CC-MAIN-2023-23/segments/1685224643388.45/warc/.

Najprej potrebujete okolje Spark, kot je EMR Spark. Na primer, lahko zaženete Amazon EMR v gruči EC2 us-east-1 (ker je nabor podatkov v us-east-1). Uporaba EMR v gruči EC2 vam lahko pomaga pri izvedbi preizkusov, preden pošljete opravila v produkcijsko okolje.

Po zagonu EMR v gruči EC2 se morate prijaviti s SSH v primarno vozlišče gruče. Nato zapakirajte okolje Python in pošljite skript (glejte Conda dokumentacija za namestitev Miniconde):

#  create conda environment
conda  create -y -n example -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio

#  package the conda env
conda  activate example
conda  pack -o environment.tar.gz

#  get script from common crawl github
git  clone https://github.com/commoncrawl/cc-pyspark.git

#  copy target file path to local
aws  s3 cp s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz .
gzip  -d warc.paths.gz

#  put warc list to hdfs
hdfs  dfs -put warc.paths

#  submit job
spark-submit  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python 
--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/  
--master yarn  
--deploy-mode cluster 
--archives environment.tar.gz#environment 
--py-files cc-pyspark/sparkcc.py  cc-pyspark/server_count.py --input_base_url  s3://commoncrawl/ ./warc.paths count_demo

Obdelava vseh sklicev v warc.path lahko traja nekaj časa. Za predstavitvene namene lahko izboljšate čas obdelave z naslednjimi strategijami:

Prenesite datoteko s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz na vaš lokalni računalnik, ga razpakirajte in nato naložite v HDFS ali Amazon S3. To je zato, ker datoteke .gzip ni mogoče razdeliti. Za vzporedno obdelavo te datoteke jo morate razpakirati.
Spremeni warc.path datoteko, izbrišite večino njenih vrstic in obdržite samo dve vrstici, da bo delo potekalo veliko hitreje.

Ko je delo končano, lahko vidite rezultat v s3://xxxx-common-crawl/output/, v formatu Parket.

Izvedite prilagojeno logiko posedovanja

Repo Common Crawl GitHub zagotavlja skupen pristop za obdelavo datotek WARC. Na splošno lahko razširite CCSparkJob za preglasitev posamezne metode (process_record), kar zadostuje za številne primere.

Oglejmo si primer, da dobimo ocene najnovejših filmov na IMDB. Najprej morate filtrirati datoteke na spletnem mestu IMDB:

SELECT
  url,
  warc_filename,
  url_host_name
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
LIMIT  1000

Nato lahko dobite sezname datotek WARC, ki vsebujejo podatke o ocenah IMDB, in shranite imena datotek WARC kot seznam v besedilni datoteki.

Lahko pa uporabite EMR Spark, da pridobite seznam datotek WARC in ga shranite v Amazon S3. Na primer:

sql  = """SELECT
  warc_filename
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
"""

warc_list  = spark.sql(sql)

#  write result list to s3
warc_list.coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/warclist/imdb_warclist")

Izhodna datoteka bi morala biti podobna s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt.

Naslednji korak je ekstrahiranje mnenj uporabnikov iz teh datotek WARC. Lahko podaljšate CCSparkJob preglasiti process_record() metoda:

from  sparkcc import CCSparkJob
from  bs4 import BeautifulSoup
from  urllib.parse import urlsplit
 
class  IMDB_Extract_Job(CCSparkJob):
    name = "IMDB_Reviews"
 
    def process_record(self, record):
        if self.is_response_record(record):
            # WARC response record
            domain =  urlsplit(record.rec_headers['WARC-Target-URI']).hostname
            if domain == 'www.imdb.com':
                # get web contents
                contents = (
                    record.content_stream()
                        .read()
                        .decode("utf-8", "replace")
                )
 
                # parse with beautiful soup
                soup =  BeautifulSoup(contents, "html.parser")
 
                # get reviews
                review_divs =  soup.find_all(class_="text show-more__control")
                for div in review_divs:
                    yield div.text,1
 
 
if  __name__ == "__main__":
    job = IMDB_Extract_Job()
    job.run()

Prejšnji skript lahko shranite kot imdb_extractor.py, ki ga boste uporabili v naslednjih korakih. Ko pripravite podatke in skripte, lahko uporabite EMR Serverless za obdelavo filtriranih podatkov.

EMR brez strežnika

EMR Serverless je možnost uvedbe brez strežnika za izvajanje aplikacij za analitiko velikih podatkov z uporabo odprtokodnih okvirov, kot sta Apache Spark in Hive, brez konfiguriranja, upravljanja in skaliranja gruč ali strežnikov.

Z EMR Serverless lahko izvajate analitične delovne obremenitve v katerem koli obsegu s samodejnim skaliranjem, ki spremeni velikost virov v nekaj sekundah, da ustreza spreminjajočim se količinam podatkov in zahtevam obdelave. EMR Serverless samodejno poveča in zmanjša vire, da zagotovi pravo količino zmogljivosti za vašo aplikacijo, vi pa plačate samo tisto, kar porabite.

Obdelava nabora podatkov Common Crawl je na splošno enkratna obdelava, zaradi česar je primerna za delovne obremenitve brez strežnika EMR.

Ustvarite aplikacijo EMR Serverless

Aplikacijo EMR Serverless lahko ustvarite na konzoli EMR Studio. Izvedite naslednje korake:

Na konzoli EMR Studio izberite Aplikacije pod Brez strežnika v podoknu za krmarjenje.
Izberite Ustvari aplikacijo.

Vnesite ime za aplikacijo in izberite različico Amazon EMR.

Če je potreben dostop do virov VPC, dodajte prilagojeno omrežno nastavitev.

Izberite Ustvari aplikacijo.

Vaše brezstrežniško okolje Spark bo nato pripravljeno.

Preden lahko pošljete opravilo EMR Spark Serverless, morate še vedno ustvariti izvršilno vlogo. Nanašati se na Kako začeti z Amazon EMR Serverless Za več podrobnosti.

Obdelajte podatke skupnega pajkanja z EMR Serverless

Ko je vaša aplikacija EMR Spark Serverless pripravljena, dokončajte naslednje korake za obdelavo podatkov:

Pripravite okolje Conda in ga naložite v Amazon S3, ki bo uporabljeno kot okolje v EMR Spark Serverless.
Naložite skripte za izvajanje v vedro S3. V naslednjem primeru sta dva skripta:
1. imbd_extractor.py – Prilagojena logika za pridobivanje vsebine iz nabora podatkov. Vsebino lahko najdete prej v tej objavi.
2. cc-pyspark/sparkcc.py – Primer ogrodja PySpark iz Common Crawl GitHub repo, ki jih je treba vključiti.
Pošljite opravilo PySpark v EMR Serverless Spark. Definirajte naslednje parametre za izvajanje tega primera v vašem okolju:
1. id-aplikacije – ID aplikacije vaše aplikacije EMR Serverless.
2. izvršitvena-vloga-arn – Vaša vloga izvajanja EMR Serverless. Če ga želite ustvariti, glejte Ustvarite vlogo izvajalnega časa opravila.
3. Lokacija datoteke WARC – Lokacija vaših datotek WARC. s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt vsebuje seznam filtriranih datotek WARC, ki ste ga pridobili prej v tej objavi.
4. spark.sql.skladišče.dir – Privzeta lokacija skladišča (uporabite imenik S3).
5. iskra.arhiv – Lokacija S3 pripravljenega okolja Conda.
6. spark.submit.pyFiles – Pripravljen skript PySpark sparkcc.py.

Glej naslednjo kodo:

# 1. create conda environment
conda  create -y -n imdb -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio bs4
 
# 2. package the conda  env, and upload to s3
conda  activate imdb 
conda  pack -o imdbenv.tar.gz
aws  s3 cp imdbenv.tar.gz s3://xxxx-common-crawl/env/
 
# 3. upload scripts to S3
aws  s3 cp imdb_extractor.py s3://xxxx-common-crawl/scripts/
aws  s3 cp cc-pyspark/sparkcc.py s3://xxxx-common-crawl/scripts/
 
# 4. submit job to EMR Serverless
#!/bin/bash
aws  emr-serverless start-job-run 
    --application-id 00fdsobht2skro2l 
    --execution-role-arn  arn:aws:iam::xxxx:role/EMR-Serverless-JobExecutionRole 
    --name imdb-retrive 
    --job-driver '{
        "sparkSubmit": {
          "entryPoint":  "s3://xxxx-common-crawl/scripts/imdb_extractor.py",
          "entryPointArguments":  ["--input_base_url" ,"s3://commoncrawl/",  "s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt",  "imdb_reviews", "--num_output_partitions",  "1"],
          "sparkSubmitParameters":  "--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/ --conf  spark.network.timeout=10000000 —conf  spark.executor.heartbeatInterval=10000000 —conf spark.executor.instances=100  —conf spark.executor.cores=4 —conf spark.executor.memory=16g —conf  spark.driver.memory=16g   —conf  spark.archives=s3://xxxx-common-crawl/env/imdbenv.tar.gz#environment —conf  spark.emr-serverless.driverEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python  —conf spark.emr-serverless.driverEnv.PYSPARK_PYTHON=./environment/bin/python  —conf spark.executorEnv.PYSPARK_PYTHON=./environment/bin/python —conf  spark.submit.pyFiles=s3://xxxx-common-crawl/scripts/sparkcc.py“
        }
}'

Ko je opravilo končano, se izvlečene ocene shranijo v Amazon S3. Če želite preveriti vsebino, lahko uporabite Amazon S3 Select, kot je prikazano na naslednjem posnetku zaslona.

Premisleki

Pri delu z ogromnimi količinami podatkov s kodo po meri je treba upoštevati naslednje:

Nekatere knjižnice Python drugih proizvajalcev morda niso na voljo v Condi. V takih primerih lahko preklopite na virtualno okolje Python, da zgradite izvajalno okolje PySpark.
Če je treba obdelati ogromno podatkov, poskusite ustvariti in uporabiti več aplikacij EMR Serverless Spark, da jih vzporedite. Vsaka aplikacija obravnava podmnožico seznamov datotek.
Pri filtriranju ali obdelavi podatkov Common Crawl lahko naletite na težavo z upočasnitvijo Amazon S3. To je zato, ker je vedro S3, v katerem so shranjeni podatki, javno dostopno in drugi uporabniki lahko istočasno dostopajo do podatkov. Če želite ublažiti to težavo, lahko dodate mehanizem za ponovni poskus ali sinhronizirate določene podatke iz vedra Common Crawl S3 v svoje vedro.

Natančno nastavite Llamo 2 s SageMakerjem

Ko so podatki pripravljeni, lahko z njimi natančno prilagodite model Llama 2. To lahko storite z uporabo SageMaker JumpStart, ne da bi pisali kodo. Za več informacij glejte Natančno nastavite Llama 2 za ustvarjanje besedila na Amazon SageMaker JumpStart.

V tem scenariju izvedete natančno prilagoditev domene. Pri tem naboru podatkov je vnos datoteka CSV, JSON ali TXT. Vse podatke pregleda morate spraviti v datoteko TXT. Če želite to narediti, lahko oddate preprosto Spark opravilo EMR Spark Serverless. Oglejte si naslednji vzorčni delček kode:

# disable generating _SUCCESS file
spark.conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs",  "false")

data  = spark.read.parquet("s3://xxxx-common-crawl/output/imdb_reviews/")

data.select('Key').coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/llama2/train/")

Ko pripravite podatke o vadbi, vnesite lokacijo podatkov za Nabor podatkov o usposabljanju, nato izberite Vlak.

Lahko spremljate status delovnega mesta za usposabljanje.

Ocenite natančno nastavljen model

Po končanem usposabljanju izberite uvajanje v SageMaker JumpStart za uvedbo vašega natančno nastavljenega modela.

Ko je model uspešno uveden, izberite Odprite Beležnico, ki vas preusmeri na pripravljen Jupyterjev zvezek, kjer lahko zaženete svojo kodo Python.

Za prenosni računalnik lahko uporabite sliko Data Science 2.0 in jedro Python 3.

Nato lahko v tem zvezku ocenite natančno nastavljen model in izvirni model.

endpoint_name_original = "jumpstart-dft-meta-textgeneration-llama-2-7b-origin"
endpoint_name_fine_tuned = "jumpstart-ftc-meta-textgeneration-llama-2-7b"

payload = {
    "inputs": "The review of movie 'A Woman of Paris: A Drama of Fate' is ",
    "parameters": {
        "max_new_tokens": 256,
        "top_p": 0.9,
        "temperature": 0.6,
        "return_full_text": True,
    },
        }
    
def query_endpoint(payload, endpoint_name):
    client = boto3.client("sagemaker-runtime")
    response = client.invoke_endpoint(
        EndpointName=endpoint_name,
        ContentType="application/json",
        Body=json.dumps(payload),
        CustomAttributes="accept_eula=true",
    )
    response = response["Body"].read().decode("utf8")
    response = json.loads(response)
    print(endpoint_name + ": n" + response[0]['generation'])


query_endpoint(payload, endpoint_name_original)
print("n-----#################-----n")
query_endpoint(payload, endpoint_name_fine_tuned)

Sledita dva odgovora, ki sta ju za isto vprašanje vrnila izvirni in natančno prilagojeni model.

Oba modela smo opremili z enakim stavkom: »Recenzija filma 'Parižanka: Drama usode' je« in ju pustili, da dokončata stavek.

Izvirni model izpiše nesmiselne stavke:

"The review of movie 'A woman of Paris: A Drama of Fate' is 3.0/5.

A Woman of Paris: A Drama of Fate(1923)

A Woman of Paris: A Drama of Fate movie released on 17 October, 1992. The movie is directed by. A Woman of Paris: A Drama of Fate featured Jeanne Eagles, William Haines, Burr McIntosh and Jack Rollens in lead rols.

..."

Nasprotno pa so rezultati natančno nastavljenega modela bolj podobni filmski recenziji:

" The review of movie 'A Woman of Paris: A Drama of Fate' is 6.3/10. I liked the story, the plot, the character, the background. The performances are amazing. Rory (Judy Davis) is an Australian photographer who travels to Africa to photograph the people, wildlife, and scenery. She meets Peter (Donald Sutherland), a zoologist, and they begin a relationship..."

Očitno je, da natančno nastavljen model deluje bolje v tem posebnem scenariju.

Čiščenje

Ko končate to vajo, izvedite naslednje korake za čiščenje virov:

Izbrišite vedro S3 ki hrani očiščen nabor podatkov.
Zaustavite okolje EMR Serverless.
Izbrišite končno točko SageMaker ki gosti model LLM.
Izbrišite domeno SageMaker ki poganja vaše zvezke.

Aplikacija, ki ste jo ustvarili, se mora privzeto samodejno ustaviti po 15 minutah nedejavnosti.

Na splošno vam ni treba čistiti okolja Athena, ker ni stroškov, ko ga ne uporabljate.

zaključek

V tej objavi smo predstavili nabor podatkov Common Crawl in kako uporabljati EMR Serverless za obdelavo podatkov za natančno nastavitev LLM. Nato smo pokazali, kako uporabiti SageMaker JumpStart za natančno nastavitev LLM in njegovo uvajanje brez kode. Za več primerov uporabe EMR Serverless glejte Amazon EMR brez strežnika. Za več informacij o modelih gostovanja in natančnega prilagajanja na Amazon SageMaker JumpStart glejte Dokumentacija Sagemaker JumpStart.

O avtorjih

Shijian Tang je strokovnjak za analitiko, arhitekt rešitev pri Amazon Web Services.

Matthew Liem je višji vodja arhitekture rešitev pri Amazon Web Services.

Dalei Xu je strokovnjak za analitiko, arhitekt rešitev pri Amazon Web Services.

Yuanjun Xiao je višji arhitekt rešitev pri Amazon Web Services.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/big-data/preprocess-and-fine-tune-llms-quickly-and-cost-effectively-using-amazon-emr-serverless-and-amazon-sagemaker/

Časovni žig: Februar 1, 2024

Nove možnosti razpršenega grafa v Amazon QuickSight za vizualizacijo vaših podatkov

Izvorni grozd:

Veliki podatki AWS

Izvorno vozlišče: 2639142

Časovni žig: Maj 8, 2023

Ponovno objavil Platon

Izvedite iskanje brez naglasov z uporabo OpenSearch

Konfigurirajte ADFS Identity Federation z Amazon QuickSight

Zaženite delovne obremenitve Apache Hive z uporabo Spark SQL z Amazon EMR na EKS | Spletne storitve Amazon

Ustvarite transakcijsko podatkovno jezero v skoraj realnem času, ki temelji na Apache Hudi, z uporabo AWS DMS, Amazon Kinesis, AWS Glue streaming ETL in vizualizacijo podatkov z uporabo Amazon QuickSight | Spletne storitve Amazon

Sestavite svoja ETL opravila za MongoDB Atlas z AWS Glue

Kaj je novega pri podpori Amazon MWAA za zagonske skripte | Spletne storitve Amazon

Nove možnosti razpršenega grafa v Amazon QuickSight za vizualizacijo vaših podatkov

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun