Przetwarzaj wstępnie i dostosowuj LLM szybko i oszczędnie, korzystając z rozwiązań bezserwerowych Amazon EMR i Amazon SageMaker | Usługi internetowe Amazon

Opublikowane ponownie przez Plato

Obserwuje: 0

Duże modele językowe (LLM) stają się coraz bardziej popularne, a nowe przypadki ich użycia są stale badane. Ogólnie rzecz biorąc, można tworzyć aplikacje oparte na LLM, włączając szybką inżynierię do swojego kodu. Są jednak przypadki, w których monitowanie istniejącego LLM jest niewystarczające. Tutaj pomocne może być dostrojenie modelu. Szybka inżynieria polega na kierowaniu wynikami modelu poprzez tworzenie podpowiedzi wejściowych, natomiast dostrajanie polega na trenowaniu modelu na niestandardowych zbiorach danych, aby lepiej pasował do określonych zadań lub domen.

Zanim będziesz mógł dostroić model, musisz znaleźć zbiór danych specyficzny dla zadania. Jednym z powszechnie używanych zbiorów danych jest Wspólny zbiór danych indeksowania. Korpus Common Crawl zawiera petabajty danych, gromadzonych regularnie od 2008 roku, i zawiera nieprzetworzone dane stron internetowych, ekstrakty metadanych i ekstrakty tekstu. Oprócz określenia, który zbiór danych powinien zostać użyty, wymagane jest oczyszczenie i przetworzenie danych zgodnie z konkretnymi potrzebami dostrajania.

Niedawno współpracowaliśmy z klientem, który chciał wstępnie przetworzyć podzbiór najnowszego zbioru danych Common Crawl, a następnie dostroić swoje LLM za pomocą wyczyszczonych danych. Klient szukał sposobu, w jaki mógłby to osiągnąć w najbardziej opłacalny sposób w AWS. Po omówieniu wymagań zarekomendowaliśmy użycie Bezserwerowe Amazon EMR jako platforma do wstępnego przetwarzania danych. EMR Serverless doskonale nadaje się do przetwarzania danych na dużą skalę i eliminuje potrzebę konserwacji infrastruktury. Jeśli chodzi o koszty, opłaty są naliczane wyłącznie w oparciu o zasoby i czas trwania każdego zadania. Klientowi udało się wstępnie przetworzyć setki TB danych w ciągu tygodnia, korzystając z rozwiązania EMR Serverless. Po wstępnym przetworzeniu danych wykorzystali je Amazon Sage Maker aby dostroić LLM.

W tym poście przedstawiamy przypadek użycia klienta i zastosowaną architekturę.

W poniższych sekcjach najpierw przedstawiamy zbiór danych Common Crawl oraz opisujemy, jak eksplorować i filtrować potrzebne dane. Amazonka Atena pobiera opłaty tylko za rozmiar skanowanych danych i służy do szybkiego eksplorowania i filtrowania danych, a jednocześnie jest opłacalny. EMR Serverless zapewnia opłacalną i niewymagającą konserwacji opcję przetwarzania danych Spark i służy do przetwarzania filtrowanych danych. Dalej używamy Amazon SageMaker JumpStart aby dostroić Model Lamy 2 z wstępnie przetworzonym zbiorem danych. SageMaker JumpStart zapewnia zestaw rozwiązań dla najczęstszych przypadków użycia, które można wdrożyć za pomocą zaledwie kilku kliknięć. Nie musisz pisać żadnego kodu, aby dostroić LLM, taki jak Lama 2. Na koniec wdrażamy dopracowany model za pomocą Amazon Sage Maker i porównaj różnice w wynikach tekstowych tego samego pytania pomiędzy oryginalnym i dopracowanym modelem Llama 2.

Poniższy diagram ilustruje architekturę tego rozwiązania.

Zanim zagłębisz się w szczegóły rozwiązania, wykonaj następujące wymagane kroki:

Common Crawl to otwarty zbiór danych uzyskany w wyniku przeszukania ponad 50 miliardów stron internetowych. Zawiera ogromne ilości nieustrukturyzowanych danych w wielu językach, począwszy od 2008 roku i osiągając poziom petabajtów. Jest stale aktualizowana.

Podczas uczenia GPT-3 zbiór danych Common Crawl stanowi 60% danych szkoleniowych, jak pokazano na poniższym diagramie (źródło: Modele językowe są mało uczącymi się).

Kolejnym ważnym zbiorem danych, o którym warto wspomnieć, jest Zbiór danych C4. C4, skrót od Colossal Clean Crawled Corpus, to zbiór danych uzyskany w wyniku przetwarzania końcowego zbioru danych Common Crawl. W artykule Meta LLaMA omówiono wykorzystywane zbiory danych, przy czym Common Crawl stanowił 67% (wykorzystując 3.3 TB danych), a C4 – 15% (wykorzystując 783 GB danych). W artykule podkreślono znaczenie włączania różnie wstępnie przetworzonych danych dla poprawy wydajności modelu. Mimo że oryginalne dane C4 były częścią Common Crawl, Meta zdecydowała się na ponownie przetworzoną wersję tych danych.

W tej sekcji omówimy typowe sposoby interakcji, filtrowania i przetwarzania zbioru danych Common Crawl.

Nieprzetworzony zestaw danych Common Crawl obejmuje trzy typy plików danych: surowe dane strony internetowej (WARC), metadane (WAT) i ekstrakcję tekstu (WET).

Dane zebrane po 2013 r. są przechowywane w formacie WARC i obejmują odpowiednie metadane (WAT) i dane ekstrakcji tekstu (WET). Zbiór danych znajduje się w Amazon S3 i jest aktualizowany co miesiąc, a dostęp do niego można uzyskać bezpośrednio Rynek AWS.

$  aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2023-23/
PRE segments/
2023-06-21  00:34:08       2164  cc-index-table.paths.gz
2023-06-21  00:34:08        637 cc-index.paths.gz
2023-06-21  05:52:05       2724 index.html
2023-06-21  00:34:09     161064  non200responses.paths.gz
2023-06-21  00:34:10     160888 robotstxt.paths.gz
2023-06-21  00:34:10        480 segment.paths.gz
2023-06-21  00:34:11     161082 warc.paths.gz
2023-06-21  00:34:12     160895 wat.paths.gz
2023-06-21  00:34:12     160898 wet.paths.gz

Zbiór danych Common Crawl udostępnia również tabelę indeksów do filtrowania danych, zwaną tabelą cc-index.

Tabela cc-index jest indeksem istniejących danych, zapewniającym oparty na tabeli indeks plików WARC. Pozwala na łatwe wyszukiwanie informacji, np. który plik WARC odpowiada konkretnemu adresowi URL.

Można na przykład utworzyć tabelę Athena w celu mapowania danych indeksu CC za pomocą następującego kodu:

CREATE  EXTERNAL TABLE IF NOT EXISTS ccindex (
  url_surtkey                   STRING,
  url                           STRING,
  url_host_name                 STRING,
  url_host_tld                  STRING,
  url_host_2nd_last_part        STRING,
  url_host_3rd_last_part        STRING,
  url_host_4th_last_part        STRING,
  url_host_5th_last_part        STRING,
  url_host_registry_suffix      STRING,
  url_host_registered_domain    STRING,
  url_host_private_suffix       STRING,
  url_host_private_domain       STRING,
  url_host_name_reversed        STRING,
  url_protocol                  STRING,
  url_port                      INT,
  url_path                      STRING,
  url_query                     STRING,
  fetch_time                    TIMESTAMP,
  fetch_status                  SMALLINT,
  fetch_redirect                STRING,
  content_digest                STRING,
  content_mime_type             STRING,
  content_mime_detected         STRING,
  content_charset               STRING,
  content_languages             STRING,
  content_truncated             STRING,
  warc_filename                 STRING,
  warc_record_offset            INT,
  warc_record_length            INT,
  warc_segment                  STRING)
PARTITIONED  BY (
  crawl                         STRING,
  subset                        STRING)
STORED  AS parquet
LOCATION  's3://commoncrawl/cc-index/table/cc-main/warc/';
 
# add partitions
MSCK  REPAIR TABLE ccindex

# query
select  * from ccindex 
where  crawl = 'CC-MAIN-2018-05' 
  and  subset = 'warc' 
  and  url_host_tld = 'no' 
limit  10

Powyższe instrukcje SQL pokazują, jak utworzyć tabelę Athena, dodać partycje i uruchomić zapytanie.

Filtruj dane ze zbioru danych Common Crawl

Jak widać z instrukcji SQL tworzenia tabeli, istnieje kilka pól, które mogą pomóc w filtrowaniu danych. Na przykład, jeśli chcesz uzyskać liczbę chińskich dokumentów w określonym okresie, instrukcja SQL może wyglądać następująco:

SELECT
  url,
  warc_filename,
  content_languages
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-14'
  OR crawl = 'CC-MAIN-2023-23')
  AND subset = 'warc'
  AND content_languages ='zho'
LIMIT  10000

Jeśli chcesz przeprowadzić dalsze przetwarzanie, możesz zapisać wyniki w innym segmencie S3.

Analizuj przefiltrowane dane

Połączenia Wspólne repozytorium indeksowania GitHub udostępnia kilka przykładów PySpark do przetwarzania surowych danych.

Spójrzmy na przykład biegania server_count.py (przykładowy skrypt dostarczony przez repozytorium Common Crawl GitHub) na danych znajdujących się w s3://commoncrawl/crawl-data/CC-MAIN-2023-23/segments/1685224643388.45/warc/.

Po pierwsze potrzebujesz środowiska Spark, takiego jak EMR Spark. Na przykład możesz uruchomić Amazon EMR w klastrze EC2 w us-east-1 (ponieważ zbiór danych jest w us-east-1). Korzystanie z EMR w klastrze EC2 może pomóc w przeprowadzeniu testów przed przesłaniem zadań do środowiska produkcyjnego.

Po uruchomieniu EMR na klastrze EC2 należy zalogować się SSH do głównego węzła klastra. Następnie spakuj środowisko Python i prześlij skrypt (patrz plik Dokumentacja Condy aby zainstalować Minicondę):

#  create conda environment
conda  create -y -n example -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio

#  package the conda env
conda  activate example
conda  pack -o environment.tar.gz

#  get script from common crawl github
git  clone https://github.com/commoncrawl/cc-pyspark.git

#  copy target file path to local
aws  s3 cp s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz .
gzip  -d warc.paths.gz

#  put warc list to hdfs
hdfs  dfs -put warc.paths

#  submit job
spark-submit  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python 
--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/  
--master yarn  
--deploy-mode cluster 
--archives environment.tar.gz#environment 
--py-files cc-pyspark/sparkcc.py  cc-pyspark/server_count.py --input_base_url  s3://commoncrawl/ ./warc.paths count_demo

Przetworzenie wszystkich odniesień w warc.path może zająć trochę czasu. Do celów demonstracyjnych możesz skrócić czas przetwarzania, stosując następujące strategie:

Pobierz plik s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz na komputer lokalny, rozpakuj go, a następnie prześlij do systemu HDFS lub Amazon S3. Dzieje się tak, ponieważ pliku .gzip nie można podzielić. Musisz go rozpakować, aby przetwarzać ten plik równolegle.
Zmodyfikuj warc.path plik, usuń większość jego linii i zachowaj tylko dwie linie, aby zadanie działało znacznie szybciej.

Po zakończeniu zadania możesz zobaczyć wynik w s3://xxxx-common-crawl/output/, w formacie parkietu.

Zaimplementuj dostosowaną logikę posiadania

Repozytorium Common Crawl GitHub zapewnia wspólne podejście do przetwarzania plików WARC. Ogólnie rzecz biorąc, możesz przedłużyć CCSparkJob zastąpić pojedynczą metodę (process_record), co w wielu przypadkach jest wystarczające.

Spójrzmy na przykład, aby uzyskać recenzje najnowszych filmów w serwisie IMDB. Najpierw musisz odfiltrować pliki w witrynie IMDB:

SELECT
  url,
  warc_filename,
  url_host_name
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
LIMIT  1000

Następnie możesz uzyskać listy plików WARC zawierające dane przeglądu IMDB i zapisać nazwy plików WARC jako listę w pliku tekstowym.

Alternatywnie możesz użyć EMR Spark, aby uzyskać listę plików WARC i zapisać ją w Amazon S3. Na przykład:

sql  = """SELECT
  warc_filename
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
"""

warc_list  = spark.sql(sql)

#  write result list to s3
warc_list.coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/warclist/imdb_warclist")

Plik wyjściowy powinien wyglądać podobnie do s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt.

Następnym krokiem jest wyodrębnienie recenzji użytkowników z plików WARC. Możesz przedłużyć CCSparkJob zastąpić process_record() metoda:

from  sparkcc import CCSparkJob
from  bs4 import BeautifulSoup
from  urllib.parse import urlsplit
 
class  IMDB_Extract_Job(CCSparkJob):
    name = "IMDB_Reviews"
 
    def process_record(self, record):
        if self.is_response_record(record):
            # WARC response record
            domain =  urlsplit(record.rec_headers['WARC-Target-URI']).hostname
            if domain == 'www.imdb.com':
                # get web contents
                contents = (
                    record.content_stream()
                        .read()
                        .decode("utf-8", "replace")
                )
 
                # parse with beautiful soup
                soup =  BeautifulSoup(contents, "html.parser")
 
                # get reviews
                review_divs =  soup.find_all(class_="text show-more__control")
                for div in review_divs:
                    yield div.text,1
 
 
if  __name__ == "__main__":
    job = IMDB_Extract_Job()
    job.run()

Możesz zapisać powyższy skrypt jako imdb_extractor.py, którego użyjesz w poniższych krokach. Po przygotowaniu danych i skryptów możesz użyć EMR Serverless do przetworzenia przefiltrowanych danych.

EMR bez serwera

EMR Serverless to opcja wdrażania bezserwerowego umożliwiająca uruchamianie aplikacji do analizy dużych zbiorów danych przy użyciu platform open source, takich jak Apache Spark i Hive, bez konfigurowania, zarządzania i skalowania klastrów lub serwerów.

Dzięki EMR Serverless możesz uruchamiać obciążenia analityczne w dowolnej skali dzięki automatycznemu skalowaniu, które zmienia rozmiar zasobów w ciągu kilku sekund, aby sprostać zmieniającym się ilościom danych i wymaganiom przetwarzania. EMR Serverless automatycznie skaluje zasoby w górę i w dół, aby zapewnić odpowiednią pojemność dla Twojej aplikacji, a Ty płacisz tylko za to, z czego korzystasz.

Przetwarzanie zbioru danych Common Crawl jest zazwyczaj jednorazowym zadaniem przetwarzania, dzięki czemu nadaje się do obciążeń bezserwerowych EMR.

Utwórz aplikację bezserwerową EMR

Możesz utworzyć aplikację EMR Serverless na konsoli EMR Studio. Wykonaj następujące kroki:

W konsoli EMR Studio wybierz Konsultacje dla Bezserwerowe w okienku nawigacji.
Dodaj Utwórz aplikację.

Podaj nazwę aplikacji i wybierz wersję Amazon EMR.

Jeśli wymagany jest dostęp do zasobów VPC, dodaj niestandardowe ustawienie sieci.

Dodaj Utwórz aplikację.

Twoje bezserwerowe środowisko Spark będzie wtedy gotowe.

Zanim będziesz mógł przesłać zadanie do EMR Spark Serverless, musisz jeszcze utworzyć rolę wykonawczą. Odnosić się do Rozpoczęcie pracy z Amazon EMR Serverless by uzyskać więcej szczegółów.

Przetwarzaj dane wspólnego indeksowania za pomocą rozwiązania EMR Serverless

Gdy aplikacja EMR Spark Serverless będzie gotowa, wykonaj następujące kroki, aby przetworzyć dane:

Przygotuj środowisko Conda i prześlij je do Amazon S3, które będzie używane jako środowisko w EMR Spark Serverless.
Prześlij skrypty, które mają zostać uruchomione, do segmentu S3. W poniższym przykładzie istnieją dwa skrypty:
1. imbd_extractor.py – Dostosowana logika do wyodrębniania zawartości ze zbioru danych. Treść można znaleźć wcześniej w tym poście.
2. cc-pyspark/sparkcc.py – Przykładowy framework PySpark z Wspólne repozytorium indeksowania GitHub, które należy uwzględnić.
Prześlij zadanie PySpark do EMR Serverless Spark. Zdefiniuj następujące parametry, aby uruchomić ten przykład w swoim środowisku:
1. identyfikator aplikacji – Identyfikator aplikacji bezserwerowej EMR.
2. wykonanie-rola-arn – Twoja rola egzekucyjna EMR Serverless. Aby go utworzyć, patrz Utwórz rolę środowiska wykonawczego zadania.
3. Lokalizacja pliku WARC – Lokalizacja plików WARC. s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt zawiera przefiltrowaną listę plików WARC, którą uzyskałeś wcześniej w tym poście.
4. spark.sql.warehouse.dir – Domyślna lokalizacja magazynu (użyj katalogu S3).
5. iskra.archiwa – Lokalizacja S3 przygotowanego środowiska Conda.
6. spark.submit.pyFiles – Przygotowany skrypt PySpark sparkcc.py.

Zobacz następujący kod:

# 1. create conda environment
conda  create -y -n imdb -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio bs4
 
# 2. package the conda  env, and upload to s3
conda  activate imdb 
conda  pack -o imdbenv.tar.gz
aws  s3 cp imdbenv.tar.gz s3://xxxx-common-crawl/env/
 
# 3. upload scripts to S3
aws  s3 cp imdb_extractor.py s3://xxxx-common-crawl/scripts/
aws  s3 cp cc-pyspark/sparkcc.py s3://xxxx-common-crawl/scripts/
 
# 4. submit job to EMR Serverless
#!/bin/bash
aws  emr-serverless start-job-run 
    --application-id 00fdsobht2skro2l 
    --execution-role-arn  arn:aws:iam::xxxx:role/EMR-Serverless-JobExecutionRole 
    --name imdb-retrive 
    --job-driver '{
        "sparkSubmit": {
          "entryPoint":  "s3://xxxx-common-crawl/scripts/imdb_extractor.py",
          "entryPointArguments":  ["--input_base_url" ,"s3://commoncrawl/",  "s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt",  "imdb_reviews", "--num_output_partitions",  "1"],
          "sparkSubmitParameters":  "--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/ --conf  spark.network.timeout=10000000 —conf  spark.executor.heartbeatInterval=10000000 —conf spark.executor.instances=100  —conf spark.executor.cores=4 —conf spark.executor.memory=16g —conf  spark.driver.memory=16g   —conf  spark.archives=s3://xxxx-common-crawl/env/imdbenv.tar.gz#environment —conf  spark.emr-serverless.driverEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python  —conf spark.emr-serverless.driverEnv.PYSPARK_PYTHON=./environment/bin/python  —conf spark.executorEnv.PYSPARK_PYTHON=./environment/bin/python —conf  spark.submit.pyFiles=s3://xxxx-common-crawl/scripts/sparkcc.py“
        }
}'

Po zakończeniu zadania wyodrębnione recenzje są przechowywane w Amazon S3. Aby sprawdzić zawartość, możesz użyć Amazon S3 Select, jak pokazano na poniższym zrzucie ekranu.

rozważania

Poniżej znajdują się kwestie, które należy wziąć pod uwagę, gdy mamy do czynienia z ogromnymi ilościami danych za pomocą niestandardowego kodu:

Niektóre biblioteki Pythona innych firm mogą nie być dostępne w Condzie. W takich przypadkach możesz przełączyć się na środowisko wirtualne Python, aby zbudować środowisko wykonawcze PySpark.
Jeśli do przetworzenia jest ogromna ilość danych, spróbuj utworzyć i używać wielu aplikacji EMR Serverless Spark w celu ich zrównoleglenia. Każda aplikacja obsługuje podzbiór list plików.
Możesz napotkać problem spowolnienia Amazon S3 podczas filtrowania lub przetwarzania danych Common Crawl. Dzieje się tak dlatego, że zasobnik S3 przechowujący dane jest publicznie dostępny i inni użytkownicy mogą uzyskać dostęp do danych w tym samym czasie. Aby złagodzić ten problem, możesz dodać mechanizm ponawiania prób lub synchronizować określone dane z zasobnika Common Crawl S3 z własnym zasobnikiem.

Dostosuj Llamę 2 za pomocą SageMaker

Po przygotowaniu danych można za ich pomocą dostroić model Lamy 2. Możesz to zrobić za pomocą SageMaker JumpStart, bez pisania żadnego kodu. Aby uzyskać więcej informacji, zobacz Dostosuj Llamę 2 do generowania tekstu w Amazon SageMaker JumpStart.

W tym scenariuszu przeprowadzane jest dostrajanie adaptacji domeny. W przypadku tego zestawu danych dane wejściowe składają się z pliku CSV, JSON lub TXT. Wszystkie dane recenzji należy umieścić w pliku TXT. Aby to zrobić, możesz przesłać proste zadanie Spark do EMR Spark Serverless. Zobacz następujący przykładowy fragment kodu:

# disable generating _SUCCESS file
spark.conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs",  "false")

data  = spark.read.parquet("s3://xxxx-common-crawl/output/imdb_reviews/")

data.select('Key').coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/llama2/train/")

Po przygotowaniu danych szkoleniowych wprowadź lokalizację danych Zestaw danych treningowych, A następnie wybierz Pociąg.

Możesz śledzić status zadania szkoleniowego.

Oceń dopracowany model

Po zakończeniu szkolenia wybierz Rozmieścić w SageMaker JumpStart, aby wdrożyć swój dopracowany model.

Po pomyślnym wdrożeniu modelu wybierz Otwórz notatnik, który przekieruje Cię do przygotowanego notatnika Jupyter, w którym możesz uruchomić swój kod w Pythonie.

W przypadku notebooka można użyć obrazu Data Science 2.0 i jądra Python 3.

Następnie możesz ocenić w tym notatniku model dopracowany i model oryginalny.

endpoint_name_original = "jumpstart-dft-meta-textgeneration-llama-2-7b-origin"
endpoint_name_fine_tuned = "jumpstart-ftc-meta-textgeneration-llama-2-7b"

payload = {
    "inputs": "The review of movie 'A Woman of Paris: A Drama of Fate' is ",
    "parameters": {
        "max_new_tokens": 256,
        "top_p": 0.9,
        "temperature": 0.6,
        "return_full_text": True,
    },
        }
    
def query_endpoint(payload, endpoint_name):
    client = boto3.client("sagemaker-runtime")
    response = client.invoke_endpoint(
        EndpointName=endpoint_name,
        ContentType="application/json",
        Body=json.dumps(payload),
        CustomAttributes="accept_eula=true",
    )
    response = response["Body"].read().decode("utf8")
    response = json.loads(response)
    print(endpoint_name + ": n" + response[0]['generation'])


query_endpoint(payload, endpoint_name_original)
print("n-----#################-----n")
query_endpoint(payload, endpoint_name_fine_tuned)

Poniżej znajdują się dwie odpowiedzi zwrócone przez model oryginalny i model dostrojony na to samo pytanie.

Obu modelom przekazaliśmy to samo zdanie: „Recenzja filmu „Kobieta z Paryża: Dramat losu” to” i pozwoliliśmy im dokończyć zdanie.

Oryginalny model generuje pozbawione znaczenia zdania:

"The review of movie 'A woman of Paris: A Drama of Fate' is 3.0/5.

A Woman of Paris: A Drama of Fate(1923)

A Woman of Paris: A Drama of Fate movie released on 17 October, 1992. The movie is directed by. A Woman of Paris: A Drama of Fate featured Jeanne Eagles, William Haines, Burr McIntosh and Jack Rollens in lead rols.

..."

Natomiast wyniki dopracowanego modelu przypominają raczej recenzję filmu:

" The review of movie 'A Woman of Paris: A Drama of Fate' is 6.3/10. I liked the story, the plot, the character, the background. The performances are amazing. Rory (Judy Davis) is an Australian photographer who travels to Africa to photograph the people, wildlife, and scenery. She meets Peter (Donald Sutherland), a zoologist, and they begin a relationship..."

Oczywiście model dostrojony działa lepiej w tym konkretnym scenariuszu.

Sprzątać

Po zakończeniu tego ćwiczenia wykonaj następujące kroki, aby oczyścić zasoby:

Usuń wiadro S3 przechowujący oczyszczony zbiór danych.
Zatrzymaj środowisko bezserwerowe EMR.
Usuń punkt końcowy SageMaker obsługujący model LLM.
Usuń domenę SageMaker który obsługuje Twoje notebooki.

Domyślnie utworzona aplikacja powinna zatrzymać się automatycznie po 15 minutach bezczynności.

Ogólnie rzecz biorąc, nie musisz sprzątać środowiska Athena, ponieważ nie są pobierane żadne opłaty, gdy z niego nie korzystasz.

Wnioski

W tym poście przedstawiliśmy zbiór danych Common Crawl i sposób wykorzystania EMR Serverless do przetwarzania danych w celu dostrojenia LLM. Następnie zademonstrowaliśmy, jak używać SageMaker JumpStart do dostrojenia LLM i wdrożenia go bez żadnego kodu. Więcej przypadków użycia EMR Serverless można znaleźć w artykule Bezserwerowy Amazon EMR. Aby uzyskać więcej informacji na temat hostingu i dostrajania modeli w Amazon SageMaker JumpStart, zobacz Dokumentacja Sagemaker JumpStart.

O autorach

Shijian Tang jest specjalistą ds. analityki i architektem rozwiązań w Amazon Web Services.

Mateusz Liem jest starszym menedżerem ds. architektury rozwiązań w Amazon Web Services.

Dalei Xu jest specjalistą ds. analityki i architektem rozwiązań w Amazon Web Services.

Yuanjun Xiao jest starszym architektem rozwiązań w Amazon Web Services.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/big-data/preprocess-and-fine-tune-llms-quickly-and-cost-effectively-using-amazon-emr-serverless-and-amazon-sagemaker/

Znak czasu: 1 lutego 2024 r.

Nowe opcje wykresu punktowego w Amazon QuickSight do wizualizacji danych

Klaster źródłowy:

Duże zbiory danych AWS!

Węzeł źródłowy: 2639142

Znak czasu: 8 maja 2023 r.

Opublikowane ponownie przez Plato

Wyszukiwanie bez uwzględniania akcentów za pomocą OpenSearch

Skonfiguruj ADFS Identity Federation za pomocą Amazon QuickSight

Uruchamiaj obciążenia Apache Hive przy użyciu Spark SQL z Amazon EMR na EKS | Usługi internetowe Amazona

Utwórz jezioro danych transakcyjnych w czasie zbliżonym do rzeczywistego w oparciu o Apache Hudi, korzystając z AWS DMS, Amazon Kinesis, AWS Glue streaming ETL i wizualizacji danych za pomocą Amazon QuickSight | Usługi sieciowe Amazona

Twórz zadania ETL dla MongoDB Atlas za pomocą AWS Glue

Co nowego w obsłudze Amazon MWAA dla skryptów startowych | Usługi sieciowe Amazona

Nowe opcje wykresu punktowego w Amazon QuickSight do wizualizacji danych

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto