Попередня обробка й тонке налаштування LLM швидко й економічно ефективно за допомогою Amazon EMR Serverless і Amazon SageMaker

Перевидано Платоном

читають: 0

Великі мовні моделі (LLM) стають все популярнішими, постійно досліджуються нові випадки використання. Загалом, ви можете створювати додатки на основі LLM, включивши оперативне проектування у свій код. Однак є випадки, коли підказка існуючого LLM не вдається. Тут може допомогти тонке налаштування моделі. Оперативна інженерія полягає в керуванні виходом моделі шляхом створення вхідних підказок, тоді як тонке налаштування передбачає навчання моделі на спеціальних наборах даних, щоб зробити її краще придатною для конкретних завдань або доменів.

Перш ніж ви зможете точно налаштувати модель, вам потрібно знайти набір даних для конкретного завдання. Один з наборів даних, який зазвичай використовується, це Загальний набір даних сканування. Корпус Common Crawl містить петабайти даних, які регулярно збираються з 2008 року, і містить необроблені дані веб-сторінок, витяги метаданих і витяги тексту. На додаток до визначення того, який набір даних слід використовувати, потрібно очистити й обробити дані відповідно до конкретних потреб тонкого налаштування.

Нещодавно ми працювали з клієнтом, який хотів попередньо обробити підмножину останнього набору даних Common Crawl, а потім точно налаштувати свій LLM за допомогою очищених даних. Клієнт шукав, як можна досягти цього найбільш рентабельним способом на AWS. Після обговорення вимог ми рекомендували використовувати Amazon EMR без сервера як платформу для попередньої обробки даних. EMR Serverless добре підходить для великомасштабної обробки даних і усуває потребу в обслуговуванні інфраструктури. З точки зору вартості, він стягує плату лише на основі ресурсів і тривалості, використаних для кожної роботи. Клієнт зміг попередньо обробити сотні ТБ даних протягом тижня за допомогою EMR Serverless. Після попередньої обробки даних вони використовували Amazon SageMaker для точного налаштування LLM.

У цій публікації ми познайомимо вас із сценарієм використання та архітектурою клієнта.

У наступних розділах ми спочатку познайомимося з набором даних Common Crawl і тим, як досліджувати та фільтрувати дані, які нам потрібні. Амазонка Афіна стягується плата лише за розмір даних, які він сканує, і використовується для швидкого вивчення та фільтрації даних, але є економічно ефективним. EMR Serverless надає економічно ефективний варіант обробки даних Spark, який не потребує обслуговування, і використовується для обробки відфільтрованих даних. Далі використовуємо Amazon SageMaker JumpStart для точного налаштування Модель Лама 2 з попередньо обробленим набором даних. SageMaker JumpStart надає набір рішень для найпоширеніших випадків використання, які можна розгорнути лише кількома клацаннями миші. Вам не потрібно писати код для точного налаштування LLM, наприклад Llama 2. Нарешті, ми розгортаємо налаштовану модель за допомогою Amazon SageMaker і порівняйте відмінності у виведенні тексту для того самого запитання між оригінальною та налаштованою моделями Llama 2.

Наступна діаграма ілюструє архітектуру цього рішення.

Перш ніж заглибитися в деталі рішення, виконайте такі передумови:

Common Crawl — це відкритий набір даних, отриманий шляхом сканування понад 50 мільярдів веб-сторінок. Він містить величезні обсяги неструктурованих даних кількома мовами, починаючи з 2008 року і досягаючи рівня петабайтів. Він постійно оновлюється.

Під час навчання GPT-3 набір даних Common Crawl становить 60% даних навчання, як показано на наступній діаграмі (джерело: Мовні моделі - це малозабезпечені учні).

Ще один важливий набір даних, про який варто згадати, це Набір даних C4. C4, скорочення від Colossal Clean Crawled Corpus, — це набір даних, отриманий у результаті постобробки набору даних Common Crawl. У документі Meta LLaMA вони окреслили використовувані набори даних: Common Crawl становить 67% (використовує 3.3 ТБ даних), а C4 — 15% (використовує 783 ГБ даних). У документі підкреслюється важливість включення різних попередньо оброблених даних для підвищення ефективності моделі. Незважаючи на те, що вихідні дані C4 були частиною Common Crawl, Meta вибрала повторно оброблену версію цих даних.

У цьому розділі ми розглядаємо поширені способи взаємодії, фільтрації та обробки набору даних Common Crawl.

Набір необроблених даних Common Crawl включає три типи файлів даних: необроблені дані веб-сторінки (WARC), метадані (WAT) і вилучення тексту (WET).

Дані, зібрані після 2013 року, зберігаються у форматі WARC і включають відповідні метадані (WAT) і дані вилучення тексту (WET). Набір даних міститься в Amazon S3, оновлюється щомісяця, і до нього можна отримати прямий доступ Торговий майданчик AWS.

$  aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2023-23/
PRE segments/
2023-06-21  00:34:08       2164  cc-index-table.paths.gz
2023-06-21  00:34:08        637 cc-index.paths.gz
2023-06-21  05:52:05       2724 index.html
2023-06-21  00:34:09     161064  non200responses.paths.gz
2023-06-21  00:34:10     160888 robotstxt.paths.gz
2023-06-21  00:34:10        480 segment.paths.gz
2023-06-21  00:34:11     161082 warc.paths.gz
2023-06-21  00:34:12     160895 wat.paths.gz
2023-06-21  00:34:12     160898 wet.paths.gz

Набір даних Common Crawl також надає індексну таблицю для фільтрації даних, яка називається cc-index-table.

cc-index-table — це індекс існуючих даних, що забезпечує табличний індекс файлів WARC. Це дозволяє легко шукати інформацію, наприклад, який файл WARC відповідає певній URL-адресі.

Наприклад, ви можете створити таблицю Athena для зіставлення даних cc-index за допомогою такого коду:

CREATE  EXTERNAL TABLE IF NOT EXISTS ccindex (
  url_surtkey                   STRING,
  url                           STRING,
  url_host_name                 STRING,
  url_host_tld                  STRING,
  url_host_2nd_last_part        STRING,
  url_host_3rd_last_part        STRING,
  url_host_4th_last_part        STRING,
  url_host_5th_last_part        STRING,
  url_host_registry_suffix      STRING,
  url_host_registered_domain    STRING,
  url_host_private_suffix       STRING,
  url_host_private_domain       STRING,
  url_host_name_reversed        STRING,
  url_protocol                  STRING,
  url_port                      INT,
  url_path                      STRING,
  url_query                     STRING,
  fetch_time                    TIMESTAMP,
  fetch_status                  SMALLINT,
  fetch_redirect                STRING,
  content_digest                STRING,
  content_mime_type             STRING,
  content_mime_detected         STRING,
  content_charset               STRING,
  content_languages             STRING,
  content_truncated             STRING,
  warc_filename                 STRING,
  warc_record_offset            INT,
  warc_record_length            INT,
  warc_segment                  STRING)
PARTITIONED  BY (
  crawl                         STRING,
  subset                        STRING)
STORED  AS parquet
LOCATION  's3://commoncrawl/cc-index/table/cc-main/warc/';
 
# add partitions
MSCK  REPAIR TABLE ccindex

# query
select  * from ccindex 
where  crawl = 'CC-MAIN-2018-05' 
  and  subset = 'warc' 
  and  url_host_tld = 'no' 
limit  10

Попередні оператори SQL демонструють, як створити таблицю Athena, додати розділи та виконати запит.

Фільтруйте дані з набору даних Common Crawl

Як ви можете бачити з інструкції SQL для створення таблиці, є кілька полів, які можуть допомогти відфільтрувати дані. Наприклад, якщо ви хочете отримати кількість китайських документів протягом певного періоду, тоді оператор SQL може бути таким:

SELECT
  url,
  warc_filename,
  content_languages
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-14'
  OR crawl = 'CC-MAIN-2023-23')
  AND subset = 'warc'
  AND content_languages ='zho'
LIMIT  10000

Якщо ви хочете виконати подальшу обробку, ви можете зберегти результати в іншому сегменті S3.

Проаналізуйте відфільтровані дані

Команда Сховище Common Crawl GitHub надає кілька прикладів PySpark для обробки необроблених даних.

Розглянемо приклад бігу server_count.py (приклад сценарію, наданого репозиторієм Common Crawl GitHub) на даних, розташованих у s3://commoncrawl/crawl-data/CC-MAIN-2023-23/segments/1685224643388.45/warc/.

По-перше, вам потрібне середовище Spark, наприклад EMR Spark. Наприклад, ви можете запустити Amazon EMR на кластері EC2 us-east-1 (оскільки набір даних знаходиться в us-east-1). Використання EMR на кластері EC2 може допомогти вам провести тести перед надсиланням завдань у виробниче середовище.

Після запуску EMR на кластері EC2 вам потрібно виконати вхід SSH на основний вузол кластера. Потім запакуйте середовище Python і надішліть сценарій (див Документація Conda щоб встановити Miniconda):

#  create conda environment
conda  create -y -n example -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio

#  package the conda env
conda  activate example
conda  pack -o environment.tar.gz

#  get script from common crawl github
git  clone https://github.com/commoncrawl/cc-pyspark.git

#  copy target file path to local
aws  s3 cp s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz .
gzip  -d warc.paths.gz

#  put warc list to hdfs
hdfs  dfs -put warc.paths

#  submit job
spark-submit  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python 
--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/  
--master yarn  
--deploy-mode cluster 
--archives environment.tar.gz#environment 
--py-files cc-pyspark/sparkcc.py  cc-pyspark/server_count.py --input_base_url  s3://commoncrawl/ ./warc.paths count_demo

Обробка всіх посилань у warc.path може зайняти час. Для демонстраційних цілей ви можете покращити час обробки за допомогою таких стратегій:

Завантажте файл s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz на ваш локальний комп’ютер, розпакуйте його, а потім завантажте в HDFS або Amazon S3. Це тому, що файл .gzip не можна розділити. Вам потрібно розпакувати його, щоб паралельно обробити цей файл.
Змінити warc.path файл, видаліть більшість його рядків і збережіть лише два рядки, щоб робота виконувалася набагато швидше.

Після завершення роботи ви можете побачити результат s3://xxxx-common-crawl/output/, у форматі Паркет.

Реалізація налаштованої логіки

Сховище Common Crawl GitHub забезпечує загальний підхід до обробки файлів WARC. Як правило, ви можете розширити CCSparkJob щоб перевизначити один метод (process_record), чого достатньо для багатьох випадків.

Давайте розглянемо приклад, щоб отримати огляди останніх фільмів на IMDB. Спочатку вам потрібно відфільтрувати файли на сайті IMDB:

SELECT
  url,
  warc_filename,
  url_host_name
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
LIMIT  1000

Потім ви можете отримати списки файлів WARC, які містять дані огляду IMDB, і зберегти імена файлів WARC як список у текстовому файлі.

Крім того, ви можете використовувати EMR Spark, щоб отримати список файлів WARC і зберегти його в Amazon S3. Наприклад:

sql  = """SELECT
  warc_filename
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
"""

warc_list  = spark.sql(sql)

#  write result list to s3
warc_list.coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/warclist/imdb_warclist")

Вихідний файл має виглядати подібно до s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt.

Наступним кроком є вилучення відгуків користувачів із цих файлів WARC. Ви можете продовжити CCSparkJob відмінити process_record() метод:

from  sparkcc import CCSparkJob
from  bs4 import BeautifulSoup
from  urllib.parse import urlsplit
 
class  IMDB_Extract_Job(CCSparkJob):
    name = "IMDB_Reviews"
 
    def process_record(self, record):
        if self.is_response_record(record):
            # WARC response record
            domain =  urlsplit(record.rec_headers['WARC-Target-URI']).hostname
            if domain == 'www.imdb.com':
                # get web contents
                contents = (
                    record.content_stream()
                        .read()
                        .decode("utf-8", "replace")
                )
 
                # parse with beautiful soup
                soup =  BeautifulSoup(contents, "html.parser")
 
                # get reviews
                review_divs =  soup.find_all(class_="text show-more__control")
                for div in review_divs:
                    yield div.text,1
 
 
if  __name__ == "__main__":
    job = IMDB_Extract_Job()
    job.run()

Ви можете зберегти попередній сценарій як imdb_extractor.py, який використовуватимете в наступних кроках. Після того, як ви підготували дані та сценарії, ви можете використовувати EMR Serverless для обробки відфільтрованих даних.

EMR без сервера

EMR Serverless — це безсерверний варіант розгортання для запуску програм аналітики великих даних за допомогою фреймворків з відкритим кодом, таких як Apache Spark і Hive, без налаштування, керування та масштабування кластерів або серверів.

Завдяки EMR Serverless ви можете запускати аналітичні робочі навантаження в будь-якому масштабі з автоматичним масштабуванням, яке змінює розмір ресурсів за лічені секунди відповідно до мінливих обсягів даних і вимог до обробки. EMR Serverless автоматично масштабує ресурси вгору та вниз, щоб забезпечити необхідну кількість ресурсів для вашої програми, і ви платите лише за те, що використовуєте.

Обробка набору даних Common Crawl зазвичай є одноразовим завданням обробки, що робить його придатним для безсерверних навантажень EMR.

Створіть програму EMR Serverless

Ви можете створити програму EMR Serverless на консолі EMR Studio. Виконайте наступні дії:

На консолі EMR Studio виберіть додатків при Без сервера у навігаційній панелі.
Вибирати Створити додаток.

Введіть назву програми та виберіть версію Amazon EMR.

Якщо потрібен доступ до ресурсів VPC, додайте власне налаштування мережі.

Вибирати Створити додаток.

Тоді ваше безсерверне середовище Spark буде готове.

Перш ніж ви зможете надіслати завдання в EMR Spark Serverless, вам все одно потрібно створити роль виконання. Відноситься до Початок роботи з Amazon EMR Serverless для більш докладної інформації.

Обробляйте дані загального сканування за допомогою EMR Serverless

Коли ваша безсерверна програма EMR Spark буде готова, виконайте такі кроки, щоб обробити дані:

Підготуйте середовище Conda та завантажте його в Amazon S3, яке використовуватиметься як середовище в EMR Spark Serverless.
Завантажте сценарії для запуску в сегмент S3. У наступному прикладі є два сценарії:
1. imbd_extractor.py – Налаштована логіка для вилучення вмісту з набору даних. Зміст можна знайти раніше в цій публікації.
2. cc-pyspark/sparkcc.py – Приклад фреймворку PySpark із Сховище Common Crawl GitHub, які необхідно включити.
Надішліть завдання PySpark до EMR Serverless Spark. Визначте такі параметри, щоб запустити цей приклад у вашому середовищі:
1. ідентифікатор програми – Ідентифікатор програми EMR Serverless.
2. виконання-роль-арн – Ваша роль виконання EMR Serverless. Для його створення зверніться до Створіть роль середовища виконання завдання.
3. Розташування файлу WARC – Розташування ваших файлів WARC. s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt містить відфільтрований список файлів WARC, який ви отримали раніше в цій публікації.
4. spark.sql.warehouse.dir – Розташування складу за замовчуванням (використовуйте свій каталог S3).
5. spark.archives – Розташування S3 підготовленого середовища Conda.
6. spark.submit.pyFiles – Підготовлений скрипт PySpark sparkcc.py.

Дивіться наступний код:

# 1. create conda environment
conda  create -y -n imdb -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio bs4
 
# 2. package the conda  env, and upload to s3
conda  activate imdb 
conda  pack -o imdbenv.tar.gz
aws  s3 cp imdbenv.tar.gz s3://xxxx-common-crawl/env/
 
# 3. upload scripts to S3
aws  s3 cp imdb_extractor.py s3://xxxx-common-crawl/scripts/
aws  s3 cp cc-pyspark/sparkcc.py s3://xxxx-common-crawl/scripts/
 
# 4. submit job to EMR Serverless
#!/bin/bash
aws  emr-serverless start-job-run 
    --application-id 00fdsobht2skro2l 
    --execution-role-arn  arn:aws:iam::xxxx:role/EMR-Serverless-JobExecutionRole 
    --name imdb-retrive 
    --job-driver '{
        "sparkSubmit": {
          "entryPoint":  "s3://xxxx-common-crawl/scripts/imdb_extractor.py",
          "entryPointArguments":  ["--input_base_url" ,"s3://commoncrawl/",  "s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt",  "imdb_reviews", "--num_output_partitions",  "1"],
          "sparkSubmitParameters":  "--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/ --conf  spark.network.timeout=10000000 —conf  spark.executor.heartbeatInterval=10000000 —conf spark.executor.instances=100  —conf spark.executor.cores=4 —conf spark.executor.memory=16g —conf  spark.driver.memory=16g   —conf  spark.archives=s3://xxxx-common-crawl/env/imdbenv.tar.gz#environment —conf  spark.emr-serverless.driverEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python  —conf spark.emr-serverless.driverEnv.PYSPARK_PYTHON=./environment/bin/python  —conf spark.executorEnv.PYSPARK_PYTHON=./environment/bin/python —conf  spark.submit.pyFiles=s3://xxxx-common-crawl/scripts/sparkcc.py“
        }
}'

Після завершення роботи витягнуті відгуки зберігаються в Amazon S3. Щоб перевірити вміст, ви можете використовувати Amazon S3 Select, як показано на наступному знімку екрана.

Міркування

Нижче наведено моменти, які слід враховувати під час роботи з величезними обсягами даних із налаштованим кодом:

Деякі сторонні бібліотеки Python можуть бути недоступні в Conda. У таких випадках ви можете перейти до віртуального середовища Python, щоб створити середовище виконання PySpark.
Якщо потрібно обробити величезну кількість даних, спробуйте створити та використати декілька додатків EMR Serverless Spark, щоб розпаралелити їх. Кожна програма має справу з підмножиною списків файлів.
Ви можете зіткнутися з уповільненням роботи Amazon S3 під час фільтрації або обробки даних Common Crawl. Це пояснюється тим, що сегмент S3, у якому зберігаються дані, є загальнодоступним, і інші користувачі можуть отримати доступ до даних одночасно. Щоб пом’якшити цю проблему, ви можете додати механізм повторних спроб або синхронізувати певні дані з сегмента Common Crawl S3 у свій сегмент.

Налаштуйте Llama 2 за допомогою SageMaker

Після підготовки даних ви можете точно налаштувати модель Llama 2 за допомогою них. Ви можете зробити це за допомогою SageMaker JumpStart без написання коду. Для отримання додаткової інформації див Налаштуйте Llama 2 для створення тексту на Amazon SageMaker JumpStart.

У цьому сценарії ви виконуєте тонке налаштування адаптації домену. Для цього набору даних вхідні дані складаються з файлів CSV, JSON або TXT. Вам потрібно помістити всі дані огляду у файл TXT. Для цього ви можете надіслати просте завдання Spark до EMR Spark Serverless. Перегляньте наведений нижче зразок фрагмента коду:

# disable generating _SUCCESS file
spark.conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs",  "false")

data  = spark.read.parquet("s3://xxxx-common-crawl/output/imdb_reviews/")

data.select('Key').coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/llama2/train/")

Підготувавши навчальні дані, введіть розташування даних для Навчальний набір даних, Потім виберіть поїзд.

Ви можете відстежувати статус навчальної роботи.

Оцініть налаштовану модель

Після завершення навчання виберіть Розгортання у SageMaker JumpStart для розгортання вашої точно налаштованої моделі.

Після успішного розгортання моделі виберіть Відкрийте Блокнот, який перенаправляє вас до підготовленого блокнота Jupyter, де ви можете запустити свій код Python.

Ви можете використовувати образ Data Science 2.0 і ядро Python 3 для ноутбука.

Тоді ви зможете оцінити налаштовану модель і оригінальну модель у цьому блокноті.

endpoint_name_original = "jumpstart-dft-meta-textgeneration-llama-2-7b-origin"
endpoint_name_fine_tuned = "jumpstart-ftc-meta-textgeneration-llama-2-7b"

payload = {
    "inputs": "The review of movie 'A Woman of Paris: A Drama of Fate' is ",
    "parameters": {
        "max_new_tokens": 256,
        "top_p": 0.9,
        "temperature": 0.6,
        "return_full_text": True,
    },
        }
    
def query_endpoint(payload, endpoint_name):
    client = boto3.client("sagemaker-runtime")
    response = client.invoke_endpoint(
        EndpointName=endpoint_name,
        ContentType="application/json",
        Body=json.dumps(payload),
        CustomAttributes="accept_eula=true",
    )
    response = response["Body"].read().decode("utf8")
    response = json.loads(response)
    print(endpoint_name + ": n" + response[0]['generation'])


query_endpoint(payload, endpoint_name_original)
print("n-----#################-----n")
query_endpoint(payload, endpoint_name_fine_tuned)

Нижче наведено дві відповіді, отримані оригінальною моделлю та налаштованою моделлю для того самого запитання.

Ми надали обом моделям однакове речення: «Рецензія на фільм «Парижанка: Драма долі»» і дозволили їм завершити речення.

Оригінальна модель виводить безглузді речення:

"The review of movie 'A woman of Paris: A Drama of Fate' is 3.0/5.

A Woman of Paris: A Drama of Fate(1923)

A Woman of Paris: A Drama of Fate movie released on 17 October, 1992. The movie is directed by. A Woman of Paris: A Drama of Fate featured Jeanne Eagles, William Haines, Burr McIntosh and Jack Rollens in lead rols.

..."

На відміну від цього, результати налаштованої моделі більше схожі на огляд фільму:

" The review of movie 'A Woman of Paris: A Drama of Fate' is 6.3/10. I liked the story, the plot, the character, the background. The performances are amazing. Rory (Judy Davis) is an Australian photographer who travels to Africa to photograph the people, wildlife, and scenery. She meets Peter (Donald Sutherland), a zoologist, and they begin a relationship..."

Очевидно, що налаштована модель працює краще в цьому конкретному сценарії.

Прибирати

Після завершення цієї вправи виконайте наступні кроки, щоб очистити свої ресурси:

Видаліть сегмент S3 який зберігає очищений набір даних.
Зупиніть безсерверне середовище EMR.
Видаліть кінцеву точку SageMaker який містить модель LLM.
Видаліть домен SageMaker який запускає ваші блокноти.

За замовчуванням створена вами програма повинна автоматично припинити роботу через 15 хвилин бездіяльності.

Як правило, вам не потрібно очищати середовище Athena, тому що плата не стягується, коли ви ним не користуєтеся.

Висновок

У цій публікації ми представили набір даних Common Crawl і те, як використовувати EMR Serverless для обробки даних для тонкого налаштування LLM. Потім ми продемонстрували, як використовувати SageMaker JumpStart для точного налаштування LLM і розгортання його без коду. Більше випадків використання EMR Serverless див Amazon EMR без сервера. Додаткову інформацію про хостинг і моделі точного налаштування на Amazon SageMaker JumpStart див Документація Sagemaker JumpStart.

Про авторів

Шицзянь Тан є спеціалістом з аналітики, архітектором рішень Amazon Web Services.

Метью Лієм є старшим менеджером з архітектури рішень в Amazon Web Services.

Далей Сюй є спеціалістом з аналітики, архітектором рішень Amazon Web Services.

Юйцзюнь Сяо є старшим архітектором рішень в Amazon Web Services.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://aws.amazon.com/blogs/big-data/preprocess-and-fine-tune-llms-quickly-and-cost-effectively-using-amazon-emr-serverless-and-amazon-sagemaker/

Часова мітка: 1 Лютого, 2024

Часова мітка: Січень 3, 2023

Перевидано Платоном

Як Ontraport зменшив витрати на обробку даних на 80% за допомогою AWS Glue | Веб-сервіси Amazon

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки