Prétraitez et ajustez les LLM rapidement et de manière rentable à l'aide d'Amazon EMR Serverless et d'Amazon SageMaker

Republié par Platon

Suiveurs: 0

Les grands modèles de langage (LLM) deviennent de plus en plus populaires et de nouveaux cas d'utilisation sont constamment explorés. En général, vous pouvez créer des applications alimentées par des LLM en incorporant une ingénierie rapide dans votre code. Cependant, il existe des cas où l'incitation à un LLM existant ne suffit pas. C’est là que l’ajustement du modèle peut s’avérer utile. L'ingénierie des invites consiste à guider la sortie du modèle en créant des invites de saisie, tandis que le réglage fin consiste à entraîner le modèle sur des ensembles de données personnalisés pour le rendre mieux adapté à des tâches ou des domaines spécifiques.

Avant de pouvoir affiner un modèle, vous devez rechercher un ensemble de données spécifique à une tâche. Un ensemble de données couramment utilisé est le Ensemble de données d'exploration commune. Le corpus Common Crawl contient des pétaoctets de données, régulièrement collectées depuis 2008, et contient des données brutes de pages Web, des extraits de métadonnées et des extraits de texte. En plus de déterminer quel ensemble de données doit être utilisé, il est nécessaire de nettoyer et de traiter les données selon les besoins spécifiques du réglage fin.

Nous avons récemment travaillé avec un client qui souhaitait prétraiter un sous-ensemble du dernier ensemble de données Common Crawl, puis affiner son LLM avec des données nettoyées. Le client cherchait comment y parvenir de la manière la plus rentable possible sur AWS. Après avoir discuté des exigences, nous avons recommandé d'utiliser Amazon EMR sans serveur comme plate-forme de prétraitement des données. EMR Serverless est bien adapté au traitement de données à grande échelle et élimine le besoin de maintenance de l'infrastructure. En termes de coût, il facture uniquement en fonction des ressources et de la durée utilisées pour chaque tâche. Le client a pu prétraiter des centaines de To de données en une semaine grâce à EMR Serverless. Après avoir prétraité les données, ils ont utilisé Amazon Sage Maker pour peaufiner le LLM.

Dans cet article, nous vous présentons le cas d'utilisation du client et l'architecture utilisée.

Dans les sections suivantes, nous présentons d'abord l'ensemble de données Common Crawl et comment explorer et filtrer les données dont nous avons besoin. Amazone Athéna ne facture que la taille des données analysées et est utilisé pour explorer et filtrer les données rapidement, tout en étant rentable. EMR Serverless fournit une option rentable et sans maintenance pour le traitement des données Spark et est utilisé pour traiter les données filtrées. Ensuite, nous utilisons Amazon SageMaker JumpStart pour affiner le Modèle Lama 2 avec l’ensemble de données prétraité. SageMaker JumpStart fournit un ensemble de solutions pour les cas d'utilisation les plus courants qui peuvent être déployées en quelques clics. Vous n'avez pas besoin d'écrire de code pour affiner un LLM tel que Llama 2. Enfin, nous déployons le modèle affiné en utilisant Amazon Sage Maker et comparez les différences de sortie de texte pour la même question entre les modèles Llama 2 originaux et affinés.

Le schéma suivant illustre l'architecture de cette solution.

Avant de plonger dans les détails de la solution, effectuez les étapes préalables suivantes :

Common Crawl est un ensemble de données de corpus ouvert obtenu en explorant plus de 50 milliards de pages Web. Il comprend des quantités massives de données non structurées dans plusieurs langues, à partir de 2008 et atteignant le niveau du pétaoctet. Il est continuellement mis à jour.

Dans la formation de GPT-3, l'ensemble de données Common Crawl représente 60 % de ses données de formation, comme le montre le schéma suivant (source : Les modèles de langage sont des apprenants peu expérimentés).

Un autre ensemble de données important qui mérite d'être mentionné est le Jeu de données C4. C4, abréviation de Colossal Clean Crawled Corpus, est un ensemble de données dérivé du post-traitement de l'ensemble de données Common Crawl. Dans l'article LLaMA de Meta, ils ont décrit les ensembles de données utilisés, Common Crawl représentant 67 % (utilisant 3.3 To de données) et C4 15 % (utilisant 783 Go de données). Le document souligne l'importance d'incorporer des données prétraitées différemment pour améliorer les performances du modèle. Bien que les données C4 originales fassent partie de Common Crawl, Meta a opté pour la version retraitée de ces données.

Dans cette section, nous abordons les méthodes courantes d'interaction, de filtrage et de traitement de l'ensemble de données Common Crawl.

L'ensemble de données brutes Common Crawl comprend trois types de fichiers de données : les données brutes de pages Web (WARC), les métadonnées (WAT) et l'extraction de texte (WET).

Les données collectées après 2013 sont stockées au format WARC et comprennent les métadonnées correspondantes (WAT) et les données d'extraction de texte (WET). L'ensemble de données se trouve dans Amazon S3, mis à jour mensuellement et est accessible directement via Marketplace AWS .

$  aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2023-23/
PRE segments/
2023-06-21  00:34:08       2164  cc-index-table.paths.gz
2023-06-21  00:34:08        637 cc-index.paths.gz
2023-06-21  05:52:05       2724 index.html
2023-06-21  00:34:09     161064  non200responses.paths.gz
2023-06-21  00:34:10     160888 robotstxt.paths.gz
2023-06-21  00:34:10        480 segment.paths.gz
2023-06-21  00:34:11     161082 warc.paths.gz
2023-06-21  00:34:12     160895 wat.paths.gz
2023-06-21  00:34:12     160898 wet.paths.gz

L'ensemble de données Common Crawl fournit également une table d'index pour filtrer les données, appelée cc-index-table.

Le cc-index-table est un index des données existantes, fournissant un index basé sur une table des fichiers WARC. Il permet de rechercher facilement des informations, telles que le fichier WARC correspondant à une URL spécifique.

Par exemple, vous pouvez créer une table Athena pour mapper les données cc-index avec le code suivant :

CREATE  EXTERNAL TABLE IF NOT EXISTS ccindex (
  url_surtkey                   STRING,
  url                           STRING,
  url_host_name                 STRING,
  url_host_tld                  STRING,
  url_host_2nd_last_part        STRING,
  url_host_3rd_last_part        STRING,
  url_host_4th_last_part        STRING,
  url_host_5th_last_part        STRING,
  url_host_registry_suffix      STRING,
  url_host_registered_domain    STRING,
  url_host_private_suffix       STRING,
  url_host_private_domain       STRING,
  url_host_name_reversed        STRING,
  url_protocol                  STRING,
  url_port                      INT,
  url_path                      STRING,
  url_query                     STRING,
  fetch_time                    TIMESTAMP,
  fetch_status                  SMALLINT,
  fetch_redirect                STRING,
  content_digest                STRING,
  content_mime_type             STRING,
  content_mime_detected         STRING,
  content_charset               STRING,
  content_languages             STRING,
  content_truncated             STRING,
  warc_filename                 STRING,
  warc_record_offset            INT,
  warc_record_length            INT,
  warc_segment                  STRING)
PARTITIONED  BY (
  crawl                         STRING,
  subset                        STRING)
STORED  AS parquet
LOCATION  's3://commoncrawl/cc-index/table/cc-main/warc/';
 
# add partitions
MSCK  REPAIR TABLE ccindex

# query
select  * from ccindex 
where  crawl = 'CC-MAIN-2018-05' 
  and  subset = 'warc' 
  and  url_host_tld = 'no' 
limit  10

Les instructions SQL précédentes montrent comment créer une table Athena, ajouter des partitions et exécuter une requête.

Filtrer les données de l'ensemble de données Common Crawl

Comme vous pouvez le voir dans l'instruction SQL de création de table, plusieurs champs peuvent aider à filtrer les données. Par exemple, si vous souhaitez obtenir le nombre de documents chinois pendant une période spécifique, l'instruction SQL pourrait être la suivante :

SELECT
  url,
  warc_filename,
  content_languages
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-14'
  OR crawl = 'CC-MAIN-2023-23')
  AND subset = 'warc'
  AND content_languages ='zho'
LIMIT  10000

Si vous souhaitez effectuer un traitement ultérieur, vous pouvez enregistrer les résultats dans un autre compartiment S3.

Analyser les données filtrées

Les Dépôt GitHub Common Crawl fournit plusieurs exemples PySpark pour traiter les données brutes.

Regardons un exemple d'exécution server_count.py (exemple de script fourni par le repo Common Crawl GitHub) sur les données situées dans s3://commoncrawl/crawl-data/CC-MAIN-2023-23/segments/1685224643388.45/warc/.

Tout d’abord, vous avez besoin d’un environnement Spark, tel qu’EMR Spark. Par exemple, vous pouvez lancer un cluster Amazon EMR sur EC2 dans us-east-1 (parce que l'ensemble de données est en us-east-1). L'utilisation d'un cluster EMR sur EC2 peut vous aider à effectuer des tests avant de soumettre des tâches à l'environnement de production.

Après avoir lancé un cluster EMR sur EC2, vous devez vous connecter SSH au nœud principal du cluster. Ensuite, emballez l'environnement Python et soumettez le script (reportez-vous au Documentation Conda pour installer Miniconda) :

#  create conda environment
conda  create -y -n example -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio

#  package the conda env
conda  activate example
conda  pack -o environment.tar.gz

#  get script from common crawl github
git  clone https://github.com/commoncrawl/cc-pyspark.git

#  copy target file path to local
aws  s3 cp s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz .
gzip  -d warc.paths.gz

#  put warc list to hdfs
hdfs  dfs -put warc.paths

#  submit job
spark-submit  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python 
--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/  
--master yarn  
--deploy-mode cluster 
--archives environment.tar.gz#environment 
--py-files cc-pyspark/sparkcc.py  cc-pyspark/server_count.py --input_base_url  s3://commoncrawl/ ./warc.paths count_demo

Le traitement de toutes les références dans warc.path peut prendre du temps. À des fins de démonstration, vous pouvez améliorer le temps de traitement avec les stratégies suivantes :

Télécharger le fichier s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz sur votre ordinateur local, décompressez-le, puis téléchargez-le sur HDFS ou Amazon S3. En effet, le fichier .gzip n'est pas divisible. Vous devez le décompresser pour traiter ce fichier en parallèle.
Modifier la warc.path fichier, supprimez la plupart de ses lignes et ne conservez que deux lignes pour que le travail s'exécute beaucoup plus rapidement.

Une fois le travail terminé, vous pouvez voir le résultat dans s3://xxxx-common-crawl/output/, au format Parquet.

Implémenter une logique de possession personnalisée

Le dépôt Common Crawl GitHub fournit une approche commune pour traiter les fichiers WARC. Généralement, vous pouvez prolonger la CCSparkJob pour remplacer une seule méthode (process_record), ce qui est suffisant dans de nombreux cas.

Regardons un exemple pour obtenir les critiques IMDB de films récents. Tout d'abord, vous devez filtrer les fichiers sur le site IMDB :

SELECT
  url,
  warc_filename,
  url_host_name
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
LIMIT  1000

Vous pouvez ensuite obtenir des listes de fichiers WARC contenant des données de révision IMDB et enregistrer les noms de fichiers WARC sous forme de liste dans un fichier texte.

Vous pouvez également utiliser EMR Spark pour obtenir la liste des fichiers WARC et la stocker dans Amazon S3. Par exemple:

sql  = """SELECT
  warc_filename
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
"""

warc_list  = spark.sql(sql)

#  write result list to s3
warc_list.coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/warclist/imdb_warclist")

Le fichier de sortie devrait ressembler à s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt.

L'étape suivante consiste à extraire les avis des utilisateurs de ces fichiers WARC. Vous pouvez prolonger le CCSparkJob pour outrepasser le process_record() méthode:

from  sparkcc import CCSparkJob
from  bs4 import BeautifulSoup
from  urllib.parse import urlsplit
 
class  IMDB_Extract_Job(CCSparkJob):
    name = "IMDB_Reviews"
 
    def process_record(self, record):
        if self.is_response_record(record):
            # WARC response record
            domain =  urlsplit(record.rec_headers['WARC-Target-URI']).hostname
            if domain == 'www.imdb.com':
                # get web contents
                contents = (
                    record.content_stream()
                        .read()
                        .decode("utf-8", "replace")
                )
 
                # parse with beautiful soup
                soup =  BeautifulSoup(contents, "html.parser")
 
                # get reviews
                review_divs =  soup.find_all(class_="text show-more__control")
                for div in review_divs:
                    yield div.text,1
 
 
if  __name__ == "__main__":
    job = IMDB_Extract_Job()
    job.run()

Vous pouvez enregistrer le script précédent sous imdb_extractor.py, que vous utiliserez dans les étapes suivantes. Après avoir préparé les données et les scripts, vous pouvez utiliser EMR Serverless pour traiter les données filtrées.

EMR sans serveur

EMR Serverless est une option de déploiement sans serveur permettant d'exécuter des applications d'analyse Big Data à l'aide de frameworks open source comme Apache Spark et Hive sans configurer, gérer et mettre à l'échelle des clusters ou des serveurs.

Avec EMR Serverless, vous pouvez exécuter des charges de travail d'analyse à n'importe quelle échelle grâce à une mise à l'échelle automatique qui redimensionne les ressources en quelques secondes pour répondre à l'évolution des volumes de données et des exigences de traitement. EMR Serverless augmente et diminue automatiquement les ressources pour fournir la capacité appropriée à votre application, et vous ne payez que pour ce que vous utilisez.

Le traitement de l'ensemble de données Common Crawl est généralement une tâche de traitement unique, ce qui le rend adapté aux charges de travail EMR sans serveur.

Créer une application sans serveur EMR

Vous pouvez créer une application EMR Serverless sur la console EMR Studio. Effectuez les étapes suivantes :

Sur la console EMR Studio, choisissez Applications sous Sans serveur dans le volet de navigation.
Selectionnez Créer une application.

Fournissez un nom pour l'application et choisissez une version Amazon EMR.

Si l'accès aux ressources VPC est requis, ajoutez un paramètre réseau personnalisé.

Selectionnez Créer une application.

Votre environnement sans serveur Spark sera alors prêt.

Avant de pouvoir soumettre une tâche à EMR Spark Serverless, vous devez toujours créer un rôle d'exécution. Faire référence à Premiers pas avec Amazon EMR sans serveur pour plus de détails.

Traiter les données Common Crawl avec EMR Serverless

Une fois votre application EMR Spark Serverless prête, procédez comme suit pour traiter les données :

Préparez un environnement Conda et téléchargez-le sur Amazon S3, qui sera utilisé comme environnement dans EMR Spark Serverless.
Téléchargez les scripts à exécuter dans un compartiment S3. Dans l'exemple suivant, il existe deux scripts :
1. imbd_extractor.py – Logique personnalisée pour extraire le contenu de l’ensemble de données. Le contenu peut être trouvé plus tôt dans cet article.
2. cc-pyspark/sparkcc.py – L’exemple de framework PySpark du Dépôt GitHub d'exploration commune, qu'il est nécessaire d'inclure.
Soumettez la tâche PySpark à EMR Serverless Spark. Définissez les paramètres suivants pour exécuter cet exemple dans votre environnement :
1. ID d'application – L’ID d’application de votre application EMR Serverless.
2. exécution-rôle-arn – Votre rôle d’exécution EMR Serverless. Pour le créer, reportez-vous à Créer un rôle d'exécution de tâche.
3. Emplacement du fichier WARC – L’emplacement de vos fichiers WARC. s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt contient la liste de fichiers WARC filtrée, que vous avez obtenue plus tôt dans cet article.
4. spark.sql.warehouse.dir – L'emplacement de l'entrepôt par défaut (utilisez votre répertoire S3).
5. spark.archives – L’emplacement S3 de l’environnement Conda préparé.
6. spark.submit.pyFiles – Le script PySpark préparé sparkcc.py.

Voir le code suivant:

# 1. create conda environment
conda  create -y -n imdb -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio bs4
 
# 2. package the conda  env, and upload to s3
conda  activate imdb 
conda  pack -o imdbenv.tar.gz
aws  s3 cp imdbenv.tar.gz s3://xxxx-common-crawl/env/
 
# 3. upload scripts to S3
aws  s3 cp imdb_extractor.py s3://xxxx-common-crawl/scripts/
aws  s3 cp cc-pyspark/sparkcc.py s3://xxxx-common-crawl/scripts/
 
# 4. submit job to EMR Serverless
#!/bin/bash
aws  emr-serverless start-job-run 
    --application-id 00fdsobht2skro2l 
    --execution-role-arn  arn:aws:iam::xxxx:role/EMR-Serverless-JobExecutionRole 
    --name imdb-retrive 
    --job-driver '{
        "sparkSubmit": {
          "entryPoint":  "s3://xxxx-common-crawl/scripts/imdb_extractor.py",
          "entryPointArguments":  ["--input_base_url" ,"s3://commoncrawl/",  "s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt",  "imdb_reviews", "--num_output_partitions",  "1"],
          "sparkSubmitParameters":  "--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/ --conf  spark.network.timeout=10000000 —conf  spark.executor.heartbeatInterval=10000000 —conf spark.executor.instances=100  —conf spark.executor.cores=4 —conf spark.executor.memory=16g —conf  spark.driver.memory=16g   —conf  spark.archives=s3://xxxx-common-crawl/env/imdbenv.tar.gz#environment —conf  spark.emr-serverless.driverEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python  —conf spark.emr-serverless.driverEnv.PYSPARK_PYTHON=./environment/bin/python  —conf spark.executorEnv.PYSPARK_PYTHON=./environment/bin/python —conf  spark.submit.pyFiles=s3://xxxx-common-crawl/scripts/sparkcc.py“
        }
}'

Une fois le travail terminé, les avis extraits sont stockés dans Amazon S3. Pour vérifier le contenu, vous pouvez utiliser Amazon S3 Select, comme indiqué dans la capture d'écran suivante.

Considérations

Voici les points à prendre en compte lorsque vous traitez des quantités massives de données avec un code personnalisé :

Certaines bibliothèques Python tierces peuvent ne pas être disponibles dans Conda. Dans de tels cas, vous pouvez passer à un environnement virtuel Python pour créer l'environnement d'exécution PySpark.
S'il y a une énorme quantité de données à traiter, essayez de créer et d'utiliser plusieurs applications EMR Serverless Spark pour les paralléliser. Chaque application traite un sous-ensemble de listes de fichiers.
Vous pouvez rencontrer un problème de ralentissement avec Amazon S3 lors du filtrage ou du traitement des données Common Crawl. En effet, le compartiment S3 stockant les données est accessible au public et d'autres utilisateurs peuvent accéder aux données en même temps. Pour atténuer ce problème, vous pouvez ajouter un mécanisme de nouvelle tentative ou synchroniser des données spécifiques du compartiment Common Crawl S3 vers votre propre compartiment.

Affiner Llama 2 avec SageMaker

Une fois les données préparées, vous pouvez affiner un modèle Llama 2 avec. Vous pouvez le faire en utilisant SageMaker JumpStart, sans écrire de code. Pour plus d'informations, reportez-vous à Affinez Llama 2 pour la génération de texte sur Amazon SageMaker JumpStart.

Dans ce scénario, vous effectuez un réglage fin de l'adaptation du domaine. Avec cet ensemble de données, l'entrée consiste en un fichier CSV, JSON ou TXT. Vous devez mettre toutes les données d'évaluation dans un fichier TXT. Pour ce faire, vous pouvez soumettre une tâche Spark simple à EMR Spark Serverless. Consultez l’exemple d’extrait de code suivant :

# disable generating _SUCCESS file
spark.conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs",  "false")

data  = spark.read.parquet("s3://xxxx-common-crawl/output/imdb_reviews/")

data.select('Key').coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/llama2/train/")

Après avoir préparé les données d'entraînement, entrez l'emplacement des données pour Ensemble de données d'entraînement, Puis choisissez Train.

Vous pouvez suivre l'état du travail de formation.

Évaluer le modèle affiné

Une fois la formation terminée, choisissez Déployer dans SageMaker JumpStart pour déployer votre modèle affiné.

Une fois le modèle déployé avec succès, choisissez Cahier ouvert, qui vous redirige vers un notebook Jupyter préparé dans lequel vous pouvez exécuter votre code Python.

Vous pouvez utiliser l'image Data Science 2.0 et le noyau Python 3 pour le notebook.

Ensuite, vous pouvez évaluer le modèle affiné et le modèle original dans ce cahier.

endpoint_name_original = "jumpstart-dft-meta-textgeneration-llama-2-7b-origin"
endpoint_name_fine_tuned = "jumpstart-ftc-meta-textgeneration-llama-2-7b"

payload = {
    "inputs": "The review of movie 'A Woman of Paris: A Drama of Fate' is ",
    "parameters": {
        "max_new_tokens": 256,
        "top_p": 0.9,
        "temperature": 0.6,
        "return_full_text": True,
    },
        }
    
def query_endpoint(payload, endpoint_name):
    client = boto3.client("sagemaker-runtime")
    response = client.invoke_endpoint(
        EndpointName=endpoint_name,
        ContentType="application/json",
        Body=json.dumps(payload),
        CustomAttributes="accept_eula=true",
    )
    response = response["Body"].read().decode("utf8")
    response = json.loads(response)
    print(endpoint_name + ": n" + response[0]['generation'])


query_endpoint(payload, endpoint_name_original)
print("n-----#################-----n")
query_endpoint(payload, endpoint_name_fine_tuned)

Voici deux réponses renvoyées par le modèle original et le modèle affiné pour la même question.

Nous avons fourni aux deux modèles la même phrase : « La critique du film « Une femme de Paris : un drame du destin » est » et les avons laissés compléter la phrase.

Le modèle original génère des phrases dénuées de sens :

"The review of movie 'A woman of Paris: A Drama of Fate' is 3.0/5.

A Woman of Paris: A Drama of Fate(1923)

A Woman of Paris: A Drama of Fate movie released on 17 October, 1992. The movie is directed by. A Woman of Paris: A Drama of Fate featured Jeanne Eagles, William Haines, Burr McIntosh and Jack Rollens in lead rols.

..."

En revanche, les résultats du modèle affiné ressemblent davantage à une critique de film :

" The review of movie 'A Woman of Paris: A Drama of Fate' is 6.3/10. I liked the story, the plot, the character, the background. The performances are amazing. Rory (Judy Davis) is an Australian photographer who travels to Africa to photograph the people, wildlife, and scenery. She meets Peter (Donald Sutherland), a zoologist, and they begin a relationship..."

De toute évidence, le modèle affiné fonctionne mieux dans ce scénario spécifique.

Nettoyer

Une fois cet exercice terminé, effectuez les étapes suivantes pour nettoyer vos ressources :

Supprimer le compartiment S3 qui stocke l'ensemble de données nettoyé.
Arrêtez l'environnement EMR sans serveur.
Supprimer le point de terminaison SageMaker qui héberge le modèle LLM.
Supprimer le domaine SageMaker qui exécute vos cahiers.

L'application que vous avez créée devrait s'arrêter automatiquement après 15 minutes d'inactivité par défaut.

En règle générale, vous n'avez pas besoin de nettoyer l'environnement Athena car il n'y a aucun frais lorsque vous ne l'utilisez pas.

Conclusion

Dans cet article, nous avons présenté l'ensemble de données Common Crawl et comment utiliser EMR Serverless pour traiter les données pour le réglage fin du LLM. Nous avons ensuite montré comment utiliser SageMaker JumpStart pour affiner le LLM et le déployer sans aucun code. Pour plus de cas d'utilisation d'EMR Serverless, reportez-vous à Amazon EMR sans serveur. Pour plus d'informations sur l'hébergement et le réglage précis des modèles sur Amazon SageMaker JumpStart, consultez le Documentation Sagemaker JumpStart.

À propos des auteurs

Tang Shijian est un architecte de solutions spécialisé en analyse chez Amazon Web Services.

Matthieu Liem est responsable principal de l'architecture de solutions chez Amazon Web Services.

Dalei Xu est un architecte de solutions spécialisé en analyse chez Amazon Web Services.

Yuan Jun Xiao est architecte de solutions senior chez Amazon Web Services.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://aws.amazon.com/blogs/big-data/preprocess-and-fine-tune-llms-quickly-and-cost-effectively-using-amazon-emr-serverless-and-amazon-sagemaker/

Horodatage: 1 février 2024

Nouvelles options de diagramme de dispersion dans Amazon QuickSight pour visualiser vos données

Cluster source:

Big Data AWS

Nœud source: 2639142

Horodatage: 8 mai 2023

Republié par Platon

Effectuer une recherche insensible aux accents à l'aide d'OpenSearch

Configurer la fédération d'identité ADFS avec Amazon QuickSight

Exécutez des charges de travail Apache Hive à l'aide de Spark SQL avec Amazon EMR sur EKS | Services Web Amazon

Créez un lac de données transactionnelles en temps quasi réel basé sur Apache Hudi à l'aide d'AWS DMS, d'Amazon Kinesis, de l'ETL de streaming AWS Glue et de la visualisation des données à l'aide d'Amazon QuickSight | Services Web Amazon

Composez vos tâches ETL pour MongoDB Atlas avec AWS Glue

Quoi de neuf avec la prise en charge d'Amazon MWAA pour les scripts de démarrage | Services Web Amazon

Nouvelles options de diagramme de dispersion dans Amazon QuickSight pour visualiser vos données

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte