Generatiivisten AI-työkuormien suunnittelu kestävyyttä varten | Amazon Web Services

Julkaissut Platon

seuraajia: 0

Resilienssillä on keskeinen rooli minkä tahansa työtaakan kehittymisessä ja generatiivinen tekoäly työmäärät eivät eroa. Generatiivisten tekoälytyökuormien suunnittelussa joustavuuslinssin kautta on otettava huomioon ainutlaatuiset näkökohdat. Kestävyyden ymmärtäminen ja priorisointi on ratkaisevan tärkeää generatiivisten tekoälytyökuormien kannalta, jotta ne täyttävät organisaation saatavuuden ja liiketoiminnan jatkuvuuden vaatimukset. Tässä viestissä keskustelemme generatiivisen AI-työkuorman eri pinoista ja siitä, mitä niiden tulisi olla.

Täysi pino generatiivinen AI

Vaikka suuri osa generatiiviseen tekoälyyn liittyvästä jännityksestä keskittyy malleihin, täydellinen ratkaisu sisältää ihmisiä, taitoja ja työkaluja useilta alueilta. Tarkastellaan seuraavaa kuvaa, joka on AWS-näkymä a16z:n nousevasta sovelluspinosta suurille kielimalleille (LLM).

LLM App Stackin taksonomia AWS:ssä

Verrattuna perinteisempään tekoälyn ja koneoppimisen (ML) ympärille rakennettuun ratkaisuun, generatiivinen tekoälyratkaisu sisältää nyt seuraavat asiat:

Uudet roolit – On otettava huomioon mallivirittimet sekä mallinrakentajat ja malliintegraattorit
Uudet työkalut – Perinteinen MLOps-pino ei ulotu kattamaan kokeiden seurantaa tai havainnointia, jota tarvitaan nopeaan suunnitteluun tai agentit, jotka kutsuvat työkaluja vuorovaikutukseen muiden järjestelmien kanssa

Agentin perustelut

Perinteisistä tekoälymalleista poiketen Retrieval Augmented Generation (RAG) mahdollistaa tarkempien ja kontekstuaalisten vastausten tekemisen integroimalla ulkoisia tietolähteitä. Seuraavassa on joitain huomioita RAG:n käytössä:

Asianmukaisten aikakatkaisujen asettaminen on tärkeää asiakaskokemuksen kannalta. Mikään ei kerro huonosta käyttökokemuksesta enemmän kuin keskustelun keskellä oleminen ja yhteyden katkeaminen.
Varmista, että tarkistat mallin määrittämien merkkirajoitusten kehotteen syöttötiedot ja kehotteen syöttökoon.
Jos suoritat nopeaa suunnittelua, sinun tulee säilyttää kehotteet luotettavassa tietovarastossa. Tämä suojaa kehotteitasi vahingossa tapahtuvan katoamisen varalta tai osana yleistä katastrofipalautusstrategiaasi.

Dataputket

Tapauksissa, joissa sinun on toimitettava kontekstuaalista dataa perustusmalliin RAG-kuvion avulla, tarvitset dataputken, joka voi syöttää lähdetiedot, muuntaa sen upotusvektoreiksi ja tallentaa upotusvektorit vektoritietokantaan. Tämä liukuhihna voi olla eräkäsittely, jos valmistelet kontekstuaalista dataa etukäteen, tai matalaviiveinen liukuhihna, jos lisäät uutta kontekstuaalista dataa lennossa. Erätapauksessa on pari haastetta verrattuna tyypillisiin tietoputkiin.

Tietolähteet voivat olla PDF-dokumentteja tiedostojärjestelmässä, tietoja ohjelmistona palveluna (SaaS) -järjestelmästä, kuten CRM-työkalusta, tai dataa olemassa olevasta wikistä tai tietokannasta. Näistä lähteistä kerääminen eroaa tyypillisistä tietolähteistä, kuten lokitiedoista Amazonin yksinkertainen tallennuspalvelu (Amazon S3) -ämpäri tai strukturoitu tieto relaatiotietokannasta. Lähdejärjestelmä saattaa rajoittaa saavutettavaa rinnakkaisuuden tasoa, joten sinun on otettava huomioon kuristus ja käytettävä peruutustekniikoita. Jotkut lähdejärjestelmät voivat olla hauraita, joten sinun on rakennettava virheenkäsittely- ja uudelleenyrityslogiikka.

Upotusmalli voi olla suorituskyvyn pullonkaula riippumatta siitä, käytätkö sitä paikallisesti valmisteilla vai kutsutko ulkoista mallia. Upotetut mallit ovat perusmalleja, jotka toimivat GPU:illa ja joilla ei ole rajoittamatonta kapasiteettia. Jos malli toimii paikallisesti, sinun on määritettävä työ GPU-kapasiteetin perusteella. Jos mallia käytetään ulkoisesti, sinun on varmistettava, että et kyllästä ulkoista mallia. Kummassakin tapauksessa saavutettavan rinnakkaisuuden tason määrää upotusmalli eikä se, kuinka paljon prosessoria ja RAM-muistia sinulla on käytettävissä eräkäsittelyjärjestelmässä.

Pienen latenssin tapauksessa sinun on otettava huomioon upotusvektorien luomiseen kuluva aika. Kutsuvan sovelluksen tulee kutsua liukuhihna asynkronisesti.

Vektoritietokannat

Vektoritietokannassa on kaksi toimintoa: tallentaa upotusvektorit ja suorittaa samankaltaisuushaun löytääksesi lähimmän k sopii uuteen vektoriin. Vektoritietokantoja on kolme yleistä tyyppiä:

Omat SaaS-vaihtoehdot, kuten Pinecone.
Muihin palveluihin sisäänrakennetut vektoritietokantaominaisuudet. Tämä sisältää alkuperäiset AWS-palvelut, kuten Amazon OpenSearch-palvelu ja Amazon Aurora.
Muistissa olevat vaihtoehdot, joita voidaan käyttää lyhytaikaisille tiedoille matalan viiveen skenaarioissa.

Emme käsittele tässä viestissä yksityiskohtaisesti samankaltaisuuden hakuominaisuuksia. Vaikka ne ovat tärkeitä, ne ovat toiminnallinen osa järjestelmää, eivätkä ne vaikuta suoraan sietokykyyn. Sen sijaan keskitymme vektoritietokannan kestävyyteen tallennusjärjestelmänä:

Viive – Voiko vektoritietokanta toimia hyvin suurta tai arvaamatonta kuormitusta vastaan? Jos ei, kutsuvan sovelluksen on käsiteltävä nopeuden rajoittamista ja peruuttamista ja yritettävä uudelleen.
skaalautuvuus – Kuinka monta vektoria järjestelmä voi sisältää? Jos ylität vektoritietokannan kapasiteetin, sinun on tutkittava sirpalointia tai muita ratkaisuja.
Korkea saatavuus ja katastrofipalautus – Vektorien upottaminen on arvokasta dataa, ja niiden uudelleenluominen voi olla kallista. Onko vektoritietokantasi erittäin saatavilla yhdellä AWS-alueella? Pystyykö se replikoimaan tietoja toiselle alueelle katastrofipalautustarkoituksiin?

Sovellustaso

Sovellustasolla on kolme ainutlaatuista seikkaa integroitaessa luovia tekoälyratkaisuja:

Mahdollisesti korkea latenssi – Perusmallit toimivat usein suurilla GPU-instanssilla ja niillä voi olla rajallinen kapasiteetti. Varmista, että käytät parhaita käytäntöjä nopeuden rajoittamiseen, perääntymiseen ja uudelleen yrittämiseen sekä kuormituksen vähentämiseen. Käytä asynkronisia malleja, jotta korkea latenssi ei häiritse sovelluksen pääkäyttöliittymää.
Turva-asento – Jos käytät agentteja, työkaluja, laajennuksia tai muita menetelmiä mallin yhdistämiseen muihin järjestelmiin, kiinnitä erityistä huomiota suojausasenteeseesi. Mallit voivat yrittää olla vuorovaikutuksessa näiden järjestelmien kanssa odottamattomilla tavoilla. Noudata tavallista vähiten etuoikeuksien käyttöä, esimerkiksi rajoita saapuvat kehotteet muista järjestelmistä.
Nopeasti kehittyvät puitteet – LangChainin kaltaiset avoimen lähdekoodin puitteet kehittyvät nopeasti. Käytä mikropalvelulähestymistapaa muiden komponenttien eristämiseen näistä vähemmän kypsistä kehyksistä.

Koko

Voimme ajatella kapasiteettia kahdessa kontekstissa: päättely- ja koulutusmallitietoputkistossa. Kapasiteetti otetaan huomioon, kun organisaatiot rakentavat omia putkistojaan. Prosessori- ja muistivaatimukset ovat kaksi suurimmista vaatimuksista valittaessa ilmentymiä työkuormituksiesi suorittamiseen.

Instanssit, jotka voivat tukea generatiivisia tekoälytyökuormia, voivat olla vaikeampia saada kuin keskimääräinen yleiskäyttöinen ilmentymätyyppisi. Instanssijoustavuus voi auttaa kapasiteetin ja kapasiteetin suunnittelussa. Saatavilla on erilaisia esiintymätyyppejä riippuen siitä, millä AWS-alueella käytät työkuormaa.

Kriittisillä käyttäjämatkoilla organisaatiot haluavat harkita ilmentymien tyyppien varaamista tai esivalvontaa varmistaakseen saatavuuden tarvittaessa. Tällä kuviolla saavutetaan staattisesti vakaa arkkitehtuuri, mikä on joustavuuden paras käytäntö. Lisätietoja AWS Well-Architected Frameworkin luotettavuuspilarin staattisesta vakaudesta on kohdassa Käytä staattista vakautta estääksesi bimodaalisen käyttäytymisen.

havaittavuus

Tavallisesti keräämiesi resurssitietojen, kuten suorittimen ja RAM-käytön, lisäksi sinun on seurattava GPU-käyttöä tarkasti, jos isännöit mallia Amazon Sage Maker or Amazonin elastinen laskentapilvi (Amazon EC2). GPU:n käyttöaste voi muuttua odottamattomasti, jos perusmalli tai syöttötiedot muuttuvat, ja GPU-muistin loppuminen voi saada järjestelmän epävakaaseen tilaan.

Pinon ylempänä haluat myös jäljittää puhelujen kulkua järjestelmän läpi ja tallentaa agenttien ja työkalujen väliset vuorovaikutukset. Koska agenttien ja työkalujen välinen liitäntä on vähemmän muodollisesti määritelty kuin API-sopimus, sinun tulee valvoa näitä jälkiä suorituskyvyn lisäksi myös uusien virheskenaarioiden sieppaamiseksi. Voit seurata mallia tai agenttia tietoturvariskien ja -uhkien varalta käyttämällä työkaluja, kuten Amazon Guard Duty.

Sinun tulee myös kaapata upotusvektoreiden, kehotteiden, kontekstin ja tulosteen perusviivat sekä näiden välinen vuorovaikutus. Jos nämä muuttuvat ajan myötä, se voi viitata siihen, että käyttäjät käyttävät järjestelmää uudella tavalla, että referenssitiedot eivät kata kysymysavaruutta samalla tavalla tai mallin tulos on yhtäkkiä erilainen.

katastrofipalautuksen

Liiketoiminnan jatkuvuussuunnitelma ja katastrofipalautusstrategia ovat välttämättömiä kaikissa työkuormissa. Generatiiviset AI-työkuormat eivät eroa toisistaan. Työkuormaasi sovellettavien vikatilojen ymmärtäminen auttaa ohjaamaan strategiaasi. Jos käytät AWS-hallittuja palveluita työkuormitukseesi, kuten Amazonin kallioperä ja SageMaker, varmista, että palvelu on saatavilla palautus-AWS-alueellasi. Tätä kirjoitettaessa nämä AWS-palvelut eivät tue tietojen replikointia AWS-alueilla natiivisti, joten sinun on pohdittava datanhallintastrategioitasi katastrofipalautusta varten, ja saatat joutua myös hienosäätämään useita AWS-alueita.

Yhteenveto

Tässä viestissä kerrottiin, kuinka joustavuus otetaan huomioon luotaessa luovia tekoälyratkaisuja. Vaikka generatiivisissa tekoälysovelluksissa on mielenkiintoisia vivahteita, olemassa olevat joustavuusmallit ja parhaat käytännöt ovat edelleen voimassa. Kyse on vain generatiivisen tekoälysovelluksen jokaisen osan arvioinnista ja asianmukaisten parhaiden käytäntöjen soveltamisesta.

Lisätietoja generatiivisesta tekoälystä ja sen käytöstä AWS-palvelujen kanssa on seuraavissa resursseissa:

Tietoja Tekijät

Jennifer Moran on AWS Senior Resiliency Specialist Solutions -arkkitehti New Yorkista. Hänellä on monipuolinen tausta, ja hän on työskennellyt monilla teknisillä aloilla, mukaan lukien ohjelmistokehitys, ketterä johtaminen ja DevOps, ja hän on naisten puolestapuhuja tekniikassa. Hän mielellään auttaa asiakkaita suunnittelemaan kestäviä ratkaisuja resilienssiasennon parantamiseksi ja puhuu julkisesti kaikista resilienssiin liittyvistä aiheista.

Randy DeFauw on AWS:n vanhempi ratkaisuarkkitehti. Hän on suorittanut MSEE-tutkinnon Michiganin yliopistosta, jossa hän työskenteli autonomisten ajoneuvojen tietokonenäön parissa. Hän on myös suorittanut MBA-tutkinnon Colorado State Universitystä. Randy on toiminut erilaisissa tehtävissä teknologia-alalla ohjelmistosuunnittelusta tuotehallintaan. Hän astui big data-avaruuteen vuonna 2013 ja jatkaa sen tutkimista. Hän työskentelee aktiivisesti projekteissa ML-tilassa ja on esiintynyt lukuisissa konferensseissa, mukaan lukien Strata ja GlueCon.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/designing-generative-ai-workloads-for-resilience/

Aikaleima: Helmikuu 1, 2024

Aikaleima: Mar 23, 2022

Julkaissut Platon

Integroi SaaS-alustoja Amazon SageMakeriin ML-käyttöisten sovellusten mahdollistamiseksi | Amazon Web Services

Monikielinen asiakastuen käännös on tehty helpoksi Salesforce Service Cloudissa Amazon Translatella

Käytä AWS AI- ja ML-palveluita näkö- tai viestintävammaisten ihmisten saavutettavuuden ja osallisuuden edistämiseen

Visuaalinen tarkastusautomaatio Amazon SageMaker JumpStartin avulla

AWS tarjoaa uusia tekoälyä, koneoppimista ja generatiivisia tekoälyoppaita tekoälystrategiasi suunnitteluun | Amazon Web Services

Kuinka xarvio Digital Farming Solutions nopeuttaa kehitystään Amazon SageMakerin geospatiaalisilla ominaisuuksilla

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili