Odpornost igra ključno vlogo pri razvoju katere koli delovne obremenitve in generativni AI delovne obremenitve niso nič drugačne. Pri načrtovanju generativnih delovnih obremenitev umetne inteligence skozi lečo odpornosti obstajajo edinstveni premisleki. Razumevanje in prednostno razvrščanje odpornosti je ključnega pomena za generativne delovne obremenitve umetne inteligence za izpolnjevanje zahtev glede organizacijske razpoložljivosti in neprekinjenega poslovanja. V tej objavi razpravljamo o različnih nizih generativne delovne obremenitve z umetno inteligenco in o tem, kakšni bi morali biti ti premisleki.
AI, ki generira poln sklad
Čeprav se veliko navdušenja glede generativne umetne inteligence osredotoča na modele, celovita rešitev vključuje ljudi, spretnosti in orodja z več področij. Razmislite o naslednji sliki, ki je pogled AWS na nastajajoči sklad aplikacij a16z za velike jezikovne modele (LLM).
V primerjavi z bolj tradicionalno rešitvijo, ki temelji na AI in strojnem učenju (ML), generativna rešitev AI zdaj vključuje naslednje:
- Nove vloge – Upoštevati morate uglaševalce modelov, pa tudi izdelovalce modelov in integratorje modelov
- Nova orodja – Tradicionalni sklad MLOps ne obsega vrste sledenja ali opazovanja poskusov, potrebnega za takojšen inženiring ali agentov, ki kličejo orodja za interakcijo z drugimi sistemi
Utemeljitev agenta
Za razliko od tradicionalnih modelov umetne inteligence Retrieval Augmented Generation (RAG) omogoča natančnejše in kontekstualno ustrezne odzive z integracijo zunanjih virov znanja. Pri uporabi RAG je treba upoštevati naslednje:
- Nastavitev ustreznih časovnih omejitev je pomembna za uporabniško izkušnjo. Nič ne govori o slabi uporabniški izkušnji bolj kot biti sredi klepeta in prekiniti povezavo.
- Prepričajte se, da preverite vhodne podatke poziva in velikost vnosa poziva za dodeljene omejitve znakov, ki jih določa vaš model.
- Če izvajate hitro inženirstvo, bi morali svoje pozive vztrajati v zanesljivi shrambi podatkov. To bo zaščitilo vaše pozive v primeru nenamerne izgube ali kot del vaše splošne strategije za obnovitev po katastrofi.
Podatkovni cevovodi
V primerih, ko morate osnovnemu modelu zagotoviti kontekstualne podatke z uporabo vzorca RAG, potrebujete podatkovni cevovod, ki lahko zaužije izvorne podatke, jih pretvori v vdelane vektorje in shrani vdelane vektorje v vektorsko bazo podatkov. Ta cevovod je lahko paketni cevovod, če kontekstualne podatke pripravite vnaprej, ali cevovod z nizko zakasnitvijo, če nove kontekstualne podatke vključujete sproti. V paketnem primeru obstaja nekaj izzivov v primerjavi s tipičnimi podatkovnimi cevovodi.
Viri podatkov so lahko dokumenti PDF v datotečnem sistemu, podatki iz sistema programske opreme kot storitve (SaaS), kot je orodje CRM, ali podatki iz obstoječega wikija ali baze znanja. Vnos iz teh virov se razlikuje od tipičnih virov podatkov, kot so podatki dnevnika v Preprosta storitev shranjevanja Amazon (Amazon S3) vedro ali strukturirani podatki iz relacijske zbirke podatkov. Raven vzporednosti, ki jo lahko dosežete, je lahko omejena z izvornim sistemom, zato morate upoštevati dušenje in uporabiti tehnike odmika. Nekateri izvorni sistemi so lahko krhki, zato morate vgraditi logiko za obravnavo napak in poskusiti znova.
Model vdelave je lahko ozko grlo pri delovanju, ne glede na to, ali ga izvajate lokalno v cevovodu ali pokličete zunanji model. Vgradni modeli so osnovni modeli, ki delujejo na grafičnih procesorjih in nimajo neomejene zmogljivosti. Če se model izvaja lokalno, morate delo dodeliti na podlagi zmogljivosti GPE. Če se model izvaja zunaj, se morate prepričati, da ne nasičite zunanjega modela. V obeh primerih bo raven vzporednosti, ki jo lahko dosežete, narekoval model vdelave in ne koliko CPU-ja in RAM-a imate na voljo v sistemu paketne obdelave.
V primeru nizke zakasnitve morate upoštevati čas, ki je potreben za ustvarjanje vdelanih vektorjev. Klicajoča aplikacija bi morala cevovod priklicati asinhrono.
Vektorske baze podatkov
Vektorska zbirka podatkov ima dve funkciji: shranjevanje vdelanih vektorjev in izvajanje iskanja po podobnosti, da bi našli najbližje k ujema z novim vektorjem. Obstajajo tri splošne vrste vektorskih baz podatkov:
- Namenske možnosti SaaS, kot je Pinecone.
- Funkcije vektorske zbirke podatkov, vgrajene v druge storitve. To vključuje domače storitve AWS, kot je Storitev Amazon OpenSearch in Amazonska Aurora.
- Možnosti v pomnilniku, ki jih je mogoče uporabiti za prehodne podatke v scenarijih z nizko zakasnitvijo.
V tej objavi ne pokrivamo podrobno zmožnosti iskanja podobnosti. Čeprav so pomembni, so funkcionalni vidik sistema in ne vplivajo neposredno na odpornost. Namesto tega se osredotočamo na vidike odpornosti vektorske baze podatkov kot sistema za shranjevanje:
- Latenca – Ali lahko vektorska zbirka podatkov dobro deluje pri visoki ali nepredvidljivi obremenitvi? Če ne, mora aplikacija, ki kliče, obravnavati omejitev hitrosti in odmik ter poskusiti znova.
- Prilagodljivost – Koliko vektorjev lahko sprejme sistem? Če presežete zmogljivost vektorske podatkovne baze, boste morali poiskati drobljenje ali druge rešitve.
- Visoka razpoložljivost in obnovitev po katastrofi – Vdelani vektorji so dragoceni podatki in njihovo ponovno ustvarjanje je lahko drago. Ali je vaša vektorska zbirka podatkov zelo na voljo v eni sami regiji AWS? Ali ima možnost podvajanja podatkov v drugo regijo za namene obnovitve po katastrofi?
Raven aplikacije
Pri integraciji generativnih rešitev umetne inteligence obstajajo trije edinstveni vidiki aplikacijske ravni:
- Potencialno visoka zakasnitev – Osnovni modeli se pogosto izvajajo na velikih instancah GPU in imajo lahko končno zmogljivost. Prepričajte se, da uporabljate najboljše prakse za omejevanje hitrosti, odmik in ponovni poskus ter razbremenitev. Uporabite asinhrone zasnove, tako da visoka zakasnitev ne moti glavnega vmesnika aplikacije.
- Varnostna drža – Če uporabljate agente, orodja, vtičnike ali druge metode povezovanja modela z drugimi sistemi, bodite še posebej pozorni na svojo varnostno držo. Modeli lahko poskušajo komunicirati s temi sistemi na nepričakovane načine. Sledite običajni praksi dostopa z najmanjšimi pravicami, na primer omejite dohodne pozive iz drugih sistemov.
- Hitro razvijajoča se ogrodja – Odprtokodni okviri, kot je LangChain, se hitro razvijajo. Uporabite pristop mikrostoritev, da izolirate druge komponente iz teh manj zrelih ogrodij.
kapaciteta
O zmogljivosti lahko razmišljamo v dveh kontekstih: sklepanje in cevovod podatkov modela usposabljanja. Zmogljivost je pomembna, ko organizacije gradijo lastne cevovode. Zahteve glede procesorja in pomnilnika sta dve največji zahtevi pri izbiri instanc za izvajanje delovnih obremenitev.
Primerke, ki lahko podpirajo generativne delovne obremenitve z umetno inteligenco, je lahko težje pridobiti kot vaš povprečni tip primerka za splošne namene. Prilagodljivost instance lahko pomaga pri načrtovanju zmogljivosti in zmogljivosti. Glede na regijo AWS, v kateri izvajate svojo delovno obremenitev, so na voljo različne vrste primerkov.
Za uporabniška potovanja, ki so ključnega pomena, bodo organizacije želele razmisliti o rezervaciji ali predoskrbi vrst instanc, da zagotovijo razpoložljivost, ko je to potrebno. Ta vzorec doseže statično stabilno arhitekturo, kar je najboljša praksa odpornosti. Če želite izvedeti več o statični stabilnosti v stebru zanesljivosti AWS Well-Architected Framework, glejte Uporabite statično stabilnost, da preprečite bimodalno obnašanje.
Opazljivost
Poleg meritev virov, ki jih običajno zbirate, kot sta izkoriščenost procesorja in pomnilnika RAM, morate pozorno spremljati uporabo grafične procesorske enote, če gostite model na Amazon SageMaker or Amazonski elastični računalniški oblak (Amazon EC2). Uporaba GPE se lahko nepričakovano spremeni, če se spremenijo osnovni model ali vhodni podatki, zmanjkalo pomnilnika GPE pa lahko sistem spravi v nestabilno stanje.
Višje v skladu boste želeli izslediti tudi pretok klicev skozi sistem in zajeti interakcije med agenti in orodji. Ker je vmesnik med agenti in orodji manj formalno definiran kot pogodba API-ja, bi morali spremljati te sledi ne le zaradi zmogljivosti, ampak tudi za zajem novih scenarijev napak. Za spremljanje modela ali agenta glede varnostnih tveganj in groženj lahko uporabite orodja, kot je Amazon Guard Duty.
Zajeti morate tudi osnovne črte vdelanih vektorjev, pozivov, konteksta in izhoda ter interakcije med temi. Če se ti sčasoma spremenijo, lahko to pomeni, da uporabniki uporabljajo sistem na nove načine, da referenčni podatki ne pokrivajo prostora vprašanj na enak način ali da je rezultat modela nenadoma drugačen.
Obnovitev po nesreči
Za vsako delovno obremenitev je nujen načrt neprekinjenega poslovanja s strategijo za obnovitev po katastrofi. Delovne obremenitve generativne umetne inteligence niso nič drugačne. Razumevanje načinov odpovedi, ki veljajo za vašo delovno obremenitev, vam bo pomagalo voditi vašo strategijo. Če za svojo delovno obremenitev uporabljate upravljane storitve AWS, kot npr Amazon Bedrock in SageMaker, se prepričajte, da je storitev na voljo v vaši obnovitveni regiji AWS. Od tega pisanja te storitve AWS izvorno ne podpirajo podvajanja podatkov v regijah AWS, zato morate razmisliti o svojih strategijah upravljanja podatkov za obnovitev po katastrofi, prav tako pa boste morda morali natančno nastaviti več regij AWS.
zaključek
Ta objava opisuje, kako upoštevati odpornost pri gradnji generativnih rešitev AI. Čeprav imajo generativne aplikacije umetne inteligence nekaj zanimivih odtenkov, še vedno veljajo obstoječi vzorci odpornosti in najboljše prakse. Gre le za oceno vsakega dela generativne aplikacije AI in uporabo ustreznih najboljših praks.
Za več informacij o generativnem AI in njegovi uporabi s storitvami AWS glejte naslednje vire:
O avtorjih
Jennifer Moran je AWS Senior Resiliency Specialist Solutions Architect s sedežem v New Yorku. Ima raznoliko ozadje, saj je delala v številnih tehničnih disciplinah, vključno z razvojem programske opreme, agilnim vodenjem in DevOps, in je zagovornica žensk v tehnologiji. Strankam rada pomaga oblikovati prožne rešitve za izboljšanje prožne drže in javno govori o vseh temah, povezanih s prožnostjo.
Randy DeFauw je višji glavni arhitekt rešitev pri AWS. Ima MSEE z Univerze v Michiganu, kjer je delal na računalniškem vidu za avtonomna vozila. Ima tudi MBA z univerze Colorado State University. Randy je zasedal različne položaje v tehnološkem prostoru, od razvoja programske opreme do upravljanja izdelkov. V prostor velikih podatkov je vstopil leta 2013 in to področje še naprej raziskuje. Aktivno dela na projektih v prostoru ML in se je predstavil na številnih konferencah, vključno s Strata in GlueCon.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/designing-generative-ai-workloads-for-resilience/
- :ima
- : je
- :ne
- :kje
- $GOR
- 100
- 2013
- 90
- a
- a16z
- sposobnost
- O meni
- dostop
- naključno
- Račun
- natančna
- Doseči
- Dosega
- čez
- aktivno
- napredovanje
- zagovornik
- vplivajo
- proti
- Agent
- agenti
- okreten
- AI
- AI modeli
- vsi
- dodeljenih
- omogoča
- Prav tako
- Čeprav
- Amazon
- Amazon EC2
- Amazon Web Services
- an
- in
- Še ena
- kaj
- API
- aplikacija
- primerno
- uporaba
- aplikacije
- Uporabi
- Uporaba
- pristop
- primerno
- Arhitektura
- SE
- OBMOČJE
- okoli
- AS
- vidik
- vidiki
- At
- pozornosti
- Povečana
- avtonomno
- avtonomna vozila
- razpoložljivost
- Na voljo
- povprečno
- AWS
- ozadje
- Slab
- baza
- temeljijo
- BE
- ker
- počutje
- BEST
- najboljše prakse
- med
- Big
- Big Podatki
- največji
- ozko grlo
- izgradnjo
- gradbeniki
- Building
- zgrajena
- poslovni
- kontinuiteta poslovanja
- vendar
- by
- klic
- kliče
- poziva
- CAN
- Zmogljivosti
- kapaciteta
- zajemanje
- Zajemanje
- primeru
- primeri
- izzivi
- spremenite
- Spremembe
- značaja
- klepet
- izbiri
- mesto
- tesno
- zbiranje
- Colorado
- v primerjavi z letom
- dokončanje
- deli
- Izračunajte
- računalnik
- Računalniška vizija
- konference
- Povezovanje
- Razmislite
- premislek
- premislekov
- ozadje
- kontekstih
- kontekstualno
- se nadaljuje
- kontinuiteto
- Naročilo
- pretvorbo
- bi
- par
- pokrov
- kritje
- CPU
- kritično
- CRM
- ključnega pomena
- stranka
- Izkušnje s strankami
- Stranke, ki so
- datum
- Upravljanje podatkov
- Baze podatkov
- baze podatkov
- opredeljen
- Odvisno
- opisano
- Oblikovanje
- oblikovanje
- modeli
- Podatki
- Razvoj
- DevOps
- narekoval
- drugačen
- težko
- neposredno
- katastrofa
- discipline
- odklopljen
- razpravlja
- razne
- do
- Dokumenti
- ne
- Ne
- domen
- dont
- vsak
- bodisi
- vdelava
- smirkovim
- Inženiring
- zagotovitev
- vneseno
- Napaka
- Eter (ETH)
- ocenjevanje
- razvija
- Primer
- presega
- Vznemirjenje
- obstoječih
- drago
- izkušnje
- poskus
- raziskuje
- razširiti
- zunanja
- zunaj
- dodatna
- Napaka
- Lastnosti
- file
- Najdi
- prilagodljivost
- Pretok
- Osredotočite
- Osredotoča
- sledi
- po
- za
- Formalno
- Fundacija
- Okvirni
- okviri
- iz
- funkcionalno
- funkcije
- splošno
- glavni namen
- ustvarjajo
- generacija
- generativno
- Generativna AI
- pridobivanje
- GPU
- Grafične kartice
- vodi
- ročaj
- Ravnanje
- Imajo
- ob
- he
- Hero
- pomoč
- pomoč
- visoka
- zelo
- držite
- drži
- gostitelj
- Kako
- Kako
- HTML
- http
- HTTPS
- if
- Pomembno
- izboljšanje
- in
- vključuje
- Vključno
- Dohodni
- vključujoč
- Navedite
- Podatki
- vhod
- primer
- primerov
- Namesto
- Povezovanje
- interakcijo
- interakcije
- Zanimivo
- vmesnik
- moti
- v
- vključuje
- IT
- Potovanja
- samo
- znanje
- jezik
- velika
- Latenca
- Vodstvo
- UČITE
- učenje
- Lens
- manj
- Stopnja
- kot
- Limited
- omejujoč
- Meje
- llm
- obremenitev
- lokalno
- prijavi
- Logika
- Poglej
- off
- Sklop
- stroj
- strojno učenje
- Glavne
- Znamka
- upravlja
- upravljanje
- več
- tekme
- Matter
- zrel
- Maj ..
- MBA
- Srečati
- Spomin
- Metode
- Meritve
- Michigan
- mikro storitve
- Bližnji
- ML
- MLOps
- Model
- modeli
- načini
- monitor
- več
- veliko
- več
- morajo
- materni
- izvirno
- potrebno
- Nimate
- potrebna
- potrebe
- Novo
- NY
- New York City
- št
- normalno
- nič
- zdaj
- senčenje
- številne
- pridobi
- of
- pogosto
- on
- samo
- odprite
- open source
- možnosti
- or
- organizacijsko
- organizacije
- Ostalo
- ven
- izhod
- več
- Splošni
- lastne
- del
- Vzorec
- vzorci
- Plačajte
- ljudje
- opravlja
- performance
- izvajati
- slika
- steber
- plinovod
- ključno
- Načrt
- načrtovanje
- platon
- Platonova podatkovna inteligenca
- PlatoData
- igra
- plugins
- pozicije
- Prispevek
- praksa
- vaje
- Pripravimo
- predstavljeni
- preprečiti
- , ravnateljica
- določanje prednosti
- obravnavati
- Izdelek
- upravljanje izdelkov
- projekti
- pozove
- zagotavljajo
- javno
- namene
- dal
- vprašanje
- krpa
- RAM
- obsegu
- hitro
- Oceniti
- precej
- okrevanje
- glejte
- reference
- Ne glede na to
- okolica
- regije
- povezane
- pomembno
- zanesljivost
- zanesljiv
- replikacija
- Zahteve
- odpornost
- odporno
- vir
- viri
- odgovorov
- omejujoč
- iskanje
- tveganja
- vloga
- Run
- tek
- deluje
- SaaS
- sagemaker
- Enako
- pravi
- scenariji
- Iskalnik
- iskanje
- varnost
- varnostna tveganja
- višji
- Storitev
- Storitve
- več
- brušenje
- je
- razsipavanje
- shouldnt
- Enostavno
- sam
- Velikosti
- spretnosti
- So
- Software
- programske opreme kot storitve
- Razvoj programske opreme
- inženiring programske opreme
- Rešitev
- rešitve
- nekaj
- vir
- Viri
- Vesolje
- Govori
- specialist
- Stabilnost
- stabilna
- sveženj
- Skladovnice
- Država
- Še vedno
- shranjevanje
- trgovina
- strategije
- Strategija
- strukturirano
- taka
- podpora
- Preverite
- sistem
- sistemi
- Bodite
- meni
- taksonomija
- tech
- tehnični
- tehnike
- Tehnologija
- kot
- da
- O
- Vir
- njihove
- Njih
- Tukaj.
- te
- jih
- mislim
- ta
- tisti,
- grožnje
- 3
- skozi
- živali
- čas
- do
- orodje
- orodja
- Teme
- sledenje
- Sledenje
- tradicionalna
- usposabljanje
- poskusite
- dva
- tip
- Vrste
- tipičen
- tipično
- razumevanje
- Nepričakovana
- edinstven
- univerza
- Univerza v Michiganu
- neomejeno
- nepredvidljivo
- uporaba
- Rabljeni
- uporabnik
- Uporabniška izkušnja
- Uporabniki
- uporabo
- POTRDI
- dragocene
- raznolikost
- Vozila
- Poglej
- Vizija
- želeli
- način..
- načini
- we
- web
- spletne storitve
- Dobro
- Kaj
- kdaj
- ali
- ki
- bo
- z
- Ženske
- ženske v teh
- delo
- delal
- deluje
- pisanje
- york
- jo
- Vaša rutina za
- zefirnet