Generatiivse tehisintellekti töökoormuste kavandamine vastupidavuse tagamiseks | Amazoni veebiteenused

Taasavaldanud Platon

järgijaid: 0

Vastupidavus mängib keskset rolli mis tahes töökoormuse kujunemisel ja generatiivne AI töökoormused ei erine. Generatiivse tehisintellekti töökoormuse kavandamisel vastupidavusläätse kaudu on ainulaadsed kaalutlused. Vastupidavuse mõistmine ja tähtsuse järjekorda seadmine on AI generatiivse töökoormuse jaoks ülioluline, et see vastaks organisatsiooni kättesaadavuse ja talitluspidevuse nõuetele. Selles postituses käsitleme generatiivse AI töökoormuse erinevaid virnasid ja neid kaalutlusi.

Täielik generatiivne AI

Kuigi suur osa generatiivse AI-ga seotud põnevusest keskendub mudelitele, hõlmab terviklik lahendus inimesi, oskusi ja tööriistu mitmest valdkonnast. Vaatleme järgmist pilti, mis on AWS-vaade a16z arenevast rakenduste virust suurte keelemudelite (LLM) jaoks.

LLM App Stacki taksonoomia AWS-is

Võrreldes traditsioonilisema lahendusega, mis on üles ehitatud AI-le ja masinõppele (ML), hõlmab generatiivne AI-lahendus nüüd järgmist.

Uued rollid – Arvestada tuleb nii mudelituunerite kui ka mudeliehitajate ja mudeliintegraatoritega
Uued tööriistad – Traditsiooniline MLOps-pinn ei hõlma katsete jälgimise või vaadeldavuse tüüpe, mis on vajalikud kiireks inseneriks või agentideks, mis kasutavad tööriistu teiste süsteemidega suhtlemiseks

Agendi arutluskäik

Erinevalt traditsioonilistest tehisintellekti mudelitest võimaldab Retrieval Augmented Generation (RAG) anda täpsemaid ja kontekstuaalselt asjakohasemaid vastuseid, integreerides välised teadmusallikad. Järgmised on RAG-i kasutamisel mõned kaalutlused.

Sobivate ajalõppude määramine on kliendikogemuse jaoks oluline. Miski ei ütle halba kasutajakogemust rohkem kui vestluse keskel viibimine ja ühenduse katkemine.
Kontrollige kindlasti viipade sisendandmeid ja viipa sisendi suurust eraldatud tähemärgipiirangute jaoks, mis on teie mudelis määratletud.
Kui teete viipeid, peaksite viipasid säilitama usaldusväärses andmesalves. See kaitseb teie viipasid juhusliku kaotsimineku korral või osana teie üldisest avariitaastestrateegiast.

Andmekanalid

Juhtudel, kui peate esitama RAG-mustri abil vundamendimudelile kontekstuaalsed andmed, vajate andmekonveieri, mis suudab lähteandmed sisse võtta, teisendada need manusvektoriteks ja salvestada manustusvektorid vektorite andmebaasi. See konveier võib olla pakettkonveier, kui valmistate ette kontekstuaalsed andmed, või madala latentsusega konveier, kui lisate uusi kontekstiandmeid käigupealt. Partii puhul on tüüpiliste andmekanalitega võrreldes paar väljakutset.

Andmeallikad võivad olla failisüsteemis olevad PDF-dokumendid, tarkvara kui teenuse (SaaS) süsteemist (nt CRM-i tööriist) pärinevad andmed või andmed olemasolevast wikist või teadmistebaasist. Nendest allikatest allaneelamine erineb tüüpilistest andmeallikatest, näiteks logiandmetest an Amazoni lihtne salvestusteenus (Amazon S3) ämber või struktureeritud andmed relatsiooniandmebaasist. Saavutatavat paralleelsuse taset võib piirata lähtesüsteem, seega peate arvestama pidurdamisega ja kasutama tagastustehnikaid. Mõned lähtesüsteemid võivad olla rabedad, seega peate sisse ehitama veakäsitluse ja uuesti proovimise loogika.

Manusmudel võib olla jõudluse kitsaskoht, olenemata sellest, kas käitate seda kohapeal või helistate välisele mudelile. Manusmudelid on põhimudelid, mis töötavad GPU-del ja millel pole piiramatut mahtu. Kui mudel töötab kohapeal, peate määrama töö GPU võimsuse alusel. Kui mudel töötab väljastpoolt, peate veenduma, et te ei küllasta välist mudelit. Mõlemal juhul määrab saavutatava paralleelsuse taseme pigem manustamismudel, mitte see, kui palju protsessorit ja RAM-i paketttöötlussüsteemis on saadaval.

Madala latentsusajaga juhul peate arvestama manustamisvektorite genereerimiseks kuluva ajaga. Helistav rakendus peaks konveieri kutsuma asünkroonselt.

Vektorandmebaasid

Vektorandmebaasil on kaks funktsiooni: salvestada manustamisvektorid ja käivitada sarnasuse otsing, et leida lähim k sobib uuele vektorile. Vektorandmebaase on kolme tüüpi:

Spetsiaalsed SaaS-i valikud, nagu Pinecone.
Teistesse teenustesse sisseehitatud vektorandmebaasi funktsioonid. See hõlmab natiivseid AWS-teenuseid, nagu Amazon OpenSearchi teenus ja Amazonase Aurora.
Mälus olevad valikud, mida saab kasutada mööduvate andmete jaoks väikese latentsusajaga stsenaariumide korral.

Me ei käsitle selles postituses üksikasjalikult sarnasuse otsimise võimalusi. Kuigi need on olulised, on need süsteemi funktsionaalne aspekt ega mõjuta otseselt vastupidavust. Selle asemel keskendume vektorandmebaasi kui salvestussüsteemi vastupidavuse aspektidele:

Hilinemine – Kas vektorandmebaas toimib hästi suure või ettearvamatu koormuse korral? Kui ei, peab helistamisrakendus käsitlema kiiruse piiramist ja taganemist ning proovima uuesti.
Skaalautuvus – Mitu vektorit mahutab süsteem? Kui ületate vektorandmebaasi mahu, peate uurima killustamist või muid lahendusi.
Kõrge kättesaadavus ja avariitaaste – Vektorite manustamine on väärtuslikud andmed ja nende taasloomine võib olla kulukas. Kas teie vektorite andmebaas on ühes AWS-i piirkonnas väga kättesaadav? Kas sellel on võimalus avariitaaste eesmärgil andmeid teise piirkonda kopeerida?

Rakenduse tasand

Generatiivsete AI-lahenduste integreerimisel on rakendustasandil kolm ainulaadset kaalutlust:

Potentsiaalselt kõrge latentsusaeg – Vundamendimudelid töötavad sageli suurtel GPU eksemplaridel ja nende võimsus võib olla piiratud. Kasutage kindlasti kiiruse piiramise, tagasilükkamise ja uuesti proovimise ning koormuse vähendamise parimaid tavasid. Kasutage asünkroonseid kujundusi, et suur latentsusaeg ei segaks rakenduse põhiliidest.
Turvaasend – Kui kasutate agente, tööriistu, pistikprogramme või muid meetodeid mudeli ühendamiseks teiste süsteemidega, pöörake erilist tähelepanu oma turvaasendile. Mudelid võivad proovida nende süsteemidega ootamatul viisil suhelda. Järgige tavapärast vähimate privileegidega juurdepääsu tava, näiteks piirake teistelt süsteemidelt sissetulevaid viipasid.
Kiiresti arenevad raamistikud – Avatud lähtekoodiga raamistikud nagu LangChain arenevad kiiresti. Kasutage mikroteenuste lähenemisviisi, et eraldada muud komponendid nendest vähem küpsetest raamistikest.

Võimsus

Võime mõelda suutlikkusele kahes kontekstis: järelduste ja koolitusmudelite andmekonveierid. Kui organisatsioonid ehitavad oma torujuhtmeid, võetakse arvesse suutlikkust. Nõuded protsessorile ja mälule on töökoormuse käitamiseks eksemplaride valimisel kaks suurimat nõuet.

Eksemplare, mis toetavad generatiivset AI töökoormust, võib olla keerulisem hankida kui teie keskmise üldotstarbelise eksemplari tüüpi. Eksemplari paindlikkus võib aidata võimsust ja võimsuse planeerimist. Olenevalt sellest, millises AWS-i piirkonnas oma töökoormust kasutate, on saadaval erinevad eksemplaritüübid.

Kriitiliste kasutajate teekondade puhul soovivad organisatsioonid kaaluda eksemplaritüüpide reserveerimist või eelvarustamist, et tagada vajaduse korral kättesaadavus. Selle mustriga saavutatakse staatiliselt stabiilne arhitektuur, mis on vastupidavuse parim tava. Lisateavet AWS-i hästi arhitekteeritud raamistiku töökindlussamba staatilise stabiilsuse kohta leiate artiklist Kasutage bimodaalse käitumise vältimiseks staatilist stabiilsust.

Vaatlus

Lisaks tavaliselt kogutavatele ressursimõõdikutele, nagu protsessori ja RAM-i kasutamine, peate mudeli hostimisel hoolikalt jälgima GPU kasutamist. Amazon SageMaker or Amazon Elastic Compute Cloud (Amazon EC2). GPU kasutus võib ootamatult muutuda, kui baasmudel või sisendandmed muutuvad, ning GPU mälu tühjenemine võib viia süsteemi ebastabiilsesse olekusse.

Pinast kõrgemal soovite jälgida ka kõnede voogu läbi süsteemi, jäädvustades agentide ja tööriistade vahelisi koostoimeid. Kuna agentide ja tööriistade vaheline liides on vähem formaalselt määratletud kui API leping, peaksite jälgima neid jälgi mitte ainult jõudluse, vaid ka uute veastsenaariumide tabamiseks. Mudeli või agendi turvariskide ja -ohtude jälgimiseks võite kasutada selliseid tööriistu nagu Amazoni valveteenistus.

Samuti peaksite jäädvustama manustamisvektorite, viipade, konteksti ja väljundi lähtejooned ning nendevahelised vastasmõjud. Kui need aja jooksul muutuvad, võib see viidata sellele, et kasutajad kasutavad süsteemi uutel viisidel, et võrdlusandmed ei kata küsimuste ruumi samal viisil või mudeli väljund on ootamatult erinev.

Katastroofiabi

Talitluspidevuse kava koos avariitaastestrateegiaga on iga töökoormuse puhul kohustuslik. Generatiivsed AI töökoormused ei erine. Teie töökoormusele kohaldatavate tõrkerežiimide mõistmine aitab teie strateegiat juhtida. Kui kasutate oma töökoormuse jaoks AWS-i hallatavaid teenuseid, nt Amazonase aluspõhi ja SageMaker, veenduge, et teenus oleks teie AWS-i taastamise piirkonnas saadaval. Selle kirjutamise seisuga ei toeta need AWS-i teenused algselt andmete replikatsiooni AWS-i piirkondades, seega peate mõtlema oma andmehaldusstrateegiatele katastroofi taastamiseks ja võib-olla peate viimistlema ka mitut AWS-i piirkonda.

Järeldus

Selles postituses kirjeldati, kuidas võtta generatiivsete AI-lahenduste loomisel arvesse vastupidavust. Kuigi generatiivsetel AI-rakendustel on huvitavaid nüansse, kehtivad endiselt olemasolevad vastupidavusmustrid ja parimad tavad. See on lihtsalt generatiivse AI-rakenduse iga osa hindamise ja asjakohaste parimate tavade rakendamise küsimus.

Lisateavet generatiivse AI ja selle AWS-teenustega kasutamise kohta leiate järgmistest ressurssidest.

Autoritest

Jennifer Moran on AWS-i vanemvastupidavuse spetsialisti lahenduste arhitekt, kes asub New Yorgis. Tal on mitmekesine taust, ta on töötanud paljudes tehnilistes valdkondades, sealhulgas tarkvaraarendus, agiilne juhtimine ja DevOps, ning ta on naiste eestkõneleja tehnikavaldkonnas. Talle meeldib aidata klientidel välja töötada vastupidavaid lahendusi vastupidavuse parandamiseks ja ta räägib avalikult kõigil vastupidavusega seotud teemadel.

Randy DeFauw on AWS-i vanemlahenduste arhitekt. Tal on MSEE Michigani ülikoolist, kus ta töötas autonoomsete sõidukite arvutinägemise kallal. Tal on ka MBA kraad Colorado osariigi ülikoolist. Randy on olnud tehnoloogiavaldkonnas erinevatel ametikohtadel, alates tarkvaratehnikast kuni tootehalduseni. Ta sisenes suurandmete ruumi 2013. aastal ja jätkab selle valdkonna uurimist. Ta töötab aktiivselt ML-ruumi projektidega ja on esinenud paljudel konverentsidel, sealhulgas Strata ja GlueCon.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/designing-generative-ai-workloads-for-resilience/

Ajatempel: Veebruar 1, 2024

Ajatempel: Juuni 28, 2022

Taasavaldanud Platon

Toitesoovitused ja otsing IMDb teadmiste graafiku abil – 3. osa

Looge Amazon SageMaker Data Wrangleriga juhuslikud ja kihistunud andmeproovid

Otsige nutikalt oma Jira projekte Amazon Kendra Jira pilveühendusega

Tehke ennustusi Amazon SageMakeri autopiloodiga

4. osa: Kuidas NatWest Group migreeris ML-mudelid Amazon SageMakeri arhitektuuridesse

Avage Slacki tööruumide teadmised intelligentse otsingu abil, kasutades Amazon Kendra Slacki konnektorit

Looge salvestustest kokkuvõtteid, kasutades generatiivset tehisintellekti Amazon Bedrocki ja Amazon Transcribe | Amazoni veebiteenused

Uus laiendatud andmevormingu tugi Amazon Kendras

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto