Generatív mesterséges intelligencia munkaterhelések tervezése a rugalmasság érdekében | Amazon Web Services

Újra kiadta Platón

Követő: 0

A reziliencia döntő szerepet játszik bármilyen munkaterhelés kialakításában, és generatív AI a munkaterhelés nem különbözik. Egyedülálló megfontolások vannak, amikor a generatív AI-munkaterhelést rugalmassági lencsén keresztül tervezzük. A rugalmasság megértése és prioritása kulcsfontosságú a generatív mesterségesintelligencia-munkaterhelések szempontjából, hogy megfeleljenek a szervezeti rendelkezésre állási és üzletmenet-folytonossági követelményeknek. Ebben a bejegyzésben megvitatjuk a generatív mesterséges intelligencia munkaterhelésének különböző halmait, és azt, hogy ezeknek milyen szempontokat kell figyelembe venniük.

Teljes stack generatív AI

Bár a generatív mesterséges intelligencia körüli izgalom nagy része a modellekre összpontosul, a teljes megoldás több területről származó embereket, készségeket és eszközöket foglal magában. Tekintsük a következő képet, amely az a16z feltörekvő alkalmazáscsomag AWS-nézete nagy nyelvi modellekhez (LLM).

Az LLM App Stack taxonómiája az AWS-en

Az AI és a gépi tanulás (ML) köré épülő hagyományosabb megoldáshoz képest a generatív AI-megoldás a következőket tartalmazza:

Új szerepek – Figyelembe kell venni a modellhangolókat, valamint a modellkészítőket és a modellintegrátorokat
Új eszközök – A hagyományos MLOps verem nem terjed ki a kísérletek nyomon követésének vagy megfigyelhetőségének azon típusára, amely szükséges a gyors tervezéshez vagy az olyan ügynökökhöz, amelyek eszközöket hívnak meg a más rendszerekkel való interakcióhoz

Ügynöki érvelés

A hagyományos mesterséges intelligencia modellektől eltérően a Retrieval Augmented Generation (RAG) pontosabb és kontextus szempontjából releváns válaszokat tesz lehetővé külső tudásforrások integrálásával. Az alábbiakban néhány szempontot kell figyelembe venni a RAG használatakor:

A megfelelő időtúllépések beállítása fontos az ügyfélélmény szempontjából. Semmi sem mond többet a rossz felhasználói élményről, mint az, hogy egy csevegés közepén tartózkodik, és megszakad.
Ügyeljen arra, hogy érvényesítse a prompt bemeneti adatokat és a prompt beviteli méretet a modell által meghatározott karakterkorlátokhoz.
Ha azonnali tervezést végez, meg kell őriznie az utasításokat egy megbízható adattárban. Ez megvédi a figyelmeztetéseket véletlen elvesztés esetén vagy az általános katasztrófa utáni helyreállítási stratégia részeként.

Adatvezetékek

Azokban az esetekben, amikor kontextuális adatokat kell megadnia az alapmodellhez a RAG mintával, szükség van egy adatfolyamra, amely be tudja tölteni a forrásadatokat, beágyazási vektorokká konvertálja, és a beágyazási vektorokat vektoradatbázisban tárolja. Ez a folyamat lehet kötegelt folyamat, ha előre elkészíti a kontextuális adatokat, vagy egy alacsony késleltetésű folyamat, ha új kontextuális adatokat épít be menet közben. A kötegelt esetben van néhány kihívás a tipikus adatfolyamokhoz képest.

Az adatforrások lehetnek fájlrendszeren lévő PDF-dokumentumok, egy szoftver szolgáltatásként (SaaS) rendszerből, például CRM-eszközből származó adatok, vagy egy meglévő wikiből vagy tudásbázisból származó adatok. Az ezekből a forrásokból származó adatok feldolgozása eltér a tipikus adatforrásoktól, például a naplóadatoktól Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör vagy strukturált adatok relációs adatbázisból. Az elérhető párhuzamosság szintjét korlátozhatja a forrásrendszer, ezért figyelembe kell vennie a szabályozást és visszalépési technikákat kell alkalmaznia. Egyes forrásrendszerek törékenyek lehetnek, ezért be kell építeni a hibakezelési és újrapróbálkozási logikát.

A beágyazási modell szűk keresztmetszet lehet a teljesítményben, függetlenül attól, hogy helyileg futtatja a folyamatban, vagy külső modellt hív meg. A beágyazott modellek olyan alapmodellek, amelyek GPU-kon futnak, és nem rendelkeznek korlátlan kapacitással. Ha a modell helyben fut, akkor a munkát a GPU kapacitása alapján kell hozzárendelnie. Ha a modell kívülről fut, meg kell győződnie arról, hogy nem telíti el a külső modellt. Mindkét esetben az elérhető párhuzamosság szintjét a beágyazási modell határozza meg, nem pedig az, hogy mennyi CPU és RAM áll rendelkezésre a kötegelt feldolgozó rendszerben.

Alacsony késleltetésű esetben figyelembe kell vennie a beágyazási vektorok generálásához szükséges időt. A hívó alkalmazásnak aszinkron módon kell meghívnia a folyamatot.

Vektoros adatbázisok

A vektoradatbázisnak két funkciója van: tárolja a beágyazott vektorokat, és futtasson hasonlósági keresést a legközelebbi kereséshez. k illeszkedik egy új vektorhoz. A vektoros adatbázisoknak három általános típusa van:

Dedikált SaaS-beállítások, például Pinecone.
Más szolgáltatásokba beépített vektoradatbázis-funkciók. Ez magában foglalja a natív AWS-szolgáltatásokat, mint például Amazon OpenSearch szolgáltatás és a Amazon Aurora.
A memórián belüli beállítások, amelyek átmeneti adatokhoz használhatók alacsony késleltetésű forgatókönyvekben.

Ebben a bejegyzésben nem foglalkozunk részletesen a hasonlóságkeresési lehetőségekkel. Bár fontosak, a rendszer funkcionális aspektusai, és nem befolyásolják közvetlenül a rugalmasságot. Ehelyett a vektoros adatbázis, mint tárolórendszer rugalmassági szempontjaira összpontosítunk:

Késleltetés – Jól teljesíthet a vektoradatbázis magas vagy előre nem látható terhelés mellett? Ha nem, a hívó alkalmazásnak kezelnie kell a sebességkorlátozást, a visszalépést és újrapróbálkozást.
skálázhatóság – Hány vektort tud tartani a rendszer? Ha túllépi a vektoradatbázis kapacitását, meg kell vizsgálnia a shardingot vagy más megoldásokat.
Magas rendelkezésre állás és katasztrófa utáni helyreállítás – A vektorok beágyazása értékes adatok, újraalkotásuk költséges lehet. A vektoradatbázis nagyon elérhető egyetlen AWS régióban? Képes-e replikálni az adatokat egy másik régióba katasztrófa utáni helyreállítás céljából?

Alkalmazási szint

A generatív mesterségesintelligencia-megoldások integrálásakor három egyedi szempont van az alkalmazásszinttel kapcsolatban:

Potenciálisan magas késleltetés – Az alapmodellek gyakran nagy GPU-példányokon futnak, és véges kapacitással rendelkezhetnek. Ügyeljen arra, hogy a sebességkorlátozás, a visszalépés és újrapróbálkozás, valamint a terheléscsökkentés bevált gyakorlatait használja. Használjon aszinkron kialakításokat, hogy a magas késleltetés ne zavarja az alkalmazás fő felületét.
Biztonsági testtartás – Ha ügynököket, eszközöket, beépülő modulokat vagy más módszereket használ a modell más rendszerekhez való csatlakoztatására, fordítson különös figyelmet a biztonsági helyzetére. A modellek nem várt módon próbálhatnak kölcsönhatásba lépni ezekkel a rendszerekkel. Kövesse a legalacsonyabb jogosultságokkal rendelkező hozzáférés szokásos gyakorlatát, például korlátozza a más rendszerekről érkező üzeneteket.
Gyorsan fejlődő keretrendszerek – A nyílt forráskódú keretrendszerek, mint például a LangChain, gyorsan fejlődnek. Használjon mikroszolgáltatási megközelítést más összetevők elkülönítésére ezekből a kevésbé kiforrott keretrendszerekből.

Kapacitás

A kapacitásról két kontextusban gondolhatunk: következtetési és betanítási modell adatfolyamokban. A kapacitást figyelembe kell venni, amikor a szervezetek saját csővezetékeket építenek ki. A CPU- és a memóriaigény a két legnagyobb követelmény a munkaterhelések futtatásához szükséges példányok kiválasztásakor.

A generatív AI-munkaterhelést támogató példányok beszerzése nehezebb lehet, mint az átlagos általános célú példánytípus. A példány rugalmassága segíthet a kapacitás és a kapacitás tervezésében. Attól függően, hogy melyik AWS-régióban fut a munkaterhelés, különböző példánytípusok állnak rendelkezésre.

A kritikus felhasználói utak esetében a szervezeteknek fontolóra kell venniük a példánytípusok lefoglalását vagy előzetes kiépítését, hogy szükség esetén biztosítsák a rendelkezésre állást. Ez a minta statikailag stabil architektúrát eredményez, ami a rugalmasság legjobb gyakorlata. Ha többet szeretne megtudni az AWS jól felépített keretrendszer megbízhatósági pillérének statikus stabilitásáról, lásd: Használjon statikus stabilitást a bimodális viselkedés megakadályozására.

megfigyelhetőség

A rendszerint gyűjtött erőforrás-mutatókon kívül, mint például a CPU és a RAM kihasználtsága, szorosan figyelemmel kell kísérnie a GPU kihasználtságát, ha modellt tárol Amazon SageMaker or Amazon rugalmas számítási felhő (Amazon EC2). A GPU kihasználtsága váratlanul megváltozhat, ha az alapmodell vagy a bemeneti adatok megváltoznak, és a GPU memória kimerülése instabil állapotba hozhatja a rendszert.

Feljebb a veremben nyomon kell követni a hívások áramlását a rendszeren keresztül, rögzítve az ügynökök és az eszközök közötti interakciókat. Mivel az ügynökök és az eszközök közötti interfész kevésbé formálisan meghatározott, mint egy API-szerződés, ezeket a nyomkövetéseket nemcsak a teljesítmény, hanem az új hibaforgatókönyvek rögzítése érdekében is figyelnie kell. A modell vagy az ügynök biztonsági kockázatok és fenyegetések figyeléséhez olyan eszközöket használhat, mint a Amazon Guard Duty.

Ezenkívül rögzítenie kell a beágyazási vektorok, promptok, kontextus és kimenet alapvonalait, valamint a köztük lévő kölcsönhatásokat. Ha ezek idővel változnak, az azt jelezheti, hogy a felhasználók új módokon használják a rendszert, hogy a referenciaadatok nem egyformán fedik le a kérdésteret, vagy a modell kimenete hirtelen más.

Katasztrófa utáni helyreállítás

A katasztrófa-helyreállítási stratégiát tartalmazó üzletmenet-folytonossági terv minden munkaterheléshez elengedhetetlen. A generatív mesterséges intelligencia munkaterhelései nem különböznek egymástól. A munkaterhelésre vonatkozó hibamódok megértése segít a stratégiában. Ha AWS felügyelt szolgáltatásokat használ a munkaterheléséhez, mint pl Amazon alapkőzet és a SageMaker, győződjön meg arról, hogy a szolgáltatás elérhető a helyreállítási AWS régiójában. Jelen pillanatban ezek az AWS-szolgáltatások nem támogatják az adatok AWS-régiók közötti natív replikációját, ezért át kell gondolnia az adatkezelési stratégiákat a katasztrófa-helyreállításhoz, és előfordulhat, hogy több AWS-régiót is finomhangolnia kell.

Következtetés

Ez a bejegyzés leírja, hogyan kell figyelembe venni a rugalmasságot a generatív AI-megoldások kidolgozásakor. Bár a generatív mesterséges intelligencia alkalmazásoknak van néhány érdekes árnyalata, a meglévő rugalmassági minták és legjobb gyakorlatok továbbra is érvényesek. Csupán egy generatív AI-alkalmazás minden egyes részének értékelése és a vonatkozó bevált gyakorlatok alkalmazása a lényeg.

A generatív AI-ról és az AWS-szolgáltatásokkal való használatáról a következő forrásokban talál további információt:

A szerzőkről

Jennifer Moran az AWS Senior Resiliency Specialist Solutions Architect, New York-i székhelyű. Sokrétű háttérrel rendelkezik, számos műszaki területen dolgozott, beleértve a szoftverfejlesztést, az agilis vezetést és a DevOps-t, és a nők szószólója a tech területén. Szívesen segít ügyfeleinek olyan rugalmas megoldások kidolgozásában, amelyek javítják az ellenálló képességet, és nyilvánosan beszél minden, az ellenálló képességgel kapcsolatos témáról.

Randy DeFauw az AWS vezető megoldásokért felelős építésze. MSEE diplomával rendelkezik a Michigani Egyetemen, ahol autonóm járművek számítógépes látásmódjával foglalkozott. Emellett a Colorado Állami Egyetemen szerzett MBA fokozatot. Randy számos pozíciót töltött be a technológiai területen, a szoftverfejlesztéstől a termékmenedzsmentig. 2013-ban lépett be a nagy adattérbe, és továbbra is kutatja ezt a területet. Aktívan dolgozik projekteken az ML térben, és számos konferencián prezentált, köztük a Stratán és a GlueConon.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/designing-generative-ai-workloads-for-resilience/

Időbélyeg: Február 1, 2024

Időbélyeg: 23. március 2022.

Újra kiadta Platón

Integrálja a SaaS-platformokat az Amazon SageMakerrel az ML-alapú alkalmazások engedélyezéséhez | Amazon webszolgáltatások

A többnyelvű ügyfélszolgálati fordítás egyszerűvé vált a Salesforce Service Cloudban az Amazon Translate segítségével

Használja az AWS AI és ML szolgáltatásokat a látás- vagy kommunikációs fogyatékkal élők hozzáférhetőségének és befogadásának elősegítésére

Vizuális ellenőrzési automatizálás az Amazon SageMaker JumpStart segítségével

Az AWS új mesterséges intelligenciát, gépi tanulást és generatív AI-útmutatókat kínál a mesterséges intelligencia stratégiájának megtervezéséhez | Amazon webszolgáltatások

Hogyan gyorsítja fel a xarvio Digital Farming Solutions fejlesztését az Amazon SageMaker térinformatikai képességeivel

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók