Processorns roll i hållbar AI/ML

Processorns roll i hållbar AI/ML

Källnod: 3093662

advertorial När AI utökar sin räckvidd över företagsdatormiljöer, orsakar dess inverkan några oväntade knock-on-effekter. IDC:s senaste FutureScape rapporten förutspår till exempel att när företag tävlar om att introducera AI-förbättrade produkter/tjänster och hjälpa sina kunder med AI-implementeringar, kommer tekniken att bli en viktig drivkraft för innovation.

En annan AI-driven förändring handlar om i vilken utsträckning datacenter kan behöva balansera processorer med diskreta AI-acceleratorer, såsom GPU:er eller specialiserade arkitekturer för att tillhandahålla de högpresterande beräkningsmöjligheter som AI-utvecklare vill ha.

Det är en debatt som väcker stora problem för datacenterägare, både när det gäller ytterligare CAPEX-investeringar och sannolikheten att (medan mätmetoderna är oprecisa) typiska GPU-drivna AI-operationer förbrukar mer ström än konventionella IT-arbetsbelastningar.

Att hantera AI:s högre effekt/kol-overhead är en extra smärtpunkt för datacenterdrift, som också måste säkerställa att uppgraderade beräkningsarkitekturer optimerade för AI kan hantera det ökade effektbehovet utan risk för att överbelasta befintlig teknik eller anläggningar.

Så eftersom utökad reglering inom hållbarhetsstyrning och koldioxidhantering driver verksamheten för att minska energianvändningen över hela skalan av IT-hårdvara och mjukvara, representerar AI både möjlighet och hinder.

Minskar AI-strömförbrukning

Sammantaget utgör den ökade strömförbrukningen och de nödvändiga arkitektoniska omkonfigurationerna som krävs för att tillgodose AI och Machine Learning-arbetsbelastningar en obönhörlig utmaning för datacenter, förklarar Stephan Gillich, chef för Artificial Intelligence GTM i Intels AI Center of Excellence.

"Det är ganska tydligt över vertikala sektorer och branscher, varhelst AI/Machine Learning-applikationer och -tjänster utvecklas, tränas och körs, att IT-anläggningars kapacitet på plats och i moln kommer att behöva genomgå uppgraderingar för att hantera ökade mängder data -intensiva arbetsbelastningar, säger Gillich. "Det är också tydligt att dessa uppgraderingar kommer att behöva innebära mer än bara ökad beräkningskapacitet."

Mycket kan göras för att förbättra hållbarheten hos AI-fokuserade datacenter, tror Gillich, och börjar med att omvärdera några av antagandena kring AI/Machine Learning-landskapet. Bearbetningsenheter är ett bra ställe att börja, särskilt när man avgör om CPU:er eller GPU:er är bättre lämpade för uppgiften.

För även om AI-specifika beräkningsintensiva arbetsbelastningar verkar öka (ingen är helt säker på i vilken takt) måste huvuddelen av datacenterarbetet (icke-AI-arbetsbelastningarna) fortsätta att slänga iväg dag ut och dag in – vilket ger en stabil tillämpning och tjänsteintäkter som inte ska störas.

De flesta av dessa hanteras för närvarande av processorer och ombyggnad av ett standarddatacenter med dyrare GPU:er skulle för väldigt många anläggningar vara överskott till kraven. Generellt sett förbrukar en GPU mer watt än en CPU för att utföra en liknande uppgift. Beroende på strömförsörjningen till en given rackkonfiguration, kräver integration av GPU:er i datacenterinfrastruktur uppgraderingar av till exempel kraftdistributionssystem, vilket kommer att medföra extra kostnader i förväg, förutom högre energiräkningar när de väl är igång.

Vad mer är, Intels CPU-utveckling fortsätter att förnya sig. I flera användningsfall kan en CPU bevisas uppnå lika bra – och ibland bättre – övergripande prestanda som en GPU, hävdar Gillich. Och deras prestanda kan utökas med banbrytande teknik som Intel® AMX (Advanced Matrix Extensions), en accelerator inbyggd i 4:e generationens Intel Xeon-processorer.

"Intel Xeon-processorer kan göra det möjligt för ett datacenter att skala sin AI-användning genom inbyggd AI-acceleration som ökar CPU-prestanda för maskininlärning, utbildning och slutledning", påpekar Gillich. "På detta sätt kan de använda diskreta acceleratorer för att minimera CAPEX och maximera prestanda samtidigt som de utnyttjar befintliga Intel Xeon-processormiljöer."

Behöver blanda AI- och icke-AI-arbetsbelastningar

Intel AMX är ett dedikerat hårdvarublock på Intel Xeon Scalable-processorkärnan som gör att AI-arbetsbelastningar kan köras på CPU:n istället för att ladda ner dem till en diskret accelerator, vilket ger en betydande prestandaökning. Den är lämpad för AI-arbetsbelastningar som maskininlärningsrekommendationssystem, bildigenkänning och naturlig språkbehandling, som är beroende av matrismatematik.

Ett annat argument för utökade processorer är att de ger en kostnadseffektiv väg för datacenteroperatörer att göra mer av befintliga CPU-åtaganden, framtidssäkra sina tillgångar så att de kan ta på sig blandade arbetsbelastningar och placera dem i en position för bättre kontrollera den totala strömförbrukningen.

Detta kan i sin tur hjälpa leverantörer av datacentertjänster (och deras kunder) att nå hållbarhetsmål och utgör ett försäljningsargument för mjukvaruutvecklare (företag eller tredje part) som letar efter en optimerad plattform för att visa upp energieffektiviteten i sin kodning utgångar.

"Verkligheten är att, snarare än att skynda på de möjligheter som AI-arbetsbelastningar kan lova, inser datacenteroperatörer att de bör överväga en rad imperativ som är informerade lika mycket av kommersiella problem som tekniska val," säger Gillich.

Dessa krav kan inkludera: integration av AI-arbetsbelastningar med icke-AI-arbetsbelastningar; integration av olika hård- och mjukvarustackar; och eftersom de vill säkerställa att de har en arkitektur som är lämplig för flera olika arbetsbelastningar, integration av olika typer av arbetsströmmar.

"De här frågorna pekar på komplexa utmaningar, eftersom att få dem rätt har betydelse för optimal teknologisk och energieffektivitet - med energieffektivitet som nu är ett centralt prestandariktmärke som i allt högre grad kommer att påverka ett datacenters kommersiella livskraft", säger Gillich. "Så återigen, det är av yttersta vikt."

Ur Gillichs perspektiv är nyckeln till att anpassa sig till denna framväxande verklighet en stegprocess av vad som kan kallas "AI-assimilering". Punkt ett här är att AI-arbetsbelastningar inte är åtskilda från andra typer av arbetsbelastning – de kommer att integreras i konventionella arbetsbelastningar, snarare än att köras separat.

Gillich ger videokonferenser som ett exempel på denna stegvisa integration: "Redan medan standardljud-/videotrafik strömmas över standardapplikationer är AI integrerad för att utföra åtföljande uppgifter som sammanfattning, översättning, transkription. Sådana funktioner stöds mycket väl av AI.

End-to-end energibesparingar

Att uppnå energieffektivitet måste vara ett verkligt strategiskt åtagande från slut till slut, hävdar Gillich. "Det spänner över såväl mjukvarusidan som hårdvaruarkitekturerna - den kompletta mekanismen som möjliggör en given arbetsflödesprocess. Var lagras data för att göra åtkomsten mest effektiv – beräkningsmässigt och därmed energimässigt – är det den bästa platsen för energieffektivitet?”

Den andra faktorn att ta med i den här utvärderingen är att avgöra var arbetsbelastningen körs. Körs den till exempel på klienter (som AI PC utrustad med Intel Core Ultra-processorer, snarare än servrar i datacentret? Kan vissa av dessa AI-arbetsbelastningar faktiskt köras på klienter (vid sidan av servrar)?

Varje alternativ är värt att överväga om det ska hjälpa till att få balansen mellan AI-beräkning och energiförbrukning i bättre anpassning, hävdar Gillich: "Det är nästan som en återgång till den gamla skolans uppfattning om distribuerad datoranvändning."

Gillich tillägger: "Ibland frågar våra kunder, 'Var kommer AI att spela?' – Svaret är att AI kommer att spela överallt. Så på Intel är vår ambition fokuserad på vad som kan kallas det universella boendet för AI, eftersom vi tror att det kommer att träda in i alla applikationsområden."

Hos Intel omfattar detta mellanprogram som API:er, som precis som alla andra delar av mjukvarustacken måste vara så effektiva som möjligt. "API-sprawl" kan resultera i onödig bearbetning, minimera deras infrastrukturavtryck och brist på övervakning och kontroll.

"Med Intel oneAPI, kan företag realisera sitt fulla hårdvaruvärde, utveckla högpresterande kod för flera arkitekturer och göra sina applikationer redo för framtida behov”, förklarar Gillich.

"Intel oneAPI är en öppen, branschöverskridande, standardbaserad, enhetlig, multiarkitektur, multi-leverantörs programmeringsmodell som ger en gemensam utvecklarupplevelse över acceleratorarkitekturer - för snabbare applikationsprestanda och förbättrad produktivitet. OneAPI-initiativet uppmuntrar samarbete kring oneAPI-specifikationen och kompatibla oneAPI-implementeringar över hela ekosystemet."

Gillich tillägger: "oneAPI tillhandahåller en mellanprogramstack som tar standardsaker som AI Frameworks – som Pytorch eller TensorFlow [öppen källkodsplattform för AI och Machine Learning] – och översätter dem på maskinnivå, och oneAPI möjliggör ett effektivt sätt att gör det. Användare kan använda ett gemensamt API på Ai-ramverksnivå, och vi har ett API (oneAPI) som adresserar de olika hårdvaruvarianterna." Så ett gemensamt API innebär att användare kan skapa öppen programvara som kan stödjas på en öppen mjukvarustack.

Prestanda på GPU-nivå till prisnivåer på CPU-nivå

Framsteg inom IT drivs till stor del av en förväntning om kontinuerliga tekniska framsteg kopplat till insiktsdrivna förbättringar av implementeringsstrategier. Det är en modell som bygger på att hitta den bästa möjliga balansen mellan budgetutgifter och affärs-ROI, och förväntningen att det alltid finns ytterligare innovation att sträva efter. AI representerar höjdpunkten för detta ideal – det är smart nog att återuppfinna sitt eget värdeförslag genom evig självförbättring.

Genom att bygga in AMX-acceleratorn i sin fjärde generationens Intel Xeon-processorer visar Intel hur prestanda på GPU-nivå kan uppnås till prisnivåer på CPU-nivå. Detta gör det möjligt för datacenter att skala samtidigt som de maximerar avkastningsvärdet för deras befintliga Intel Xeon-drivna bearbetningsanläggningar, men ger också en prismodell som sänker inträdeskostnaderna för kunder med AI-arbetsbelastningar men begränsade budgetar.

Och CPU:ers lägre strömförbrukning innebär att energieffektivitet kan uppnås på ett holistiskt sätt genom hela en datacenteranläggnings verksamhet – såsom kyla och ventilation – och det är ytterligare en vinnande dragning för hållbarhetsmedvetna programvaruarkitekter och utvecklare av AL-lösningar.

Bidragit från Intel.

Tidsstämpel:

Mer från Registret