Rollen til CPU i bærekraftig AI/ML

Rollen til CPU i bærekraftig AI/ML

Kilde node: 3093662

advertentie Ettersom AI utvider sin rekkevidde på tvers av forretningsdatabehandlingsmiljøer, forårsaker virkningen noen uventede konsekvenser. IDCs siste FutureScape rapporten forutsier for eksempel at når selskaper raser for å introdusere AI-forbedrede produkter/tjenester og hjelpe kundene sine med AI-implementeringer, vil teknologien bli en nøkkelmotivator for innovasjon.

En annen AI-drevet endring dreier seg om i hvilken grad datasentre kan måtte balansere CPUer med diskrete AI-akseleratorer, for eksempel GPUer eller spesialiserte arkitekturer for å gi de høyytelsesberegningsmulighetene som AI-utviklere ønsker.

Det er en debatt som reiser store problemer for datasentereiere, både når det gjelder ytterligere CAPEX-investeringer og sannsynligheten for at (mens målemetoder er upresise) typiske GPU-drevne AI-operasjoner bruker mer strøm enn konvensjonelle IT-arbeidsbelastninger.

Å håndtere AIs høyere kraft/karbon-overhead er et ekstra smertepunkt for datasenterdrift, som også må sikre at oppgraderte dataarkitekturer optimalisert for AI kan håndtere det økte kraftbehovet uten risiko for å overbelaste eksisterende teknologi eller fasiliteter.

Så ettersom utvidet regulering innen bærekraftsstyring og karbonhåndtering presser driften til å redusere energibruken på tvers av IT-maskinvare og -programvare, representerer AI både mulighet og hindring.

Reduserer AI-strømforbruk

Til sammen utgjør det økte strømforbruket og de nødvendige arkitektoniske rekonfigurasjonene som kreves for å imøtekomme AI- og maskinlæringsarbeidsbelastninger en ubønnhørlig utfordring for datasentre, forklarer Stephan Gillich, direktør for Artificial Intelligence GTM i Intels AI Center of Excellence.

"Det er ganske klart på tvers av vertikale sektorer og bransjer, uansett hvor AI/Machine Learning-applikasjoner og -tjenester utvikles, trenes og kjøres, at on-prem og sky-verts IT-fasiliteter vil måtte gjennomgå oppgraderinger for å håndtere økte datamengder -intensiv arbeidsbelastning, sier Gillich. "Det er også klart at disse oppgraderingene vil måtte innebære mer enn bare å øke datakapasiteten."

Mye kan gjøres for å forbedre bærekraften til AI-fokuserte datasentre, mener Gillich, og begynner med å revurdere noen av antakelsene rundt AI/Machine Learning-landskapet. Behandlingsenheter er et godt sted å starte, spesielt når du skal bestemme om CPUer eller GPUer er bedre egnet til oppgaven.

For selv om AI-spesifikke datamaskinintensive arbeidsbelastninger ser ut til å øke (ingen er helt sikre på hvilket tempo), må hoveddelen av datasenterarbeidet (ikke-AI-arbeidsmengdene) fortsette å tømme dag inn/dag inn – og levere jevn applikasjon og tjenesteinntektsstrømmer som ikke skal forstyrres.

De fleste av disse håndteres for tiden av CPUer, og ombygging av et standard datasenter med dyrere GPUer vil for svært mange fasiliteter være overskudd til kravene. Generelt sett bruker en GPU mer watt enn en CPU for å utføre en lignende oppgave. Avhengig av strømforsyningen til en gitt rackkonfigurasjon, krever integrering av GPU-er i datasenterinfrastruktur oppgraderinger til for eksempel strømdistribusjonssystemer, som garantert vil medføre ekstra kostnader på forhånd, i tillegg til høyere energiregninger når de er i gang.

Dessuten fortsetter Intels CPU-utvikling å være nyskapende. I flere brukstilfeller kan en CPU bevises å oppnå like god – og noen ganger bedre – total ytelse som en GPU, hevder Gillich. Og ytelsen deres kan forsterkes med banebrytende teknologi som Intel® AMX (Advanced Matrix Extensions), en akselerator innebygd i 4. generasjons Intel Xeon CPUer.

"Intel Xeon-prosessorer kan gjøre et datasenter i stand til å skalere sin AI-adopsjon gjennom innebygd AI-akselerasjon som øker CPU-ytelsen for maskinlæring, trening og slutninger," påpeker Gillich. "På denne måten kan de ta i bruk diskrete akseleratorer for å minimere CAPEX og maksimere ytelsen samtidig som de utnytter eksisterende Intel Xeon-behandlingsmiljøer."

Trenger å blande AI og ikke-AI arbeidsbelastninger

Intel AMX er en dedikert maskinvareblokk på Intel Xeon Scalable-prosessorkjernen som gjør at AI-arbeidsbelastninger kan kjøres på CPU-en i stedet for å overføre dem til en diskret akselerator, noe som gir en betydelig ytelsesøkning. Den er egnet for AI-arbeidsbelastninger som maskinlærings-anbefalingssystemer, bildegjenkjenning og naturlig språkbehandling, som er avhengig av matrisematematikk.

Et annet argument for utvidede CPUer er at de gir en kostnadseffektiv rute for datasenteroperatører til å gjøre mer ut av eksisterende CPU-forpliktelser, fremtidssikre sine eiendeler slik at de er i stand til å ta på seg blandede arbeidsbelastninger, og plassere dem i en posisjon til bedre kontrollere det totale strømforbruket.

Dette kan igjen hjelpe leverandører av datasentertjenester (og deres kunder) med å nå bærekraftsmålene, og gir et salgsargument for programvareutviklere (bedrift eller tredjepart) som leter etter en optimalisert plattform for å vise frem energieffektiviteten til kodingen deres. utganger.

"Virkeligheten er at i stedet for å skynde seg på mulighetene AI-arbeidsbelastninger kan love, innser datasenteroperatører at de bør vurdere en rekke imperativer som er basert like mye av kommersielle bekymringer som teknologiske valg," sier Gillich.

Disse imperativene kan omfatte: integrering av AI-arbeidsbelastninger med ikke-AI-arbeidsbelastninger; integrering av forskjellige maskinvare- og programvarestabler; og fordi de ønsker å sikre at de har en arkitektur som passer for flere forskjellige arbeidsbelastninger, integrering av forskjellige arbeidsstrømtyper.

"Disse spørsmålene peker på komplekse utfordringer, fordi å få dem riktig har betydning for optimal teknologisk og energieffektivitet - med energieffektivitet nå en kjerneytelse som i økende grad vil påvirke et datasenters kommersielle levedyktighet," sier Gillich. "Så igjen, det er av største betydning."

Fra Gillichs perspektiv er nøkkelen til å tilpasse seg denne fremvoksende virkeligheten en trinnprosess av det som kan kalles 'AI-assimilering'. Punkt én her er at AI-arbeidsbelastninger ikke er atskilt fra andre arbeidsbelastningstyper – de vil bli integrert i konvensjonelle arbeidsbelastninger, i stedet for å kjøre separat.

Gillich gir videokonferanser som et eksempel på denne trinnvise integrasjonen: "Allerede mens du strømmer standard lyd-/videotrafikk på tvers av standardapplikasjoner, er AI integrert for å utføre samtidige oppgaver som oppsummering, oversettelse, transkripsjon. Slike funksjoner støttes veldig godt av AI.

End-to-end energisparing

Å oppnå energieffektivitet må være en virkelig ende-til-ende strategisk oppgave, hevder Gillich. "Det spenner over programvaresiden så vel som maskinvarearkitekturen - den komplette mekanismen som muliggjør en gitt arbeidsflytprosess. Hvor lagres data for å gjøre tilgangen mest effektiv – beregningsmessig og derfor energimessig – er det det beste stedet for energieffektivitet?»

Den andre faktoren å ta med i denne evalueringen er å finne ut hvor arbeidsmengden kjører. Kjører den for eksempel på klienter (som AI-PC utstyrt med Intel Core Ultra-prosessorer, i stedet for servere i datasenteret? Kan noen av disse AI-arbeidsbelastningene faktisk kjøres på klienter (ved siden av servere)?

Hvert alternativ er verdt å vurdere hvis det skal bidra til å bringe balansen mellom AI-databehandling og strømforbruk i bedre justering, hevder Gillich: "Det er nesten som en tilbakevending til den gamle skolens forestilling om distribuert databehandling."

Gillich legger til: «Noen ganger spør kundene våre: 'Hvor vil AI spille?' – Svaret er at AI vil spille overalt. Så hos Intel er ambisjonen vår fokusert på det som kan kalles den universelle tilpasningen til AI, fordi vi tror det vil komme inn i alle bruksområder."

Hos Intel omfatter dette mellomvare som APIer, som som med alle andre deler av programvarestabelen, må være så effektive som mulig. "API-spredning" kan føre til unødvendig behandling, minimere deres infrastruktur fotavtrykk, og mangel på overvåking og kontroll.

"Med Intel oneAPI, kan bedrifter realisere sin fulle maskinvareverdi, utvikle høyytelses kode på tvers av arkitekturer og gjøre applikasjonene sine klare for fremtidige behov,” forklarer Gillich.

"Intel oneAPI er en åpen, tverrindustriell, standardbasert, enhetlig, multiarkitektur, multi-leverandør programmeringsmodell som leverer en felles utvikleropplevelse på tvers av akseleratorarkitekturer - for raskere applikasjonsytelse og forbedret produktivitet. OneAPI-initiativet oppmuntrer til samarbeid om oneAPI-spesifikasjonen og kompatible oneAPI-implementeringer på tvers av økosystemet.»

Gillich legger til: «oneAPI gir en mellomvarestabel som tar standard ting som AI Frameworks – som Pytorch eller TensorFlow [den åpne kildekode-programvareplattformen for AI og Machine Learning] – og oversetter dem på maskinnivå, og oneAPI muliggjør en effektiv måte å gjør det. Brukere kan bruke en felles API på Ai-rammenivå, og vi har en API (oneAPI) som adresserer de forskjellige maskinvaresmakene.» Så en felles API betyr at brukere kan lage åpen programvare som kan støttes på en åpen programvarestabel.

Ytelse på GPU-nivå til prispoeng på CPU-nivå

Fremgang innen IT er i stor grad drevet av en forventning om kontinuerlige teknologiske fremskritt knyttet til innsiktsdrevne forbedringer i distribusjonsstrategier. Det er en modell basert på å finne den best oppnåelige balansen mellom budsjettutgifter og forretningsavkastning, og forventningen om at det alltid er ytterligere innovasjon å strebe etter. AI representerer høydepunktet for dette idealet – det er smart nok til å gjenoppfinne sitt eget verdiforslag gjennom evig selvforbedring.

Ved å bygge AMX-akseleratoren inn i sin fjerde generasjons Intel Xeon-prosessor, viser Intel hvordan ytelse på GPU-nivå kan oppnås til prispunkter på CPU-nivå. Dette gjør at datasentre kan skaleres samtidig som de maksimerer avkastningsverdien av deres eksisterende Intel Xeon-drevne prosessoranlegg, men gir også en prismodell som senker inngangskostnadene for kunder med AI-arbeidsmengder, men begrensede budsjetter.

Og CPU-enes lavere strømforbruk betyr at energieffektivitet kan oppnås helhetlig gjennom hele driften av et datasenteranlegg – som kjøling og ventilasjon – og det er nok et vinnende trekk for bærekrafts-samvittighetsfulle programvarearkitekter og utviklere av AL-løsninger.

Bidraget av Intel.

Tidstempel:

Mer fra Registeret