CPU'ens rolle i bæredygtig AI/ML

CPU'ens rolle i bæredygtig AI/ML

Kildeknude: 3093662

advertorial Efterhånden som AI udvider sin rækkevidde på tværs af forretningscomputermiljøer, forårsager dens påvirkning nogle uventede afsmitningseffekter. IDC's seneste FutureScape rapporten forudsiger for eksempel, at når virksomheder kapløber om at introducere AI-forbedrede produkter/tjenester og hjælpe deres kunder med AI-implementeringer, vil teknologien blive en vigtig motivator for innovation.

En anden AI-drevet ændring drejer sig om, i hvilket omfang datacentre kan være nødt til at balancere CPU'er med diskrete AI-acceleratorer, såsom GPU'er eller specialiserede arkitekturer for at give de højtydende beregningsmuligheder, som AI-udviklere ønsker.

Det er en debat, der rejser store problemer for datacenterejere, både i form af yderligere CAPEX-investeringer og sandsynligheden for, at (mens målemetoder er upræcise) typiske GPU-drevne AI-operationer forbruger mere strøm end konventionelle it-arbejdsbelastninger.

Håndtering af AI's højere power/carbon-overhead er et ekstra smertepunkt for datacenterdrift, som også skal sikre, at opgraderede computerarkitekturer, der er optimeret til AI, kan håndtere det øgede strømbehov uden risiko for at overbelaste eksisterende teknologi eller faciliteter.

Så da udvidet regulering inden for bæredygtighedsstyring og kulstofstyring presser driften til at reducere energiforbruget på tværs af spektret af it-hardware og -software, repræsenterer AI både mulighed og hindring.

Reducerer AI-strømforbrug

Tilsammen udgør det øgede strømforbrug og de nødvendige arkitektoniske omkonfigurationer, der kræves for at imødekomme AI- og Machine Learning-arbejdsbelastninger, en ubønhørlig udfordring for datacentre, forklarer Stephan Gillich, direktør for Artificial Intelligence GTM i Intels AI Center of Excellence.

"Det er ret klart på tværs af vertikale sektorer og industrier, hvor end AI/Machine Learning-applikationer og -tjenester udvikles, trænes og køres, at on-prem og cloud-hostede it-faciliteters muligheder vil skulle gennemgå opgraderinger for at håndtere øgede mængder af data -intensive arbejdsbyrder,” siger Gillich. "Det er også klart, at disse opgraderinger skal indebære mere end blot at øge computerkapaciteten."

Meget kan gøres for at forbedre bæredygtigheden af ​​AI-fokuserede datacentre, mener Gillich, begyndende med at revurdere nogle af antagelserne omkring AI/Machine Learning-landskabet. Behandlingsenheder er et godt sted at starte, især når man skal beslutte, om CPU'er eller GPU'er er bedre egnede til opgaven.

For mens AI-specifikke computerintensive arbejdsbelastninger ser ud til at være stigende (ingen er helt sikker på, i hvilket tempo), skal størstedelen af ​​datacenterarbejdet (ikke-AI-arbejdsbelastningen) fortsætte med at tøffe væk dag ud og dag ind – og levere en stabil applikation og serviceindtægtsstrømme, der ikke skal forstyrres.

De fleste af disse håndteres i øjeblikket af CPU'er, og ombygning af et standarddatacenter med dyrere GPU'er ville for rigtig mange faciliteter være overskud til kravene. Generelt bruger en GPU mere watt end en CPU for at udføre en lignende opgave. Afhængigt af strømforsyningen til en given rack-konfiguration kræver integration af GPU'er i datacenterinfrastrukturen opgraderinger til f.eks. strømdistributionssystemer, som er bundet til at pådrage sig ekstra forudgående omkostninger, foruden højere energiregninger, når de først kører.

Hvad mere er, Intels CPU-udvikling fortsætter med at innovere. I flere tilfælde kan det bevises, at en CPU opnår lige så god – og nogle gange bedre – samlet ydeevne som en GPU, hævder Gillich. Og deres ydeevne kan forstærkes med banebrydende teknologi som Intel® AMX (Advanced Matrix Extensions), en accelerator indbygget i 4. generations Intel Xeon CPU'er.

"Intel Xeon-processorer kan sætte et datacenter i stand til at skalere sin AI-adoption gennem indbygget AI-acceleration, der øger CPU-ydeevnen til Machine Learning, træning og inferens," påpeger Gillich. "På denne måde kan de anvende diskrete acceleratorer for at minimere CAPEX og maksimere ydeevnen, mens de udnytter eksisterende Intel Xeon-behandlingsmiljøer."

Behov for at blande AI- og ikke-AI-arbejdsbelastninger

Intel AMX er en dedikeret hardwareblok på Intel Xeon Scalable-processorkernen, der gør det muligt for AI-arbejdsbelastninger at køre på CPU'en i stedet for at overføre dem til en diskret accelerator, hvilket giver et betydeligt ydelsesboost. Det er velegnet til AI-arbejdsbelastninger som Machine Learning-anbefalingssystemer, billedgenkendelse og naturlig sprogbehandling, der er afhængig af matrixmatematik.

Et andet argument til fordel for udvidede CPU'er er, at de giver en omkostningseffektiv rute for datacenteroperatører til at gøre mere ud af eksisterende CPU-forpligtelser, fremtidssikre deres aktiver, så de er i stand til at påtage sig blandede arbejdsbyrder og placere dem i en position til bedre kontrollere det samlede strømforbrug.

Dette kan igen hjælpe udbydere af datacentertjenester (og deres kunder) med at nå bæredygtighedsmålene og udgør et salgsargument for softwareudviklere (virksomheder eller tredjeparter), der leder efter en optimeret platform til at vise energieffektiviteten af ​​deres kodning. udgange.

"Virkeligheden er, at i stedet for at skynde sig over de muligheder, som AI-arbejdsbelastninger kan love, indser datacenteroperatører, at de bør overveje en række imperativer, som er lige så meget baseret på kommercielle bekymringer som teknologiske valg," siger Gillich.

Disse imperativer kunne omfatte: integration af AI-arbejdsbelastninger med ikke-AI-arbejdsbelastninger; integration af forskellige hardware- og softwarestabler; og fordi de ønsker at sikre, at de har en arkitektur, der er egnet til flere forskellige arbejdsbelastninger, integration af forskellige arbejdsstrømstyper.

"Disse spørgsmål peger på komplekse udfordringer, fordi det at få dem rigtigt har betydning for optimal teknologisk og energieffektivitet - med energieffektivitet nu et kerneydelsesbenchmark, der i stigende grad vil påvirke et datacenters kommercielle levedygtighed," siger Gillich. "Så igen, det er af yderste vigtighed."

Fra Gillichs perspektiv er nøglen til at tilpasse sig denne emergente virkelighed en trin-proces af, hvad der kan betegnes som 'AI-assimilering'. Punkt et her er, at AI-arbejdsbelastninger ikke er adskilt fra andre arbejdsbelastningstyper – de vil blive integreret i konventionelle arbejdsbelastninger i stedet for at køre separat.

Gillich giver videokonferencer som et eksempel på denne trinvise integration: “Allerede mens der streames standard audio/video-trafik på tværs af standardapplikationer, er AI integreret til at udføre samtidige opgaver som opsummering, oversættelse, transskription. Sådanne funktioner understøttes meget godt af AI.

End-to-end energibesparelser

At opnå energieffektivitet skal være et virkeligt ende-til-ende strategisk foretagende, hævder Gillich. "Det spænder over software-siden såvel som hardware-arkitekturerne - den komplette mekanisme, der muliggør en given workflow-proces. Hvor lagres data for at gøre adgangen mest effektiv – beregningsmæssigt og derfor energimæssigt – er det det bedste sted for energieffektivitet?”

Den anden faktor, der skal tages med i denne evaluering, er at bestemme, hvor arbejdsbyrden kører. Kører den for eksempel på klienter (såsom AI-pc udstyret med Intel Core Ultra-processorer, snarere end servere i datacentret? Kan nogle af disse AI-arbejdsbelastninger rent faktisk køres på klienter (ved siden af ​​servere)?

Enhver mulighed er værd at overveje, hvis den vil hjælpe med at bringe balancen mellem AI-compute/strømforbrug i bedre overensstemmelse, argumenterer Gillich: "Det er næsten som en tilbagevenden til den gamle forestilling om distribueret computer."

Gillich tilføjer: "Nogle gange spørger vores kunder: 'Hvor vil AI spille?' – svaret er, at AI vil spille overalt. Så hos Intel er vores ambition fokuseret på, hvad der kunne betegnes som den universelle tilpasning af AI, fordi vi tror, ​​det vil indgå i alle anvendelsesområder."

Hos Intel omfatter dette middleware såsom API'er, der som med enhver anden del af softwarestakken skal være så effektiv som muligt. 'API sprawl' kan resultere i unødvendig behandling, minimere deres infrastruktur fodaftryk og mangel på overvågning og kontrol.

"Med Intel oneAPI, kan virksomheder realisere deres fulde hardwareværdi, udvikle højtydende kode på tværs af arkitektur og gøre deres applikationer klar til fremtidige behov,” forklarer Gillich.

"Intel oneAPI er en åben, tværindustriel, standardbaseret, samlet, multiarkitektur, multi-leverandør programmeringsmodel, der leverer en fælles udvikleroplevelse på tværs af acceleratorarkitekturer - for hurtigere applikationsydelse og forbedret produktivitet. OneAPI-initiativet tilskynder til samarbejde om oneAPI-specifikationen og kompatible oneAPI-implementeringer på tværs af økosystemet."

Gillich tilføjer: "oneAPI leverer en middleware-stak, der tager standardting som AI Frameworks - som Pytorch eller TensorFlow [open source softwareplatformen til AI og Machine Learning] - og oversætter dem på maskinniveau, og oneAPI muliggør en effektiv måde at gøre det. Brugere kan bruge en fælles API på Ai-rammeniveau, og vi har en API (oneAPI), der adresserer de forskellige hardwarevarianter." Så en fælles API betyder, at brugere kan oprette åben software, der kan understøttes på en åben softwarestak.

GPU-niveau ydeevne til CPU-niveau pris-point

Fremskridt inden for IT er i høj grad drevet af en forventning om kontinuerlige teknologiske fremskridt forbundet med indsigtsdrevne forbedringer i implementeringsstrategier. Det er en model baseret på at finde den bedst opnåelige balance mellem budgetudgifter og forretnings-ROI, og forventningen om, at der altid er yderligere innovation at stræbe efter. AI repræsenterer højdepunktet for dette ideal – det er smart nok til at genopfinde sit eget værdiforslag gennem evig selvforbedring.

Ved at bygge AMX-acceleratoren ind i sin 4. generation af Intel Xeon CPU'er, viser Intel, hvordan ydeevne på GPU-niveau kan opnås til CPU-niveau. Dette gør det muligt for datacentre at skalere og samtidig maksimere afkastværdien af ​​deres eksisterende Intel Xeon-drevne processorer, men det giver også en prismodel, der sænker adgangsomkostningerne for kunder med AI-arbejdsbelastninger, men begrænsede budgetter.

Og CPU'ers lavere strømforbrug betyder, at energieffektivitet kan opnås holistisk gennem hele et datacenteranlægs drift – såsom køling og ventilation – og det er endnu et vindertræk for bæredygtighedsbevidste softwarearkitekter og udviklere af AL-løsninger.

Bidraget af Intel.

Tidsstempel:

Mere fra Registret