Suorittimen rooli kestävässä AI/ML:ssä

Suorittimen rooli kestävässä AI/ML:ssä

Lähdesolmu: 3093662

puffi Tekoäly laajentaa kattavuuttaan yli yrityslaskentaympäristöjen, ja sen vaikutus aiheuttaa odottamattomia sivuvaikutuksia. IDC:n uusin FutureScape raportti esimerkiksi ennustaa, että kun yritykset kilpailevat ottamalla käyttöön tekoälyllä tehostettuja tuotteita/palveluita ja auttamaan asiakkaitaan tekoälytoteutuksissa, teknologiasta tulee keskeinen innovoinnin motivaattori.

Toinen tekoälyyn perustuva muutos liittyy siihen, missä määrin datakeskukset saattavat joutua tasapainottamaan suorittimia erillisten tekoälykiihdyttimien, kuten GPU:iden tai erikoistuneiden arkkitehtuurien, kanssa, tarjotakseen tekoälykehittäjien tarvitsemat korkean suorituskyvyn laskentaominaisuudet.

Se on keskustelu, joka herättää suuria kysymyksiä palvelinkeskusten omistajille sekä lisäinvestoinneille käyttöomaisuusinvestoinneille että todennäköisyydelle, että (vaikka mittausmenetelmät ovat epätarkkoja) tyypilliset GPU-ohjatut tekoälytoiminnot kuluttavat enemmän virtaa kuin perinteiset IT-työkuormat.

Tekoälyn suuremman tehon ja hiilidioksidipäästöjen käsittely on ylimääräinen tuska palvelinkeskusten toiminnalle, ja sen on myös varmistettava, että tekoälylle optimoidut päivitetyt laskenta-arkkitehtuurit voivat hallita lisääntynyttä virrantarvetta ilman olemassa olevan tekniikan tai laitteistojen ylikuormitusta.

Koska kestävän kehityksen hallinnan ja hiilidioksidin hallinnan laajennettu sääntely pakottaa toimintoja vähentämään energiankulutusta IT-laitteistojen ja -ohjelmistojen välillä, tekoäly on sekä mahdollisuus että este.

Vähentää AI-virrankulutusta

Kaiken kaikkiaan lisääntynyt virrankulutus ja tarvittavat arkkitehtoniset konfiguroinnit, joita tarvitaan tekoälyn ja koneoppimisen työkuormien mukauttamiseen, ovat väistämätön haaste datakeskuksille, selittää Stephan Gillich, tekoälyn GTM:n johtaja Intelin tekoälykeskuksessa.

"On melko selvää kaikilla vertikaalisilla sektoreilla ja toimialoilla, missä tahansa tekoäly-/koneoppimissovelluksia ja -palveluita kehitetään, koulutetaan ja ajetaan, että on-prem- ja pilvipalveluissa isännöityjen IT-laitteiden ominaisuuksia on päivitettävä, jotta ne pystyvät käsittelemään lisääntyviä tietomääriä. -intensiiviset työmäärät, Gillich sanoo. "On myös selvää, että näiden päivitysten on sisällettävä enemmän kuin vain laskentakyvyn lisääminen."

Tekoälykeskeisten tietokeskusten kestävyyden parantamiseksi voidaan tehdä paljon, Gillich uskoo, ja aloittaa arvioimalla uudelleen joitakin tekoälyn/koneoppimisympäristön oletuksia. Prosessointiyksiköt ovat hyvä paikka aloittaa, varsinkin kun päätetään, soveltuvatko prosessorit vai GPU:t paremmin tehtävään.

Koska vaikka tekoälykohtaiset laskentaintensiiviset työmäärät näyttävät lisääntyvän (kukaan ei ole aivan varma millä tahdilla), suurimman osan palvelinkeskuksen työstä (ei-AI-työkuormat) on jatkettava päivästä toiseen, mikä takaa vakaan sovelluksen. ja palveluiden tulovirtoja ei saa häiritä.

Suurin osa näistä käsitellään tällä hetkellä suorittimilla, ja tavallisen datakeskuksen asentaminen kalliimmilla grafiikkasuorittimilla olisi monien laitteiden vuoksi tarpeettoman suuri. Yleisesti ottaen GPU kuluttaa enemmän tehoa kuin CPU suorittaakseen samanlaisen tehtävän. Tietyn telinekokoonpanon virtalähteestä riippuen GPU:iden integrointi datakeskusinfrastruktuuriin edellyttää päivityksiä esimerkiksi virranjakelujärjestelmiin, joista aiheutuu väistämättä ylimääräisiä ennakkokustannuksia ja korkeampien energialaskujen lisäksi, kun ne ovat käynnissä.

Lisäksi Intelin suorittimen kehitys jatkuu innovatiivisena. Useissa käyttötapauksissa CPU:n voidaan osoittaa saavuttavan yhtä hyvän – ja joskus jopa paremman – kokonaissuorituskyvyn kuin grafiikkasuoritin, Gillich väittää. Ja niiden suorituskykyä voidaan lisätä läpimurtotekniikalla, kuten Intel® AMX (Advanced Matrix Extensions), joka on neljännen sukupolven Intel Xeon -suorittimiin sisäänrakennettu kiihdytin.

"Intel Xeon -prosessorit voivat mahdollistaa palvelinkeskuksen skaalata tekoälyn käyttöönottoa sisäänrakennetun AI-kiihdytyksen avulla, joka parantaa suorittimen suorituskykyä koneoppimista, koulutusta ja päätelmiä varten", Gillich huomauttaa. "Tällä tavalla he voivat ottaa käyttöön erilliset kiihdytit minimoidakseen CAPEXin ja maksimoidakseen suorituskyvyn hyödyntäen samalla olemassa olevia Intel Xeon -prosessointiympäristöjä."

Sinun on yhdistettävä tekoälyä ja ei-AI-työkuormia

Intel AMX on Intel Xeon Scalable -prosessoriytimessä oleva erillinen laitteistolohko, joka mahdollistaa tekoälytyökuormien suorittamisen suorittimella sen sijaan, että ne siirrettäisiin erilliseen kiihdytin, mikä parantaa merkittävästi suorituskykyä. Se sopii tekoälyn työkuormille, kuten koneoppimissuositusjärjestelmille, kuvantunnistukseen ja luonnollisen kielen käsittelyyn, jotka perustuvat matriisimatematiikkaan.

Toinen lisättyjä suorittimia puoltava argumentti on se, että ne tarjoavat palvelinkeskusten operaattoreille kustannustehokkaan reitin tehdä enemmän nykyisiä suoritinsitoumuksia, varmistaa resurssinsa tulevaisuuden kannalta, jotta he voivat kestää sekalaisia ​​​​työkuormia ja sijoittaa ne paremmin. hallita yleistä virrankulutusta.

Tämä puolestaan ​​voi auttaa palvelinkeskusten palveluntarjoajia (ja heidän asiakkaitaan) saavuttamaan kestävyystavoitteet ja tarjota myyntipisteen ohjelmistokehittäjille (yritys tai kolmas osapuoli), jotka etsivät optimoitua alustaa koodauksensa energiatehokkuuden esittelyyn. ulostulot.

"Todellisuus on, että sen sijaan, että kiirehtisivät tekoälyn työkuormituksen tarjoamia mahdollisuuksia, palvelinkeskusten operaattorit ymmärtävät, että heidän tulee ottaa huomioon useita vaatimuksia, jotka perustuvat yhtä paljon kaupallisiin seikkoihin kuin teknisiin valintoihin", Gillich sanoo.

Näihin tarpeisiin voisi kuulua: tekoälyn työkuormien integrointi ei-AI-työkuormien kanssa; erilaisten laitteisto- ja ohjelmistopinojen integrointi; ja koska he haluavat varmistaa, että heillä on arkkitehtuuri, joka sopii useisiin erilaisiin työkuormiin, erilaisten työvirtatyyppien integrointi.

"Nämä kysymykset viittaavat monimutkaisiin haasteisiin, koska niiden saaminen oikein vaikuttaa optimaaliseen teknologiseen ja energiatehokkuuteen – energiatehokkuus on nyt keskeinen suorituskyvyn vertailukohta, joka vaikuttaa yhä enemmän datakeskuksen kaupalliseen elinkelpoisuuteen", Gillich sanoo. "Joten jälleen kerran, se on äärimmäisen tärkeää."

Gillichin näkökulmasta avain tähän esiin nousevaan todellisuuteen sopeutumiseen on vaiheittainen prosessi, jota voidaan kutsua "AI-assimilaatioksi". Ensimmäinen kohta tässä on, että tekoälyn työkuormia ei ole erotettu muista työkuormitustyypeistä – ne integroidaan tavanomaisiin työkuormiin sen sijaan, että niitä ajetaan erikseen.

Gillich mainitsee videoneuvottelut esimerkkinä tästä vaiheittaisesta integroinnista: "Jo suoratoistaessaan standardia ääni-/videoliikennettä standardisovelluksissa, tekoäly on integroitu suorittamaan samanaikaisia ​​tehtäviä, kuten yhteenveto, käännös ja transkriptio. Tekoäly tukee tällaisia ​​ominaisuuksia erittäin hyvin.

Energiansäästöä päästä päähän

Energiatehokkuuden saavuttamisen on oltava todella kattava strateginen hanke, Gillich väittää. "Se kattaa ohjelmistopuolen sekä laitteistoarkkitehtuurit – koko mekanismin, joka mahdollistaa tietyn työnkulkuprosessin. Mihin data tallennetaan, jotta käyttö olisi mahdollisimman tehokasta – laskennallisesti ja siten energiaviisaasti – onko se paras paikka energiatehokkuudelle?”

Toinen tähän arviointiin otettava tekijä on määrittää, missä työkuorma on käynnissä. Toimiiko se esimerkiksi asiakkailla (kuten Intel Core Ultra -prosessoreilla varustetulla tekoäly-PC:llä palvelinkeskuksen palvelimien sijaan? Voiko joitain näistä tekoälykuormista todella ajaa asiakkailla (palvelimien rinnalla)?

Jokainen vaihtoehto on harkitsemisen arvoinen, jos se auttaa saamaan tekoälyn laskennan ja virrankulutuksen tasapainon parempaan linjaan, Gillich väittää: "Se on melkein kuin paluuta vanhan koulukunnan hajautetun tietojenkäsittelyn käsitteeseen."

Gillich lisää: "Joskus asiakkaamme kysyvät: "Missä tekoäly pelaa?" – Vastaus on, että tekoäly pelaa kaikkialla. Joten Intelillä tavoitteemme keskittyy siihen, mitä voitaisiin kutsua tekoälyn universaaliksi mukautumiseksi, koska uskomme sen ulottuvan kaikille sovellusalueille.

Intelillä tämä kattaa väliohjelmistot, kuten API:t, joiden, kuten minkä tahansa muunkin ohjelmistopinon osan, on oltava mahdollisimman tehokkaita. "API-hajaantuminen" voi johtaa tarpeettomaan käsittelyyn, minimoimalla niiden infrastruktuurin jalanjäljen sekä valvonnan ja hallinnan puutteen.

"Kanssa Intel oneAPI, yritykset voivat realisoida täyden laitteisto-arvonsa, kehittää korkean suorituskyvyn arkkitehtuurien välistä koodia ja valmistaa sovelluksensa tulevia tarpeita varten”, Gillich selittää.

"Intel oneAPI on avoin, eri toimialojen, standardeihin perustuva, yhtenäinen, moniarkkitehtuuriinen, usean toimittajan ohjelmointimalli, joka tarjoaa yhteisen kehittäjäkokemuksen kiihdytinarkkitehtuureissa – nopeampaa sovellusten suorituskykyä ja parempaa tuottavuutta. oneAPI-aloite rohkaisee yhteistyöhön oneAPI-spesifikaatioiden ja yhteensopivien oneAPI-toteutusten parissa kaikkialla ekosysteemissä.

Gillich lisää: "oneAPI tarjoaa väliohjelmistopinon, joka ottaa tavallisia asioita, kuten AI Frameworks -kuten Pytorch tai TensorFlow [avoimen lähdekoodin ohjelmistoalusta tekoälylle ja koneoppimiselle] - ja kääntää ne konetasolla, ja oneAPI mahdollistaa tehokkaan tavan tehdä. Käyttäjät voivat käyttää yhteistä API-sovellusliittymää Ai-kehystasolla, ja meillä on API (oneAPI), joka vastaa eri laitteistomakuihin. Joten yhteinen API tarkoittaa, että käyttäjät voivat luoda avoimia ohjelmistoja, joita voidaan tukea avoimessa ohjelmistopinossa.

GPU-tason suorituskyky CPU-tason hintapisteissä

IT-alan edistymistä ohjaa suurelta osin odotukset jatkuvasta teknologisesta kehityksestä, joka liittyy oivalluksiin perustuviin käyttöönottostrategioiden parannuksiin. Se on malli, joka perustuu parhaan saavutettavissa olevan tasapainon löytämiseen budjettimenojen ja liiketoiminnan sijoitetun pääoman tuottoprosentin välillä sekä odotukseen, että aina on lisäinnovaatioita, joihin on pyrittävä. Tekoäly edustaa tämän ihanteen huippua – se on tarpeeksi älykäs keksimään oman arvolupauksensa uudelleen jatkuvan itsensä parantamisen kautta.

Rakentamalla AMX-kiihdytin 4. sukupolven Intel Xeon -suorittimiinsa Intel näyttää, kuinka GPU-tason suorituskyky voidaan saavuttaa suoritintason hintapisteissä. Tämä mahdollistaa palvelinkeskusten skaalaamisen samalla kun ne maksimoivat nykyisten Intel Xeon -käyttöisten prosessointiyksiköiden tuottoarvon, mutta tarjoaa myös hinnoittelumallin, joka alentaa sisäänpääsykustannuksia asiakkaille, joilla on AI-työkuormitus mutta rajoitetut budjetit.

Ja prosessorien alhaisempi virrankulutus tarkoittaa, että energiatehokkuus voidaan saavuttaa kokonaisvaltaisesti koko konesalin toiminnoissa – kuten jäähdytyksessä ja ilmanvaihdossa – ja tämä on toinen kestävän kehityksen tunnollisten ohjelmistoarkkitehtien ja AL-ratkaisujen kehittäjien voittoisa.

Intelin avustaja.

Aikaleima:

Lisää aiheesta Rekisteri