CiM-integrointi ML-päätelmien kiihdytykseen

Julkaissut Platon

seuraajia: 0

Purduen yliopiston tutkijat julkaisivat teknisen paperin nimeltä "WWW: What, When, Where to Compute-in-Memory".

Tiivistelmä:

"Compute-in-memory (CiM) on noussut houkuttelevaksi ratkaisuksi, joka vähentää korkeita tiedonsiirtokustannuksia von Neumannin koneissa. CiM voi suorittaa massiivisesti rinnakkaisia yleismatriisin kertolaskutoimintoja (GEMM) muistissa, joka on hallitseva laskenta koneoppimisen (ML) päättelyssä. Muistin uudelleenkäyttö laskemista varten herättää kuitenkin keskeisiä kysymyksiä: 1) Minkä tyyppistä CiM:ää käytetään: Koska analogisia ja digitaalisia CiM:itä on paljon, niiden soveltuvuus on määritettävä järjestelmän näkökulmasta. 2) Milloin CiM:ää käytetään: ML-päätelmä sisältää työkuormia, joissa on erilaisia muisti- ja laskentavaatimuksia, mikä tekee vaikeaksi tunnistaa, milloin CiM on edullisempi kuin tavalliset prosessointiytimet. 3) Mihin CiM integroidaan: Jokaisella muistitasolla on erilainen kaistanleveys ja kapasiteetti, mikä vaikuttaa CiM-integraation tiedonsiirto- ja paikallisetuihin.
Tässä artikkelissa tutkimme vastauksia näihin kysymyksiin, jotka koskevat CiM-integraatiota ML-päätelmien kiihdytykseen. Käytämme Timeloop-Accelergya CiM-prototyyppien varhaiseen järjestelmätason arviointiin, mukaan lukien sekä analogiset että digitaaliset primitiivit. Integroimme CiM:n eri välimuistitasoihin Nvidia A100:n kaltaisessa perusarkkitehtuurissa ja räätälöimme tietovirran erilaisiin ML-työkuormiin. Kokeilumme osoittavat, että CiM-arkkitehtuurit parantavat energiatehokkuutta ja saavuttavat jopa 0.12x alhaisemman energian kuin vakiintunut perusviiva INT-8-tarkkuudella ja jopa 4x suorituskyvyn kasvua painon lomittelulla ja päällekkäisyydellä. Ehdotettu työ tarjoaa näkemyksiä siitä, minkä tyyppistä CiM:ää tulee käyttää ja milloin ja missä se integroidaan optimaalisesti välimuistihierarkiaan GEMM-kiihdytystä varten.

Etsi tekninen paperi täällä. Julkaistu joulukuussa 2023 (esipainos).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty ja Kaushik Roy. "WWW: Mitä, milloin, missä laskea muistiin." arXiv preprint arXiv:2312.15896 (2023).

Aiheeseen liittyvä lukeminen
Tekoälyn energiatehokkuuden lisääminen Compute In Memoryn avulla
Kuinka käsitellä zetta-mittakaavaisia työkuormia ja pysyä kiinteän tehobudjetin sisällä.
Muistin laskennan mallinnus biologisella tehokkuudella
Generatiivinen tekoäly pakottaa sirujen valmistajat käyttämään laskentaresursseja älykkäämmin.
SRAM AI:ssa: Muistin tulevaisuus
Miksi SRAMia pidetään tärkeänä elementtinä uusissa ja perinteisissä laskenta-arkkitehtuureissa.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

Aikaleima: Tammikuu 16, 2024

Aikaleima: Heinäkuu 6, 2023

CiM-integraatio ML-johtopäätöskiihdytykseen

Julkaissut Platon

Tiivistelmä:

Lisää aiheesta Semi Engineering

Suunnittelu- ja todentamismenetelmät hajoavat

Suunnittelun IP

RTL:n rakenneuudistusongelmat

Pinottu ferrosähköinen muistiryhmä, joka koostuu lateraalisesti suljetuista ferrosähköisistä kenttätransistoreista

Suurien LLM-mallien kouluttaminen miljardeista biljoonaan parametreihin ORNL:n Frontier-supertietokoneella

Fabs alkaa tehostaa koneoppimista

Tutkimusosat: 3. tammikuuta

Edge HW-SW -yhteissuunnittelualusta, joka integroi RISC-V:n ja HW-kiihdytin

DRAM-käännöskerros, mekanismi joustavaan osoitteiden kartoitukseen ja tiedonsiirtoon CXL-pohjaisissa muistilaitteissa

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili