การรวม CiM สำหรับการเร่งการอนุมาน ML

การรวม CiM สำหรับการเร่งการอนุมาน ML

โหนดต้นทาง: 3064987

บทความทางเทคนิคเรื่อง “WWW: What, When, Where to Compute-in-Memory” ได้รับการตีพิมพ์โดยนักวิจัยจาก Purdue University

นามธรรม:

“การประมวลผลในหน่วยความจำ (CiM) ได้กลายเป็นโซลูชันที่น่าสนใจในการลดต้นทุนการเคลื่อนย้ายข้อมูลที่สูงในเครื่อง von Neumann CiM สามารถดำเนินการคูณเมทริกซ์ทั่วไป (GEMM) แบบขนานจำนวนมากในหน่วยความจำ ซึ่งเป็นการคำนวณที่โดดเด่นในการอนุมานของ Machine Learning (ML) อย่างไรก็ตาม การกำหนดวัตถุประสงค์ใหม่ของหน่วยความจำสำหรับการประมวลผลทำให้เกิดคำถามสำคัญอยู่ที่ 1) CiM ประเภทใดที่จะใช้: เนื่องจากมี CiM แบบอะนาล็อกและดิจิทัลจำนวนมาก จึงจำเป็นต้องมีการพิจารณาความเหมาะสมจากมุมมองของระบบ 2) เมื่อใดควรใช้ CiM: การอนุมาน ML มีปริมาณงานที่มีข้อกำหนดด้านหน่วยความจำและการประมวลผลที่หลากหลาย ทำให้ยากต่อการระบุว่าเมื่อใดที่ CiM มีประโยชน์มากกว่าแกนประมวลผลมาตรฐาน 3) ตำแหน่งที่จะรวม CiM: แต่ละระดับหน่วยความจำมีแบนด์วิดท์และความจุที่แตกต่างกัน ซึ่งส่งผลต่อการเคลื่อนย้ายข้อมูลและประโยชน์ของการรวม CiM
ในบทความนี้ เราจะสำรวจคำตอบของคำถามเหล่านี้เกี่ยวกับการบูรณาการ CiM สำหรับการเร่งการอนุมาน ML เราใช้ Timeloop-Accelergy ในการประเมินระดับระบบเบื้องต้นของต้นแบบ CiM รวมถึงทั้งอนาล็อกและดิจิทัลเบื้องต้น เรารวม CiM เข้ากับหน่วยความจำแคชระดับต่างๆ ในสถาปัตยกรรมพื้นฐานที่คล้ายกับ Nvidia A100 และปรับแต่งโฟลว์ข้อมูลสำหรับปริมาณงาน ML ต่างๆ การทดลองของเราแสดงให้เห็นว่าสถาปัตยกรรม CiM ปรับปรุงประสิทธิภาพการใช้พลังงาน โดยได้รับพลังงานต่ำกว่าค่าพื้นฐานที่กำหนดไว้ถึง 0.12 เท่าด้วยความแม่นยำ INT-8 และประสิทธิภาพเพิ่มขึ้นสูงสุด 4 เท่าด้วยการแทรกสลับและการทำซ้ำของน้ำหนัก งานที่เสนอจะให้ข้อมูลเชิงลึกว่า CiM ประเภทใดที่จะใช้ และเมื่อใดและที่ไหนที่จะรวมไว้ในลำดับชั้นแคชเพื่อการเร่งความเร็ว GEMM ได้อย่างเหมาะสม”

หา เอกสารทางเทคนิคที่นี่ จัดพิมพ์ธันวาคม 2023 (พิมพ์ล่วงหน้า)

ชาร์มา, ตันวี, มุสตาฟา อาลี, อินดรานิล ชากราบอร์ตี และเกาซิก รอย “WWW: อะไร เมื่อไร ที่ไหนที่จะประมวลผลในหน่วยความจำ” arXiv พิมพ์ล่วงหน้า arXiv:2312.15896 (2023)

การอ่านที่เกี่ยวข้อง
การเพิ่มประสิทธิภาพพลังงาน AI ด้วยการประมวลผลในหน่วยความจำ
วิธีประมวลผลปริมาณงานระดับเซ็ตและอยู่ภายในงบประมาณด้านพลังงานคงที่
การสร้างแบบจำลองการคำนวณในหน่วยความจำด้วยประสิทธิภาพทางชีวภาพ
AI เจนเนอเรชั่นบังคับให้ผู้ผลิตชิปใช้ทรัพยากรการประมวลผลอย่างชาญฉลาดยิ่งขึ้น
SRAM ใน AI: อนาคตของความทรงจำ
เหตุใด SRAM จึงถูกมองว่าเป็นองค์ประกอบสำคัญในสถาปัตยกรรมการประมวลผลใหม่และแบบดั้งเดิม

ประทับเวลา:

เพิ่มเติมจาก กึ่งวิศวกรรม

3D-IC: กรอบการเรียนรู้ของผู้ปฏิบัติงานสำหรับการทำนายความร้อนของชิป 3D ที่รวดเร็วเป็นพิเศษภายใต้การกำหนดค่าการออกแบบชิปหลายตัว

โหนดต้นทาง: 2541333
ประทับเวลา: Mar 24, 2023