การรวม CiM สำหรับการเร่งการอนุมาน ML

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

บทความทางเทคนิคเรื่อง “WWW: What, When, Where to Compute-in-Memory” ได้รับการตีพิมพ์โดยนักวิจัยจาก Purdue University

นามธรรม:

“การประมวลผลในหน่วยความจำ (CiM) ได้กลายเป็นโซลูชันที่น่าสนใจในการลดต้นทุนการเคลื่อนย้ายข้อมูลที่สูงในเครื่อง von Neumann CiM สามารถดำเนินการคูณเมทริกซ์ทั่วไป (GEMM) แบบขนานจำนวนมากในหน่วยความจำ ซึ่งเป็นการคำนวณที่โดดเด่นในการอนุมานของ Machine Learning (ML) อย่างไรก็ตาม การกำหนดวัตถุประสงค์ใหม่ของหน่วยความจำสำหรับการประมวลผลทำให้เกิดคำถามสำคัญอยู่ที่ 1) CiM ประเภทใดที่จะใช้: เนื่องจากมี CiM แบบอะนาล็อกและดิจิทัลจำนวนมาก จึงจำเป็นต้องมีการพิจารณาความเหมาะสมจากมุมมองของระบบ 2) เมื่อใดควรใช้ CiM: การอนุมาน ML มีปริมาณงานที่มีข้อกำหนดด้านหน่วยความจำและการประมวลผลที่หลากหลาย ทำให้ยากต่อการระบุว่าเมื่อใดที่ CiM มีประโยชน์มากกว่าแกนประมวลผลมาตรฐาน 3) ตำแหน่งที่จะรวม CiM: แต่ละระดับหน่วยความจำมีแบนด์วิดท์และความจุที่แตกต่างกัน ซึ่งส่งผลต่อการเคลื่อนย้ายข้อมูลและประโยชน์ของการรวม CiM
ในบทความนี้ เราจะสำรวจคำตอบของคำถามเหล่านี้เกี่ยวกับการบูรณาการ CiM สำหรับการเร่งการอนุมาน ML เราใช้ Timeloop-Accelergy ในการประเมินระดับระบบเบื้องต้นของต้นแบบ CiM รวมถึงทั้งอนาล็อกและดิจิทัลเบื้องต้น เรารวม CiM เข้ากับหน่วยความจำแคชระดับต่างๆ ในสถาปัตยกรรมพื้นฐานที่คล้ายกับ Nvidia A100 และปรับแต่งโฟลว์ข้อมูลสำหรับปริมาณงาน ML ต่างๆ การทดลองของเราแสดงให้เห็นว่าสถาปัตยกรรม CiM ปรับปรุงประสิทธิภาพการใช้พลังงาน โดยได้รับพลังงานต่ำกว่าค่าพื้นฐานที่กำหนดไว้ถึง 0.12 เท่าด้วยความแม่นยำ INT-8 และประสิทธิภาพเพิ่มขึ้นสูงสุด 4 เท่าด้วยการแทรกสลับและการทำซ้ำของน้ำหนัก งานที่เสนอจะให้ข้อมูลเชิงลึกว่า CiM ประเภทใดที่จะใช้ และเมื่อใดและที่ไหนที่จะรวมไว้ในลำดับชั้นแคชเพื่อการเร่งความเร็ว GEMM ได้อย่างเหมาะสม”

หา เอกสารทางเทคนิคที่นี่ จัดพิมพ์ธันวาคม 2023 (พิมพ์ล่วงหน้า)

ชาร์มา, ตันวี, มุสตาฟา อาลี, อินดรานิล ชากราบอร์ตี และเกาซิก รอย “WWW: อะไร เมื่อไร ที่ไหนที่จะประมวลผลในหน่วยความจำ” arXiv พิมพ์ล่วงหน้า arXiv:2312.15896 (2023)

การอ่านที่เกี่ยวข้อง
การเพิ่มประสิทธิภาพพลังงาน AI ด้วยการประมวลผลในหน่วยความจำ
วิธีประมวลผลปริมาณงานระดับเซ็ตและอยู่ภายในงบประมาณด้านพลังงานคงที่
การสร้างแบบจำลองการคำนวณในหน่วยความจำด้วยประสิทธิภาพทางชีวภาพ
AI เจนเนอเรชั่นบังคับให้ผู้ผลิตชิปใช้ทรัพยากรการประมวลผลอย่างชาญฉลาดยิ่งขึ้น
SRAM ใน AI: อนาคตของความทรงจำ
เหตุใด SRAM จึงถูกมองว่าเป็นองค์ประกอบสำคัญในสถาปัตยกรรมการประมวลผลใหม่และแบบดั้งเดิม

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

ประทับเวลา: January 16, 2024

ประทับเวลา: เมษายน 24, 2023

การรวม CiM สำหรับการเร่งการอนุมาน ML

เผยแพร่ซ้ำโดยเพลโต

นามธรรม:

เพิ่มเติมจาก กึ่งวิศวกรรม

การออกแบบยานพาหนะเสมือนจริง

ความท้าทายในบรรจุภัณฑ์ 5G และ 6G

ความสามารถในการสแกนรูปแบบจาก PSV ถึง ATE ถึง SLT ถึง IST

การรักษาความปลอดภัยอุปกรณ์ IoT ด้วยการเข้ารหัสที่มีน้ำหนักเบา

หน่วยความจำและการออกแบบดิจิทัลความเร็วสูง

แพ็คเกจ Multi-Core BDD แบบอิงดัชนีพร้อมการจัดการหน่วยความจำแบบไดนามิกและการกระจายตัวที่ลดลง

เพิ่มความปลอดภัยในการทดสอบ

ความเสี่ยงด้านความปลอดภัยที่ซ่อนอยู่ของระบบอิเล็กทรอนิกส์ยานยนต์

I/O วัตถุประสงค์ทั่วไปที่ตั้งโปรแกรมได้

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้