การอนุมาน LLM บน GPU (Intel)

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

บทความด้านเทคนิคชื่อ “โซลูชันการอนุมาน LLM ที่มีประสิทธิภาพบน Intel GPU” ได้รับการเผยแพร่โดยนักวิจัยจาก Intel Corporation

นามธรรม:

“โมเดลภาษาขนาดใหญ่ที่ใช้หม้อแปลงไฟฟ้า (LLM) มีการใช้กันอย่างแพร่หลายในหลายสาขา และประสิทธิภาพของการอนุมาน LLM กลายเป็นประเด็นร้อนในการใช้งานจริง อย่างไรก็ตาม LLM มักจะได้รับการออกแบบอย่างซับซ้อนในโครงสร้างแบบจำลองที่มีการดำเนินการจำนวนมาก และทำการอนุมานในโหมดถอยหลังอัตโนมัติ ทำให้เป็นงานที่ท้าทายในการออกแบบระบบที่มีประสิทธิภาพสูง
ในบทความนี้ เราขอเสนอโซลูชันการอนุมาน LLM ที่มีประสิทธิภาพพร้อมเวลาแฝงต่ำและปริมาณงานสูง ประการแรก เราทำให้เลเยอร์ตัวถอดรหัส LLM ง่ายขึ้นโดยการหลอมรวมการเคลื่อนย้ายข้อมูลและการดำเนินการตามองค์ประกอบเพื่อลดความถี่ในการเข้าถึงหน่วยความจำและลดเวลาแฝงของระบบ นอกจากนี้เรายังเสนอนโยบายแคช KV ส่วนเพื่อเก็บคีย์/ค่าของคำขอและโทเค็นการตอบกลับไว้ในหน่วยความจำกายภาพแยกต่างหากเพื่อการจัดการหน่วยความจำอุปกรณ์ที่มีประสิทธิภาพ ช่วยขยายขนาดแบตช์รันไทม์และปรับปรุงปริมาณงานของระบบ เคอร์เนล Scaled-Dot-Product-Attention แบบกำหนดเองได้รับการออกแบบเพื่อให้ตรงกับนโยบายการผสมของเราโดยอิงตามโซลูชันแคชเซกเมนต์ KV เราใช้โซลูชันการอนุมาน LLM บน Intel GPU และเผยแพร่ต่อสาธารณะ เมื่อเปรียบเทียบกับการใช้งาน HuggingFace มาตรฐาน โซลูชันที่นำเสนอมีความหน่วงของโทเค็นลดลงสูงสุด 7 เท่า และทรูพุตสูงกว่า 27 เท่าสำหรับ LLM ยอดนิยมบางตัวบน Intel GPU”

หา เอกสารทางเทคนิคที่นี่ จัดพิมพ์ธันวาคม 2023 (พิมพ์ล่วงหน้า)

อู๋, ฮุย, ยี่ก้าน, เฟิงหยวน, จิงหม่า, เว่ยจู้, หยูเทาซู, หงจู้, ยู่หัวจู้, เซียวลี่หลิว และจิงฮุยกู่ “โซลูชันการอนุมาน LLM ที่มีประสิทธิภาพบน Intel GPU” arXiv พิมพ์ล่วงหน้า arXiv:2401.05391 (2023)

การอ่านที่เกี่ยวข้อง
การอนุมาน LLM บน CPU (Intel)
บทความด้านเทคนิคชื่อ “การอนุมาน LLM ที่มีประสิทธิภาพบน CPU” ได้รับการตีพิมพ์โดยนักวิจัยที่ Intel
AI แข่งกันจนสุดขอบ
การอนุมานและการฝึกอบรมบางอย่างถูกผลักดันไปยังอุปกรณ์ขนาดเล็ก เนื่องจาก AI แพร่กระจายไปยังแอปพลิเคชันใหม่ๆ

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://semiengineering.com/llm-inference-on-gpus-intel/

ประทับเวลา: กุมภาพันธ์ 2, 2024

ประทับเวลา: กรกฎาคม 5, 2023

การอนุมาน LLM บน GPU (Intel)

เผยแพร่ซ้ำโดยเพลโต

นามธรรม:

เพิ่มเติมจาก กึ่งวิศวกรรม

จาก Known Good Die สู่ระบบ Known Good ด้วย UCIe IP

เครื่องมือ EDA เพื่อตรวจจับช่องโหว่ SW-HW ทำให้มั่นใจได้ถึงการรักษาความลับของข้อมูลในสถาปัตยกรรม RISC-V

3 ความก้าวหน้าทางเทคโนโลยียานยนต์ที่สำคัญที่น่าจับตามอง

เซลล์หลายระดับ FeFET สำหรับการประมวลผลในหน่วยความจำใน 28 นาโนเมตร

เลเซอร์ III – V ปลูกบนแพลตฟอร์ม Si Photonics ที่มีลวดลายพร้อมการเชื่อมต่อแสงเป็นท่อนำคลื่น SiN แบบพาสซีฟ

Research Bits: 24 มกราคม

Arm Total Compute: วิศวกรรมสำหรับปริมาณงานแห่งอนาคต

แพ็คเกจ Multi-Core BDD แบบอิงดัชนีพร้อมการจัดการหน่วยความจำแบบไดนามิกและการกระจายตัวที่ลดลง

การทบทวนวิธีการออกแบบระบบคอมพิวเตอร์ Memristor ที่ปลอดภัย

ความหนาแน่นต่ำของ LPDDR4x DRAM — ตัวเลือกที่ดีที่สุดสำหรับ Edge AI

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้