การอนุมาน LLM บน GPU (Intel)

การอนุมาน LLM บน GPU (Intel)

โหนดต้นทาง: 3095494

บทความด้านเทคนิคชื่อ “โซลูชันการอนุมาน LLM ที่มีประสิทธิภาพบน Intel GPU” ได้รับการเผยแพร่โดยนักวิจัยจาก Intel Corporation

นามธรรม:

“โมเดลภาษาขนาดใหญ่ที่ใช้หม้อแปลงไฟฟ้า (LLM) มีการใช้กันอย่างแพร่หลายในหลายสาขา และประสิทธิภาพของการอนุมาน LLM กลายเป็นประเด็นร้อนในการใช้งานจริง อย่างไรก็ตาม LLM มักจะได้รับการออกแบบอย่างซับซ้อนในโครงสร้างแบบจำลองที่มีการดำเนินการจำนวนมาก และทำการอนุมานในโหมดถอยหลังอัตโนมัติ ทำให้เป็นงานที่ท้าทายในการออกแบบระบบที่มีประสิทธิภาพสูง
ในบทความนี้ เราขอเสนอโซลูชันการอนุมาน LLM ที่มีประสิทธิภาพพร้อมเวลาแฝงต่ำและปริมาณงานสูง ประการแรก เราทำให้เลเยอร์ตัวถอดรหัส LLM ง่ายขึ้นโดยการหลอมรวมการเคลื่อนย้ายข้อมูลและการดำเนินการตามองค์ประกอบเพื่อลดความถี่ในการเข้าถึงหน่วยความจำและลดเวลาแฝงของระบบ นอกจากนี้เรายังเสนอนโยบายแคช KV ส่วนเพื่อเก็บคีย์/ค่าของคำขอและโทเค็นการตอบกลับไว้ในหน่วยความจำกายภาพแยกต่างหากเพื่อการจัดการหน่วยความจำอุปกรณ์ที่มีประสิทธิภาพ ช่วยขยายขนาดแบตช์รันไทม์และปรับปรุงปริมาณงานของระบบ เคอร์เนล Scaled-Dot-Product-Attention แบบกำหนดเองได้รับการออกแบบเพื่อให้ตรงกับนโยบายการผสมของเราโดยอิงตามโซลูชันแคชเซกเมนต์ KV เราใช้โซลูชันการอนุมาน LLM บน Intel GPU และเผยแพร่ต่อสาธารณะ เมื่อเปรียบเทียบกับการใช้งาน HuggingFace มาตรฐาน โซลูชันที่นำเสนอมีความหน่วงของโทเค็นลดลงสูงสุด 7 เท่า และทรูพุตสูงกว่า 27 เท่าสำหรับ LLM ยอดนิยมบางตัวบน Intel GPU”

หา เอกสารทางเทคนิคที่นี่ จัดพิมพ์ธันวาคม 2023 (พิมพ์ล่วงหน้า)

อู๋, ฮุย, ยี่ก้าน, เฟิงหยวน, จิงหม่า, เว่ยจู้, หยูเทาซู, หงจู้, ยู่หัวจู้, เซียวลี่หลิว และจิงฮุยกู่ “โซลูชันการอนุมาน LLM ที่มีประสิทธิภาพบน Intel GPU” arXiv พิมพ์ล่วงหน้า arXiv:2401.05391 (2023)

การอ่านที่เกี่ยวข้อง
การอนุมาน LLM บน CPU (Intel)
บทความด้านเทคนิคชื่อ “การอนุมาน LLM ที่มีประสิทธิภาพบน CPU” ได้รับการตีพิมพ์โดยนักวิจัยที่ Intel
AI แข่งกันจนสุดขอบ
การอนุมานและการฝึกอบรมบางอย่างถูกผลักดันไปยังอุปกรณ์ขนาดเล็ก เนื่องจาก AI แพร่กระจายไปยังแอปพลิเคชันใหม่ๆ

ประทับเวลา:

เพิ่มเติมจาก กึ่งวิศวกรรม