สิ่งกีดขวางบนถนนที่มีมายาวนานสู่การขับขี่อัตโนมัติ L4/L5 ที่ใช้งานได้และการอนุมาน AI เชิงสร้างสรรค์ที่ Edge - Semiwiki

สิ่งกีดขวางบนถนนที่มีมายาวนานสู่การขับขี่อัตโนมัติ L4/L5 ที่ใช้งานได้และการอนุมาน AI ทั่วไปที่ Edge – Semiwiki

โหนดต้นทาง: 2934975

เทคโนโลยีอัลกอริธึมที่ใช้ซอฟต์แวร์ล่าสุดสองเทคโนโลยี ได้แก่ การขับขี่อัตโนมัติ (ADAS/AD) และ AI แบบกำเนิด (GenAI) กำลังทำให้ชุมชนวิศวกรรมเซมิคอนดักเตอร์ตื่นตัวในเวลากลางคืน

ในขณะที่ ADAS ที่ระดับ 2 และระดับ 3 กำลังดำเนินไป AD ที่ระดับ 4 และ 5 นั้นยังห่างไกลจากความเป็นจริง ส่งผลให้ความกระตือรือร้นในการร่วมลงทุนและเงินทองลดลง วันนี้ GenAI ได้รับความสนใจ และ VC ต่างกระตือรือร้นที่จะลงทุนหลายพันล้านดอลลาร์

เทคโนโลยีทั้งสองนั้นใช้อัลกอริธึมที่ทันสมัยและซับซ้อน การประมวลผลการฝึกอบรมและการอนุมานมีคุณลักษณะบางประการร่วมกัน บางอย่างสำคัญ บางอย่างสำคัญแต่ไม่จำเป็น: ดูตาราง I

การอนุมาน AI ทั่วไปที่ Edge
คำบรรยายตารางที่ 1: การฝึกอบรมอัลกอริทึมและการอนุมานมีคุณลักษณะที่สำคัญบางประการแต่ไม่ใช่ทั้งหมด ที่มา: VSORA

ความก้าวหน้าของซอฟต์แวร์ที่โดดเด่นในเทคโนโลยีเหล่านี้จนถึงขณะนี้ยังไม่ได้รับการจำลองแบบด้วยความก้าวหน้าในฮาร์ดแวร์อัลกอริธึมเพื่อเร่งการดำเนินการ ตัวอย่างเช่น ตัวประมวลผลอัลกอริธึมที่ล้ำสมัยไม่มีประสิทธิภาพในการตอบข้อความค้นหา ChatGPT-4 ภายในหนึ่งหรือสองวินาทีโดยมีค่าใช้จ่าย ¢2 ต่อข้อความค้นหา ซึ่งเป็นเกณฑ์มาตรฐานที่กำหนดโดยการค้นหาของ Google หรือในการประมวลผลข้อมูลขนาดใหญ่ รวบรวมโดยเซ็นเซอร์ AD ในเวลาน้อยกว่า 20 มิลลิวินาที

จนกระทั่งสตาร์ทอัพชาวฝรั่งเศส VSORA ทุ่มพลังสมองเพื่อแก้ไขคอขวดของหน่วยความจำที่เรียกว่ากำแพงหน่วยความจำ

กำแพงแห่งความทรงจำ

ผนังหน่วยความจำของ CPU ได้รับการอธิบายครั้งแรกโดย Wulf และ McKee ในปี 1994 นับตั้งแต่นั้นมา การเข้าถึงหน่วยความจำได้กลายเป็นปัญหาคอขวดของประสิทธิภาพการประมวลผล ความก้าวหน้าในประสิทธิภาพของโปรเซสเซอร์ไม่ได้สะท้อนให้เห็นในความคืบหน้าในการเข้าถึงหน่วยความจำ ทำให้โปรเซสเซอร์ต้องรออีกต่อไปสำหรับข้อมูลที่ส่งผ่านหน่วยความจำ ในตอนท้าย ประสิทธิภาพของโปรเซสเซอร์ลดลงต่ำกว่าการใช้งาน 100%

เพื่อแก้ไขปัญหานี้ อุตสาหกรรมเซมิคอนดักเตอร์ได้สร้างโครงสร้างหน่วยความจำแบบลำดับชั้นหลายระดับโดยมีแคชหลายระดับใกล้กับโปรเซสเซอร์ ซึ่งจะช่วยลดปริมาณการรับส่งข้อมูลด้วยหน่วยความจำหลักและหน่วยความจำภายนอกที่ช้าลง

ประสิทธิภาพของโปรเซสเซอร์ AD และ GenAI ขึ้นอยู่กับแบนด์วิธหน่วยความจำที่กว้างมากกว่าอุปกรณ์คอมพิวเตอร์ประเภทอื่นๆ

VSORA ก่อตั้งขึ้นในปี 2015 เพื่อกำหนดเป้าหมายแอปพลิเคชัน 5G ได้คิดค้นสถาปัตยกรรมที่ได้รับการจดสิทธิบัตรซึ่งจะยุบโครงสร้างหน่วยความจำแบบลำดับชั้นให้เป็นแบนด์วิดท์สูงขนาดใหญ่ที่มีหน่วยความจำควบคู่แน่น (TCM) ที่เข้าถึงได้ในรอบสัญญาณนาฬิกาเดียว

จากมุมมองของแกนประมวลผล TCM จะมีลักษณะและทำหน้าที่เหมือนทะเลแห่งการลงทะเบียนในจำนวน MBytes เทียบกับ kBytes ของการลงทะเบียนทางกายภาพจริง ความสามารถในการเข้าถึงเซลล์หน่วยความจำใดๆ ใน TMC ในรอบเดียวทำให้มีความเร็วในการดำเนินการสูง เวลาแฝงต่ำ และใช้พลังงานต่ำ นอกจากนี้ยังใช้พื้นที่ซิลิกอนน้อยกว่า การโหลดข้อมูลใหม่จากหน่วยความจำภายนอกลงใน TCM ในขณะที่ข้อมูลปัจจุบันถูกประมวลผลจะไม่ส่งผลต่อปริมาณงานของระบบ โดยพื้นฐานแล้ว สถาปัตยกรรมช่วยให้สามารถใช้งานหน่วยประมวลผลได้ 80+% ผ่านการออกแบบ ยังคงมีความเป็นไปได้ที่จะเพิ่มแคชและหน่วยความจำ scratchpad หากผู้ออกแบบระบบต้องการ ดูรูปที่ 1

การขับขี่อัตโนมัติและการอนุมาน AI เชิงสร้างสรรค์ที่ Edge
คำบรรยายภาพที่ 1: โครงสร้างหน่วยความจำแบบลำดับชั้นแบบดั้งเดิมมีความหนาแน่นและซับซ้อน แนวทางของ VSORA มีความคล่องตัวและมีลำดับชั้น

ด้วยโครงสร้างหน่วยความจำแบบรีจิสเตอร์ที่ใช้ในหน่วยความจำเกือบทั้งหมดในทุกแอปพลิเคชัน ข้อดีของการใช้หน่วยความจำ VSORA จึงไม่สามารถกล่าวเกินจริงได้ โดยทั่วไปแล้ว โปรเซสเซอร์ GenAI ที่ล้ำสมัยจะให้ประสิทธิภาพเปอร์เซ็นต์เป็นตัวเลขหลักเดียว ตัวอย่างเช่น โปรเซสเซอร์ GenAI ที่มีทรูพุตปกติหนึ่ง Petaflops ของประสิทธิภาพปกติแต่ประสิทธิภาพน้อยกว่า 5% มอบประสิทธิภาพการใช้งานที่น้อยกว่า 50 เทราฟลอป แต่สถาปัตยกรรม VSORA กลับมีประสิทธิภาพมากกว่าถึง 10 เท่า

ตัวเร่งอัลกอริทึมของ VSORA

VSORA เปิดตัวตัวเร่งความเร็วอัลกอริทึมสองคลาส ได้แก่ ตระกูล Tyr สำหรับแอปพลิเคชัน AD และตระกูล Jotunn สำหรับการเร่งความเร็ว GenAI ทั้งสองรุ่นให้ทรูพุตที่โดดเด่น มีความล่าช้าน้อยที่สุด และใช้พลังงานต่ำโดยใช้ขนาดซิลิคอนเพียงเล็กน้อย

ด้วยประสิทธิภาพที่กำหนดสูงสุดถึงสาม Petaflops จึงมีประสิทธิภาพในการใช้งานทั่วไปที่ 50-80% โดยไม่คำนึงถึงประเภทของอัลกอริทึม และการใช้พลังงานสูงสุดที่ 30 วัตต์/Petaflops สิ่งเหล่านี้เป็นคุณลักษณะที่โดดเด่น ซึ่งยังไม่มีรายงานโดยตัวเร่งความเร็ว AI คู่แข่งใดๆ

Tyr และ Jotunn สามารถตั้งโปรแกรมได้อย่างสมบูรณ์และผสานรวมความสามารถของ AI และ DSP แม้ว่าจะมีจำนวนที่แตกต่างกัน และรองรับการเลือกเลขคณิตได้ทันทีตั้งแต่ 8 บิตไปจนถึง 64 บิต ไม่ว่าจะเป็นจำนวนเต็มหรือจำนวนจุดลอยตัว ความสามารถในการโปรแกรมได้รองรับจักรวาลของอัลกอริธึม ทำให้อัลกอริธึมไม่เชื่อเรื่องพระเจ้า นอกจากนี้ยังรองรับความกระจัดกระจายประเภทต่างๆ หลายประเภทด้วย

คุณลักษณะของโปรเซสเซอร์ VSORA ขับเคลื่อนพวกเขาให้อยู่แถวหน้าของแนวการประมวลผลอัลกอริธึมที่มีการแข่งขันสูง

ซอฟต์แวร์สนับสนุน VSORA

VSORA ได้ออกแบบแพลตฟอร์มการคอมไพล์/การตรวจสอบที่ไม่ซ้ำใครซึ่งปรับให้เหมาะกับสถาปัตยกรรมฮาร์ดแวร์เพื่อให้แน่ใจว่าอุปกรณ์ SoC ประสิทธิภาพสูงที่ซับซ้อนมีการรองรับซอฟต์แวร์มากมาย

มีจุดมุ่งหมายเพื่อให้ผู้ออกแบบอัลกอริทึมในห้องนักบิน ช่วงของระดับการตรวจสอบ/การตรวจสอบตามลำดับชั้น เช่น ESL, ไฮบริด, RTL และเกท จะส่งข้อเสนอแนะแบบกดปุ่มไปยังวิศวกรอัลกอริทึมเพื่อตอบสนองต่อการออกแบบการสำรวจอวกาศ สิ่งนี้ช่วยให้เขาหรือเธอเลือกประนีประนอมที่ดีที่สุดระหว่างประสิทธิภาพ เวลาแฝง พลังงาน และพื้นที่ โค้ดโปรแกรมที่เขียนด้วยนามธรรมระดับสูงสามารถแมปโดยกำหนดเป้าหมายไปที่แกนประมวลผลที่แตกต่างกันอย่างโปร่งใสให้กับผู้ใช้

การเชื่อมต่อระหว่างคอร์สามารถทำได้ภายในซิลิคอนเดียวกัน ระหว่างชิปบน PCB เดียวกัน หรือผ่านการเชื่อมต่อ IP การซิงโครไนซ์ระหว่างคอร์จะได้รับการจัดการโดยอัตโนมัติ ณ เวลาคอมไพล์ และไม่ต้องใช้ซอฟต์แวร์แบบเรียลไทม์

สิ่งกีดขวางบนถนนสู่การขับขี่อัตโนมัติ L4/L5 และการอนุมาน AI เชิงสร้างสรรค์ที่ Edge

โซลูชันที่ประสบความสำเร็จควรรวมถึงความสามารถในการโปรแกรมในภาคสนามด้วย อัลกอริธึมพัฒนาอย่างรวดเร็ว โดยได้รับแรงผลักดันจากแนวคิดใหม่ๆ ที่ล้าสมัยในชั่วข้ามคืนจากความทันสมัยของเมื่อวาน ความสามารถในการอัพเกรดอัลกอริธึมในภาคสนามถือเป็นข้อได้เปรียบที่สำคัญ

ในขณะที่บริษัทระดับไฮเปอร์สเกลได้รวบรวมฟาร์มคอมพิวเตอร์ขนาดใหญ่ที่มีโปรเซสเซอร์ประสิทธิภาพสูงสุดจำนวนมากเพื่อจัดการกับอัลกอริธึมซอฟต์แวร์ขั้นสูง แนวทางนี้ใช้ได้จริงสำหรับการฝึกอบรมเท่านั้น ไม่ใช่สำหรับการอนุมานที่ Edge

โดยทั่วไปการฝึกอบรมจะขึ้นอยู่กับเลขคณิตทศนิยมแบบ 32 บิตหรือ 64 บิตที่สร้างปริมาณข้อมูลขนาดใหญ่ ไม่กำหนดเวลาแฝงที่เข้มงวดและทนทานต่อการใช้พลังงานสูงและค่าใช้จ่ายจำนวนมาก

โดยทั่วไปการอนุมานที่ Edge จะดำเนินการกับเลขคณิตทศนิยม 8 บิตซึ่งสร้างข้อมูลได้ค่อนข้างน้อย แต่ควบคุมเวลาแฝงที่แน่วแน่ ใช้พลังงานต่ำ และต้นทุนต่ำ

ผลกระทบของการใช้พลังงานต่อเวลาแฝงและประสิทธิภาพ

การใช้พลังงานใน CMOS ICs ถูกครอบงำโดยการเคลื่อนที่ของข้อมูล ไม่ใช่การประมวลผลข้อมูล

การศึกษาของมหาวิทยาลัยสแตนฟอร์ดที่นำโดยศาสตราจารย์มาร์ค โฮโรวิทซ์ แสดงให้เห็นว่าการใช้พลังงานในการเข้าถึงหน่วยความจำนั้นใช้พลังงานในระดับที่มากกว่าการคำนวณลอจิกดิจิทัลขั้นพื้นฐาน ดูตารางที่ 2

การขับขี่อัตโนมัติและการอนุมาน AI เชิงสร้างสรรค์ที่ Edge
คำอธิบายตารางที่ 20: ตัวบวกและตัวคูณกระจายจาก Picojoule น้อยกว่าหนึ่งตัวเมื่อใช้เลขคณิตจำนวนเต็มเป็น Picojoule สองสามตัวเมื่อประมวลผลเลขคณิตจุดลอยตัว พลังงานที่ใช้ในการเข้าถึงข้อมูลในแคชจะเพิ่มขึ้นหนึ่งลำดับขนาดเป็น 100-1,000 PicoJoule และเพิ่มขึ้นสามลำดับเป็นขนาดมากกว่า XNUMX PicoJoule เมื่อมีการเข้าถึงข้อมูลใน DRAM ที่มา: มหาวิทยาลัยสแตนฟอร์ด

ตัวเร่งความเร็ว AD และ GenAI เป็นตัวอย่างสำคัญของอุปกรณ์ที่มีการเคลื่อนย้ายข้อมูลซึ่งก่อให้เกิดความท้าทายในการควบคุมการใช้พลังงาน

สรุป

การอนุมาน AD และ GenAI ก่อให้เกิดความท้าทายที่ไม่สำคัญเพื่อให้บรรลุการใช้งานที่ประสบความสำเร็จ VSORA สามารถนำเสนอโซลูชันฮาร์ดแวร์ที่ครอบคลุมและซอฟต์แวร์ที่รองรับเพื่อตอบสนองความต้องการที่สำคัญทั้งหมดในการจัดการ AD L4/L5 และ GenAI เช่นการเร่งความเร็ว GPT-4 ด้วยต้นทุนที่เป็นไปได้ในเชิงพาณิชย์

รายละเอียดเพิ่มเติมเกี่ยวกับ VSORA และ Tyr และ Jotunn สามารถดูได้ที่ www.vsora.com.

เกี่ยวกับ เลาโร ริซัตติ

Lauro Rizzati เป็นที่ปรึกษาทางธุรกิจของ วีโซร่าซึ่งเป็นสตาร์ทอัพเชิงนวัตกรรมที่นำเสนอโซลูชัน IP ซิลิคอนและชิปซิลิคอน และที่ปรึกษาด้านการตรวจสอบที่มีชื่อเสียงและผู้เชี่ยวชาญในอุตสาหกรรมด้านการจำลองฮาร์ดแวร์ ก่อนหน้านี้เขาดำรงตำแหน่งในฝ่ายบริหาร การตลาดผลิตภัณฑ์ การตลาดเชิงเทคนิค และวิศวกรรม

ยังอ่าน:

Soitec คือวิศวกรรมแห่งอนาคตของอุตสาหกรรมเซมิคอนดักเตอร์

ISO 21434 สำหรับการพัฒนา SoC ที่ตระหนักถึงความปลอดภัยทางไซเบอร์

การบำรุงรักษาเชิงคาดการณ์ในบริบทของความปลอดภัยในการใช้งานของยานยนต์

แชร์โพสต์นี้ผ่าน:

ประทับเวลา:

เพิ่มเติมจาก กึ่งวิกิ