การเติบโตของโครงข่ายประสาทเทียมจำเป็นต้องมีการปรับขนาดเซมิคอนดักเตอร์ที่ไม่เคยมีมาก่อน

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ความจริงก็คือเราเป็นเพียงจุดเริ่มต้นของการปฏิวัติปัญญาประดิษฐ์ (AI) ความสามารถของ AI กำลังเริ่มแสดงให้เห็นสิ่งที่จะเกิดขึ้นในอนาคต ตัวอย่างเช่น รถยนต์ใช้โมเดลโครงข่ายประสาทเทียมขนาดใหญ่ที่ซับซ้อนเพื่อไม่เพียงแต่เข้าใจสภาพแวดล้อมเท่านั้น แต่ยังเพื่อควบคุมและควบคุมตัวเองด้วย สำหรับแอปพลิเคชันใดๆ จะต้องมีข้อมูลการฝึกอบรมเพื่อสร้างเครือข่ายที่เป็นประโยชน์ ขนาดของทั้งการฝึกอบรมและการอนุมานกำลังเติบโตอย่างรวดเร็ว เนื่องจากมีการรวมข้อมูลที่เป็นประโยชน์ในโลกแห่งความเป็นจริงไว้ในแบบจำลอง มาดูการเติบโตของโมเดลในช่วงหลายปีที่ผ่านมาเพื่อทำความเข้าใจว่าสิ่งนี้ขับเคลื่อนความต้องการพลังการประมวลผลสำหรับการฝึกอบรมและการอนุมานได้อย่างไร

ในการนำเสนอที่ Ansys 2021 Ideas Digital Forum รองประธานฝ่ายวิศวกรรมของ Cerebras, Dhiraj Mallik ได้ให้ข้อมูลเชิงลึกเกี่ยวกับการเติบโตของโมเดลโครงข่ายประสาทเทียม ในช่วงสองปีที่ผ่านมา ขนาดของโมเดลเพิ่มขึ้น 1000 เท่า จาก BERT Base (110 MB) เป็น GPT-3 (175 GB) และที่สำคัญคือรุ่น MSFT-1T ขนาด 1 TB รุ่น GPT-3 ซึ่งเป็นหัวข้อที่น่าสนใจในตัวมันเอง ได้รับการฝึกฝนกับฮาร์ดแวร์ทั่วไปโดยใช้ GPU 1024 ตัวเป็นเวลา 4 เดือน เป็นรูปแบบการประมวลผลภาษาธรรมชาติ (NLP) ที่ใช้ข้อมูลข้อความส่วนใหญ่บนอินเทอร์เน็ตและแหล่งข้อมูลอื่นๆ ได้รับการพัฒนาโดย Open AI และปัจจุบันเป็นพื้นฐานสำหรับ OpenAI Codex ซึ่งเป็นแอปพลิเคชันที่สามารถเขียนโค้ดโปรแกรมที่มีประโยชน์ในหลายภาษาจากคำแนะนำภาษาธรรมดาจากผู้ใช้ GPT-3 สามารถใช้เขียนบทความสั้น ๆ ที่ผู้อ่านส่วนใหญ่ไม่สามารถบอกได้ว่าเขียนโดยโปรแกรม AI

ดังที่คุณเห็นข้างต้น การใช้ GPU 1024 ตัวเป็นเวลา 4 เดือนนั้นเป็นไปไม่ได้ ในการบรรยายของเขาในหัวข้อ “Delivering Unprecedented AP Acceleration: Beyond Moore's Law” Dhiraj ชี้ให้เห็นว่าความก้าวหน้าที่จำเป็นในการสนับสนุนการเติบโตของเซมิคอนดักเตอร์ในระดับนี้ไปไกลเกินกว่าที่เราเคยเห็นในกฎของ Moore เพื่อตอบสนองต่อความต้องการของตลาดที่รับรู้นี้ Cerebras ได้เปิดตัว WSE-1 ซึ่งเป็นกลไก AI ขนาดเวเฟอร์ในปี 2019 ซึ่งใหญ่กว่าชิปใดๆ ที่เคยผลิตถึง 56 เท่า หนึ่งปีครึ่งต่อมาพวกเขาได้ประกาศเปิดตัว WSE-2 ซึ่งเป็นชิปที่ใหญ่ที่สุดอีกครั้งหนึ่งซึ่งทุกๆ ตัวสร้างขึ้นด้วย:

ทรานซิสเตอร์ 6 ล้านล้านตัว
คอร์ AI ที่ปรับให้เหมาะสมแล้ว 850,000 คอร์
40 GB RAM
แบนด์วิธหน่วยความจำ 20 เพตาไบต์/วินาที
แบนด์วิธแฟบริค 220 เพตาไบต์
สร้างด้วยกระบวนการ N7 ของ TSMC
เวเฟอร์ประกอบด้วย 84 ดาย แต่ละอันกว้าง 550 มม².

ระบบ CS-2 ที่ห่อหุ้ม WSE-2 สามารถรองรับโมเดล AI ที่มีพารามิเตอร์ 120 ล้านล้านพารามิเตอร์ สิ่งที่น่าประทับใจยิ่งกว่าคือระบบ CS-2 สามารถสร้างเป็นคลัสเตอร์ 192 ยูนิตได้ เพื่อให้ได้รับประสิทธิภาพที่เพิ่มขึ้นเกือบเชิงเส้น Cerebras ได้พัฒนาระบบย่อยหน่วยความจำที่แยกหน่วยความจำและการคำนวณเพื่อให้มีการปรับขนาดที่ดีขึ้นและปริมาณงานที่ดีขึ้นสำหรับโมเดลที่มีขนาดใหญ่มาก Cerebras ยังได้พัฒนาการปรับให้เหมาะสมสำหรับความเบาบางในชุดฝึกซ้อม ซึ่งช่วยประหยัดเวลาและพลังงาน

การนำเสนอของ Dhiraj ให้รายละเอียดเพิ่มเติมเกี่ยวกับความสามารถ โดยเฉพาะอย่างยิ่งในด้านการขยายขนาดอย่างมีประสิทธิภาพด้วยโมเดลที่ใหญ่กว่าเพื่อรักษาปริมาณงานและความจุ จากมุมมองของเซมิคอนดักเตอร์ ยังน่าสนใจที่จะเห็นว่า Cerebras วิเคราะห์การตกของ IR การโยกย้ายด้วยไฟฟ้า และสัญญาณ ESD ในการออกแบบที่มีขนาด 2 ลำดับความสำคัญที่ใหญ่กว่าสิ่งอื่นๆ ที่เคยพยายามโดยอุตสาหกรรมเซมิคอนดักเตอร์ได้อย่างไร Dhiraj พูดถึงวิธีที่ในแต่ละระดับของการออกแบบ ไม่ว่าจะเป็นไทล์ บล็อก และเวเฟอร์เต็ม Cerebras ใช้ Ansys RedHawk-SC กับ CPU หลายตัวเพื่อส่งสัญญาณ IR แบบคงที่และไดนามิก RedHawk-SC ยังใช้สำหรับการตรวจสอบการโยกย้ายด้วยไฟฟ้ากำลังและสัญญาณ ในทำนองเดียวกัน พวกเขาใช้ Ansys Pathfinder สำหรับความต้านทาน ESD และการตรวจสอบความหนาแน่นกระแส

ด้วยชิ้นส่วนซิลิคอนขนาดใหญ่ถึง 7 นาโนเมตร การตัดสินใจเกี่ยวกับเครื่องมือจึง “สร้างหรือพัง” อย่างแท้จริง การสร้างซิลิคอนที่พลิกโฉมนี้จำเป็นต้องอาศัยตัวเลือกที่ได้รับการพิจารณาเป็นอย่างดีในกระบวนการพัฒนา และแน่นอนว่าความสามารถที่ไม่มีใครเทียบได้คือข้อกังวลหลัก อย่างไรก็ตาม ดังที่การนำเสนอของ Dhiraj แสดงให้เห็นอย่างชัดเจน ระดับพลังการประมวลผลที่เพิ่มขึ้นของ CS-2 นั้นจำเป็นต่อการจัดการอัตราการเติบโตที่เราเห็นในโมเดล AI/ML ไม่ต้องสงสัยเลยว่าเราจะได้เห็นนวัตกรรมที่เกินจินตนาการของเราในปัจจุบันในด้าน AI เช่นเดียวกับที่เว็บและระบบคลาวด์ได้เปลี่ยนแปลงเทคโนโลยีและแม้แต่สังคม เราก็สามารถคาดหวังการพัฒนาเทคโนโลยี AI ใหม่ที่จะเปลี่ยนแปลงโลกของเราในรูปแบบที่น่าทึ่ง หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับซิลิคอน Cerebras โปรดดูการนำเสนอของ Dhiraj บน Ansys IDEAS Digital Forum ที่ www.ansys.com/ideas.

แชร์โพสต์นี้ผ่าน: ที่มา: https://semiwiki.com/eda/303587-neural-network-growth-requires-unprecedented-semiconductor-scaling/

ประทับเวลา: ตุลาคม 20, 2021

ประทับเวลา: สิงหาคม 2, 2023

สตาร์ทอัพซิลิคอน ติดอาวุธให้ตัวเอง และกระตุ้นความสำเร็จของคุณ…. Spotlight: การประชุมเซมิคอนดักเตอร์

คลัสเตอร์ต้นทาง:

กึ่งวิกิ

โหนดต้นทาง: 1153131

ประทับเวลา: ตุลาคม 17, 2021

การตรวจสอบทางกายภาพ 3DIC, Siemens EDA และ TSMC

คลัสเตอร์ต้นทาง:

กึ่งวิกิ

โหนดต้นทาง: 1945057

ประทับเวลา: กุมภาพันธ์ 7, 2023

การเติบโตของโครงข่ายประสาทเทียมจำเป็นต้องมีการปรับขนาดเซมิคอนดักเตอร์อย่างที่ไม่เคยมีมาก่อน

เผยแพร่ซ้ำโดยเพลโต

เพิ่มเติมจาก กึ่งวิกิ

MIPI PHY IP เกรดยานยนต์ขับเคลื่อนโซลูชันหลายเซ็นเซอร์ – Semiwiki

ทั้งหมดเกี่ยวกับทรานซิสเตอร์ - 57 พันล้านเหตุผลที่ Apple/TSMC บดขยี้มัน

การลดลงอย่างมากในไตรมาสที่ 1 ปี 2003 – Semiwiki

การอนุมาน AI ที่ปรับให้เหมาะกับพื้นที่สำหรับแอปพลิเคชันที่คำนึงถึงต้นทุน

ข้อมูลเชิงลึกเกี่ยวกับแนวโน้ม DevOps ในการออกแบบฮาร์ดแวร์ – Semiwiki

AMAT- Flat ดีกว่า down-Trailing tool ที่ช่วยชดเชย memory-backlog up

คุณสมบัติ STA ใหม่จาก Cadence – Semiwiki

การพิมพ์หินเฉพาะแอปพลิเคชัน: ผ่านการแยกสำหรับ 5 นาโนเมตรขึ้นไป - Semiwiki

การตรวจสอบทางกายภาพ 3DIC, Siemens EDA และ TSMC

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้