ต้องอ่าน: 15 เอกสาร AI ที่จำเป็นสำหรับนักพัฒนา GenAI

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

บทนำ

ในขณะที่สาขาปัญญาประดิษฐ์ (AI) ยังคงเติบโตและพัฒนาอย่างต่อเนื่อง นักพัฒนา AI ที่ต้องการจะติดตามข่าวสารล่าสุดเกี่ยวกับการวิจัยและความก้าวหน้าล่าสุดจึงมีความสำคัญมากขึ้นเรื่อยๆ หนึ่งในวิธีที่ดีที่สุดในการทำเช่นนี้คือการอ่านเอกสาร AI สำหรับนักพัฒนา GenAI ซึ่งให้ข้อมูลเชิงลึกอันมีค่าเกี่ยวกับเทคนิคและอัลกอริธึมที่ล้ำสมัย บทความนี้จะสำรวจเอกสาร AI ที่จำเป็น 15 ฉบับสำหรับนักพัฒนา GenAI เอกสารเหล่านี้ครอบคลุมหัวข้อต่างๆ ตั้งแต่การประมวลผลภาษาธรรมชาติไปจนถึงคอมพิวเตอร์วิทัศน์ พวกเขาจะช่วยเพิ่มความเข้าใจเกี่ยวกับ AI และเพิ่มโอกาสในการได้งานแรกในสาขาที่น่าตื่นเต้นนี้

ความสำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

AI Papers สำหรับนักพัฒนา GenAI ช่วยให้นักวิจัยและผู้เชี่ยวชาญสามารถแบ่งปันข้อค้นพบ วิธีการ และความก้าวหน้าของตนกับชุมชนในวงกว้าง ด้วยการอ่านเอกสารเหล่านี้ คุณจะสามารถเข้าถึงความก้าวหน้าล่าสุดใน AI ซึ่งช่วยให้คุณก้าวนำหน้าและตัดสินใจอย่างมีข้อมูลในงานของคุณ นอกจากนี้ AI Papers สำหรับนักพัฒนา GenAI มักจะให้คำอธิบายโดยละเอียดเกี่ยวกับอัลกอริธึมและเทคนิคต่างๆ เพื่อให้คุณเข้าใจวิธีการทำงานและวิธีนำไปใช้กับปัญหาในโลกแห่งความเป็นจริงได้อย่างลึกซึ้งยิ่งขึ้น

การอ่านเอกสาร AI สำหรับนักพัฒนา GenAI ให้ประโยชน์หลายประการสำหรับนักพัฒนา AI ที่ต้องการ ประการแรก จะช่วยให้คุณได้รับข่าวสารล่าสุดเกี่ยวกับการวิจัยและแนวโน้มล่าสุดในสาขานี้ ความรู้นี้มีความสำคัญอย่างยิ่งเมื่อสมัครงานที่เกี่ยวข้องกับ AI เนื่องจากนายจ้างมักจะมองหาผู้สมัครที่คุ้นเคยกับความก้าวหน้าล่าสุด นอกจากนี้ การอ่านเอกสาร AI ยังช่วยให้คุณขยายความรู้และเข้าใจแนวคิดและวิธีการของ AI อย่างลึกซึ้งยิ่งขึ้น ความรู้นี้สามารถนำไปใช้กับโครงการและการวิจัยของคุณ ทำให้คุณเป็นนักพัฒนา AI ที่มีความสามารถและมีทักษะมากขึ้น

สารบัญ

ภาพรวม: เอกสาร AI ที่จำเป็นสำหรับนักพัฒนา GenAI พร้อมลิงก์

เอกสารที่ 1: Transformers: สิ่งที่คุณต้องการคือความเอาใจใส่

Link: อ่านที่นี่

สรุปกระดาษ

บทความนี้จะแนะนำ Transformer ซึ่งเป็นสถาปัตยกรรมโครงข่ายประสาทเทียมแบบใหม่สำหรับงานการถ่ายโอนลำดับ เช่น การแปลด้วยเครื่อง ต่างจากโมเดลแบบดั้งเดิมที่ใช้โครงข่ายประสาทเทียมแบบเกิดซ้ำหรือแบบสลับซับซ้อน Transformer อาศัยกลไกความสนใจเพียงอย่างเดียว โดยไม่จำเป็นต้องเกิดซ้ำและการบิดงอ ผู้เขียนยืนยันว่าสถาปัตยกรรมนี้ให้ประสิทธิภาพที่เหนือกว่าในแง่ของคุณภาพการแปล เพิ่มความสามารถในการทำงานคู่ขนาน และลดเวลาการฝึกอบรม

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

กลไกการเอาใจใส่

Transformer สร้างขึ้นจากกลไกความสนใจทั้งหมด ทำให้สามารถจับการพึ่งพาทั่วโลกระหว่างลำดับอินพุตและเอาต์พุต แนวทางนี้ทำให้แบบจำลองสามารถพิจารณาความสัมพันธ์โดยไม่ถูกจำกัดด้วยระยะห่างระหว่างองค์ประกอบในลำดับ

การขนานกัน
ข้อได้เปรียบที่สำคัญประการหนึ่งของสถาปัตยกรรม Transformer คือความสามารถในการทำงานแบบขนานที่เพิ่มขึ้น โมเดลการเกิดซ้ำแบบเดิมๆ ประสบปัญหาจากการคำนวณตามลำดับ ทำให้การทำคู่ขนานมีความท้าทาย การออกแบบของ Transformer ช่วยให้การประมวลผลแบบขนานมีประสิทธิภาพมากขึ้นในระหว่างการฝึกอบรม ซึ่งช่วยลดเวลาการฝึกอบรม

คุณภาพและประสิทธิภาพที่เหนือกว่า

บทความนี้นำเสนอผลการทดลองเกี่ยวกับการแปลด้วยเครื่อง ซึ่งแสดงให้เห็นว่า Transformer มีคุณภาพการแปลที่เหนือกว่าเมื่อเทียบกับรุ่นที่มีอยู่ มันมีประสิทธิภาพเหนือกว่าผลลัพธ์ที่ล้ำสมัยก่อนหน้านี้ รวมถึงรุ่นทั้งมวล ด้วยส่วนต่างที่สำคัญ นอกจากนี้ Transformer ยังบรรลุผลเหล่านี้โดยใช้เวลาฝึกอบรมน้อยลงมาก

ประสิทธิภาพการแปล

ในงานการแปลภาษาอังกฤษเป็นภาษาเยอรมันของ WMT 2014 โมเดลที่นำเสนอได้รับคะแนน BLEU ที่ 28.4 ซึ่งเหนือกว่าผลลัพธ์ที่ดีที่สุดที่มีอยู่มากกว่า 2 BLEU ในงานภาษาอังกฤษเป็นภาษาฝรั่งเศส แบบจำลองนี้สร้างคะแนน BLEU ของโมเดลเดี่ยวที่ล้ำสมัยใหม่ที่ 41.8 หลังจากการฝึกฝนเพียง 3.5 วันบน GPU แปดตัว

ลักษณะทั่วไปสำหรับงานอื่น ๆผู้เขียนแสดงให้เห็นว่าสถาปัตยกรรม Transformer สามารถสรุปงานต่างๆ นอกเหนือจากการแปลด้วยเครื่องได้เป็นอย่างดี พวกเขาประสบความสำเร็จในการนำแบบจำลองไปใช้กับการแยกวิเคราะห์เขตเลือกตั้งภาษาอังกฤษ ซึ่งแสดงให้เห็นถึงความสามารถในการปรับตัวให้เข้ากับปัญหาการถ่ายโอนลำดับต่างๆ

เอกสารที่ 2: BERT: การฝึกอบรมล่วงหน้าเกี่ยวกับหม้อแปลงสองทิศทางเชิงลึกเพื่อการทำความเข้าใจภาษา

Link: อ่านที่นี่

สรุปกระดาษ

แบบจำลองภาษาก่อนการฝึกอบรมได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในการปรับปรุงงานการประมวลผลภาษาธรรมชาติต่างๆ บทความนี้จะแยกความแตกต่างระหว่างแนวทางตามคุณลักษณะและแนวทางการปรับแต่งสำหรับการประยุกต์ใช้การนำเสนอภาษาที่ได้รับการฝึกอบรมล่วงหน้า BERT ได้รับการแนะนำเพื่อจัดการกับข้อจำกัดในแนวทางการปรับแต่ง โดยเฉพาะอย่างยิ่งข้อจำกัดด้านทิศทางเดียวของโมเดลภาษามาตรฐาน บทความนี้เสนอวัตถุประสงค์ก่อนการฝึกอบรม "Masked Language Model" (MLM) ซึ่งได้รับแรงบันดาลใจจากงาน Cloze เพื่อให้สามารถนำเสนอแบบสองทิศทางได้ งาน "การทำนายประโยคถัดไป" ยังใช้เพื่อร่วมกันฝึกการแทนคู่ข้อความล่วงหน้า

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

ความสำคัญก่อนการฝึกอบรมแบบสองทิศทาง

บทความนี้เน้นถึงความสำคัญของการฝึกอบรมล่วงหน้าแบบสองทิศทางสำหรับการแทนภาษา ต่างจากรุ่นก่อนๆ BERT ใช้โมเดลภาษาที่ปกปิดเพื่อเปิดใช้งานการแสดงแบบสองทิศทางเชิงลึก ซึ่งเหนือกว่าโมเดลภาษาทิศทางเดียวที่ใช้ในงานก่อนๆ

ลดสถาปัตยกรรมเฉพาะงาน

BERT แสดงให้เห็นว่าการนำเสนอที่ได้รับการฝึกอบรมล่วงหน้าช่วยลดความจำเป็นในการใช้สถาปัตยกรรมเฉพาะงานที่ได้รับการออกแบบทางวิศวกรรมอย่างหนัก กลายเป็นโมเดลการนำเสนอที่มีการปรับแต่งอย่างละเอียดตัวแรกที่บรรลุประสิทธิภาพที่ล้ำสมัยในงานระดับประโยคและระดับโทเค็นที่หลากหลาย ซึ่งมีประสิทธิภาพเหนือกว่าสถาปัตยกรรมเฉพาะงาน

ความก้าวหน้าอันล้ำสมัย

BERT บรรลุผลลัพธ์ที่ล้ำสมัยในงานประมวลผลภาษาธรรมชาติ 1.1 งาน ซึ่งแสดงให้เห็นถึงความเก่งกาจของมัน การปรับปรุงที่โดดเด่น ได้แก่ การเพิ่มขึ้นอย่างมากในคะแนน GLUE, ความแม่นยำของ MultiNLI และการปรับปรุงในงานตอบคำถาม SQuAD v2.0 และ vXNUMX

คุณยังสามารถอ่าน: การปรับ BERT อย่างละเอียดด้วยการสร้างแบบจำลองภาษามาสก์

เอกสาร 3: GPT: โมเดลภาษาเป็นผู้เรียนเพียงไม่กี่คน

Link: อ่านที่นี่

สรุปกระดาษ

บทความนี้กล่าวถึงการปรับปรุงที่ประสบความสำเร็จในงานการประมวลผลภาษาธรรมชาติ (NLP) โดยการขยายขนาดแบบจำลองภาษา โดยมุ่งเน้นไปที่ จีพีที-3 (Generative Pre-trained Transformer 3) ซึ่งเป็นโมเดลภาษาแบบถอยหลังอัตโนมัติพร้อมพารามิเตอร์ 175 พันล้านพารามิเตอร์ ผู้เขียนเน้นว่าในขณะที่ล่าสุด โมเดล NLP แสดงให้เห็นถึงประโยชน์อย่างมากผ่านการฝึกอบรมล่วงหน้าและการปรับแต่งอย่างละเอียด โดยมักจะต้องใช้ชุดข้อมูลเฉพาะงานพร้อมตัวอย่างหลายพันรายการสำหรับการปรับแต่งอย่างละเอียด ในทางตรงกันข้าม มนุษย์สามารถทำงานด้านภาษาใหม่ได้ด้วยตัวอย่างหรือคำแนะนำง่ายๆ

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

การขยายขนาดจะปรับปรุงประสิทธิภาพการยิงไม่กี่นัด
ผู้เขียนแสดงให้เห็นว่าการขยายขนาดโมเดลภาษาช่วยเพิ่มประสิทธิภาพการทำงานเพียงไม่กี่ขั้นตอนที่ไม่เชื่อเรื่องพระเจ้าได้อย่างมาก GPT-3 ซึ่งมีขนาดพารามิเตอร์ที่ใหญ่ บางครั้งสามารถแข่งขันได้ด้วยแนวทางการปรับแต่งที่ล้ำสมัย โดยไม่ต้องมีการปรับแต่งอย่างละเอียดเฉพาะงานหรือการอัพเดตการไล่ระดับสี
การบังคับใช้ในวงกว้าง

GPT-3 แสดงให้เห็นประสิทธิภาพที่โดดเด่นในงาน NLP ต่างๆ รวมถึงการแปล การตอบคำถาม งานปิดบัง และงานที่ต้องใช้การให้เหตุผลแบบทันทีหรือการปรับเปลี่ยนโดเมน
ความท้าทายและข้อจำกัด

แม้ว่า GPT-3 จะแสดงความสามารถในการเรียนรู้แบบไม่กี่ช็อตที่น่าทึ่ง แต่ผู้เขียนก็ระบุชุดข้อมูลที่มีปัญหาและเน้นประเด็นด้านระเบียบวิธีที่เกี่ยวข้องกับการฝึกอบรมบนเว็บคอร์ปอราขนาดใหญ่
การสร้างบทความที่เหมือนมนุษย์

GPT-3 สามารถสร้างบทความข่าวที่ผู้ประเมินที่เป็นมนุษย์พบว่าแยกแยะได้ยากจากบทความที่เขียนโดยมนุษย์
ผลกระทบต่อสังคมและการพิจารณาในวงกว้าง

บทความนี้กล่าวถึงผลกระทบทางสังคมในวงกว้างจากความสามารถของ GPT-3 โดยเฉพาะอย่างยิ่งในการสร้างข้อความที่มีลักษณะเหมือนมนุษย์ ผลกระทบของการปฏิบัติงานในงานต่างๆ ได้รับการพิจารณาในแง่ของการใช้งานจริงและความท้าทายที่อาจเกิดขึ้น
ข้อจำกัดของแนวทาง NLP ในปัจจุบัน

ผู้เขียนเน้นย้ำถึงข้อจำกัดของแนวทาง NLP ในปัจจุบัน โดยเฉพาะอย่างยิ่งการพึ่งพาชุดข้อมูลการปรับแต่งเฉพาะงาน ซึ่งก่อให้เกิดความท้าทาย เช่น ข้อกำหนดสำหรับชุดข้อมูลที่มีป้ายกำกับขนาดใหญ่ และความเสี่ยงในการติดตั้งมากเกินไปเพื่อกระจายงานให้แคบลง นอกจากนี้ ยังมีความกังวลเกิดขึ้นเกี่ยวกับความสามารถทั่วไปของโมเดลเหล่านี้ที่อยู่นอกขอบเขตของการกระจายการฝึก

เอกสารที่ 4: CNN: การจำแนกประเภทของ ImageNet ด้วยโครงข่ายประสาทเทียมแบบ Deep Convolutional

Link: อ่านที่นี่

สรุปกระดาษ

บทความนี้อธิบายถึงการพัฒนาและการฝึกอบรมโครงข่ายประสาทเทียมแบบเกลียวลึกขนาดใหญ่ (CNN) สำหรับการจำแนกภาพบนชุดข้อมูล ImageNet Large Scale Visual Recognition Challenge (ILSVRC) แบบจำลองนี้ได้รับการปรับปรุงอย่างมีนัยสำคัญในด้านความแม่นยำในการจำแนกประเภทเมื่อเปรียบเทียบกับวิธีการที่ทันสมัยก่อนหน้านี้

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

สถาปัตยกรรมจำลอง
โครงข่ายประสาทเทียมที่ใช้ในการศึกษานี้เป็น Deep CNN ที่มีพารามิเตอร์ 60 ล้านพารามิเตอร์และเซลล์ประสาท 650,000 ตัว ประกอบด้วยชั้น Convolutional 1000 ชั้น บางส่วนตามมาด้วยชั้นรวมกลุ่มสูงสุด และชั้นที่เชื่อมต่อกันทั้งหมด XNUMX ชั้นโดยมีซอฟต์แม็กซ์ XNUMX ทิศทางสุดท้ายสำหรับการจำแนกประเภท

ข้อมูลการฝึกอบรม

แบบจำลองนี้ได้รับการฝึกฝนบนชุดข้อมูลจำนวนมากซึ่งประกอบด้วยภาพความละเอียดสูง 1.2 ล้านภาพจากการประกวด ImageNet ILSVRC-2010 กระบวนการฝึกอบรมเกี่ยวข้องกับการจำแนกรูปภาพออกเป็น 1000 คลาสที่แตกต่างกัน

ประสิทธิภาพ
แบบจำลองนี้มีอัตราข้อผิดพลาด 1 อันดับแรกและ 5 อันดับแรกที่ 37.5% และ 17.0% จากข้อมูลการทดสอบ ตามลำดับ อัตราข้อผิดพลาดเหล่านี้ดีกว่าวิธีที่ทันสมัยก่อนหน้านี้อย่างมาก ซึ่งบ่งชี้ถึงประสิทธิผลของแนวทางที่เสนอ

การปรับปรุงใน Overfitting

บทความนี้แนะนำเทคนิคต่างๆ มากมายเพื่อจัดการกับปัญหาการโอเวอร์ฟิต รวมถึงเซลล์ประสาทที่ไม่อิ่มตัว การใช้งาน GPU ที่มีประสิทธิภาพเพื่อการฝึกอบรมที่เร็วขึ้น และวิธีการทำให้เป็นมาตรฐานที่เรียกว่า "การออกกลางคัน" ในเลเยอร์ที่เชื่อมต่อกันอย่างสมบูรณ์
ประสิทธิภาพการคำนวณ
แม้จะมีความต้องการด้านการคำนวณในการฝึกอบรม CNN ขนาดใหญ่ แต่กระดาษก็ตั้งข้อสังเกตว่า GPU ในปัจจุบันและการใช้งานที่ได้รับการปรับปรุงให้เหมาะสมทำให้สามารถฝึกอบรมโมเดลดังกล่าวกับภาพที่มีความละเอียดสูงได้

มีส่วนร่วม
บทความนี้เน้นย้ำถึงการมีส่วนร่วมของการศึกษา ซึ่งรวมถึงการฝึกอบรมเครือข่ายประสาทเทียมที่ใหญ่ที่สุดแห่งหนึ่งบนชุดข้อมูล ImageNet และการบรรลุผลลัพธ์ที่ล้ำสมัยในการแข่งขัน ILSVRC

คุณยังสามารถอ่าน: บทช่วยสอนที่ครอบคลุมเพื่อเรียนรู้โครงข่ายประสาทเทียมแบบ Convolutional

บทความที่ 5: GAT: เครือข่ายความสนใจแบบกราฟ

Link: อ่านที่นี่

สรุปกระดาษ

บทความนี้จะแนะนำสถาปัตยกรรมที่อิงความสนใจสำหรับการจำแนกโหนดในข้อมูลที่มีโครงสร้างกราฟ ซึ่งแสดงให้เห็นถึงประสิทธิภาพ ความคล่องตัว และประสิทธิภาพการแข่งขันในเกณฑ์มาตรฐานต่างๆ การรวมกลไกความสนใจเข้าด้วยกันพิสูจน์ให้เห็นว่าเป็นเครื่องมือที่มีประสิทธิภาพในการจัดการกราฟที่มีโครงสร้างตามอำเภอใจ

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

กราฟความสนใจเครือข่าย (GAT)GAT ใช้ประโยชน์จากเลเยอร์การเอาใจใส่ตนเองที่ปกปิดไว้เพื่อแก้ไขข้อจำกัดในวิธีการก่อนหน้านี้โดยอิงจากการบิดของกราฟ สถาปัตยกรรมช่วยให้โหนดสามารถเข้าร่วมคุณลักษณะต่างๆ ของละแวกใกล้เคียง โดยระบุน้ำหนักที่แตกต่างกันให้กับโหนดต่างๆ โดยปริยาย โดยไม่ต้องอาศัยการดำเนินการเมทริกซ์ที่มีราคาแพงหรือความรู้เบื้องต้นเกี่ยวกับโครงสร้างกราฟ

การจัดการกับความท้าทายทางสเปกตรัม

GAT จัดการกับความท้าทายหลายประการพร้อมกันในโครงข่ายประสาทเทียมแบบกราฟตามสเปกตรัม ความท้าทายของ Graph Attention Network (GAT) เกี่ยวข้องกับตัวกรองที่แปลเป็นภาษาท้องถิ่น การคำนวณที่เข้มข้น และตัวกรองที่ไม่แปลเป็นภาษาท้องถิ่น นอกจากนี้ GAT ยังขึ้นอยู่กับลักษณะเฉพาะของ Laplacian ซึ่งมีส่วนช่วยในการนำไปประยุกต์ใช้กับปัญหาอุปนัยและปัญหาการถ่ายทอด

ประสิทธิภาพเหนือเกณฑ์มาตรฐาน

โมเดล GAT บรรลุหรือจับคู่ผลลัพธ์ที่ล้ำสมัยในชุดข้อมูลเครือข่ายการอ้างอิง Cora, Citeseer และ Pubmed รวมถึงชุดข้อมูลปฏิสัมพันธ์ระหว่างโปรตีนและโปรตีน เกณฑ์มาตรฐานเหล่านี้ครอบคลุมสถานการณ์การเรียนรู้ทั้งแบบถ่ายทอดและแบบอุปนัย ซึ่งแสดงให้เห็นความเก่งกาจของ GAT

เปรียบเทียบกับแนวทางก่อนหน้า

บทความนี้ให้ภาพรวมที่ครอบคลุมของแนวทางก่อนหน้านี้ รวมถึงโครงข่ายประสาทเทียมแบบเรียกซ้ำ กราฟโครงข่ายประสาท (GNN) วิธีการทางสเปกตรัมและไม่ใช่สเปกตรัม และกลไกความสนใจ GAT รวมเอากลไกความสนใจ เพื่อให้สามารถใช้งานคู่ขนานระหว่างโหนดและเพื่อนบ้านได้อย่างมีประสิทธิภาพ และนำไปประยุกต์ใช้กับโหนดที่มีระดับต่างกันได้

ประสิทธิภาพและการบังคับใช้GAT นำเสนอการดำเนินการแบบขนานและมีประสิทธิภาพซึ่งสามารถนำไปใช้กับโหนดกราฟที่มีระดับต่างกันโดยการระบุน้ำหนักตามอำเภอใจให้กับเพื่อนบ้าน โมเดลนี้ใช้กับปัญหาการเรียนรู้แบบอุปนัยโดยตรง ทำให้เหมาะสำหรับงานที่จำเป็นต้องสรุปเป็นกราฟที่มองไม่เห็นโดยสิ้นเชิง

ความสัมพันธ์กับรุ่นก่อนหน้า

ผู้เขียนตั้งข้อสังเกตว่า GAT สามารถจัดรูปแบบใหม่เป็นอินสแตนซ์เฉพาะของ MoNet แบ่งปันความคล้ายคลึงกับเครือข่ายเชิงสัมพันธ์ และเชื่อมต่อกับงานที่ใช้การดำเนินงานเพื่อความสนใจในบริเวณใกล้เคียง แบบจำลองความสนใจที่นำเสนอจะถูกเปรียบเทียบกับแนวทางที่เกี่ยวข้อง เช่น Duan และคณะ (2017) และเดนิล และคณะ (2017)

เอกสารที่ 6: ViT: รูปภาพมีมูลค่า 16×16 คำ: หม้อแปลงไฟฟ้าสำหรับการจดจำรูปภาพตามขนาด

Link: อ่านที่นี่

สรุปกระดาษ

บทความนี้รับทราบถึงความโดดเด่นของสถาปัตยกรรมแบบ Convolutional ในคอมพิวเตอร์วิทัศน์ แม้ว่าสถาปัตยกรรม Transformer จะประสบความสำเร็จในการประมวลผลภาษาธรรมชาติก็ตาม ได้รับแรงบันดาลใจจากประสิทธิภาพและความสามารถในการปรับขนาดของหม้อแปลงใน NLP ผู้เขียนได้ใช้หม้อแปลงมาตรฐานกับรูปภาพโดยตรงโดยมีการแก้ไขเพียงเล็กน้อย

พวกเขาแนะนำ วิชัน ทรานส์ฟอร์มเมอร์ (ViT)โดยที่รูปภาพถูกแบ่งออกเป็นแพตช์ และลำดับของการฝังเชิงเส้นของแพตช์เหล่านี้ทำหน้าที่เป็นอินพุตไปยัง Transformer แบบจำลองนี้ได้รับการฝึกฝนเกี่ยวกับงานการจัดหมวดหมู่รูปภาพในลักษณะที่มีการควบคุมดูแล ในขั้นต้น เมื่อฝึกฝนกับชุดข้อมูลขนาดกลาง เช่น ImageNet โดยไม่มีการปรับมาตรฐานที่เข้มงวด ViT จะได้รับความแม่นยำที่ต่ำกว่า ResNet ที่เทียบเคียงได้เล็กน้อย

อย่างไรก็ตาม ผู้เขียนเปิดเผยว่าการฝึกอบรมขนาดใหญ่มีความสำคัญต่อความสำเร็จของ ViT ซึ่งเกินขีดจำกัดที่กำหนดโดยการไม่มีอคติเชิงอุปนัยบางประการ เมื่อได้รับการฝึกอบรมล่วงหน้าบนชุดข้อมูลขนาดใหญ่ ViT จะมีประสิทธิภาพเหนือกว่าเครือข่าย Convolutional ที่ล้ำสมัยบนการวัดประสิทธิภาพหลายรายการ รวมถึง ImageNet, CIFAR-100 และ VTAB บทความนี้เน้นย้ำถึงผลกระทบของการปรับขนาดในการบรรลุผลลัพธ์ที่น่าทึ่งด้วยสถาปัตยกรรม Transformer ในคอมพิวเตอร์วิทัศน์

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

หม้อแปลงไฟฟ้าในคอมพิวเตอร์วิทัศน์

บทความนี้ท้าทายการพึ่งพาเครือข่ายประสาทเทียม (CNN) ที่มีอยู่ในปัจจุบันสำหรับงานด้านการมองเห็นด้วยคอมพิวเตอร์ ซึ่งแสดงให้เห็นว่า Transformer บริสุทธิ์เมื่อนำไปใช้กับลำดับของแพตช์รูปภาพโดยตรง สามารถให้ประสิทธิภาพที่ยอดเยี่ยมในงานจำแนกรูปภาพได้

วิชัน ทรานส์ฟอร์มเมอร์ (ViT)

ผู้เขียนแนะนำ Vision Transformer (ViT) ซึ่งเป็นโมเดลที่ใช้กลไกการเอาใจใส่ตนเองที่คล้ายคลึงกับ Transformers ใน NLP ViT สามารถบรรลุผลการแข่งขันด้วยเกณฑ์มาตรฐานการรู้จำภาพต่างๆ รวมถึง ImageNet, CIFAR-100 และ VTAB

การฝึกอบรมล่วงหน้าและการถ่ายโอนการเรียนรู้

บทความนี้เน้นถึงความสำคัญของการฝึกอบรมล่วงหน้าเกี่ยวกับข้อมูลจำนวนมาก คล้ายกับแนวทางใน NLP จากนั้นจึงถ่ายโอนการนำเสนอที่เรียนรู้ไปยังงานการจดจำภาพเฉพาะ ViT เมื่อได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับชุดข้อมูลขนาดใหญ่ เช่น ImageNet-21k หรือ JFT-300M จะมีประสิทธิภาพเหนือกว่าเครือข่าย Convolutional ที่ล้ำสมัยในการวัดประสิทธิภาพต่างๆ

ประสิทธิภาพการคำนวณViT บรรลุผลลัพธ์ที่น่าทึ่งโดยใช้ทรัพยากรการคำนวณระหว่างการฝึกอบรมน้อยกว่ามาก เครือข่าย Convolutional ที่ล้ำสมัย ประสิทธิภาพนี้มีความโดดเด่นเป็นพิเศษเมื่อโมเดลได้รับการฝึกอบรมล่วงหน้าในขนาดใหญ่

การปรับขนาดผลกระทบ

บทความนี้เน้นถึงความสำคัญของการปรับขนาดในการบรรลุประสิทธิภาพที่เหนือกว่าด้วยสถาปัตยกรรม Transformer ในคอมพิวเตอร์วิทัศน์ การฝึกอบรมขนาดใหญ่เกี่ยวกับชุดข้อมูลที่มีรูปภาพนับล้านถึงหลายร้อยล้านภาพช่วยให้ ViT เอาชนะการขาดอคติเชิงอุปนัยที่มีอยู่ใน CNN

เอกสารที่ 7: AlphaFold2: โครงสร้างโปรตีนที่แม่นยำสูงด้วย AlphaFold

Link: อ่านที่นี่

สรุปกระดาษ

บทความเรื่อง “AlphaFold2: โครงสร้างโปรตีนที่แม่นยำสูงด้วย AlphaFold” ขอแนะนำ AlphaFold2 ซึ่งเป็นโมเดลการเรียนรู้เชิงลึกที่คาดการณ์โครงสร้างโปรตีนได้อย่างแม่นยำ AlphaFold2 ใช้ประโยชน์จากสถาปัตยกรรมที่เน้นความสนใจและประสบความสำเร็จในการพับโปรตีน

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

อัลฟ่าพับ2 ใช้โครงข่ายประสาทเทียมเชิงลึกพร้อมกลไกความสนใจเพื่อทำนายโครงสร้าง 3 มิติของโปรตีนจากลำดับกรดอะมิโน
แบบจำลองนี้ได้รับการฝึกฝนเกี่ยวกับชุดข้อมูลขนาดใหญ่ของโครงสร้างโปรตีนที่รู้จัก และได้รับความแม่นยำอย่างที่ไม่เคยมีมาก่อนในการแข่งขันการพับโปรตีนการประเมินที่สำคัญของการทำนายโครงสร้างโปรตีน (CASP14) ครั้งที่ 14
การคาดการณ์ที่แม่นยำของ AlphaFold2 สามารถปฏิวัติการค้นคว้ายา วิศวกรรมโปรตีน และสาขาอื่นๆ ของชีวเคมีได้

บทความที่ 8: GANs: เครือข่ายปฏิปักษ์ทั่วไป

Link: อ่านที่นี่

สรุปกระดาษ

บทความนี้กล่าวถึงความท้าทายในการฝึกอบรมโมเดลเชิงลึกเชิงกำเนิด และแนะนำแนวทางที่เป็นนวัตกรรมที่เรียกว่าตาข่ายฝ่ายตรงข้าม ในกรอบการทำงานนี้ โมเดลกำเนิดและแบบจำลองการเลือกปฏิบัติมีส่วนร่วมในเกมที่แบบจำลองกำเนิดมีจุดมุ่งหมายเพื่อสร้างตัวอย่างที่แยกไม่ออกจากข้อมูลจริง ในทางตรงกันข้าม โมเดลจำแนกความแตกต่างระหว่างตัวอย่างจริงและตัวอย่างที่สร้างขึ้น กระบวนการฝึกอบรมฝ่ายตรงข้ามนำไปสู่โซลูชันที่ไม่เหมือนใคร โดยมีโมเดลกำเนิดที่กู้คืนการกระจายข้อมูล

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

กรอบการทำงานฝ่ายตรงข้าม

ผู้เขียนแนะนำกรอบการทำงานที่ขัดแย้งกันซึ่งมีการฝึกอบรมแบบจำลองสองแบบพร้อมกัน ได้แก่ โมเดลกำเนิด (G) ที่รวบรวมการกระจายข้อมูล และแบบจำลองจำแนก (D) ที่ประเมินความน่าจะเป็นที่ตัวอย่างจะมาจากข้อมูลการฝึกอบรมมากกว่าแบบจำลองกำเนิด

เกมมินิแม็กซ์ขั้นตอนการฝึกอบรมเกี่ยวข้องกับการเพิ่มความน่าจะเป็นสูงสุดที่แบบจำลองการเลือกปฏิบัติจะทำผิดพลาด เฟรมเวิร์กนี้จัดทำขึ้นเพื่อเป็นเกมที่มีผู้เล่นสองคนขั้นต่ำ โดยที่โมเดลกำเนิดมีจุดมุ่งหมายเพื่อสร้างตัวอย่างที่แยกไม่ออกจากข้อมูลจริง และโมเดลแบบเลือกปฏิบัติมีจุดมุ่งหมายเพื่อจำแนกว่าตัวอย่างนั้นเป็นของจริงหรือสร้างขึ้นอย่างถูกต้อง

โซลูชันที่ไม่ซ้ำใคร

โซลูชันที่เป็นเอกลักษณ์มีอยู่ในฟังก์ชันที่กำหนดเองสำหรับ G และ D โดย G จะกู้คืนการกระจายข้อมูลการฝึก และ D เท่ากับ 1/2 ทุกแห่ง ความสมดุลนี้เกิดขึ้นได้ผ่านกระบวนการฝึกอบรมฝ่ายตรงข้าม

Perceptron หลายชั้น (MLP)ผู้เขียนแสดงให้เห็นว่าระบบทั้งหมดสามารถฝึกอบรมได้โดยใช้ backpropagation เมื่อเพอร์เซปตรอนหลายชั้นเป็นตัวแทนของ G และ D ซึ่งช่วยลดความจำเป็นในการใช้ลูกโซ่มาร์คอฟหรือเครือข่ายการอนุมานโดยประมาณที่ไม่ได้ม้วนออกในระหว่างการฝึกอบรมและสร้างตัวอย่าง

ไม่มีการอนุมานโดยประมาณ

กรอบการทำงานที่นำเสนอหลีกเลี่ยงความยุ่งยากในการประมาณการคำนวณความน่าจะเป็นที่ยากต่อการประมาณค่าความน่าจะเป็นสูงสุด นอกจากนี้ยังเอาชนะความท้าทายในการใช้ประโยชน์จากหน่วยเชิงเส้นแบบเป็นชิ้น ๆ ในบริบทเชิงกำเนิด

เอกสารที่ 9: RoBERTa: แนวทางการฝึกอบรมล่วงหน้าของ BERT ที่ได้รับการปรับให้เหมาะสมที่สุด

Link: อ่านที่นี่

สรุปกระดาษ

เอกสารฉบับนี้กล่าวถึงปัญหาการฝึกอบรมของ BERT และแนะนำ RoBERTa ซึ่งเป็นเวอร์ชันที่ได้รับการปรับปรุงให้มีประสิทธิภาพเหนือกว่า BERT การปรับเปลี่ยนขั้นตอนการฝึกอบรมของ RoBERTa และการใช้ชุดข้อมูลใหม่ (CC-NEWS) ช่วยให้ได้ผลลัพธ์ที่ล้ำสมัยในงานประมวลผลภาษาธรรมชาติหลายๆ งาน ผลการวิจัยเน้นถึงความสำคัญของตัวเลือกการออกแบบและกลยุทธ์การฝึกอบรมในประสิทธิผลของการฝึกอบรมล่วงหน้าแบบจำลองภาษา ทรัพยากรที่เผยแพร่ รวมถึงโมเดลและรหัส RoBERTa มีส่วนสนับสนุนชุมชนการวิจัย

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

การฝึกอบรม BERT

ผู้เขียนพบว่า BERTซึ่งเป็นรูปแบบภาษาที่ใช้กันอย่างแพร่หลาย ได้รับการฝึกฝนอย่างมาก ด้วยการประเมินผลกระทบของการปรับแต่งไฮเปอร์พารามิเตอร์และขนาดชุดการฝึกอย่างรอบคอบ พวกเขาแสดงให้เห็นว่าสามารถปรับปรุง BERT ให้ตรงหรือเหนือกว่าประสิทธิภาพของทุกรุ่นที่เผยแพร่หลังจากนั้นได้

ปรับปรุงสูตรการฝึกอบรม (RoBERTa)

ผู้เขียนแนะนำการปรับเปลี่ยนขั้นตอนการฝึกอบรมของ BERT ซึ่งส่งผลให้ RoBERTa การเปลี่ยนแปลงเหล่านี้เกี่ยวข้องกับการขยายระยะเวลาการฝึกอบรมด้วยชุดงานที่มีขนาดใหญ่ขึ้น การยกเลิกวัตถุประสงค์การคาดเดาประโยคถัดไป การฝึกอบรมเกี่ยวกับลำดับที่ยาวขึ้น และการปรับรูปแบบการมาสก์แบบไดนามิกสำหรับข้อมูลการฝึกอบรม

การมีส่วนร่วมของชุดข้อมูลบทความนี้แนะนำชุดข้อมูลใหม่ที่เรียกว่า CC-NEWS ซึ่งมีขนาดเทียบเคียงได้กับชุดข้อมูลอื่นๆ ที่ใช้ส่วนตัว การรวมชุดข้อมูลนี้ช่วยควบคุมเอฟเฟกต์ขนาดชุดการฝึกได้ดีขึ้น และมีส่วนช่วยปรับปรุงประสิทธิภาพในงานดาวน์สตรีม

ความสำเร็จด้านการปฏิบัติงาน

RoBERTa พร้อมการปรับเปลี่ยนที่แนะนำ บรรลุผลลัพธ์ที่ล้ำสมัยในงานการวัดประสิทธิภาพต่างๆ รวมถึง GLUE, RACE และ SQuAD มันจับคู่หรือเกินกว่าประสิทธิภาพของวิธีการ post-BERT ทั้งหมดในงานต่างๆ เช่น MNLI, QNLI, RTE, STS-B, SQuAD และ RACE

ความสามารถในการแข่งขันของการฝึกล่วงหน้าแบบจำลองภาษามาสก์

เอกสารนี้ยืนยันว่าวัตถุประสงค์ในการฝึกอบรมแบบจำลองภาษาที่ปกปิดด้วยตัวเลือกการออกแบบที่เหมาะสม สามารถแข่งขันกับวัตถุประสงค์การฝึกอบรมอื่นๆ ที่เสนอเมื่อเร็วๆ นี้

ทรัพยากรที่เผยแพร่

ผู้เขียนได้เปิดตัวโมเดล RoBERTa ของตน พร้อมด้วยโค้ดการฝึกอบรมล่วงหน้าและการปรับแต่งโค้ดที่ใช้งานใน PyTorch ซึ่งมีส่วนช่วยในการทำซ้ำและการสำรวจข้อค้นพบเพิ่มเติม

ยังอ่าน: การแนะนำ RoBERTa อย่างอ่อนโยน

บทความที่ 10: NeRF: การแสดงฉากเป็นสนามการแผ่รังสีของระบบประสาทสำหรับการสังเคราะห์มุมมอง

Link: อ่านที่นี่

สรุปกระดาษ

การเพิ่มประสิทธิภาพเกี่ยวข้องกับการลดข้อผิดพลาดระหว่างภาพที่สังเกตได้จากท่ากล้องที่ทราบและมุมมองที่เรนเดอร์จากการแสดงฉากต่อเนื่อง บทความนี้กล่าวถึงความท้าทายที่เกี่ยวข้องกับการบรรจบกันและประสิทธิภาพโดยการแนะนำการเข้ารหัสตำแหน่งเพื่อจัดการกับฟังก์ชันความถี่ที่สูงขึ้น และเสนอขั้นตอนการสุ่มตัวอย่างแบบลำดับชั้นเพื่อลดจำนวนแบบสอบถามที่จำเป็นสำหรับการสุ่มตัวอย่างที่เพียงพอ

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI`

การแสดงฉากต่อเนื่อง

บทความนี้นำเสนอวิธีการแสดงฉากที่ซับซ้อนเป็นฟิลด์ความกระจ่างใสของระบบประสาท 5D โดยใช้เครือข่าย Multilayer Perceptron (MLP) พื้นฐาน

การแสดงผลที่แตกต่าง

ขั้นตอนการเรนเดอร์ที่นำเสนอนั้นใช้เทคนิคการเรนเดอร์วอลุ่มคลาสสิก ซึ่งช่วยให้สามารถปรับให้เหมาะสมตามการไล่ระดับสีโดยใช้ภาพ RGB มาตรฐาน

กลยุทธ์การสุ่มตัวอย่างแบบลำดับชั้น

มีการนำเสนอกลยุทธ์การสุ่มตัวอย่างแบบลำดับชั้นเพื่อเพิ่มประสิทธิภาพความจุ MLP ไปยังพื้นที่ที่มีเนื้อหาฉากที่มองเห็นได้ โดยจัดการกับปัญหาการลู่เข้า

การเข้ารหัสตำแหน่งการใช้การเข้ารหัสตำแหน่งเพื่อแมปพิกัด 5D อินพุตลงในพื้นที่มิติที่สูงกว่า ช่วยให้เพิ่มประสิทธิภาพของฟิลด์ความกระจ่างของระบบประสาทสำหรับเนื้อหาฉากความถี่สูงได้สำเร็จ

วิธีการที่นำเสนอนี้เหนือกว่าแนวทางการสังเคราะห์มุมมองที่ล้ำสมัย ซึ่งรวมถึงการนำเสนอภาพสามมิติแบบนิวรัลที่เหมาะสม และการฝึกอบรมเครือข่ายเชิงลึกเชิงลึก บทความนี้แนะนำการแสดงฉากประสาทอย่างต่อเนื่องสำหรับการเรนเดอร์มุมมองแปลกใหม่เหมือนจริงที่มีความละเอียดสูงจากภาพ RGB ในการตั้งค่าที่เป็นธรรมชาติ พร้อมการเปรียบเทียบเพิ่มเติมที่แสดงในวิดีโอเสริมเพื่อเน้นประสิทธิภาพในการจัดการเรขาคณิตและรูปลักษณ์ของฉากที่ซับซ้อน

เอกสารที่ 11: FunSearch: การค้นพบทางคณิตศาสตร์จากการค้นหาโปรแกรมด้วยแบบจำลองภาษาขนาดใหญ่

Link: อ่านที่นี่

สรุปกระดาษ

บทความนี้แนะนำ FunSearch ซึ่งเป็นแนวทางใหม่ในการใช้ประโยชน์จากโมเดลภาษาขนาดใหญ่ (LLM) เพื่อแก้ปัญหาที่ซับซ้อน โดยเฉพาะอย่างยิ่งในการค้นพบทางวิทยาศาสตร์ ความท้าทายหลักที่ได้รับการจัดการคือการเกิดภาพหลอน (ภาพหลอน) ใน LLM ซึ่งนำไปสู่ข้อความที่น่าเชื่อถือแต่ไม่ถูกต้อง FunSearch ผสมผสาน LLM ที่ได้รับการอบรมเข้ากับผู้ประเมินอย่างเป็นระบบในขั้นตอนเชิงวิวัฒนาการเพื่อเอาชนะข้อจำกัดนี้

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

การแก้ปัญหาด้วย LLM
บทความนี้กล่าวถึงปัญหาของ LLM ที่รวมตัวกันหรือล้มเหลวในการสร้างแนวคิดใหม่ๆ และแก้ไขปัญหาที่ซับซ้อนให้ถูกต้อง โดยเน้นถึงความสำคัญของการค้นหาแนวคิดใหม่ๆ ที่ถูกต้องและสามารถตรวจสอบได้ โดยเฉพาะความท้าทายทางคณิตศาสตร์และวิทยาศาสตร์

ขั้นตอนวิวัฒนาการ – FunSearch

FunSearch ผสมผสาน LLM ที่ได้รับการอบรมเข้ากับผู้ประเมินในกระบวนการวิวัฒนาการ โดยจะพัฒนาโปรแกรมที่มีคะแนนต่ำไปสู่โปรแกรมที่มีคะแนนสูงซ้ำๆ เพื่อให้แน่ใจว่าจะมีการค้นพบความรู้ใหม่ๆ กระบวนการนี้เกี่ยวข้องกับการแจ้งที่ดีที่สุด การพัฒนาโครงร่างโปรแกรม การรักษาความหลากหลายของโปรแกรม และการปรับขนาดแบบอะซิงโครนัส

การประยุกต์ใช้กับ Extremal Combinatorics

บทความนี้แสดงให้เห็นถึงประสิทธิผลของ FunSearch กับปัญหาชุดหมวกในระบบรวมแบบเอ็กซ์ตรีม FunSearch ค้นพบโครงสร้างใหม่ของชุดหมวกขนาดใหญ่ ซึ่งเหนือกว่าผลลัพธ์ที่รู้จักกันดีที่สุด และให้การปรับปรุงที่ใหญ่ที่สุดในรอบ 20 ปีกับขอบเขตล่างของเส้นกำกับ

ปัญหาอัลกอริทึม – การบรรจุถังขยะออนไลน์

FunSearch ถูกนำไปใช้กับปัญหาการบรรจุถังขยะออนไลน์ ซึ่งนำไปสู่การค้นพบอัลกอริธึมใหม่ที่มีประสิทธิภาพเหนือกว่าอัลกอริธึมแบบเดิมในการกระจายความสนใจที่ได้รับการศึกษามาอย่างดี แอปพลิเคชันที่เป็นไปได้ ได้แก่ การปรับปรุงอัลกอริธึมการจัดตารางเวลางาน

โปรแกรมกับโซลูชั่นFunSearch มุ่งเน้นที่การสร้างโปรแกรมที่อธิบายวิธีแก้ปัญหา แทนที่จะแสดงวิธีแก้ปัญหาโดยตรง โปรแกรมเหล่านี้มีแนวโน้มที่จะตีความได้ง่ายกว่า อำนวยความสะดวกในการโต้ตอบกับผู้เชี่ยวชาญโดเมน และปรับใช้ได้ง่ายกว่าคำอธิบายประเภทอื่นๆ เช่น โครงข่ายประสาทเทียม

ผลกระทบสหวิทยาการ

วิธีการของ FunSearch ช่วยให้สามารถสำรวจปัญหาได้หลากหลาย ทำให้เป็นแนวทางที่หลากหลายพร้อมการใช้งานแบบสหวิทยาการ บทความนี้เน้นย้ำศักยภาพในการค้นพบทางวิทยาศาสตร์ที่ตรวจสอบได้โดยใช้ LLM

เอกสารที่ 12: VAE: เบย์รูปแบบการเข้ารหัสอัตโนมัติ

Link: อ่านที่นี่

สรุปกระดาษ

บทความ "Auto-Encoding Variational Bayes" กล่าวถึงความท้าทายของการอนุมานและการเรียนรู้ที่มีประสิทธิภาพในแบบจำลองความน่าจะเป็นแบบกำหนดทิศทางด้วยตัวแปรแฝงที่ต่อเนื่อง โดยเฉพาะอย่างยิ่งเมื่อการแจกแจงภายหลังนั้นทำได้ยากและต้องจัดการกับชุดข้อมูลขนาดใหญ่ ผู้เขียนเสนออัลกอริธึมการเรียนรู้และอนุมานแบบแปรผันสุ่มที่ปรับขนาดได้ดีสำหรับชุดข้อมูลขนาดใหญ่ และยังคงนำไปใช้ได้แม้ในการแจกแจงภายหลังที่ยากต่อการแจกแจง

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

การปรับพารามิเตอร์ใหม่ของขอบเขตล่างที่แปรผัน

บทความนี้แสดงให้เห็นถึงการปรับพารามิเตอร์ใหม่ของขอบเขตล่างของการแปรผัน ซึ่งส่งผลให้มีตัวประมาณค่าขอบเขตล่าง ตัวประมาณค่านี้รองรับการปรับให้เหมาะสมโดยใช้วิธีการสุ่มเกรเดียนต์มาตรฐาน ซึ่งทำให้มีประสิทธิภาพในการคำนวณ

การอนุมานภายหลังที่มีประสิทธิภาพสำหรับตัวแปรแฝงต่อเนื่องผู้เขียนเสนออัลกอริทึมการเข้ารหัสอัตโนมัติ VB (AEVB) สำหรับชุดข้อมูลที่มีตัวแปรแฝงต่อเนื่องต่อจุดข้อมูล อัลกอริทึมนี้ใช้ตัวประมาณค่า Stochastic Gradient Variational Bayes (SGVB) เพื่อปรับโมเดลการจดจำให้เหมาะสม ทำให้สามารถอนุมานภายหลังโดยประมาณได้อย่างมีประสิทธิภาพผ่านการสุ่มตัวอย่างจากบรรพบุรุษ วิธีนี้จะช่วยหลีกเลี่ยงแผนการอนุมานซ้ำที่มีราคาแพง เช่น Markov Chain Monte Carlo (MCMC) สำหรับแต่ละจุดข้อมูล

ข้อดีทางทฤษฎีและผลการทดลอง

ข้อได้เปรียบทางทฤษฎีของวิธีการที่เสนอนั้นสะท้อนให้เห็นในผลการทดลอง บทความนี้ชี้ให้เห็นว่าแบบจำลองการกำหนดพารามิเตอร์ใหม่และการรับรู้นำไปสู่ประสิทธิภาพในการคำนวณและความสามารถในการปรับขนาด ทำให้แนวทางนี้ใช้ได้กับชุดข้อมูลขนาดใหญ่และในสถานการณ์ที่ส่วนหลังไม่สามารถแก้ไขได้

อ่านเพิ่มเติม: เผยแก่นแท้ของ Stochastic ใน Machine Learning

บทความที่ 13: หน่วยความจำระยะสั้นแบบยาว

Link: อ่านที่นี่

สรุปกระดาษ

บทความนี้กล่าวถึงความท้าทายในการเรียนรู้ที่จะจัดเก็บข้อมูลในช่วงเวลาที่ขยายออกไปในโครงข่ายประสาทเทียมที่เกิดซ้ำ โดยแนะนำวิธีการไล่ระดับแบบใหม่ที่มีประสิทธิภาพที่เรียกว่า "หน่วยความจำระยะสั้นแบบยาว" (LSTM) ซึ่งจะช่วยเอาชนะปัญหาการไหลย้อนกลับของข้อผิดพลาดที่ไม่เพียงพอและสลายไป LSTM บังคับใช้การไหลของข้อผิดพลาดอย่างต่อเนื่องผ่าน "ภาพหมุนข้อผิดพลาดคงที่" และใช้หน่วยเกตแบบทวีคูณเพื่อควบคุมการเข้าถึง ด้วยความซับซ้อนของกาล-อวกาศในท้องถิ่น (O(1) ต่อขั้นตอนและน้ำหนักของเวลา) ผลการทดลองแสดงให้เห็นว่า LSTM มีประสิทธิภาพเหนือกว่าอัลกอริธึมที่มีอยู่เกี่ยวกับความเร็วการเรียนรู้และอัตราความสำเร็จ โดยเฉพาะอย่างยิ่งสำหรับงานที่มีความล่าช้าเป็นเวลานาน

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

การวิเคราะห์ปัญหา

บทความนี้นำเสนอการวิเคราะห์โดยละเอียดเกี่ยวกับความท้าทายที่เกี่ยวข้องกับข้อผิดพลาดย้อนกลับในเครือข่ายประสาทที่เกิดซ้ำ โดยเน้นถึงปัญหาของสัญญาณข้อผิดพลาดที่อาจระเบิดหรือหายไปเมื่อเวลาผ่านไป

บทนำของ LSTM

ผู้เขียนแนะนำ LSTM ว่าเป็นสถาปัตยกรรมใหม่ที่ออกแบบมาเพื่อแก้ไขปัญหาสัญญาณข้อผิดพลาดที่หายไปและการระเบิด LSTM รวมเอาโฟลว์ข้อผิดพลาดอย่างต่อเนื่องผ่านหน่วยพิเศษ และใช้ยูนิตเกตแบบหลายค่าเพื่อควบคุมการเข้าถึงโฟลว์ข้อผิดพลาดนี้

ผลการทดลอง

จากการทดลองกับข้อมูลประดิษฐ์ บทความนี้แสดงให้เห็นว่า LSTM มีประสิทธิภาพเหนือกว่าอัลกอริธึมเครือข่ายที่เกิดซ้ำอื่นๆ รวมถึง BPTT, RTRL, Recurrent cascade correlation, Elman nets และ Neural Sequence Chunking LSTM แสดงการเรียนรู้ที่เร็วขึ้นและอัตราความสำเร็จที่สูงขึ้น โดยเฉพาะอย่างยิ่งในการแก้ปัญหางานที่ซับซ้อนซึ่งมีความล่าช้าเป็นเวลานาน

ท้องถิ่นในอวกาศและเวลา

LSTM ได้รับการอธิบายว่าเป็นสถาปัตยกรรมท้องถิ่นในอวกาศและเวลา โดยมีความซับซ้อนในการคำนวณต่อขั้นตอนเวลาและน้ำหนักเท่ากับ O(1)

การบังคับใช้
สถาปัตยกรรม LSTM ที่นำเสนอสามารถแก้ปัญหางานล่าช้าที่ซับซ้อนและใช้เวลานานซึ่งไม่สามารถแก้ไขได้ด้วยอัลกอริธึมเครือข่ายที่เกิดซ้ำก่อนหน้านี้

ข้อจำกัดและข้อดี

บทความนี้กล่าวถึงข้อจำกัดและข้อดีของ LSTM โดยให้ข้อมูลเชิงลึกเกี่ยวกับการบังคับใช้จริงของสถาปัตยกรรมที่นำเสนอ

อ่านเพิ่มเติม: LSTM คืออะไร? รู้เบื้องต้นเกี่ยวกับหน่วยความจำระยะสั้นระยะยาว

เอกสารที่ 14: การเรียนรู้แบบจำลองภาพที่สามารถถ่ายทอดได้จากการกำกับดูแลภาษาธรรมชาติ

Link: อ่านที่นี่

สรุปกระดาษ

บทความนี้สำรวจการฝึกอบรมระบบคอมพิวเตอร์วิทัศน์ที่ล้ำสมัยโดยการเรียนรู้โดยตรงจากข้อความดิบเกี่ยวกับรูปภาพ แทนที่จะอาศัยชุดหมวดหมู่วัตถุที่กำหนดไว้ล่วงหน้าชุดตายตัว ผู้เขียนเสนองานก่อนการฝึกอบรมเพื่อคาดเดาว่าคำบรรยายภาพใดสอดคล้องกับรูปภาพที่กำหนด โดยใช้ชุดข้อมูล 400 ล้านคู่ (รูปภาพ ข้อความ) ที่รวบรวมจากอินเทอร์เน็ต โมเดลผลลัพธ์ CLIP (การฝึกอบรมล่วงหน้าภาษาและรูปภาพที่ตัดกัน) แสดงให้เห็นถึงการเรียนรู้การแสดงรูปภาพที่มีประสิทธิภาพและปรับขนาดได้ หลังจากการฝึกอบรมล่วงหน้า ภาษาที่เป็นธรรมชาติจะอ้างอิงถึงแนวคิดด้านภาพ ช่วยให้สามารถถ่ายโอนข้อมูลแบบ Zero-shot ไปยังงานดาวน์สตรีมต่างๆ ได้ CLIP ได้รับการเปรียบเทียบกับชุดข้อมูลคอมพิวเตอร์วิทัศน์มากกว่า 30 ชุด ซึ่งแสดงให้เห็นประสิทธิภาพการแข่งขันโดยไม่ต้องมีการฝึกอบรมเฉพาะงาน

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

การฝึกอบรมภาษาธรรมชาติเพื่อการมองเห็นคอมพิวเตอร์

บทความนี้สำรวจโดยใช้การควบคุมดูแลด้วยภาษาธรรมชาติเพื่อฝึกอบรมโมเดลการมองเห็นของคอมพิวเตอร์ แทนแนวทางการฝึกอบรมแบบดั้งเดิมบนชุดข้อมูลที่มีป้ายกำกับฝูงชน เช่น ImageNet

งานก่อนการฝึกอบรมผู้เขียนเสนองานก่อนการฝึกอบรมง่ายๆ: ทำนายว่าคำบรรยายภาพใดตรงกับรูปภาพที่กำหนด งานนี้ใช้เพื่อเรียนรู้การแสดงรูปภาพที่ล้ำสมัยตั้งแต่เริ่มต้นบนชุดข้อมูลขนาดใหญ่จำนวน 400 ล้านคู่ (รูปภาพ ข้อความ) ที่รวบรวมทางออนไลน์

การถ่ายโอนแบบซีโร่ช็อต

หลังจากการฝึกอบรมล่วงหน้า โมเดลจะใช้ภาษาธรรมชาติเพื่ออ้างอิงแนวคิดภาพที่เรียนรู้หรืออธิบายแนวคิดใหม่ ช่วยให้สามารถถ่ายโอนแบบจำลองไปยังงานดาวน์สตรีมได้แบบ Zero-shot โดยไม่ต้องมีการฝึกอบรมชุดข้อมูลเฉพาะ

การเปรียบเทียบงานต่างๆ

บทความนี้จะประเมินประสิทธิภาพของแนวทางที่เสนอบนชุดข้อมูลคอมพิวเตอร์วิทัศน์ที่แตกต่างกันมากกว่า 30 ชุด ครอบคลุมงานต่างๆ เช่น OCR การจดจำการกระทำในวิดีโอ การแปลทางภูมิศาสตร์ และการจำแนกวัตถุแบบละเอียด

ประสิทธิภาพการแข่งขัน

โมเดลนี้แสดงให้เห็นถึงประสิทธิภาพการแข่งขันด้วยพื้นฐานที่ได้รับการดูแลอย่างเต็มที่ในงานต่างๆ ซึ่งมักจะตรงกันหรือเหนือกว่าความแม่นยำของโมเดลที่ได้รับการฝึกบนชุดข้อมูลเฉพาะงาน โดยไม่ต้องมีการฝึกอบรมเฉพาะชุดข้อมูลเพิ่มเติม

การศึกษาความสามารถในการปรับขนาด

ผู้เขียนศึกษาความสามารถในการปรับขนาดของแนวทางของตนโดยการฝึกอบรมชุดโมเดลแปดชุดที่มีระดับทรัพยากรการคำนวณที่แตกต่างกัน ประสิทธิภาพการถ่ายโอนพบว่าเป็นฟังก์ชันการคำนวณที่คาดเดาได้อย่างราบรื่น

ความทนทานของโมเดล

รายงานฉบับนี้เน้นย้ำว่าโมเดล CLIP แบบ Zero-shot มีความทนทานมากกว่าโมเดล ImageNet ที่มีการควบคุมความแม่นยำเทียบเท่ากัน โดยแนะนำว่าการประเมินแบบ Zero-shot ของโมเดลที่ไม่เชื่อเรื่องงานจะให้การวัดความสามารถของโมเดลที่เป็นตัวแทนได้มากกว่า

เอกสาร 15: LORA: การปรับตัวระดับต่ำของโมเดลภาษาขนาดใหญ่

Link: อ่านที่นี่

สรุปกระดาษ

บทความนี้เสนอ LoRA ว่าเป็นวิธีการที่มีประสิทธิภาพในการปรับโมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้าขนาดใหญ่ให้เข้ากับงานเฉพาะด้าน โดยจัดการกับความท้าทายในการใช้งานที่เกี่ยวข้องกับขนาดที่เพิ่มขึ้น วิธีการนี้จะช่วยลดพารามิเตอร์ที่สามารถฝึกได้และความต้องการหน่วยความจำ GPU ลงอย่างมาก ในขณะที่ยังคงรักษาหรือปรับปรุงคุณภาพของโมเดลในการวัดประสิทธิภาพต่างๆ การใช้งานโอเพ่นซอร์สยังช่วยอำนวยความสะดวกในการนำ LoRA ไปใช้ในการใช้งานจริงอีกด้วย

ข้อมูลเชิงลึกที่สำคัญของเอกสาร AI สำหรับนักพัฒนา GenAI

1. คำชี้แจงปัญหา

การฝึกอบรมล่วงหน้าขนาดใหญ่ตามด้วยการปรับแต่งอย่างละเอียดเป็นแนวทางทั่วไปในการประมวลผลภาษาธรรมชาติ
การปรับแต่งอย่างละเอียดจะเป็นไปได้น้อยลงเมื่อโมเดลมีขนาดใหญ่ขึ้น โดยเฉพาะอย่างยิ่งเมื่อมีการปรับใช้โมเดลที่มีพารามิเตอร์ขนาดใหญ่ เช่น GPT-3 (พารามิเตอร์ 175 พันล้านพารามิเตอร์)

2. แนวทางแก้ไขที่เสนอ: การปรับตัวระดับต่ำ (LoRA)

บทความนี้จะแนะนำ LoRA ซึ่งเป็นวิธีการตรึงน้ำหนักของแบบจำลองที่ฝึกไว้ล่วงหน้า และแนะนำเมทริกซ์การแบ่งแยกอันดับที่สามารถฝึกได้ในแต่ละชั้นของสถาปัตยกรรม Transformer
LoRA ช่วยลดจำนวนพารามิเตอร์ที่ฝึกได้สำหรับงานดาวน์สตรีมลงอย่างมาก เมื่อเทียบกับการปรับแต่งแบบละเอียดทั้งหมด

3. ประโยชน์ของ LoRA

การลดพารามิเตอร์: เมื่อเปรียบเทียบกับการปรับแต่งอย่างละเอียด LoRA สามารถลดจำนวนพารามิเตอร์ที่ฝึกได้สูงสุดถึง 10,000 เท่า ทำให้มีประสิทธิภาพในการคำนวณมากขึ้น
ประสิทธิภาพหน่วยความจำ: LoRA ลดความต้องการหน่วยความจำ GPU ได้ถึง 3 เท่าเมื่อเทียบกับการปรับแต่งแบบละเอียด
คุณภาพของโมเดล: แม้ว่าจะมีพารามิเตอร์ที่สามารถฝึกได้น้อยกว่า แต่ LoRA ก็ทำงานได้ดีเท่าหรือดีกว่าการปรับแต่งอย่างละเอียดในแง่ของคุณภาพของโมเดลในรุ่นต่างๆ รวมถึง RoBERTa, DeBERTa, GPT-2 และ GPT-3

4. เอาชนะความท้าทายในการปรับใช้

บทความนี้กล่าวถึงความท้าทายในการปรับใช้โมเดลด้วยพารามิเตอร์จำนวนมากโดยการแนะนำ LoRA ซึ่งช่วยให้สามารถสลับงานได้อย่างมีประสิทธิภาพโดยไม่ต้องฝึกอบรมโมเดลทั้งหมดใหม่

5. ประสิทธิภาพและความหน่วงการอนุมานต่ำ

LoRA อำนวยความสะดวกในการแบ่งปันโมเดลที่ได้รับการฝึกอบรมล่วงหน้าสำหรับการสร้างโมดูล LoRA หลายโมดูลสำหรับงานที่แตกต่างกัน ลดความต้องการพื้นที่จัดเก็บข้อมูลและค่าใช้จ่ายในการสลับงาน
การฝึกอบรมมีประสิทธิภาพมากขึ้น โดยลดอุปสรรคด้านฮาร์ดแวร์ในการเข้าสู่ระบบได้สูงสุดถึง 3 เท่าเมื่อใช้ตัวปรับให้เหมาะสมแบบปรับเปลี่ยนได้

6. ความเข้ากันได้และบูรณาการ

LoRA เข้ากันได้กับวิธีการต่างๆ ก่อนหน้านี้ และสามารถใช้ร่วมกับวิธีการเหล่านั้นได้ เช่น การปรับแต่งคำนำหน้า
การออกแบบเชิงเส้นที่นำเสนอช่วยให้สามารถรวมเมทริกซ์ที่ฝึกได้เข้ากับตุ้มน้ำหนักแช่แข็งระหว่างการใช้งาน โดยไม่ทำให้เกิดเวลาแฝงในการอนุมานเพิ่มเติมเมื่อเปรียบเทียบกับโมเดลที่ได้รับการปรับแต่งอย่างสมบูรณ์

7. การสืบสวนเชิงประจักษ์

บทความนี้ประกอบด้วยการตรวจสอบเชิงประจักษ์เกี่ยวกับการขาดอันดับในการปรับโมเดลภาษา โดยให้ข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพของแนวทาง LoRA

8. การใช้งานโอเพ่นซอร์ส

ผู้เขียนจัดเตรียมแพ็คเกจที่อำนวยความสะดวกในการบูรณาการ LoRA กับโมเดล PyTorch และการเปิดตัวการใช้งานและจุดตรวจสอบโมเดลสำหรับ RoBERTa, DeBERTa และ GPT-2

คุณยังสามารถอ่าน: การปรับแต่งโมเดลภาษาขนาดใหญ่อย่างละเอียดและมีประสิทธิภาพด้วย LoRA และ QLoRA

สรุป

โดยสรุป การเจาะลึกเอกสาร AI ที่จำเป็น 15 ฉบับสำหรับนักพัฒนา GenAI ที่เน้นในบทความนี้ไม่ได้เป็นเพียงคำแนะนำเท่านั้น แต่ยังเป็นความจำเป็นเชิงกลยุทธ์สำหรับนักพัฒนาที่มีความมุ่งมั่น เอกสาร AI เหล่านี้นำเสนอการเดินทางที่ครอบคลุมผ่านภูมิทัศน์ที่หลากหลายของปัญญาประดิษฐ์ ครอบคลุมขอบเขตที่สำคัญ เช่น การประมวลผลภาษาธรรมชาติ คอมพิวเตอร์วิทัศน์ และอื่นๆ อีกมากมาย ด้วยการดื่มด่ำกับข้อมูลเชิงลึกและนวัตกรรมที่นำเสนอในเอกสารเหล่านี้ นักพัฒนาจะได้รับความเข้าใจอย่างลึกซึ้งเกี่ยวกับเทคนิคและอัลกอริธึมที่ล้ำสมัยของสาขานี้