ในสาขาปัญญาประดิษฐ์ที่มีการพัฒนาอย่างรวดเร็ว การประมวลผลภาษาธรรมชาติได้กลายเป็นจุดสนใจสำหรับนักวิจัยและนักพัฒนา สร้างขึ้นบนรากฐานของ สถาปัตยกรรมหม้อแปลงไฟฟ้า และ การอัพเกรดแบบสองทิศทางของ BERTในช่วงไม่กี่ปีมานี้ โมเดลภาษาที่ก้าวล้ำได้เกิดขึ้นมากมาย ผลักดันขอบเขตของสิ่งที่เครื่องจักรสามารถเข้าใจและสร้างขึ้นได้
ในบทความนี้ เราจะเจาะลึกถึงความก้าวหน้าล่าสุดในโลกของโมเดลภาษาขนาดใหญ่ สำรวจการปรับปรุงที่แนะนำโดยแต่ละโมเดล ความสามารถ และแอปพลิเคชันที่เป็นไปได้ นอกจากนี้ เราจะพิจารณา Visual Langauge Models (VLM) ที่ได้รับการฝึกฝนให้ประมวลผลไม่เพียงแต่ข้อมูลที่เป็นข้อความเท่านั้น แต่ยังรวมถึงข้อมูลภาพด้วย
หากคุณต้องการข้ามไป นี่คือโมเดลภาษาที่เรานำเสนอ:
- GPT-3 โดย OpenAI
- LaMDA โดย Google
- PaLM โดย Google
- ฟลามิงโก โดย DeepMind
- BLIP-2 โดย Salesforce
- LLaMA โดย Meta AI
- GPT-4 โดย OpenAI
หากเนื้อหาการศึกษาเชิงลึกนี้มีประโยชน์สำหรับคุณ คุณสามารถ สมัครรับจดหมายข่าวการวิจัย AI ของเรา เพื่อรับการแจ้งเตือนเมื่อเราเผยแพร่เนื้อหาใหม่
โมเดลภาษาขนาดใหญ่ (LLM) และโมเดลภาษาภาพ (VLM) ที่สำคัญที่สุดในปี 2023
1. GPT-3 โดย OpenAI
สรุป
ทีม OpenAI แนะนำ GPT-3 เป็นทางเลือกแทนชุดข้อมูลที่มีป้ายกำกับสำหรับทุกงานภาษาใหม่ พวกเขาเสนอแนะว่าการเพิ่มขนาดโมเดลภาษาสามารถปรับปรุงประสิทธิภาพการยิงไม่กี่ครั้งที่ไม่เชื่อเรื่องงาน เพื่อทดสอบข้อเสนอแนะนี้ พวกเขาได้ฝึกโมเดลภาษา autoregressive พารามิเตอร์ 175B ซึ่งเรียกว่า จีพีที-3และประเมินประสิทธิภาพของงาน NLP มากกว่าสองโหล การประเมินภายใต้การเรียนรู้แบบไม่กี่ช็อต การเรียนรู้แบบครั้งเดียว และการเรียนรู้แบบไม่มีช็อต แสดงให้เห็นว่า GPT-3 บรรลุผลลัพธ์ที่น่าพึงพอใจ และบางครั้งก็มีประสิทธิภาพดีกว่าผลลัพธ์ล้ำสมัยที่ได้จากโมเดลที่ปรับแต่งอย่างละเอียด
เป้าหมายคืออะไร?
- เพื่อแนะนำทางเลือกในการแก้ปัญหาที่มีอยู่ เมื่อจำเป็นต้องมีชุดข้อมูลที่ติดป้ายสำหรับงานภาษาใหม่ทุกงาน
วิธีการแก้ไขปัญหา?
- นักวิจัยแนะนำให้ปรับขนาดโมเดลภาษาเพื่อปรับปรุงประสิทธิภาพการยิงไม่กี่ช็อตที่ไม่เชื่อเรื่องพระเจ้า
- พื้นที่ จีพีที-3 โมเดลใช้โมเดลและสถาปัตยกรรมเดียวกันกับ GPT-2 ซึ่งรวมถึงการเริ่มต้นที่ปรับเปลี่ยน การทำให้เป็นปกติก่อน และโทเค็นที่ย้อนกลับได้
- อย่างไรก็ตาม ตรงกันข้ามกับ GPT-2 จะใช้รูปแบบความสนใจแบบกระจัดกระจายที่มีความหนาแน่นสลับกันและมีแถบสีเฉพาะที่ในชั้นของหม้อแปลงไฟฟ้า เช่นเดียวกับใน หม้อแปลงกระจัดกระจาย.
ผลลัพธ์คืออะไร
- โมเดล GPT-3 ที่ไม่มีการปรับแต่งแบบละเอียดจะให้ผลลัพธ์ที่น่าพอใจในงาน NLP จำนวนหนึ่ง และบางครั้งก็เหนือกว่าโมเดลล้ำสมัยที่ได้รับการปรับแต่งสำหรับงานเฉพาะนั้น:
- เกี่ยวกับ โคคิวเอ เกณฑ์มาตรฐาน, 81.5 F1 ในการตั้งค่าแบบ zero-shot, 84.0 F1 ในการตั้งค่าแบบ one-shot และ 85.0 F1 ในการตั้งค่าแบบไม่กี่ช็อตเมื่อเปรียบเทียบกับคะแนน 90.7 F1 ที่ได้รับจาก SOTA ที่ปรับแต่งอย่างละเอียด
- เกี่ยวกับ เรื่องไม่สำคัญQA เกณฑ์มาตรฐาน, ความแม่นยำ 64.3% ในการตั้งค่า Zero-shot, 68.0% ในการตั้งค่า one-shot และ 71.2% ในการตั้งค่าแบบไม่กี่ช็อตซึ่งเหนือกว่าความทันสมัย (68%) โดย 3.2%
- เกี่ยวกับ Lambada ชุดข้อมูล, ความแม่นยำ 76.2% ในการตั้งค่า Zero-shot, 72.5% ในการตั้งค่า one-shot และ 86.4% ในการตั้งค่าแบบไม่กี่ช็อตซึ่งเหนือกว่าความทันสมัย (68%) โดย 18%
- บทความข่าวที่สร้างโดยโมเดล GPT-175 ที่มีพารามิเตอร์ 3B นั้นแยกความแตกต่างจากของจริงได้ยาก ตามการประเมินโดยมนุษย์ (ด้วยความแม่นยำที่แทบจะเหนือระดับโอกาสเพียง ~52%)
- แม้จะมีประสิทธิภาพที่โดดเด่นของ GPT-3 แต่ก็ได้รับการวิจารณ์ที่หลากหลายจากชุมชน AI:
- “โฆษณา GPT-3 นั้นมากเกินไป มันน่าประทับใจ (ขอบคุณสำหรับคำชมที่ดี!) แต่ก็ยังมีจุดอ่อนที่ร้ายแรงและบางครั้งก็ทำผิดพลาดอย่างไร้สาระ AI กำลังจะเปลี่ยนโลก แต่ GPT-3 เป็นเพียงภาพแวบแรกเท่านั้น เรายังมีอะไรอีกมากมายให้คิดออก” – Sam Altman ซีอีโอและผู้ร่วมก่อตั้ง OpenAI.
- “ฉันช็อคว่ามันยากแค่ไหนที่จะสร้างข้อความเกี่ยวกับชาวมุสลิมจาก GPT-3 ที่ไม่เกี่ยวข้องกับความรุนแรง… หรือถูกฆ่า…” – Abubakar Abid ซีอีโอและผู้ก่อตั้ง Gradio.
- "ไม่. โดยพื้นฐานแล้ว GPT-3 ไม่เข้าใจโลกที่มันพูดถึง การเพิ่มคลังข้อมูลเพิ่มเติมจะช่วยให้มันสร้าง pastiche ที่น่าเชื่อถือมากขึ้น แต่ไม่สามารถแก้ไขการขาดความเข้าใจพื้นฐานของโลกได้ การสาธิต GPT-4 ยังคงต้องการการเก็บเชอร์รี่ของมนุษย์” – Gary Marcus ซีอีโอและผู้ก่อตั้ง Robust.ai.
- “การอธิบายประสิทธิภาพอันน่าทึ่งของ GPT3 ในอนาคตแสดงให้เห็นว่าคำตอบของชีวิต จักรวาล และทุกสิ่งเป็นเพียง 4.398 ล้านล้านพารามิเตอร์” – เจฟฟรีย์ ฮินตัน ผู้ชนะรางวัลทัวริง.
จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน
คุณสามารถรับรหัสการติดตั้งได้ที่ไหน
- โค้ดนี้ไม่มีให้ใช้งาน แต่สถิติชุดข้อมูลบางส่วนพร้อมกับตัวอย่างโทเค็น 2048 ที่ไม่มีเงื่อนไขและไม่มีการกรองจาก GPT-3 จะถูกเผยแพร่ใน GitHub.
2. LaMDA โดย Google
สรุป
Laการทะเลาะ Mรุ่นสำหรับ Dบทสนทนา Aใบสมัคร (แลมด้า) ถูกสร้างขึ้นผ่านกระบวนการปรับแต่งกลุ่มของโมเดลภาษาประสาทที่ใช้ Transformer ซึ่งออกแบบมาโดยเฉพาะสำหรับการสนทนา โมเดลเหล่านี้มีพารามิเตอร์สูงสุด 137B และได้รับการฝึกอบรมให้ใช้แหล่งความรู้ภายนอก นักพัฒนา LaMDA มีเป้าหมายสำคัญสามประการในใจ – คุณภาพ ความปลอดภัย และความมีเหตุผล ผลลัพธ์แสดงให้เห็นว่าการปรับแต่งอย่างละเอียดช่วยให้ช่องว่างด้านคุณภาพแคบลงถึงระดับของมนุษย์ แต่ประสิทธิภาพของแบบจำลองยังคงต่ำกว่าระดับของมนุษย์ในแง่ของความปลอดภัยและเหตุผล
กวีของ Google, การเผยแพร่ เมื่อเร็ว ๆ นี้เป็นทางเลือกแทน ChatGPT ซึ่งขับเคลื่อนโดย LaMDA แม้ว่า Bard มักจะถูกตราหน้าว่าเป็น น่าเบื่ออาจถูกมองว่าเป็นหลักฐานที่แสดงความมุ่งมั่นของ Google ในการจัดลำดับความสำคัญด้านความปลอดภัย แม้ท่ามกลางการแข่งขันที่รุนแรงระหว่าง Google และ Microsoft เพื่อสร้างความโดดเด่นในด้าน AI กำเนิด
เป้าหมายคืออะไร?
- เพื่อสร้างโมเดลสำหรับแอปพลิเคชันไดอะล็อกแบบเปิดโดเมน ซึ่งไดอะล็อกเอเจนต์สามารถสนทนาเกี่ยวกับหัวข้อใดก็ได้ด้วยการตอบสนองที่สมเหตุสมผล เฉพาะเจาะจงสำหรับบริบท โดยอ้างอิงจากแหล่งข้อมูลที่เชื่อถือได้และมีจริยธรรม
วิธีการแก้ไขปัญหา?
- LaMDA สร้างขึ้นบน หม้อแปลงไฟฟ้าซึ่งเป็นสถาปัตยกรรมโครงข่ายประสาทเทียมที่ Google Research คิดค้นและเป็นโอเพ่นซอร์สในปี 2017
- เช่นเดียวกับโมเดลภาษาขนาดใหญ่อื่นๆ รวมถึง BERT และ GPT-3 LaMDA ได้รับการฝึกอบรมเกี่ยวกับข้อมูลข้อความหลายเทราไบต์เพื่อเรียนรู้ว่าคำต่างๆ เกี่ยวข้องกันอย่างไร จากนั้นจึงคาดการณ์ว่าคำใดที่น่าจะเป็นคำถัดไป
- อย่างไรก็ตาม ไม่เหมือนกับโมเดลภาษาส่วนใหญ่ LaMDA ได้รับการฝึกอบรมเกี่ยวกับบทสนทนาเพื่อแยกแยะความแตกต่างที่ทำให้การสนทนาปลายเปิดแตกต่างจากภาษารูปแบบอื่นๆ
- โมเดลยังได้รับการปรับแต่งอย่างละเอียดเพื่อปรับปรุงความสมเหตุสมผล ความปลอดภัย และความเฉพาะเจาะจงของการตอบสนอง แม้ว่าวลีอย่างเช่น “ดีมาก” และ “ฉันไม่รู้” อาจมีความหมายในสถานการณ์การสนทนาหลายๆ สถานการณ์ แต่ก็ไม่น่าจะนำไปสู่บทสนทนาที่น่าสนใจและมีส่วนร่วมได้
- อันดับแรก ตัวสร้าง LaMDA จะสร้างคำตอบของผู้สมัครหลายๆ คำตอบ ซึ่งทั้งหมดจะให้คะแนนตามความปลอดภัย สมเหตุสมผล เฉพาะเจาะจง และน่าสนใจ คำตอบที่มีคะแนนความปลอดภัยต่ำจะถูกกรองออก จากนั้นเลือกผลลัพธ์ที่มีอันดับสูงสุดเป็นคำตอบ
ผลลัพธ์คืออะไร
- การทดลองจำนวนมากแสดงให้เห็นว่า LaMDA สามารถมีส่วนร่วมในการสนทนาแบบปลายเปิดในหัวข้อต่างๆ
- การประเมินเชิงคุณภาพชุดหนึ่งยืนยันว่าการตอบสนองของแบบจำลองนั้นสมเหตุสมผล เฉพาะเจาะจง น่าสนใจ และมีพื้นฐานมาจากแหล่งข้อมูลภายนอกที่เชื่อถือได้ แต่ก็ยังมีช่องว่างสำหรับการปรับปรุง
- แม้จะมีความคืบหน้าทั้งหมดจนถึงตอนนี้ ผู้เขียนตระหนักดีว่าแบบจำลองยังมีข้อจำกัดมากมายที่อาจส่งผลให้เกิดการตอบสนองที่ไม่เหมาะสมหรืออาจเป็นอันตรายได้
จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน
คุณสามารถรับรหัสการติดตั้งได้ที่ไหน
- มีการใช้งาน PyTorch แบบโอเพ่นซอร์สสำหรับสถาปัตยกรรมก่อนการฝึกอบรมของ LaMDA GitHub.
3. PaLM โดย Google
สรุป
Paแย่แล้ว Language Mรุ่น (ปาล์ม) เป็นพารามิเตอร์ 540 พันล้านโมเดลภาษาที่ใช้ Transformer PaLM ได้รับการฝึกอบรมบนชิป 6144 TPU v4 โดยใช้ Pathways ซึ่งเป็นระบบ ML ใหม่สำหรับการฝึกอบรมอย่างมีประสิทธิภาพใน TPU Pod หลายตัว แบบจำลองนี้แสดงให้เห็นถึงประโยชน์ของการปรับขนาดในการเรียนรู้แบบไม่กี่ช็อต ทำให้ได้ผลลัพธ์ที่ล้ำสมัยในการทำความเข้าใจภาษาหลายร้อยรายการและเกณฑ์มาตรฐานรุ่น PaLM มีประสิทธิภาพดีกว่าโมเดลล้ำสมัยที่ปรับแต่งอย่างละเอียดในงานการให้เหตุผลแบบหลายขั้นตอน และเหนือกว่าประสิทธิภาพของมนุษย์โดยเฉลี่ยในเกณฑ์มาตรฐานของ BIG-bench
เป้าหมายคืออะไร?
- เพื่อปรับปรุงความเข้าใจว่าการปรับขนาดโมเดลภาษาขนาดใหญ่ส่งผลต่อการเรียนรู้แบบไม่กี่ช็อตอย่างไร
วิธีการแก้ไขปัญหา?
- แนวคิดหลักคือการขยายการฝึกอบรมโมเดลภาษาพารามิเตอร์ 540 พันล้านตัวด้วยระบบ Pathways:
- ทีมงานใช้ความเท่าเทียมกันของข้อมูลที่ระดับ Pod ใน Cloud TPU v4 Pod สองชุด ขณะใช้ข้อมูลมาตรฐานและความเท่าเทียมกันของโมเดลภายในแต่ละ Pod
- พวกเขาสามารถปรับขนาดการฝึกอบรมเป็นชิป 6144 TPU v4 ซึ่งเป็นการกำหนดค่าระบบที่ใช้ TPU ที่ใหญ่ที่สุดที่ใช้สำหรับการฝึกอบรมจนถึงปัจจุบัน
- โมเดลดังกล่าวได้รับประสิทธิภาพการฝึกอบรมถึง 57.8% ของการใช้ FLOPs ของฮาร์ดแวร์ ซึ่งตามที่ผู้เขียนอ้างว่าเป็นประสิทธิภาพการฝึกอบรมสูงสุดแต่ได้รับความสำเร็จสำหรับโมเดลภาษาขนาดใหญ่ในระดับนี้
- ข้อมูลการฝึกอบรมสำหรับแบบจำลอง PaLM ประกอบด้วยชุดข้อมูลภาษาอังกฤษและหลายภาษาซึ่งประกอบด้วยเอกสารเว็บ หนังสือ Wikipedia การสนทนา และรหัส GitHub คุณภาพสูง
ผลลัพธ์คืออะไร
- การทดลองจำนวนมากแสดงให้เห็นว่าประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างมากเมื่อทีมปรับขนาดเป็นโมเดลที่ใหญ่ที่สุด
- PaLM 540B ประสบความสำเร็จในด้านประสิทธิภาพในการทำงานที่ยากมากหลายอย่าง:
- ความเข้าใจภาษาและการสร้าง. โมเดลที่เปิดตัวมีประสิทธิภาพเหนือกว่าโมเดลขนาดใหญ่ก่อนหน้าใน 28 จาก 29 งาน ซึ่งรวมถึงงานตอบคำถาม งานปิดปากและเติมประโยค งานอ่านความเข้าใจในบริบท งานให้เหตุผลสามัญสำนึก งาน SuperGLUE และ มากกว่า. ประสิทธิภาพของ PaLM ในงาน BIG-bench แสดงให้เห็นว่าสามารถแยกแยะสาเหตุและผลกระทบ ตลอดจนเข้าใจการผสมผสานแนวคิดในบริบทที่เหมาะสม
- เหตุผล. ด้วยการแจ้ง 8-shot PaLM แก้ปัญหา 58% ใน GSM8K ซึ่งเป็นเกณฑ์มาตรฐานของคำถามคณิตศาสตร์ระดับชั้นประถมศึกษาที่ท้าทายหลายพันรายการ ซึ่งทำได้ดีกว่าคะแนนสูงสุดก่อนหน้านี้ที่ 55% ที่ทำได้โดยการปรับรุ่น GPT-3 175B อย่างละเอียด PaLM ยังแสดงให้เห็นถึงความสามารถในการสร้างคำอธิบายที่ชัดเจนในสถานการณ์ที่ต้องการการผสมผสานที่ซับซ้อนของการอนุมานเชิงตรรกะแบบหลายขั้นตอน ความรู้โลก และความเข้าใจในภาษาที่ลึกซึ้ง
- การสร้างรหัส. PaLM ทำงานเทียบเท่ากับ Codex 12B ที่ปรับแต่งอย่างละเอียดโดยใช้โค้ด Python น้อยกว่า 50 เท่าสำหรับการฝึกอบรม เป็นการยืนยันว่าโมเดลภาษาขนาดใหญ่โอนการเรียนรู้จากทั้งภาษาโปรแกรมอื่นๆ และข้อมูลภาษาธรรมชาติได้อย่างมีประสิทธิภาพมากขึ้น
จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน
คุณสามารถรับรหัสการติดตั้งได้ที่ไหน
- การใช้งาน PyTorch อย่างไม่เป็นทางการของสถาปัตยกรรม Transformer เฉพาะจากเอกสารการวิจัย PaLM มีอยู่ใน GitHub. จะไม่ปรับขนาดและเผยแพร่เพื่อการศึกษาเท่านั้น
4. นกกระเรียน โดย DeepMind
สรุป
Flamingo เป็นตระกูล Visual Language Models (VLMs) ที่ล้ำสมัยซึ่งได้รับการฝึกฝนเกี่ยวกับเว็บคอร์ปอราหลายรูปแบบขนาดใหญ่ที่มีข้อความและรูปภาพผสมกัน ด้วยการฝึกอบรมนี้ โมเดลสามารถปรับให้เข้ากับงานใหม่ได้โดยใช้ตัวอย่างที่มีคำอธิบายประกอบเพียงเล็กน้อย Flamingo รวมเอาความก้าวหน้าทางสถาปัตยกรรมที่สำคัญที่ออกแบบมาเพื่อผสานจุดแข็งของแบบจำลองการมองเห็นเท่านั้นและภาษาเท่านั้นที่ได้รับการฝึกฝนมาล่วงหน้า ลำดับการประมวลผลของข้อมูลภาพและข้อความที่มีการแทรกสลับแปรผัน และรองรับรูปภาพหรือวิดีโอเป็นอินพุตได้อย่างราบรื่น โมเดลแสดงให้เห็นถึงความสามารถในการปรับตัวที่น่าประทับใจกับงานภาพและวิดีโอต่างๆ เช่น การตอบคำถามด้วยภาพ งานคำบรรยายภาพ และการตอบคำถามด้วยภาพแบบหลายตัวเลือก การกำหนดมาตรฐานประสิทธิภาพใหม่โดยใช้การแจ้งเตือนเฉพาะงานในการเรียนรู้แบบไม่กี่ช็อต
เป้าหมายคืออะไร?
- เพื่อให้ความคืบหน้าในการทำให้โมเดลต่อเนื่องสามารถเรียนรู้และทำงานใหม่ได้อย่างรวดเร็วตามคำสั่งสั้นๆ:
- กระบวนทัศน์ที่ใช้กันอย่างแพร่หลายในการฝึกโมเดลล่วงหน้าบนข้อมูลจำนวนมากที่ได้รับการดูแล จากนั้นปรับแต่งอย่างละเอียดสำหรับงานเฉพาะนั้น ต้องใช้ทรัพยากรมาก และต้องการจุดข้อมูลที่มีคำอธิบายประกอบหลายพันจุดพร้อมกับการปรับไฮเปอร์พารามิเตอร์ต่องานอย่างระมัดระวัง
- โมเดลปัจจุบันที่ใช้วัตถุประสงค์แบบคอนทราสต์ช่วยให้สามารถปรับแบบ Zero-shot กับงานใหม่ได้ แต่ขาดงานปลายเปิดมากกว่า เช่น คำบรรยายหรือการตอบคำถามด้วยภาพ เนื่องจากขาดความสามารถในการสร้างภาษา
- งานวิจัยนี้มีวัตถุประสงค์เพื่อแนะนำโมเดลใหม่ที่แก้ไขปัญหาเหล่านี้ได้อย่างมีประสิทธิภาพและแสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในระบอบการปกครองข้อมูลต่ำ
วิธีการแก้ไขปัญหา?
- DeepMind นำเสนอ Flamingo ซึ่งเป็น VLM ที่ออกแบบมาสำหรับการเรียนรู้แบบไม่กี่ช็อตเกี่ยวกับการมองเห็นแบบปลายเปิดและงานด้านภาษาต่างๆ โดยใช้ตัวอย่างอินพุต/เอาต์พุตเพียงไม่กี่ตัวอย่าง
- แบบจำลอง Flamingo เป็นแบบจำลองการสร้างข้อความแบบถดถอยอัตโนมัติที่ปรับสภาพการมองเห็นซึ่งสามารถประมวลผลโทเค็นข้อความผสมกับรูปภาพและ/หรือวิดีโอ และสร้างข้อความเป็นเอาต์พุต
- สถาปัตยกรรมของ Flamingo รวมสองโมเดลที่ผ่านการฝึกอบรมล่วงหน้าและแบบแช่แข็งไว้ด้วยกัน:
- แบบจำลองการมองเห็นที่สามารถ "รับรู้" ฉากภาพได้
- โมเดลภาษาขนาดใหญ่ที่ได้รับมอบหมายให้แสดงเหตุผลพื้นฐาน
- ส่วนประกอบสถาปัตยกรรมใหม่รวมโมเดลเหล่านี้ในลักษณะที่รักษาความรู้ที่ได้รับระหว่างการฝึกอบรมล่วงหน้าที่เน้นการคำนวณ
- นอกจากนี้ รุ่น Flamingo ยังมีสถาปัตยกรรมที่ใช้ Perceiver ทำให้สามารถนำเข้ารูปภาพหรือวิดีโอที่มีความละเอียดสูงได้ สถาปัตยกรรมนี้สามารถสร้างโทเค็นภาพในจำนวนที่แน่นอนต่อภาพ/วิดีโอจากอาร์เรย์ที่กว้างและหลากหลายของคุณสมบัติการป้อนข้อมูลด้วยภาพ
ผลลัพธ์คืออะไร
- การวิจัยแสดงให้เห็นว่า เช่นเดียวกับ LLM ซึ่งเป็นผู้เรียนเพียงไม่กี่ช็อตที่ดี VLM สามารถเรียนรู้จากตัวอย่างอินพุต/เอาต์พุตสองสามตัวอย่างสำหรับงานทำความเข้าใจภาพและวิดีโอ เช่น การจัดหมวดหมู่ คำบรรยาย หรือการตอบคำถาม
- Flamingo สร้างเกณฑ์มาตรฐานใหม่ในการเรียนรู้แบบไม่กี่ช็อต แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าของภาษาต่อเนื่องหลายรูปแบบ 16 ภาษาและงานทำความเข้าใจภาพ/วิดีโอ
- สำหรับ 6 จาก 16 งานเหล่านี้ Flamingo เหนือกว่าประสิทธิภาพของเทคโนโลยีขั้นสูงที่ปรับแต่งมาอย่างดี แม้ว่าจะใช้ตัวอย่างเฉพาะงานเพียง 32 ตัวอย่าง – ข้อมูลการฝึกอบรมเฉพาะงานน้อยกว่ารุ่นที่มีประสิทธิภาพสูงสุดในปัจจุบันประมาณ 1000 เท่า
จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน
คุณสามารถรับรหัสการติดตั้งได้ที่ไหน
- DeepMind ไม่ได้เผยแพร่การใช้งาน Flamingo อย่างเป็นทางการ
- คุณอาจพบการใช้งานโอเพ่นซอร์สของแนวทางที่แนะนำใน OpenFlamingo Github Repo.
- มีการใช้งาน PyTorch ทางเลือกอื่น โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.
5. BLIP-2 โดย Salesforce
สรุป
BLIP-2 เป็นเฟรมเวิร์กก่อนการฝึกอบรมทั่วไปที่มีประสิทธิภาพสำหรับแบบจำลองการมองเห็นและภาษา ซึ่งได้รับการออกแบบมาเพื่อหลีกเลี่ยงค่าใช้จ่ายที่เพิ่มขึ้นในการฝึกอบรมล่วงหน้าแบบจำลองขนาดใหญ่ BLIP-2 ใช้ประโยชน์จากตัวเข้ารหัสรูปภาพที่ได้รับการฝึกฝนล่วงหน้าและแช่แข็งโมเดลภาษาขนาดใหญ่เพื่อบู๊ตสแตรปการฝึกล่วงหน้าภาษาวิชันซิสเต็ม โดยรวมเอา Querying Transformer ที่มีน้ำหนักเบาซึ่งได้รับการฝึกฝนล่วงหน้าในสองขั้นตอน ขั้นแรกเริ่มต้นการเรียนรู้การแทนภาษาด้วยการมองเห็นจากโปรแกรมเข้ารหัสภาพแบบแช่แข็ง และขั้นที่สองขับเคลื่อนการเรียนรู้เชิงกำเนิดจากการมองเห็นสู่ภาษาจากแบบจำลองภาษาแบบแช่แข็ง แม้จะมีพารามิเตอร์ที่สามารถฝึกได้น้อยกว่ามาก แต่ BLIP-2 ก็ยังมีประสิทธิภาพเหนือกว่าวิธีการที่ทันสมัย โดยแซงหน้า Flamingo80B ของ DeepMind ถึง 8.7% สำหรับ VQAv2 แบบ zero-shot โดยมีพารามิเตอร์ที่สามารถฝึกได้น้อยกว่า 54 เท่า โมเดลนี้ยังแสดงความสามารถในการสร้างภาพเป็นข้อความแบบ zero-shot ตามคำสั่งภาษาธรรมชาติ
เป้าหมายคืออะไร?
- เพื่อให้ได้ประสิทธิภาพที่ล้ำสมัยในงานภาษาการมองเห็น ในขณะที่ลดค่าใช้จ่ายในการคำนวณ
วิธีการแก้ไขปัญหา?
- ทีม Salesforce ได้เปิดตัวเฟรมเวิร์กก่อนการฝึกอบรมภาษาการมองเห็นใหม่ที่เรียกว่า BLIP-2 Bเอาท์สแตรปปิ้ง Lภาษา-Iผู้วิเศษ Pการฝึกซ้ำด้วยโมเดล Unimodal ที่แช่แข็ง:
- แบบจำลอง unimodal ที่ฝึกไว้ล่วงหน้าจะยังคงค้างอยู่ในระหว่างการฝึกล่วงหน้าเพื่อลดต้นทุนการคำนวณและหลีกเลี่ยงปัญหาการลืมที่ร้ายแรง
- เพื่ออำนวยความสะดวกในการจัดตำแหน่งข้ามโมดอลและเชื่อมช่องว่างโมดัลระหว่างโมเดลวิชั่นที่ฝึกไว้ล่วงหน้ากับโมเดลภาษาที่ฝึกไว้ล่วงหน้า ทีมงานจึงเสนอ Querying Transformer (Q-Former) ที่มีน้ำหนักเบาซึ่งทำหน้าที่เป็นคอขวดของข้อมูลระหว่างเอนโค้ดเดอร์ภาพที่ถูกตรึงและอิมเมจที่ถูกแช่แข็ง นิติศาสตร์มหาบัณฑิต
- Q-former ได้รับการฝึกฝนล่วงหน้าด้วยกลยุทธ์สองขั้นตอนใหม่:
- ขั้นตอนก่อนการฝึกขั้นแรกเป็นการเรียนรู้การเป็นตัวแทนภาษาการมองเห็น สิ่งนี้บังคับให้ Q-Former เรียนรู้การแสดงภาพที่เกี่ยวข้องกับข้อความมากที่สุด
- ขั้นตอนก่อนการฝึกอบรมขั้นที่สองเป็นการเรียนรู้เชิงสร้างสรรค์จากการมองเห็นสู่ภาษาโดยการเชื่อมต่อผลลัพธ์ของ Q-Former กับ LLM ที่แช่แข็ง Q-Former ได้รับการฝึกฝนเพื่อให้ LLM สามารถตีความการแสดงภาพออกได้
ผลลัพธ์คืออะไร
- BLIP-2 นำเสนอผลลัพธ์ที่ยอดเยี่ยมและล้ำสมัยในงานด้านภาษาการมองเห็นที่หลากหลาย รวมถึงการตอบคำถามด้วยภาพ คำบรรยายภาพ และการดึงข้อความจากรูปภาพ
- ตัวอย่างเช่น มีประสิทธิภาพดีกว่า Flamingo 8.7% ใน VQAv2 แบบ zero-shot
- ยิ่งไปกว่านั้น ประสิทธิภาพที่โดดเด่นนี้เกิดขึ้นได้จากประสิทธิภาพของคอมพิวเตอร์ที่สูงขึ้นอย่างมาก:
- BLIP-2 มีประสิทธิภาพดีกว่า Flamingo-80B ในขณะที่ใช้พารามิเตอร์ที่สามารถฝึกได้น้อยกว่า 54 เท่า
- BLIP-2 มีความสามารถในการดำเนินการสร้างภาพเป็นข้อความแบบ Zero-shot เพื่อตอบสนองต่อคำสั่งภาษาธรรมชาติ ซึ่งจะเป็นการปูทางสำหรับการพัฒนาทักษะต่างๆ เช่น การให้เหตุผลความรู้ด้านภาพและการสนทนาด้วยภาพ
- ประการสุดท้าย สิ่งสำคัญคือต้องทราบว่า BLIP-2 เป็นวิธีการที่หลากหลายที่สามารถใช้ประโยชน์จากแบบจำลอง Unimodal ที่ซับซ้อนมากขึ้นเพื่อปรับปรุงประสิทธิภาพของการฝึกอบรมล่วงหน้าด้านภาษาการมองเห็น
จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน
คุณสามารถรับรหัสการติดตั้งได้ที่ไหน
การใช้งาน BLIP-2 อย่างเป็นทางการมีอยู่ใน GitHub.
6. LLaMA โดย Meta AI
สรุป
ทีม Meta AI ยืนยันว่าโมเดลขนาดเล็กที่ฝึกฝนบนโทเค็นจำนวนมากขึ้นนั้นง่ายต่อการฝึกใหม่และปรับแต่งอย่างละเอียดสำหรับแอปพลิเคชันผลิตภัณฑ์เฉพาะ ดังนั้นพวกเขาจึงแนะนำ โทร (LARGE Laการทะเลาะ Mรุ่น Meta AI) ชุดของโมเดลภาษาพื้นฐานที่มีพารามิเตอร์ 7B ถึง 65B LLaMA 33B และ 65B ได้รับการฝึกอบรมบนโทเค็น 1.4 ล้านล้านโทเค็น ในขณะที่โมเดลที่เล็กที่สุด LLaMA 7B ได้รับการฝึกอบรมบนโทเค็นหนึ่งล้านล้านโทเค็น พวกเขาใช้เฉพาะชุดข้อมูลที่เปิดเผยต่อสาธารณะ โดยไม่ขึ้นอยู่กับข้อมูลที่เป็นกรรมสิทธิ์หรือถูกจำกัด ทีมงานยังใช้การปรับปรุงสถาปัตยกรรมที่สำคัญและเทคนิคการเพิ่มประสิทธิภาพความเร็วในการฝึกอบรม ด้วยเหตุนี้ LLaMA-13B จึงมีประสิทธิภาพเหนือกว่า GPT-3 โดยมีขนาดเล็กกว่า 10 เท่า และ LLaMA-65B มีประสิทธิภาพที่แข่งขันได้กับ PaLM-540B
เป้าหมายคืออะไร?
- เพื่อแสดงความเป็นไปได้ในการฝึกอบรมโมเดลที่มีประสิทธิภาพสูงสุดเฉพาะในชุดข้อมูลที่สาธารณะสามารถเข้าถึงได้ โดยไม่ต้องพึ่งพาแหล่งข้อมูลที่เป็นกรรมสิทธิ์หรือถูกจำกัด
- เพื่อให้ชุมชนการวิจัยมีโมเดลขนาดเล็กและมีประสิทธิภาพมากขึ้น และช่วยให้ผู้ที่ไม่สามารถเข้าถึงโครงสร้างพื้นฐานจำนวนมากสามารถศึกษาโมเดลภาษาขนาดใหญ่ได้
วิธีการแก้ไขปัญหา?
- ในการฝึกโมเดล LLaMA นักวิจัยใช้เฉพาะข้อมูลที่เปิดเผยต่อสาธารณะและเข้ากันได้กับโอเพ่นซอร์ส
- พวกเขายังได้แนะนำการปรับปรุงสถาปัตยกรรม Transformer มาตรฐานเล็กน้อย:
- การนำระเบียบวิธี GPT-3 มาใช้ ความเสถียรของการฝึกอบรมได้รับการปรับปรุงโดยการปรับอินพุตให้เป็นมาตรฐานสำหรับแต่ละชั้นย่อยของหม้อแปลง แทนที่จะทำให้เอาต์พุตเป็นมาตรฐาน
- แรงบันดาลใจจากแบบจำลอง PaLM นักวิจัยได้แทนที่ ReLU non-linearity ด้วยฟังก์ชันการเปิดใช้งาน SwiGLU เพื่อปรับปรุงประสิทธิภาพ
- แรงบันดาลใจจาก ซูเอตคณะ (2021)พวกเขายกเลิกการฝังตำแหน่งแบบสัมบูรณ์และรวมการฝังตำแหน่งแบบหมุน (RoPE) ไว้ที่ทุกชั้นของเครือข่ายแทน
- สุดท้ายนี้ ทีม Meta AI ได้ปรับปรุงความเร็วในการฝึกฝนโมเดลของตนโดย:
- การใช้การนำความสนใจหลายประเด็นเชิงสาเหตุมาใช้อย่างมีประสิทธิภาพโดยไม่เก็บน้ำหนักความสนใจหรือคำนวณคะแนนคีย์/เคียวรีที่ปกปิดไว้
- ใช้การเช็คพอยต์เพื่อลดการเปิดใช้งานที่คำนวณใหม่ระหว่างการผ่านย้อนกลับ
- การซ้อนทับการคำนวณการเปิดใช้งานและการสื่อสารระหว่าง GPUs ผ่านเครือข่าย (เนื่องจากการดำเนินการ all_reduce)
ผลลัพธ์คืออะไร
- LLaMA-13B เหนือกว่า GPT-3 แม้จะมีขนาดเล็กกว่า 10 เท่า ในขณะที่ LLaMA-65B มีความโดดเด่นเมื่อเทียบกับ PaLM-540B
จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน
คุณสามารถรับรหัสการติดตั้งได้ที่ไหน
- Meta AI ให้การเข้าถึง LLaMA แก่นักวิจัยเชิงวิชาการ บุคคลที่เกี่ยวข้องกับรัฐบาล ภาคประชาสังคม สถาบันการศึกษา และห้องปฏิบัติการวิจัยอุตสาหกรรมระดับโลกโดยพิจารณาจากกรณีศึกษาเป็นรายบุคคล หากต้องการสมัคร ให้ไปที่ต่อไปนี้ พื้นที่เก็บข้อมูล GitHub.
7. GPT-4 โดย OpenAI
สรุป
จีพีที-4 เป็นโมเดลหลายรูปแบบขนาดใหญ่ที่รับอินพุตรูปภาพและข้อความ และสร้างเอาต์พุตข้อความ เนื่องจากความกังวลด้านการแข่งขันและความปลอดภัย รายละเอียดเฉพาะเกี่ยวกับสถาปัตยกรรมของโมเดลและการฝึกอบรมจึงถูกระงับไว้ ในแง่ของประสิทธิภาพ GPT-4 เหนือกว่ารุ่นภาษาก่อนหน้าในเกณฑ์มาตรฐานแบบดั้งเดิม และแสดงให้เห็นถึงการปรับปรุงที่สำคัญในด้านความเข้าใจความตั้งใจของผู้ใช้และคุณสมบัติด้านความปลอดภัย โมเดลนี้ยังบรรลุประสิทธิภาพระดับมนุษย์ในการสอบต่างๆ รวมถึงคะแนนสูงสุด 10% ในการสอบเนติบัณฑิตจำลอง
เป้าหมายคืออะไร?
- เพื่อพัฒนาโมเดลหลายรูปแบบขนาดใหญ่ซึ่งสามารถรับอินพุตรูปภาพและข้อความและสร้างเอาต์พุตข้อความ
- เพื่อพัฒนาโครงสร้างพื้นฐานและวิธีการเพิ่มประสิทธิภาพที่คาดการณ์ได้ในระดับต่างๆ ที่หลากหลาย
วิธีการแก้ไขปัญหา?
- เนื่องจากสภาพแวดล้อมการแข่งขันและผลกระทบด้านความปลอดภัย OpenAI จึงตัดสินใจระงับรายละเอียดเกี่ยวกับสถาปัตยกรรม ขนาดโมเดล ฮาร์ดแวร์ การคำนวณการฝึกอบรม การสร้างชุดข้อมูล และวิธีการฝึกอบรม
- พวกเขาเปิดเผยว่า:
- GPT-4 เป็นโมเดลที่ใช้ Transformer ซึ่งผ่านการฝึกอบรมล่วงหน้าเพื่อทำนายโทเค็นถัดไปในเอกสาร
- มันใช้ข้อมูลที่เปิดเผยต่อสาธารณะและข้อมูลลิขสิทธิ์ของบุคคลที่สาม
- โมเดลได้รับการปรับแต่งอย่างละเอียดโดยใช้ Reinforcement Learning from Human Feedback (RLHF)
- ข้อมูลที่ไม่ได้รับการยืนยันบ่งชี้ว่า GPT-4 ไม่ใช่โมเดลที่มีความหนาแน่นสูงแบบเอกพจน์เหมือนรุ่นก่อนๆ แต่เป็นการทำงานร่วมกันของโรงไฟฟ้าที่มีโมเดลแยกกัน 220 โมเดล ซึ่งแต่ละโมเดลบรรจุพารามิเตอร์ XNUMX พันล้านพารามิเตอร์ที่น่าทึ่ง
ผลลัพธ์คืออะไร
- GPT-4 ประสบความสำเร็จในการปฏิบัติงานระดับมนุษย์ในการสอบวิชาชีพและวิชาการส่วนใหญ่ โดยเฉพาะอย่างยิ่งการให้คะแนน 10% แรกในการสอบเนติบัณฑิตจำลอง
- โมเดล GPT-4 ฐานที่ฝึกไว้ล่วงหน้ามีประสิทธิภาพดีกว่าโมเดลภาษาที่มีอยู่และระบบที่ล้ำสมัยก่อนหน้านี้บนการวัดประสิทธิภาพ NLP แบบดั้งเดิม โดยไม่ต้องมีการสร้างเกณฑ์มาตรฐานเฉพาะหรือโปรโตคอลการฝึกอบรมเพิ่มเติม
- GPT-4 แสดงให้เห็นถึงการปรับปรุงที่สำคัญตามความตั้งใจของผู้ใช้ โดยการตอบสนองนั้นดีกว่าการตอบสนองของ GPT-3.5 ใน 70.2% ของ 5,214 ข้อความแจ้งจาก ChatGPT และ OpenAI API
- คุณสมบัติด้านความปลอดภัยของ GPT-4 ได้รับการปรับปรุงอย่างมีนัยสำคัญเมื่อเทียบกับ GPT-3.5 โดยการตอบสนองคำขอเนื้อหาที่ไม่ได้รับอนุญาตลดลง 82% และการปฏิบัติตามนโยบายสำหรับคำขอที่ละเอียดอ่อนเพิ่มขึ้น 29% (เช่น คำแนะนำทางการแพทย์และการทำร้ายตัวเอง)
จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน
คุณสามารถรับรหัสการติดตั้งได้ที่ไหน
- การติดตั้งโค้ดของ GPT-4 ไม่พร้อมใช้งาน
การประยุกต์ใช้โมเดลภาษาขนาดใหญ่ (วิสัยทัศน์) ในโลกแห่งความเป็นจริง
ความก้าวหน้าด้านการวิจัย AI ที่สำคัญที่สุดในช่วงไม่กี่ปีที่ผ่านมามาจากโมเดล AI ขนาดใหญ่ที่ได้รับการฝึกฝนในชุดข้อมูลขนาดใหญ่ โมเดลเหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่น่าประทับใจ และเป็นเรื่องน่าทึ่งที่คิดว่า AI สามารถปฏิวัติอุตสาหกรรมทั้งหมดได้อย่างไร เช่น การบริการลูกค้า การตลาด อีคอมเมิร์ซ การดูแลสุขภาพ การพัฒนาซอฟต์แวร์ สื่อสารมวลชน และอื่นๆ อีกมากมาย
โมเดลภาษาขนาดใหญ่มีแอปพลิเคชันในโลกแห่งความเป็นจริงมากมาย GPT-4 แสดงรายการต่อไปนี้:
- ความเข้าใจและการสร้างภาษาธรรมชาติสำหรับแชทบอทและผู้ช่วยเสมือน
- การแปลด้วยเครื่องระหว่างภาษาต่างๆ
- การสรุปบทความ รายงาน หรือเอกสารข้อความอื่นๆ
- การวิเคราะห์ความรู้สึกสำหรับการวิจัยตลาดหรือการตรวจสอบสื่อสังคมออนไลน์
- การสร้างเนื้อหาสำหรับการตลาด โซเชียลมีเดีย หรือการเขียนเชิงสร้างสรรค์
- ระบบตอบคำถามสำหรับการสนับสนุนลูกค้าหรือฐานความรู้
- การจัดประเภทข้อความสำหรับการกรองสแปม การจัดหมวดหมู่หัวข้อ หรือการจัดระเบียบเอกสาร
- เครื่องมือการเรียนรู้และการสอนภาษาส่วนบุคคล
- ความช่วยเหลือในการสร้างรหัสและการพัฒนาซอฟต์แวร์
- การวิเคราะห์และความช่วยเหลือทางการแพทย์ กฎหมาย และเอกสารทางเทคนิค
- เครื่องมือช่วยการเข้าถึงสำหรับบุคคลทุพพลภาพ เช่น การแปลงข้อความเป็นคำพูดและการแปลงคำพูดเป็นข้อความ
- บริการรู้จำเสียงและถอดความ
หากเราเพิ่มส่วนภาพ พื้นที่ของแอปพลิเคชันที่เป็นไปได้จะขยายเพิ่มเติม:
เป็นเรื่องน่าตื่นเต้นมากที่ได้ติดตามความก้าวหน้าของ AI ล่าสุดและคิดถึงศักยภาพของแอปพลิเคชันในโลกแห่งความเป็นจริง อย่างไรก็ตาม ก่อนที่จะนำโมเดลเหล่านี้ไปใช้ในชีวิตจริง เราจำเป็นต้องจัดการกับความเสี่ยงและข้อจำกัดที่เกี่ยวข้อง ซึ่งน่าเสียดายที่มีความสำคัญมากทีเดียว
ความเสี่ยงและข้อจำกัด
หากคุณถาม GPT-4 เกี่ยวกับความเสี่ยงและข้อจำกัด อาจให้รายการข้อกังวลที่เกี่ยวข้องจำนวนมากแก่คุณ หลังจากกรองผ่านรายการนี้และเพิ่มข้อควรพิจารณาเพิ่มเติม ฉันได้ชุดความเสี่ยงและข้อจำกัดที่สำคัญๆ ต่อไปนี้ซึ่งมีอยู่ในโมเดลภาษาขนาดใหญ่สมัยใหม่:
- อคติและการเลือกปฏิบัติ: โมเดลเหล่านี้เรียนรู้จากข้อมูลข้อความจำนวนมหาศาล ซึ่งมักมีเนื้อหาที่มีอคติและเลือกปฏิบัติ ผลที่ได้คือ ผลลัพธ์ที่สร้างขึ้นสามารถขยายเวลาแบบแผน ภาษาที่ไม่เหมาะสม และการเลือกปฏิบัติโดยไม่ตั้งใจโดยอิงจากปัจจัยต่างๆ เช่น เพศ เชื้อชาติ หรือศาสนา
- ข้อมูลที่ผิด: โมเดลภาษาขนาดใหญ่อาจสร้างเนื้อหาที่ไม่ถูกต้องตามข้อเท็จจริง ทำให้เข้าใจผิด หรือล้าสมัย แม้ว่าแบบจำลองจะได้รับการฝึกอบรมจากแหล่งข้อมูลที่หลากหลาย แต่อาจไม่ได้ให้ข้อมูลที่ถูกต้องที่สุดหรือเป็นปัจจุบันเสมอไป บ่อยครั้งสิ่งนี้เกิดขึ้นเนื่องจากตัวแบบจัดลำดับความสำคัญในการสร้างเอาต์พุตที่ถูกต้องตามหลักไวยากรณ์หรือดูเหมือนสอดคล้องกัน แม้ว่าจะทำให้เข้าใจผิดก็ตาม
- ขาดความเข้าใจ: แม้ว่าโมเดลเหล่านี้ดูเหมือนจะเข้าใจภาษามนุษย์ แต่พวกมันทำงานโดยหลักโดยการระบุรูปแบบและการเชื่อมโยงทางสถิติในข้อมูลการฝึกอบรม พวกเขาไม่มีความเข้าใจอย่างลึกซึ้งเกี่ยวกับเนื้อหาที่พวกเขาสร้างขึ้น ซึ่งบางครั้งอาจส่งผลให้เกิดผลลัพธ์ที่ไร้สาระหรือไม่เกี่ยวข้อง
- เนื้อหาไม่เหมาะสม: บางครั้งรูปแบบภาษาอาจสร้างเนื้อหาที่ไม่เหมาะสม เป็นอันตราย หรือไม่เหมาะสม แม้ว่าจะมีความพยายามที่จะลดเนื้อหาดังกล่าวลง แต่ก็ยังสามารถเกิดขึ้นได้เนื่องจากธรรมชาติของข้อมูลการฝึกอบรมและการที่โมเดลไม่สามารถแยกแยะบริบทหรือความตั้งใจของผู้ใช้ได้
สรุป
โมเดลภาษาขนาดใหญ่ได้ปฏิวัติวงการการประมวลผลภาษาธรรมชาติอย่างไม่ต้องสงสัย และแสดงให้เห็นถึงศักยภาพอันยิ่งใหญ่ในการเพิ่มประสิทธิภาพการทำงานในบทบาทและอุตสาหกรรมต่างๆ ความสามารถของพวกเขาในการสร้างข้อความที่เหมือนมนุษย์ ทำงานอัตโนมัติ และให้ความช่วยเหลือในกระบวนการสร้างสรรค์และการวิเคราะห์ทำให้พวกเขาเป็นเครื่องมือที่ขาดไม่ได้ในโลกปัจจุบันที่ขับเคลื่อนด้วยเทคโนโลยีอย่างรวดเร็ว
อย่างไรก็ตาม สิ่งสำคัญคือต้องรับทราบและเข้าใจข้อจำกัดและความเสี่ยงที่เกี่ยวข้องกับโมเดลที่มีประสิทธิภาพเหล่านี้ ประเด็นต่างๆ เช่น ความลำเอียง ข้อมูลที่ผิด และศักยภาพในการใช้งานที่เป็นอันตรายนั้นเป็นสิ่งที่ไม่ควรมองข้าม ในขณะที่เรายังคงผสานรวมเทคโนโลยีที่ขับเคลื่อนด้วย AI เหล่านี้เข้ากับชีวิตประจำวันของเรา จำเป็นอย่างยิ่งที่จะต้องสร้างสมดุลระหว่างการใช้ประโยชน์จากความสามารถและการดูแลควบคุมโดยมนุษย์ โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ละเอียดอ่อนและมีความเสี่ยงสูง
หากเราประสบความสำเร็จในการใช้เทคโนโลยี generative AI อย่างมีความรับผิดชอบ เราจะปูทางสำหรับอนาคตที่ปัญญาประดิษฐ์และความเชี่ยวชาญของมนุษย์ทำงานร่วมกันเพื่อขับเคลื่อนนวัตกรรมและสร้างโลกที่ดีขึ้นสำหรับทุกคน
สนุกกับบทความนี้? ลงทะเบียนเพื่อรับการอัปเดตการวิจัย AI เพิ่มเติม
เราจะแจ้งให้คุณทราบเมื่อเราเผยแพร่บทความสรุปเพิ่มเติมเช่นนี้
ที่เกี่ยวข้อง
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. ยานยนต์ / EVs, คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- BlockOffsets การปรับปรุงการเป็นเจ้าของออฟเซ็ตด้านสิ่งแวดล้อมให้ทันสมัย เข้าถึงได้ที่นี่.
- ที่มา: https://www.topbots.com/top-language-models-transforming-ai-in-2023/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- $ ขึ้น
- 1
- 10
- 12b
- 16
- 2%
- 2017
- 2021
- 2023
- 214
- 220
- 28
- 32
- 50
- 7
- 70
- 710
- 72
- 8
- 84
- 90
- a
- ความสามารถ
- สามารถ
- เกี่ยวกับเรา
- ข้างบน
- แน่นอน
- นักวิชาการ
- ยอมรับ
- ยอมรับ
- เข้า
- สามารถเข้าถึงได้
- อำนวยความสะดวก
- ตาม
- ความถูกต้อง
- ถูกต้อง
- ประสบความสำเร็จ
- ประสบความสำเร็จ
- การบรรลุ
- รับทราบ
- ข้าม
- การกระตุ้น
- การเปิดใช้งาน
- การกระทำ
- ปรับ
- การปรับตัว
- เพิ่ม
- เพิ่ม
- นอกจากนี้
- เพิ่มเติม
- ที่อยู่
- ที่อยู่
- การนำ
- ความก้าวหน้า
- คำแนะนำ
- หลังจาก
- กับ
- ตัวแทน
- AI
- วิจัยไอ
- จุดมุ่งหมาย
- AL
- เหมือนกัน
- ทั้งหมด
- อนุญาต
- การอนุญาต
- ช่วยให้
- ตาม
- ด้วย
- ทางเลือก
- แม้ว่า
- เสมอ
- ท่ามกลาง
- ในหมู่
- จำนวน
- จำนวน
- an
- การวิเคราะห์
- วิเคราะห์
- และ
- อื่น
- คำตอบ
- ใด
- API
- ปรากฏ
- การใช้งาน
- ใช้
- เข้าใกล้
- เหมาะสม
- ประมาณ
- ในเชิงสถาปัตยกรรม
- สถาปัตยกรรม
- เป็น
- พื้นที่
- รอบ
- แถว
- ศิลปะ
- บทความ
- บทความ
- เทียม
- ปัญญาประดิษฐ์
- AS
- ความช่วยเหลือ
- ผู้ช่วย
- ที่เกี่ยวข้อง
- สมาคม
- At
- ความสนใจ
- ผู้เขียน
- โดยอัตโนมัติ
- ใช้ได้
- เฉลี่ย
- หลีกเลี่ยง
- รางวัล
- ยอดคงเหลือ
- บาร์
- ฐาน
- ตาม
- ขั้นพื้นฐาน
- รากฐาน
- BE
- เพราะ
- กลายเป็น
- ก่อน
- กำลัง
- ด้านล่าง
- มาตรฐาน
- มาตรฐาน
- ประโยชน์ที่ได้รับ
- ดีกว่า
- ระหว่าง
- อคติ
- อคติ
- พันล้าน
- ร้านหนังสือเกาหลี
- บูต
- ทั้งสอง
- เขตแดน
- ความก้าวหน้า
- นวัตกรรม
- สะพาน
- กว้าง
- สร้าง
- การก่อสร้าง
- สร้าง
- แต่
- by
- ที่เรียกว่า
- CAN
- ผู้สมัคร
- ไม่ได้
- ความสามารถในการ
- สามารถ
- ความจุ
- ระมัดระวัง
- กรณี
- เป็นภัยพิบัติ
- ก่อให้เกิด
- ผู้บริหารสูงสุด
- ซีอีโอและผู้ก่อตั้ง
- ท้าทาย
- โอกาส
- เปลี่ยนแปลง
- chatbots
- ChatGPT
- ชิป
- ข้อเรียกร้อง
- การจัดหมวดหมู่
- เมฆ
- ผู้ร่วมก่อตั้ง
- รหัส
- สอดคล้องกัน
- ชุด
- การผสมผสาน
- รวม
- อย่างไร
- ความมุ่งมั่น
- การสื่อสาร
- ชุมชน
- เมื่อเทียบกับ
- เข้ากันได้
- การแข่งขัน
- ประกอบ
- ซับซ้อน
- การปฏิบัติตาม
- ส่วนประกอบ
- การคำนวณ
- คำนวณ
- คอมพิวเตอร์
- การคำนวณ
- เกี่ยวกับความคิดเห็น
- ความกังวลเกี่ยวกับ
- องค์ประกอบ
- ยืนยัน
- การเชื่อมต่อ
- ดังนั้น
- การพิจารณา
- การก่อสร้าง
- เนื้อหา
- สิ่งแวดล้อม
- บริบท
- ต่อ
- ตรงกันข้าม
- การสนทนา
- การสนทนา
- การแปลง
- แก้ไข
- ตรงกัน
- ราคา
- ค่าใช้จ่าย
- ได้
- สร้าง
- ที่สร้างขึ้น
- ความคิดสร้างสรรค์
- น่าเชื่อถือ
- สำคัญมาก
- ปัจจุบัน
- ลูกค้า
- บริการลูกค้า
- Customer Support
- ตัดขอบ
- ประจำวัน
- ข้อมูล
- จุดข้อมูล
- ชุดข้อมูล
- วันที่
- ตัดสินใจ
- ลดลง
- ลึก
- Deepmind
- มอบ
- สาธิต
- แสดงให้เห็นถึง
- แสดงให้เห็นถึง
- แสดงให้เห็นถึง
- การสาธิต
- ทั้งนี้ขึ้นอยู่กับ
- ปรับใช้
- ได้รับการออกแบบ
- แม้จะมี
- รายละเอียด
- พัฒนา
- นักพัฒนา
- ที่กำลังพัฒนา
- พัฒนาการ
- บทสนทนา
- บทสนทนา
- ยาก
- ความพิการ
- เปิดเผย
- การแบ่งแยก
- เห็นความแตกต่าง
- หลาย
- do
- เอกสาร
- เอกสาร
- ทำ
- การปกครอง
- Dont
- โหล
- ขับรถ
- ขนานนามว่า
- สอง
- ในระหว่าง
- e
- E-commerce
- E&T
- แต่ละ
- ก่อน
- ง่ายดาย
- เกี่ยวกับการศึกษา
- ผล
- มีประสิทธิภาพ
- อย่างมีประสิทธิภาพ
- ที่มีประสิทธิภาพ
- ความพยายาม
- ตัดออก
- โผล่ออกมา
- ทำให้สามารถ
- การเปิดใช้งาน
- ห้อมล้อม
- น่าสนใจ
- ภาษาอังกฤษ
- เสริม
- ที่เพิ่มขึ้น
- ปรับปรุง
- การเสริมสร้าง
- การสร้างความมั่นใจ
- จำเป็น
- สร้าง
- ก่อตั้ง
- ตามหลักจริยธรรม
- ประเมิน
- การประเมินผล
- การประเมินผล
- แม้
- ทุกๆ
- ทุกอย่าง
- หลักฐาน
- การพัฒนา
- การตรวจสอบ
- ตัวอย่าง
- ตัวอย่าง
- เกินกว่า
- เป็นพิเศษ
- น่าตื่นเต้น
- โดยเฉพาะ
- การจัดแสดงนิทรรศการ
- ที่มีอยู่
- แสดง
- การทดลอง
- ความชำนาญ
- สำรวจ
- ภายนอก
- f1
- อำนวยความสะดวก
- ปัจจัย
- ตก
- ครอบครัว
- ไกล
- ที่น่าสนใจ
- รวดเร็ว
- ลักษณะ
- ที่โดดเด่น
- คุณสมบัติ
- ข้อเสนอแนะ
- สองสาม
- น้อยลง
- สนาม
- รูป
- กรอง
- หา
- ชื่อจริง
- แก้ไขปัญหา
- การแก้ไข
- ปฏิบัติตาม
- ดังต่อไปนี้
- สำหรับ
- รูปแบบ
- ฐานราก
- ผู้สร้าง
- กรอบ
- ราคาเริ่มต้นที่
- แช่แข็ง
- ฟังก์ชัน
- พื้นฐาน
- ลึกซึ้ง
- ต่อไป
- อนาคต
- ที่ได้รับ
- ช่องว่าง
- เพศ
- สร้าง
- สร้าง
- สร้าง
- การสร้าง
- รุ่น
- กำเนิด
- กำเนิด AI
- เครื่องกำเนิดไฟฟ้า
- ได้รับ
- GitHub
- เหลือบ
- เหตุการณ์ที่
- Go
- เป้าหมาย
- ไป
- ดี
- ของ Google
- รัฐบาล
- GPUs
- เกรด
- แหวกแนว
- บัญชีกลุ่ม
- มี
- ที่เกิดขึ้น
- ยาก
- ฮาร์ดแวร์
- เป็นอันตราย
- มี
- มี
- การดูแลสุขภาพ
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- ที่มีคุณภาพสูง
- ความละเอียดสูง
- มีความเสี่ยงสูง
- สูงกว่า
- ที่สูงที่สุด
- ถือ
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- อย่างไรก็ตาม
- HTML
- HTTPS
- ใหญ่
- เป็นมนุษย์
- ร้อย
- hype
- การปรับแต่งไฮเปอร์พารามิเตอร์
- ความคิด
- ระบุ
- if
- ภาพ
- ภาพ
- เวิ้งว้าง
- การดำเนินงาน
- การดำเนินการ
- ผลกระทบ
- สำคัญ
- ประทับใจ
- ปรับปรุง
- การปรับปรุง
- การปรับปรุง
- การปรับปรุง
- in
- ลึกซึ้ง
- การไร้ความสามารถ
- ประกอบด้วย
- รวม
- รวมทั้ง
- Incorporated
- รวม
- ผสมผสาน
- เพิ่ม
- เพิ่มขึ้น
- ที่เพิ่มขึ้น
- ขึ้น
- เป็นรายบุคคล
- บุคคล
- อุตสาหกรรม
- อุตสาหกรรม
- ข้อมูล
- โครงสร้างพื้นฐาน
- ประทับจิต
- นักวิเคราะห์ส่วนบุคคลที่หาโอกาสให้เป็นไปได้มากที่สุด
- อินพุต
- ปัจจัยการผลิต
- แทน
- สถาบัน
- คำแนะนำการใช้
- รวบรวม
- Intelligence
- ความตั้งใจ
- น่าสนใจ
- เข้าไป
- แนะนำ
- แนะนำ
- การประดิษฐ์คิดค้น
- ปัญหา
- ปัญหา
- IT
- ITS
- ตัวเอง
- วารสารศาสตร์
- jpg
- เพียงแค่
- คีย์
- วัตถุประสงค์หลัก
- ทราบ
- ความรู้
- ห้องปฏิบัติการ
- ไม่มี
- ภูมิประเทศ
- ภาษา
- ภาษา
- ใหญ่
- ขนาดใหญ่
- ใหญ่ที่สุด
- ล่าสุด
- ชั้น
- ชั้น
- นำ
- เรียนรู้
- การเรียนรู้
- กฎหมาย
- น้อยลง
- ชั้น
- ระดับ
- เลฟเวอเรจ
- ยกระดับ
- การใช้ประโยชน์
- ได้รับใบอนุญาต
- ชีวิต
- มีน้ำหนักเบา
- กดไลก์
- น่าจะ
- ข้อ จำกัด
- รายการ
- รายการ
- ชีวิต
- ดูรายละเอียด
- ในท้องถิ่น
- ตรรกะ
- นาน
- ดู
- Lot
- ต่ำ
- เครื่อง
- ทำ
- ทำ
- ทำให้
- หลาย
- มาร์คัส
- ตลาด
- การวิจัยทางการตลาด
- การตลาด
- วัสดุ
- คณิตศาสตร์
- ความกว้างสูงสุด
- สูงสุด
- อาจ..
- มีความหมาย
- ภาพบรรยากาศ
- ทางการแพทย์
- ผสาน
- Meta
- ระเบียบวิธี
- วิธีการ
- ไมโครซอฟท์
- ใจ
- ต่ำสุด
- ข้อมูลที่ผิด
- หลอกตา
- ความผิดพลาด
- ผสม
- ML
- แบบ
- โมเดล
- ทันสมัย
- การแก้ไข
- การตรวจสอบ
- ข้อมูลเพิ่มเติม
- มากที่สุด
- มาก
- หลาย
- ชาวมุสลิม
- โดยธรรมชาติ
- ภาษาธรรมชาติ
- ประมวลผลภาษาธรรมชาติ
- ธรรมชาติ
- จำเป็นต้อง
- จำเป็น
- เครือข่าย
- ประสาท
- ภาษาประสาท
- เครือข่ายประสาท
- ใหม่
- ข่าว
- ถัดไป
- ดี
- NLP
- ยวด
- ไม่มีอะไร
- จำนวน
- มากมาย
- วัตถุประสงค์
- วัตถุประสงค์
- เกิดขึ้น
- of
- น่ารังเกียจ
- เป็นทางการ
- มักจะ
- on
- ONE
- คน
- เพียง
- เปิด
- โอเพนซอร์ส
- OpenAI
- ทำงาน
- การดำเนินการ
- การเพิ่มประสิทธิภาพ
- or
- organizacja
- อื่นๆ
- ผลิตภัณฑ์อื่นๆ
- ของเรา
- ออก
- ดีกว่า
- ประสิทธิภาพเหนือกว่า
- เอาท์พุต
- โดดเด่น
- เกิน
- ของตนเอง
- ปาล์ม
- กระดาษ
- ตัวอย่าง
- พารามิเตอร์
- พารามิเตอร์
- ส่วนหนึ่ง
- มีส่วนร่วม
- โดยเฉพาะ
- ส่ง
- รูปแบบ
- ปู
- ปู
- ต่อ
- ดำเนินการ
- การปฏิบัติ
- ที่มีประสิทธิภาพ
- ดำเนินการ
- วลี
- เลือก
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ฝัก
- จุด
- จุด
- นโยบาย
- เป็นไปได้
- ที่มีศักยภาพ
- ขับเคลื่อน
- ที่มีประสิทธิภาพ
- คาดการณ์
- ที่ต้องการ
- ก่อน
- ส่วนใหญ่
- ก่อน
- จัดลำดับความสำคัญ
- ปัญหา
- ปัญหาที่เกิดขึ้น
- กระบวนการ
- กระบวนการ
- การประมวลผล
- ก่อ
- ผลิตภัณฑ์
- ผลผลิต
- มืออาชีพ
- การเขียนโปรแกรม
- การเขียนโปรแกรมภาษา
- ความคืบหน้า
- แวว
- คุณสมบัติ
- เสนอ
- เป็นเจ้าของ
- โปรโตคอล
- ให้
- ให้
- ให้
- สาธารณชน
- การตีพิมพ์
- วัตถุประสงค์
- ใจเร่งเร้า
- หลาม
- ไฟฉาย
- เชิงคุณภาพ
- คุณภาพ
- คำถาม
- คำถาม
- อย่างรวดเร็ว
- เชื่อชาติ
- พิสัย
- อย่างรวดเร็ว
- ค่อนข้าง
- การอ่าน
- จริง
- ชีวิตจริง
- โลกแห่งความจริง
- เมื่อเร็ว ๆ นี้
- เมื่อเร็ว ๆ นี้
- การรับรู้
- รับรู้
- ลด
- ลด
- อาหาร
- การเรียนรู้การเสริมแรง
- ปล่อย
- การเผยแพร่
- ตรงประเด็น
- น่าเชื่อถือ
- แหล่งที่เชื่อถือได้
- ศาสนา
- อาศัย
- ยังคง
- ยังคงอยู่
- โดดเด่น
- แทนที่
- รายงาน
- การแสดง
- การร้องขอ
- ต้องการ
- ต้อง
- การวิจัย
- ชุมชนวิจัย
- นักวิจัย
- ใช้ทรัพยากรมาก
- เคารพ
- การตอบสนอง
- คำตอบ
- การตอบสนอง
- หวงห้าม
- ผล
- ผลสอบ
- ยังคงรักษา
- รีวิว
- ปฏิวัติ
- ปฏิวัติ
- ความเสี่ยง
- การแข่งขัน
- แข็งแรง
- บทบาท
- ห้อง
- ปลอดภัย
- ความปลอดภัย
- Salesforce
- เดียวกัน
- ขนาด
- ตาชั่ง
- ปรับ
- สถานการณ์
- ฉาก
- โรงเรียน
- คะแนน
- คะแนน
- คะแนน
- ได้อย่างลงตัว
- ที่สอง
- ดูเหมือน
- เห็น
- เลือก
- มีความละเอียดอ่อน
- แยก
- ชุด
- ร้ายแรง
- บริการ
- บริการ
- ชุด
- การตั้งค่า
- หลาย
- ผวา
- สั้น
- โชว์
- แสดงให้เห็นว่า
- แสดงให้เห็นว่า
- ลงชื่อ
- สำคัญ
- อย่างมีความหมาย
- เหมือนกับ
- เอกพจน์
- สถานการณ์
- ขนาด
- ทักษะ
- มีขนาดเล็กกว่า
- So
- จนถึงตอนนี้
- สังคม
- โซเชียลมีเดีย
- สังคม
- ซอฟต์แวร์
- การพัฒนาซอฟต์แวร์
- เพียงผู้เดียว
- ทางออก
- แก้ปัญหา
- บาง
- ซับซ้อน
- แหล่ง
- แหล่งที่มา
- การจัดหา
- สแปม
- โดยเฉพาะ
- เฉพาะ
- ความจำเพาะ
- น่าตื่นเต้น
- คำพูดเป็นข้อความ
- ความเร็ว
- Stability
- ระยะ
- ขั้นตอน
- มาตรฐาน
- มาตรฐาน
- สถานะ
- รัฐของศิลปะ
- ทางสถิติ
- สถิติ
- ยังคง
- กลยุทธ์
- จุดแข็ง
- โขก
- ศึกษา
- เป็นกอบเป็นกำ
- ประสบความสำเร็จ
- อย่างเช่น
- แนะนำ
- ชี้ให้เห็นถึง
- สรุป
- เหนือกว่า
- การดูแล
- สนับสนุน
- ทะลุ
- ระบบ
- ระบบ
- พูดคุย
- งาน
- งาน
- ทีม
- วิชาการ
- เทคนิค
- เทคโนโลยี
- เงื่อนไขการใช้บริการ
- ทดสอบ
- การสร้างข้อความ
- Text-to-Speech
- กว่า
- ขอบคุณ
- ที่
- พื้นที่
- ก้าวสู่อนาคต
- รัฐ
- โลก
- ของพวกเขา
- พวกเขา
- แล้วก็
- ที่นั่น
- ดังนั้น
- ดังนั้น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- คิด
- ของบุคคลที่สาม
- นี้
- เหล่านั้น
- แต่?
- พัน
- สาม
- ตลอด
- ครั้ง
- ไปยัง
- วันนี้
- ร่วมกัน
- โทเค็น
- tokenization
- ราชสกุล
- เกินไป
- เครื่องมือ
- ด้านบน
- ท็อปบอท
- หัวข้อ
- หัวข้อ
- ไปทาง
- แบบดั้งเดิม
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- โอน
- หม้อแปลงไฟฟ้า
- การเปลี่ยนแปลง
- การแปลภาษา
- ล้านล้าน
- ทัวริง
- ติว
- สอง
- ไม่มีเงื่อนไข
- ภายใต้
- เข้าใจ
- ความเข้าใจ
- รับหน้าที่
- ไม่ต้องสงสัย
- น่าเสียดาย
- จักรวาล
- แตกต่าง
- ทันเหตุการณ์
- การปรับปรุง
- ใช้
- มือสอง
- ผู้ใช้งาน
- ใช้
- การใช้
- ใช้ประโยชน์
- ความหลากหลาย
- ต่างๆ
- กว้างใหญ่
- อเนกประสงค์
- มาก
- วีดีโอ
- วิดีโอ
- เสมือน
- วิสัยทัศน์
- VOX
- คือ
- ทาง..
- we
- เว็บ
- ดี
- คือ
- อะไร
- เมื่อ
- ที่
- ในขณะที่
- WHO
- ทั้งหมด
- กว้าง
- ช่วงกว้าง
- วิกิพีเดีย
- จะ
- กับ
- ภายใน
- ไม่มี
- คำ
- งาน
- ทำงานด้วยกัน
- โลก
- การเขียน
- ปี
- ยัง
- เธอ
- ลมทะเล
- การเรียนรู้แบบ Zero-Shot