7 Language (LLM) และ Vision Language Models (VLM) ที่ทรงพลังที่สุดที่จะพลิกโฉม AI ในปี 2023

7 Language (LLM) และ Vision Language Models (VLM) ที่ทรงพลังที่สุดที่จะพลิกโฉม AI ในปี 2023

โหนดต้นทาง: 2757531

BLIP-2 โมเดลภาษาการมองเห็น

ในสาขาปัญญาประดิษฐ์ที่มีการพัฒนาอย่างรวดเร็ว การประมวลผลภาษาธรรมชาติได้กลายเป็นจุดสนใจสำหรับนักวิจัยและนักพัฒนา สร้างขึ้นบนรากฐานของ สถาปัตยกรรมหม้อแปลงไฟฟ้า และ การอัพเกรดแบบสองทิศทางของ BERTในช่วงไม่กี่ปีมานี้ โมเดลภาษาที่ก้าวล้ำได้เกิดขึ้นมากมาย ผลักดันขอบเขตของสิ่งที่เครื่องจักรสามารถเข้าใจและสร้างขึ้นได้

ในบทความนี้ เราจะเจาะลึกถึงความก้าวหน้าล่าสุดในโลกของโมเดลภาษาขนาดใหญ่ สำรวจการปรับปรุงที่แนะนำโดยแต่ละโมเดล ความสามารถ และแอปพลิเคชันที่เป็นไปได้ นอกจากนี้ เราจะพิจารณา Visual Langauge Models (VLM) ที่ได้รับการฝึกฝนให้ประมวลผลไม่เพียงแต่ข้อมูลที่เป็นข้อความเท่านั้น แต่ยังรวมถึงข้อมูลภาพด้วย

หากคุณต้องการข้ามไป นี่คือโมเดลภาษาที่เรานำเสนอ:

  1. GPT-3 โดย OpenAI
  2. LaMDA โดย Google
  3. PaLM โดย Google
  4. ฟลามิงโก โดย DeepMind
  5. BLIP-2 โดย Salesforce
  6. LLaMA โดย Meta AI
  7. GPT-4 โดย OpenAI

หากเนื้อหาการศึกษาเชิงลึกนี้มีประโยชน์สำหรับคุณ คุณสามารถ สมัครรับจดหมายข่าวการวิจัย AI ของเรา เพื่อรับการแจ้งเตือนเมื่อเราเผยแพร่เนื้อหาใหม่ 

โมเดลภาษาขนาดใหญ่ (LLM) และโมเดลภาษาภาพ (VLM) ที่สำคัญที่สุดในปี 2023

1. GPT-3 โดย OpenAI

สรุป 

ทีม OpenAI แนะนำ GPT-3 เป็นทางเลือกแทนชุดข้อมูลที่มีป้ายกำกับสำหรับทุกงานภาษาใหม่ พวกเขาเสนอแนะว่าการเพิ่มขนาดโมเดลภาษาสามารถปรับปรุงประสิทธิภาพการยิงไม่กี่ครั้งที่ไม่เชื่อเรื่องงาน เพื่อทดสอบข้อเสนอแนะนี้ พวกเขาได้ฝึกโมเดลภาษา autoregressive พารามิเตอร์ 175B ซึ่งเรียกว่า จีพีที-3และประเมินประสิทธิภาพของงาน NLP มากกว่าสองโหล การประเมินภายใต้การเรียนรู้แบบไม่กี่ช็อต การเรียนรู้แบบครั้งเดียว และการเรียนรู้แบบไม่มีช็อต แสดงให้เห็นว่า GPT-3 บรรลุผลลัพธ์ที่น่าพึงพอใจ และบางครั้งก็มีประสิทธิภาพดีกว่าผลลัพธ์ล้ำสมัยที่ได้จากโมเดลที่ปรับแต่งอย่างละเอียด 

เป้าหมายคืออะไร? 

  • เพื่อแนะนำทางเลือกในการแก้ปัญหาที่มีอยู่ เมื่อจำเป็นต้องมีชุดข้อมูลที่ติดป้ายสำหรับงานภาษาใหม่ทุกงาน

วิธีการแก้ไขปัญหา?

  • นักวิจัยแนะนำให้ปรับขนาดโมเดลภาษาเพื่อปรับปรุงประสิทธิภาพการยิงไม่กี่ช็อตที่ไม่เชื่อเรื่องพระเจ้า 
  • พื้นที่ จีพีที-3 โมเดลใช้โมเดลและสถาปัตยกรรมเดียวกันกับ GPT-2 ซึ่งรวมถึงการเริ่มต้นที่ปรับเปลี่ยน การทำให้เป็นปกติก่อน และโทเค็นที่ย้อนกลับได้
  • อย่างไรก็ตาม ตรงกันข้ามกับ GPT-2 จะใช้รูปแบบความสนใจแบบกระจัดกระจายที่มีความหนาแน่นสลับกันและมีแถบสีเฉพาะที่ในชั้นของหม้อแปลงไฟฟ้า เช่นเดียวกับใน หม้อแปลงกระจัดกระจาย.
จีพีที-3

ผลลัพธ์คืออะไร

  • โมเดล GPT-3 ที่ไม่มีการปรับแต่งแบบละเอียดจะให้ผลลัพธ์ที่น่าพอใจในงาน NLP จำนวนหนึ่ง และบางครั้งก็เหนือกว่าโมเดลล้ำสมัยที่ได้รับการปรับแต่งสำหรับงานเฉพาะนั้น:
    • เกี่ยวกับ โคคิวเอ เกณฑ์มาตรฐาน, 81.5 F1 ในการตั้งค่าแบบ zero-shot, 84.0 F1 ในการตั้งค่าแบบ one-shot และ 85.0 F1 ในการตั้งค่าแบบไม่กี่ช็อตเมื่อเปรียบเทียบกับคะแนน 90.7 F1 ที่ได้รับจาก SOTA ที่ปรับแต่งอย่างละเอียด
    • เกี่ยวกับ เรื่องไม่สำคัญQA เกณฑ์มาตรฐาน, ความแม่นยำ 64.3% ในการตั้งค่า Zero-shot, 68.0% ในการตั้งค่า one-shot และ 71.2% ในการตั้งค่าแบบไม่กี่ช็อตซึ่งเหนือกว่าความทันสมัย ​​(68%) โดย 3.2%
    • เกี่ยวกับ Lambada ชุดข้อมูล, ความแม่นยำ 76.2% ในการตั้งค่า Zero-shot, 72.5% ในการตั้งค่า one-shot และ 86.4% ในการตั้งค่าแบบไม่กี่ช็อตซึ่งเหนือกว่าความทันสมัย ​​(68%) โดย 18%
  • บทความข่าวที่สร้างโดยโมเดล GPT-175 ที่มีพารามิเตอร์ 3B นั้นแยกความแตกต่างจากของจริงได้ยาก ตามการประเมินโดยมนุษย์ (ด้วยความแม่นยำที่แทบจะเหนือระดับโอกาสเพียง ~52%) 
  • แม้จะมีประสิทธิภาพที่โดดเด่นของ GPT-3 แต่ก็ได้รับการวิจารณ์ที่หลากหลายจากชุมชน AI:
    • “โฆษณา GPT-3 นั้นมากเกินไป มันน่าประทับใจ (ขอบคุณสำหรับคำชมที่ดี!) แต่ก็ยังมีจุดอ่อนที่ร้ายแรงและบางครั้งก็ทำผิดพลาดอย่างไร้สาระ AI กำลังจะเปลี่ยนโลก แต่ GPT-3 เป็นเพียงภาพแวบแรกเท่านั้น เรายังมีอะไรอีกมากมายให้คิดออก” – Sam Altman ซีอีโอและผู้ร่วมก่อตั้ง OpenAI.
    • “ฉันช็อคว่ามันยากแค่ไหนที่จะสร้างข้อความเกี่ยวกับชาวมุสลิมจาก GPT-3 ที่ไม่เกี่ยวข้องกับความรุนแรง… หรือถูกฆ่า…” – Abubakar Abid ซีอีโอและผู้ก่อตั้ง Gradio.
    • "ไม่. โดยพื้นฐานแล้ว GPT-3 ไม่เข้าใจโลกที่มันพูดถึง การเพิ่มคลังข้อมูลเพิ่มเติมจะช่วยให้มันสร้าง pastiche ที่น่าเชื่อถือมากขึ้น แต่ไม่สามารถแก้ไขการขาดความเข้าใจพื้นฐานของโลกได้ การสาธิต GPT-4 ยังคงต้องการการเก็บเชอร์รี่ของมนุษย์” – Gary Marcus ซีอีโอและผู้ก่อตั้ง Robust.ai.
    • “การอธิบายประสิทธิภาพอันน่าทึ่งของ GPT3 ในอนาคตแสดงให้เห็นว่าคำตอบของชีวิต จักรวาล และทุกสิ่งเป็นเพียง 4.398 ล้านล้านพารามิเตอร์” – เจฟฟรีย์ ฮินตัน ผู้ชนะรางวัลทัวริง.

จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน

คุณสามารถรับรหัสการติดตั้งได้ที่ไหน

  • โค้ดนี้ไม่มีให้ใช้งาน แต่สถิติชุดข้อมูลบางส่วนพร้อมกับตัวอย่างโทเค็น 2048 ที่ไม่มีเงื่อนไขและไม่มีการกรองจาก GPT-3 จะถูกเผยแพร่ใน GitHub.

2. LaMDA โดย Google

สรุป 

Laการทะเลาะ Mรุ่นสำหรับ Dบทสนทนา Aใบสมัคร (แลมด้า) ถูกสร้างขึ้นผ่านกระบวนการปรับแต่งกลุ่มของโมเดลภาษาประสาทที่ใช้ Transformer ซึ่งออกแบบมาโดยเฉพาะสำหรับการสนทนา โมเดลเหล่านี้มีพารามิเตอร์สูงสุด 137B และได้รับการฝึกอบรมให้ใช้แหล่งความรู้ภายนอก นักพัฒนา LaMDA มีเป้าหมายสำคัญสามประการในใจ – คุณภาพ ความปลอดภัย และความมีเหตุผล ผลลัพธ์แสดงให้เห็นว่าการปรับแต่งอย่างละเอียดช่วยให้ช่องว่างด้านคุณภาพแคบลงถึงระดับของมนุษย์ แต่ประสิทธิภาพของแบบจำลองยังคงต่ำกว่าระดับของมนุษย์ในแง่ของความปลอดภัยและเหตุผล 

กวีของ Google, การเผยแพร่ เมื่อเร็ว ๆ นี้เป็นทางเลือกแทน ChatGPT ซึ่งขับเคลื่อนโดย LaMDA แม้ว่า Bard มักจะถูกตราหน้าว่าเป็น น่าเบื่ออาจถูกมองว่าเป็นหลักฐานที่แสดงความมุ่งมั่นของ Google ในการจัดลำดับความสำคัญด้านความปลอดภัย แม้ท่ามกลางการแข่งขันที่รุนแรงระหว่าง Google และ Microsoft เพื่อสร้างความโดดเด่นในด้าน AI กำเนิด

เป้าหมายคืออะไร? 

  • เพื่อสร้างโมเดลสำหรับแอปพลิเคชันไดอะล็อกแบบเปิดโดเมน ซึ่งไดอะล็อกเอเจนต์สามารถสนทนาเกี่ยวกับหัวข้อใดก็ได้ด้วยการตอบสนองที่สมเหตุสมผล เฉพาะเจาะจงสำหรับบริบท โดยอ้างอิงจากแหล่งข้อมูลที่เชื่อถือได้และมีจริยธรรม

วิธีการแก้ไขปัญหา?

  • LaMDA สร้างขึ้นบน หม้อแปลงไฟฟ้าซึ่งเป็นสถาปัตยกรรมโครงข่ายประสาทเทียมที่ Google Research คิดค้นและเป็นโอเพ่นซอร์สในปี 2017
    • เช่นเดียวกับโมเดลภาษาขนาดใหญ่อื่นๆ รวมถึง BERT และ GPT-3 LaMDA ได้รับการฝึกอบรมเกี่ยวกับข้อมูลข้อความหลายเทราไบต์เพื่อเรียนรู้ว่าคำต่างๆ เกี่ยวข้องกันอย่างไร จากนั้นจึงคาดการณ์ว่าคำใดที่น่าจะเป็นคำถัดไป 
    • อย่างไรก็ตาม ไม่เหมือนกับโมเดลภาษาส่วนใหญ่ LaMDA ได้รับการฝึกอบรมเกี่ยวกับบทสนทนาเพื่อแยกแยะความแตกต่างที่ทำให้การสนทนาปลายเปิดแตกต่างจากภาษารูปแบบอื่นๆ
  • โมเดลยังได้รับการปรับแต่งอย่างละเอียดเพื่อปรับปรุงความสมเหตุสมผล ความปลอดภัย และความเฉพาะเจาะจงของการตอบสนอง แม้ว่าวลีอย่างเช่น “ดีมาก” และ “ฉันไม่รู้” อาจมีความหมายในสถานการณ์การสนทนาหลายๆ สถานการณ์ แต่ก็ไม่น่าจะนำไปสู่บทสนทนาที่น่าสนใจและมีส่วนร่วมได้
    • อันดับแรก ตัวสร้าง LaMDA จะสร้างคำตอบของผู้สมัครหลายๆ คำตอบ ซึ่งทั้งหมดจะให้คะแนนตามความปลอดภัย สมเหตุสมผล เฉพาะเจาะจง และน่าสนใจ คำตอบที่มีคะแนนความปลอดภัยต่ำจะถูกกรองออก จากนั้นเลือกผลลัพธ์ที่มีอันดับสูงสุดเป็นคำตอบ
ตัวอย่างกล่องโต้ตอบ LaMDA

ผลลัพธ์คืออะไร

  • การทดลองจำนวนมากแสดงให้เห็นว่า LaMDA สามารถมีส่วนร่วมในการสนทนาแบบปลายเปิดในหัวข้อต่างๆ
  • การประเมินเชิงคุณภาพชุดหนึ่งยืนยันว่าการตอบสนองของแบบจำลองนั้นสมเหตุสมผล เฉพาะเจาะจง น่าสนใจ และมีพื้นฐานมาจากแหล่งข้อมูลภายนอกที่เชื่อถือได้ แต่ก็ยังมีช่องว่างสำหรับการปรับปรุง
  • แม้จะมีความคืบหน้าทั้งหมดจนถึงตอนนี้ ผู้เขียนตระหนักดีว่าแบบจำลองยังมีข้อจำกัดมากมายที่อาจส่งผลให้เกิดการตอบสนองที่ไม่เหมาะสมหรืออาจเป็นอันตรายได้

จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน

คุณสามารถรับรหัสการติดตั้งได้ที่ไหน

  • มีการใช้งาน PyTorch แบบโอเพ่นซอร์สสำหรับสถาปัตยกรรมก่อนการฝึกอบรมของ LaMDA GitHub.

3. PaLM โดย Google

สรุป 

Paแย่แล้ว Language Mรุ่น (ปาล์ม) เป็นพารามิเตอร์ 540 พันล้านโมเดลภาษาที่ใช้ Transformer PaLM ได้รับการฝึกอบรมบนชิป 6144 TPU v4 โดยใช้ Pathways ซึ่งเป็นระบบ ML ใหม่สำหรับการฝึกอบรมอย่างมีประสิทธิภาพใน TPU Pod หลายตัว แบบจำลองนี้แสดงให้เห็นถึงประโยชน์ของการปรับขนาดในการเรียนรู้แบบไม่กี่ช็อต ทำให้ได้ผลลัพธ์ที่ล้ำสมัยในการทำความเข้าใจภาษาหลายร้อยรายการและเกณฑ์มาตรฐานรุ่น PaLM มีประสิทธิภาพดีกว่าโมเดลล้ำสมัยที่ปรับแต่งอย่างละเอียดในงานการให้เหตุผลแบบหลายขั้นตอน และเหนือกว่าประสิทธิภาพของมนุษย์โดยเฉลี่ยในเกณฑ์มาตรฐานของ BIG-bench

เป้าหมายคืออะไร? 

  • เพื่อปรับปรุงความเข้าใจว่าการปรับขนาดโมเดลภาษาขนาดใหญ่ส่งผลต่อการเรียนรู้แบบไม่กี่ช็อตอย่างไร

วิธีการแก้ไขปัญหา?

  • ​​แนวคิดหลักคือการขยายการฝึกอบรมโมเดลภาษาพารามิเตอร์ 540 พันล้านตัวด้วยระบบ Pathways:
    • ทีมงานใช้ความเท่าเทียมกันของข้อมูลที่ระดับ Pod ใน Cloud TPU v4 Pod สองชุด ขณะใช้ข้อมูลมาตรฐานและความเท่าเทียมกันของโมเดลภายในแต่ละ Pod
    • พวกเขาสามารถปรับขนาดการฝึกอบรมเป็นชิป 6144 TPU v4 ซึ่งเป็นการกำหนดค่าระบบที่ใช้ TPU ที่ใหญ่ที่สุดที่ใช้สำหรับการฝึกอบรมจนถึงปัจจุบัน
    • โมเดลดังกล่าวได้รับประสิทธิภาพการฝึกอบรมถึง 57.8% ของการใช้ FLOPs ของฮาร์ดแวร์ ซึ่งตามที่ผู้เขียนอ้างว่าเป็นประสิทธิภาพการฝึกอบรมสูงสุดแต่ได้รับความสำเร็จสำหรับโมเดลภาษาขนาดใหญ่ในระดับนี้ 
  • ข้อมูลการฝึกอบรมสำหรับแบบจำลอง PaLM ประกอบด้วยชุดข้อมูลภาษาอังกฤษและหลายภาษาซึ่งประกอบด้วยเอกสารเว็บ หนังสือ Wikipedia การสนทนา และรหัส GitHub คุณภาพสูง
โมเดล PaLM โดย Google

ผลลัพธ์คืออะไร

  • การทดลองจำนวนมากแสดงให้เห็นว่าประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างมากเมื่อทีมปรับขนาดเป็นโมเดลที่ใหญ่ที่สุด
  • PaLM 540B ประสบความสำเร็จในด้านประสิทธิภาพในการทำงานที่ยากมากหลายอย่าง:
    • ความเข้าใจภาษาและการสร้าง. โมเดลที่เปิดตัวมีประสิทธิภาพเหนือกว่าโมเดลขนาดใหญ่ก่อนหน้าใน 28 จาก 29 งาน ซึ่งรวมถึงงานตอบคำถาม งานปิดปากและเติมประโยค งานอ่านความเข้าใจในบริบท งานให้เหตุผลสามัญสำนึก งาน SuperGLUE และ มากกว่า. ประสิทธิภาพของ PaLM ในงาน BIG-bench แสดงให้เห็นว่าสามารถแยกแยะสาเหตุและผลกระทบ ตลอดจนเข้าใจการผสมผสานแนวคิดในบริบทที่เหมาะสม
    • เหตุผล. ด้วยการแจ้ง 8-shot PaLM แก้ปัญหา 58% ใน GSM8K ซึ่งเป็นเกณฑ์มาตรฐานของคำถามคณิตศาสตร์ระดับชั้นประถมศึกษาที่ท้าทายหลายพันรายการ ซึ่งทำได้ดีกว่าคะแนนสูงสุดก่อนหน้านี้ที่ 55% ที่ทำได้โดยการปรับรุ่น GPT-3 175B อย่างละเอียด PaLM ยังแสดงให้เห็นถึงความสามารถในการสร้างคำอธิบายที่ชัดเจนในสถานการณ์ที่ต้องการการผสมผสานที่ซับซ้อนของการอนุมานเชิงตรรกะแบบหลายขั้นตอน ความรู้โลก และความเข้าใจในภาษาที่ลึกซึ้ง
    • การสร้างรหัส. PaLM ทำงานเทียบเท่ากับ Codex 12B ที่ปรับแต่งอย่างละเอียดโดยใช้โค้ด Python น้อยกว่า 50 เท่าสำหรับการฝึกอบรม เป็นการยืนยันว่าโมเดลภาษาขนาดใหญ่โอนการเรียนรู้จากทั้งภาษาโปรแกรมอื่นๆ และข้อมูลภาษาธรรมชาติได้อย่างมีประสิทธิภาพมากขึ้น

จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน

คุณสามารถรับรหัสการติดตั้งได้ที่ไหน

  • การใช้งาน PyTorch อย่างไม่เป็นทางการของสถาปัตยกรรม Transformer เฉพาะจากเอกสารการวิจัย PaLM มีอยู่ใน GitHub. จะไม่ปรับขนาดและเผยแพร่เพื่อการศึกษาเท่านั้น 

4. นกกระเรียน โดย DeepMind

สรุป 

Flamingo เป็นตระกูล Visual Language Models (VLMs) ที่ล้ำสมัยซึ่งได้รับการฝึกฝนเกี่ยวกับเว็บคอร์ปอราหลายรูปแบบขนาดใหญ่ที่มีข้อความและรูปภาพผสมกัน ด้วยการฝึกอบรมนี้ โมเดลสามารถปรับให้เข้ากับงานใหม่ได้โดยใช้ตัวอย่างที่มีคำอธิบายประกอบเพียงเล็กน้อย Flamingo รวมเอาความก้าวหน้าทางสถาปัตยกรรมที่สำคัญที่ออกแบบมาเพื่อผสานจุดแข็งของแบบจำลองการมองเห็นเท่านั้นและภาษาเท่านั้นที่ได้รับการฝึกฝนมาล่วงหน้า ลำดับการประมวลผลของข้อมูลภาพและข้อความที่มีการแทรกสลับแปรผัน และรองรับรูปภาพหรือวิดีโอเป็นอินพุตได้อย่างราบรื่น โมเดลแสดงให้เห็นถึงความสามารถในการปรับตัวที่น่าประทับใจกับงานภาพและวิดีโอต่างๆ เช่น การตอบคำถามด้วยภาพ งานคำบรรยายภาพ และการตอบคำถามด้วยภาพแบบหลายตัวเลือก การกำหนดมาตรฐานประสิทธิภาพใหม่โดยใช้การแจ้งเตือนเฉพาะงานในการเรียนรู้แบบไม่กี่ช็อต

เป้าหมายคืออะไร? 

  • เพื่อให้ความคืบหน้าในการทำให้โมเดลต่อเนื่องสามารถเรียนรู้และทำงานใหม่ได้อย่างรวดเร็วตามคำสั่งสั้นๆ:
    • กระบวนทัศน์ที่ใช้กันอย่างแพร่หลายในการฝึกโมเดลล่วงหน้าบนข้อมูลจำนวนมากที่ได้รับการดูแล จากนั้นปรับแต่งอย่างละเอียดสำหรับงานเฉพาะนั้น ต้องใช้ทรัพยากรมาก และต้องการจุดข้อมูลที่มีคำอธิบายประกอบหลายพันจุดพร้อมกับการปรับไฮเปอร์พารามิเตอร์ต่องานอย่างระมัดระวัง 
    • โมเดลปัจจุบันที่ใช้วัตถุประสงค์แบบคอนทราสต์ช่วยให้สามารถปรับแบบ Zero-shot กับงานใหม่ได้ แต่ขาดงานปลายเปิดมากกว่า เช่น คำบรรยายหรือการตอบคำถามด้วยภาพ เนื่องจากขาดความสามารถในการสร้างภาษา 
    • งานวิจัยนี้มีวัตถุประสงค์เพื่อแนะนำโมเดลใหม่ที่แก้ไขปัญหาเหล่านี้ได้อย่างมีประสิทธิภาพและแสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในระบอบการปกครองข้อมูลต่ำ

วิธีการแก้ไขปัญหา?

  • DeepMind นำเสนอ Flamingo ซึ่งเป็น VLM ที่ออกแบบมาสำหรับการเรียนรู้แบบไม่กี่ช็อตเกี่ยวกับการมองเห็นแบบปลายเปิดและงานด้านภาษาต่างๆ โดยใช้ตัวอย่างอินพุต/เอาต์พุตเพียงไม่กี่ตัวอย่าง
  • แบบจำลอง Flamingo เป็นแบบจำลองการสร้างข้อความแบบถดถอยอัตโนมัติที่ปรับสภาพการมองเห็นซึ่งสามารถประมวลผลโทเค็นข้อความผสมกับรูปภาพและ/หรือวิดีโอ และสร้างข้อความเป็นเอาต์พุต
  • สถาปัตยกรรมของ Flamingo รวมสองโมเดลที่ผ่านการฝึกอบรมล่วงหน้าและแบบแช่แข็งไว้ด้วยกัน:
    • แบบจำลองการมองเห็นที่สามารถ "รับรู้" ฉากภาพได้
    • โมเดลภาษาขนาดใหญ่ที่ได้รับมอบหมายให้แสดงเหตุผลพื้นฐาน
  • ส่วนประกอบสถาปัตยกรรมใหม่รวมโมเดลเหล่านี้ในลักษณะที่รักษาความรู้ที่ได้รับระหว่างการฝึกอบรมล่วงหน้าที่เน้นการคำนวณ
  • นอกจากนี้ รุ่น Flamingo ยังมีสถาปัตยกรรมที่ใช้ Perceiver ทำให้สามารถนำเข้ารูปภาพหรือวิดีโอที่มีความละเอียดสูงได้ สถาปัตยกรรมนี้สามารถสร้างโทเค็นภาพในจำนวนที่แน่นอนต่อภาพ/วิดีโอจากอาร์เรย์ที่กว้างและหลากหลายของคุณสมบัติการป้อนข้อมูลด้วยภาพ

ผลลัพธ์คืออะไร

  • การวิจัยแสดงให้เห็นว่า เช่นเดียวกับ LLM ซึ่งเป็นผู้เรียนเพียงไม่กี่ช็อตที่ดี VLM สามารถเรียนรู้จากตัวอย่างอินพุต/เอาต์พุตสองสามตัวอย่างสำหรับงานทำความเข้าใจภาพและวิดีโอ เช่น การจัดหมวดหมู่ คำบรรยาย หรือการตอบคำถาม
  • Flamingo สร้างเกณฑ์มาตรฐานใหม่ในการเรียนรู้แบบไม่กี่ช็อต แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าของภาษาต่อเนื่องหลายรูปแบบ 16 ภาษาและงานทำความเข้าใจภาพ/วิดีโอ
  • สำหรับ 6 จาก 16 งานเหล่านี้ Flamingo เหนือกว่าประสิทธิภาพของเทคโนโลยีขั้นสูงที่ปรับแต่งมาอย่างดี แม้ว่าจะใช้ตัวอย่างเฉพาะงานเพียง 32 ตัวอย่าง – ข้อมูลการฝึกอบรมเฉพาะงานน้อยกว่ารุ่นที่มีประสิทธิภาพสูงสุดในปัจจุบันประมาณ 1000 เท่า
โมเดลภาษาการมองเห็นของฟลามิงโก

จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน

คุณสามารถรับรหัสการติดตั้งได้ที่ไหน

5. BLIP-2 โดย Salesforce

สรุป 

BLIP-2 เป็นเฟรมเวิร์กก่อนการฝึกอบรมทั่วไปที่มีประสิทธิภาพสำหรับแบบจำลองการมองเห็นและภาษา ซึ่งได้รับการออกแบบมาเพื่อหลีกเลี่ยงค่าใช้จ่ายที่เพิ่มขึ้นในการฝึกอบรมล่วงหน้าแบบจำลองขนาดใหญ่ BLIP-2 ใช้ประโยชน์จากตัวเข้ารหัสรูปภาพที่ได้รับการฝึกฝนล่วงหน้าและแช่แข็งโมเดลภาษาขนาดใหญ่เพื่อบู๊ตสแตรปการฝึกล่วงหน้าภาษาวิชันซิสเต็ม โดยรวมเอา Querying Transformer ที่มีน้ำหนักเบาซึ่งได้รับการฝึกฝนล่วงหน้าในสองขั้นตอน ขั้นแรกเริ่มต้นการเรียนรู้การแทนภาษาด้วยการมองเห็นจากโปรแกรมเข้ารหัสภาพแบบแช่แข็ง และขั้นที่สองขับเคลื่อนการเรียนรู้เชิงกำเนิดจากการมองเห็นสู่ภาษาจากแบบจำลองภาษาแบบแช่แข็ง แม้จะมีพารามิเตอร์ที่สามารถฝึกได้น้อยกว่ามาก แต่ BLIP-2 ก็ยังมีประสิทธิภาพเหนือกว่าวิธีการที่ทันสมัย ​​โดยแซงหน้า Flamingo80B ของ DeepMind ถึง 8.7% สำหรับ VQAv2 แบบ zero-shot โดยมีพารามิเตอร์ที่สามารถฝึกได้น้อยกว่า 54 เท่า โมเดลนี้ยังแสดงความสามารถในการสร้างภาพเป็นข้อความแบบ zero-shot ตามคำสั่งภาษาธรรมชาติ

กรอบ BLIP-2
ภาพรวมของเฟรมเวิร์กของ BLIP-2

เป้าหมายคืออะไร? 

  • เพื่อให้ได้ประสิทธิภาพที่ล้ำสมัยในงานภาษาการมองเห็น ในขณะที่ลดค่าใช้จ่ายในการคำนวณ

วิธีการแก้ไขปัญหา?

  • ทีม Salesforce ได้เปิดตัวเฟรมเวิร์กก่อนการฝึกอบรมภาษาการมองเห็นใหม่ที่เรียกว่า BLIP-2 Bเอาท์สแตรปปิ้ง Lภาษา-Iผู้วิเศษ Pการฝึกซ้ำด้วยโมเดล Unimodal ที่แช่แข็ง:
    • แบบจำลอง unimodal ที่ฝึกไว้ล่วงหน้าจะยังคงค้างอยู่ในระหว่างการฝึกล่วงหน้าเพื่อลดต้นทุนการคำนวณและหลีกเลี่ยงปัญหาการลืมที่ร้ายแรง
    • เพื่ออำนวยความสะดวกในการจัดตำแหน่งข้ามโมดอลและเชื่อมช่องว่างโมดัลระหว่างโมเดลวิชั่นที่ฝึกไว้ล่วงหน้ากับโมเดลภาษาที่ฝึกไว้ล่วงหน้า ทีมงานจึงเสนอ Querying Transformer (Q-Former) ที่มีน้ำหนักเบาซึ่งทำหน้าที่เป็นคอขวดของข้อมูลระหว่างเอนโค้ดเดอร์ภาพที่ถูกตรึงและอิมเมจที่ถูกแช่แข็ง นิติศาสตร์มหาบัณฑิต
    • Q-former ได้รับการฝึกฝนล่วงหน้าด้วยกลยุทธ์สองขั้นตอนใหม่:
      • ขั้นตอนก่อนการฝึกขั้นแรกเป็นการเรียนรู้การเป็นตัวแทนภาษาการมองเห็น สิ่งนี้บังคับให้ Q-Former เรียนรู้การแสดงภาพที่เกี่ยวข้องกับข้อความมากที่สุด
      • ขั้นตอนก่อนการฝึกอบรมขั้นที่สองเป็นการเรียนรู้เชิงสร้างสรรค์จากการมองเห็นสู่ภาษาโดยการเชื่อมต่อผลลัพธ์ของ Q-Former กับ LLM ที่แช่แข็ง Q-Former ได้รับการฝึกฝนเพื่อให้ LLM สามารถตีความการแสดงภาพออกได้

ผลลัพธ์คืออะไร

  • BLIP-2 นำเสนอผลลัพธ์ที่ยอดเยี่ยมและล้ำสมัยในงานด้านภาษาการมองเห็นที่หลากหลาย รวมถึงการตอบคำถามด้วยภาพ คำบรรยายภาพ และการดึงข้อความจากรูปภาพ
    • ตัวอย่างเช่น มีประสิทธิภาพดีกว่า Flamingo 8.7% ใน VQAv2 แบบ zero-shot
  • ยิ่งไปกว่านั้น ประสิทธิภาพที่โดดเด่นนี้เกิดขึ้นได้จากประสิทธิภาพของคอมพิวเตอร์ที่สูงขึ้นอย่างมาก:
    • BLIP-2 มีประสิทธิภาพดีกว่า Flamingo-80B ในขณะที่ใช้พารามิเตอร์ที่สามารถฝึกได้น้อยกว่า 54 เท่า 
  • BLIP-2 มีความสามารถในการดำเนินการสร้างภาพเป็นข้อความแบบ Zero-shot เพื่อตอบสนองต่อคำสั่งภาษาธรรมชาติ ซึ่งจะเป็นการปูทางสำหรับการพัฒนาทักษะต่างๆ เช่น การให้เหตุผลความรู้ด้านภาพและการสนทนาด้วยภาพ
  • ประการสุดท้าย สิ่งสำคัญคือต้องทราบว่า BLIP-2 เป็นวิธีการที่หลากหลายที่สามารถใช้ประโยชน์จากแบบจำลอง Unimodal ที่ซับซ้อนมากขึ้นเพื่อปรับปรุงประสิทธิภาพของการฝึกอบรมล่วงหน้าด้านภาษาการมองเห็น
ผลลัพธ์ BLIP-2
ผลลัพธ์ BLIP-2

จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน

คุณสามารถรับรหัสการติดตั้งได้ที่ไหน

การใช้งาน BLIP-2 อย่างเป็นทางการมีอยู่ใน GitHub.

6. LLaMA โดย Meta AI

สรุป 

ทีม Meta AI ยืนยันว่าโมเดลขนาดเล็กที่ฝึกฝนบนโทเค็นจำนวนมากขึ้นนั้นง่ายต่อการฝึกใหม่และปรับแต่งอย่างละเอียดสำหรับแอปพลิเคชันผลิตภัณฑ์เฉพาะ ดังนั้นพวกเขาจึงแนะนำ โทร (LARGE Laการทะเลาะ Mรุ่น Meta AI) ชุดของโมเดลภาษาพื้นฐานที่มีพารามิเตอร์ 7B ถึง 65B LLaMA 33B และ 65B ได้รับการฝึกอบรมบนโทเค็น 1.4 ล้านล้านโทเค็น ในขณะที่โมเดลที่เล็กที่สุด LLaMA 7B ได้รับการฝึกอบรมบนโทเค็นหนึ่งล้านล้านโทเค็น พวกเขาใช้เฉพาะชุดข้อมูลที่เปิดเผยต่อสาธารณะ โดยไม่ขึ้นอยู่กับข้อมูลที่เป็นกรรมสิทธิ์หรือถูกจำกัด ทีมงานยังใช้การปรับปรุงสถาปัตยกรรมที่สำคัญและเทคนิคการเพิ่มประสิทธิภาพความเร็วในการฝึกอบรม ด้วยเหตุนี้ LLaMA-13B จึงมีประสิทธิภาพเหนือกว่า GPT-3 โดยมีขนาดเล็กกว่า 10 เท่า และ LLaMA-65B มีประสิทธิภาพที่แข่งขันได้กับ PaLM-540B

เป้าหมายคืออะไร? 

  • เพื่อแสดงความเป็นไปได้ในการฝึกอบรมโมเดลที่มีประสิทธิภาพสูงสุดเฉพาะในชุดข้อมูลที่สาธารณะสามารถเข้าถึงได้ โดยไม่ต้องพึ่งพาแหล่งข้อมูลที่เป็นกรรมสิทธิ์หรือถูกจำกัด
  • เพื่อให้ชุมชนการวิจัยมีโมเดลขนาดเล็กและมีประสิทธิภาพมากขึ้น และช่วยให้ผู้ที่ไม่สามารถเข้าถึงโครงสร้างพื้นฐานจำนวนมากสามารถศึกษาโมเดลภาษาขนาดใหญ่ได้

วิธีการแก้ไขปัญหา?

  • ในการฝึกโมเดล LLaMA นักวิจัยใช้เฉพาะข้อมูลที่เปิดเผยต่อสาธารณะและเข้ากันได้กับโอเพ่นซอร์ส
  • พวกเขายังได้แนะนำการปรับปรุงสถาปัตยกรรม Transformer มาตรฐานเล็กน้อย:
    • การนำระเบียบวิธี GPT-3 มาใช้ ความเสถียรของการฝึกอบรมได้รับการปรับปรุงโดยการปรับอินพุตให้เป็นมาตรฐานสำหรับแต่ละชั้นย่อยของหม้อแปลง แทนที่จะทำให้เอาต์พุตเป็นมาตรฐาน
    • แรงบันดาลใจจากแบบจำลอง PaLM นักวิจัยได้แทนที่ ReLU non-linearity ด้วยฟังก์ชันการเปิดใช้งาน SwiGLU เพื่อปรับปรุงประสิทธิภาพ
    • แรงบันดาลใจจาก ซูเอตคณะ (2021)พวกเขายกเลิกการฝังตำแหน่งแบบสัมบูรณ์และรวมการฝังตำแหน่งแบบหมุน (RoPE) ไว้ที่ทุกชั้นของเครือข่ายแทน
  • สุดท้ายนี้ ทีม Meta AI ได้ปรับปรุงความเร็วในการฝึกฝนโมเดลของตนโดย:
    • การใช้การนำความสนใจหลายประเด็นเชิงสาเหตุมาใช้อย่างมีประสิทธิภาพโดยไม่เก็บน้ำหนักความสนใจหรือคำนวณคะแนนคีย์/เคียวรีที่ปกปิดไว้
    • ใช้การเช็คพอยต์เพื่อลดการเปิดใช้งานที่คำนวณใหม่ระหว่างการผ่านย้อนกลับ
    • การซ้อนทับการคำนวณการเปิดใช้งานและการสื่อสารระหว่าง GPUs ผ่านเครือข่าย (เนื่องจากการดำเนินการ all_reduce)

ผลลัพธ์คืออะไร

  • LLaMA-13B เหนือกว่า GPT-3 แม้จะมีขนาดเล็กกว่า 10 เท่า ในขณะที่ LLaMA-65B มีความโดดเด่นเมื่อเทียบกับ PaLM-540B

จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน

คุณสามารถรับรหัสการติดตั้งได้ที่ไหน

  • Meta AI ให้การเข้าถึง LLaMA แก่นักวิจัยเชิงวิชาการ บุคคลที่เกี่ยวข้องกับรัฐบาล ภาคประชาสังคม สถาบันการศึกษา และห้องปฏิบัติการวิจัยอุตสาหกรรมระดับโลกโดยพิจารณาจากกรณีศึกษาเป็นรายบุคคล หากต้องการสมัคร ให้ไปที่ต่อไปนี้ พื้นที่เก็บข้อมูล GitHub.

7. GPT-4 โดย OpenAI

สรุป 

จีพีที-4 เป็นโมเดลหลายรูปแบบขนาดใหญ่ที่รับอินพุตรูปภาพและข้อความ และสร้างเอาต์พุตข้อความ เนื่องจากความกังวลด้านการแข่งขันและความปลอดภัย รายละเอียดเฉพาะเกี่ยวกับสถาปัตยกรรมของโมเดลและการฝึกอบรมจึงถูกระงับไว้ ในแง่ของประสิทธิภาพ GPT-4 เหนือกว่ารุ่นภาษาก่อนหน้าในเกณฑ์มาตรฐานแบบดั้งเดิม และแสดงให้เห็นถึงการปรับปรุงที่สำคัญในด้านความเข้าใจความตั้งใจของผู้ใช้และคุณสมบัติด้านความปลอดภัย โมเดลนี้ยังบรรลุประสิทธิภาพระดับมนุษย์ในการสอบต่างๆ รวมถึงคะแนนสูงสุด 10% ในการสอบเนติบัณฑิตจำลอง

เป้าหมายคืออะไร? 

  • เพื่อพัฒนาโมเดลหลายรูปแบบขนาดใหญ่ซึ่งสามารถรับอินพุตรูปภาพและข้อความและสร้างเอาต์พุตข้อความ 
  • เพื่อพัฒนาโครงสร้างพื้นฐานและวิธีการเพิ่มประสิทธิภาพที่คาดการณ์ได้ในระดับต่างๆ ที่หลากหลาย

วิธีการแก้ไขปัญหา?

  • เนื่องจากสภาพแวดล้อมการแข่งขันและผลกระทบด้านความปลอดภัย OpenAI จึงตัดสินใจระงับรายละเอียดเกี่ยวกับสถาปัตยกรรม ขนาดโมเดล ฮาร์ดแวร์ การคำนวณการฝึกอบรม การสร้างชุดข้อมูล และวิธีการฝึกอบรม
  • พวกเขาเปิดเผยว่า:
    • GPT-4 เป็นโมเดลที่ใช้ Transformer ซึ่งผ่านการฝึกอบรมล่วงหน้าเพื่อทำนายโทเค็นถัดไปในเอกสาร
    • มันใช้ข้อมูลที่เปิดเผยต่อสาธารณะและข้อมูลลิขสิทธิ์ของบุคคลที่สาม
    • โมเดลได้รับการปรับแต่งอย่างละเอียดโดยใช้ Reinforcement Learning from Human Feedback (RLHF)
  • ข้อมูลที่ไม่ได้รับการยืนยันบ่งชี้ว่า GPT-4 ไม่ใช่โมเดลที่มีความหนาแน่นสูงแบบเอกพจน์เหมือนรุ่นก่อนๆ แต่เป็นการทำงานร่วมกันของโรงไฟฟ้าที่มีโมเดลแยกกัน 220 โมเดล ซึ่งแต่ละโมเดลบรรจุพารามิเตอร์ XNUMX พันล้านพารามิเตอร์ที่น่าทึ่ง
ประสิทธิภาพของ GPT-4

ผลลัพธ์คืออะไร

  • GPT-4 ประสบความสำเร็จในการปฏิบัติงานระดับมนุษย์ในการสอบวิชาชีพและวิชาการส่วนใหญ่ โดยเฉพาะอย่างยิ่งการให้คะแนน 10% แรกในการสอบเนติบัณฑิตจำลอง
  • โมเดล GPT-4 ฐานที่ฝึกไว้ล่วงหน้ามีประสิทธิภาพดีกว่าโมเดลภาษาที่มีอยู่และระบบที่ล้ำสมัยก่อนหน้านี้บนการวัดประสิทธิภาพ NLP แบบดั้งเดิม โดยไม่ต้องมีการสร้างเกณฑ์มาตรฐานเฉพาะหรือโปรโตคอลการฝึกอบรมเพิ่มเติม
  • GPT-4 แสดงให้เห็นถึงการปรับปรุงที่สำคัญตามความตั้งใจของผู้ใช้ โดยการตอบสนองนั้นดีกว่าการตอบสนองของ GPT-3.5 ใน 70.2% ของ 5,214 ข้อความแจ้งจาก ChatGPT และ OpenAI API
  • คุณสมบัติด้านความปลอดภัยของ GPT-4 ได้รับการปรับปรุงอย่างมีนัยสำคัญเมื่อเทียบกับ GPT-3.5 โดยการตอบสนองคำขอเนื้อหาที่ไม่ได้รับอนุญาตลดลง 82% และการปฏิบัติตามนโยบายสำหรับคำขอที่ละเอียดอ่อนเพิ่มขึ้น 29% (เช่น คำแนะนำทางการแพทย์และการทำร้ายตัวเอง)

จะเรียนรู้เพิ่มเติมเกี่ยวกับการวิจัยนี้ได้ที่ไหน

คุณสามารถรับรหัสการติดตั้งได้ที่ไหน

  • การติดตั้งโค้ดของ GPT-4 ไม่พร้อมใช้งาน

การประยุกต์ใช้โมเดลภาษาขนาดใหญ่ (วิสัยทัศน์) ในโลกแห่งความเป็นจริง

ความก้าวหน้าด้านการวิจัย AI ที่สำคัญที่สุดในช่วงไม่กี่ปีที่ผ่านมามาจากโมเดล AI ขนาดใหญ่ที่ได้รับการฝึกฝนในชุดข้อมูลขนาดใหญ่ โมเดลเหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่น่าประทับใจ และเป็นเรื่องน่าทึ่งที่คิดว่า AI สามารถปฏิวัติอุตสาหกรรมทั้งหมดได้อย่างไร เช่น การบริการลูกค้า การตลาด อีคอมเมิร์ซ การดูแลสุขภาพ การพัฒนาซอฟต์แวร์ สื่อสารมวลชน และอื่นๆ อีกมากมาย

โมเดลภาษาขนาดใหญ่มีแอปพลิเคชันในโลกแห่งความเป็นจริงมากมาย GPT-4 แสดงรายการต่อไปนี้:

  • ความเข้าใจและการสร้างภาษาธรรมชาติสำหรับแชทบอทและผู้ช่วยเสมือน
  • การแปลด้วยเครื่องระหว่างภาษาต่างๆ
  • การสรุปบทความ รายงาน หรือเอกสารข้อความอื่นๆ
  • การวิเคราะห์ความรู้สึกสำหรับการวิจัยตลาดหรือการตรวจสอบสื่อสังคมออนไลน์
  • การสร้างเนื้อหาสำหรับการตลาด โซเชียลมีเดีย หรือการเขียนเชิงสร้างสรรค์
  • ระบบตอบคำถามสำหรับการสนับสนุนลูกค้าหรือฐานความรู้
  • การจัดประเภทข้อความสำหรับการกรองสแปม การจัดหมวดหมู่หัวข้อ หรือการจัดระเบียบเอกสาร
  • เครื่องมือการเรียนรู้และการสอนภาษาส่วนบุคคล
  • ความช่วยเหลือในการสร้างรหัสและการพัฒนาซอฟต์แวร์
  • การวิเคราะห์และความช่วยเหลือทางการแพทย์ กฎหมาย และเอกสารทางเทคนิค
  • เครื่องมือช่วยการเข้าถึงสำหรับบุคคลทุพพลภาพ เช่น การแปลงข้อความเป็นคำพูดและการแปลงคำพูดเป็นข้อความ
  • บริการรู้จำเสียงและถอดความ

หากเราเพิ่มส่วนภาพ พื้นที่ของแอปพลิเคชันที่เป็นไปได้จะขยายเพิ่มเติม:

เป็นเรื่องน่าตื่นเต้นมากที่ได้ติดตามความก้าวหน้าของ AI ล่าสุดและคิดถึงศักยภาพของแอปพลิเคชันในโลกแห่งความเป็นจริง อย่างไรก็ตาม ก่อนที่จะนำโมเดลเหล่านี้ไปใช้ในชีวิตจริง เราจำเป็นต้องจัดการกับความเสี่ยงและข้อจำกัดที่เกี่ยวข้อง ซึ่งน่าเสียดายที่มีความสำคัญมากทีเดียว

ความเสี่ยงและข้อจำกัด

หากคุณถาม GPT-4 เกี่ยวกับความเสี่ยงและข้อจำกัด อาจให้รายการข้อกังวลที่เกี่ยวข้องจำนวนมากแก่คุณ หลังจากกรองผ่านรายการนี้และเพิ่มข้อควรพิจารณาเพิ่มเติม ฉันได้ชุดความเสี่ยงและข้อจำกัดที่สำคัญๆ ต่อไปนี้ซึ่งมีอยู่ในโมเดลภาษาขนาดใหญ่สมัยใหม่:

  1. อคติและการเลือกปฏิบัติ: โมเดลเหล่านี้เรียนรู้จากข้อมูลข้อความจำนวนมหาศาล ซึ่งมักมีเนื้อหาที่มีอคติและเลือกปฏิบัติ ผลที่ได้คือ ผลลัพธ์ที่สร้างขึ้นสามารถขยายเวลาแบบแผน ภาษาที่ไม่เหมาะสม และการเลือกปฏิบัติโดยไม่ตั้งใจโดยอิงจากปัจจัยต่างๆ เช่น เพศ เชื้อชาติ หรือศาสนา
  2. ข้อมูลที่ผิด: โมเดลภาษาขนาดใหญ่อาจสร้างเนื้อหาที่ไม่ถูกต้องตามข้อเท็จจริง ทำให้เข้าใจผิด หรือล้าสมัย แม้ว่าแบบจำลองจะได้รับการฝึกอบรมจากแหล่งข้อมูลที่หลากหลาย แต่อาจไม่ได้ให้ข้อมูลที่ถูกต้องที่สุดหรือเป็นปัจจุบันเสมอไป บ่อยครั้งสิ่งนี้เกิดขึ้นเนื่องจากตัวแบบจัดลำดับความสำคัญในการสร้างเอาต์พุตที่ถูกต้องตามหลักไวยากรณ์หรือดูเหมือนสอดคล้องกัน แม้ว่าจะทำให้เข้าใจผิดก็ตาม
  3. ขาดความเข้าใจ: แม้ว่าโมเดลเหล่านี้ดูเหมือนจะเข้าใจภาษามนุษย์ แต่พวกมันทำงานโดยหลักโดยการระบุรูปแบบและการเชื่อมโยงทางสถิติในข้อมูลการฝึกอบรม พวกเขาไม่มีความเข้าใจอย่างลึกซึ้งเกี่ยวกับเนื้อหาที่พวกเขาสร้างขึ้น ซึ่งบางครั้งอาจส่งผลให้เกิดผลลัพธ์ที่ไร้สาระหรือไม่เกี่ยวข้อง
  4. เนื้อหาไม่เหมาะสม: บางครั้งรูปแบบภาษาอาจสร้างเนื้อหาที่ไม่เหมาะสม เป็นอันตราย หรือไม่เหมาะสม แม้ว่าจะมีความพยายามที่จะลดเนื้อหาดังกล่าวลง แต่ก็ยังสามารถเกิดขึ้นได้เนื่องจากธรรมชาติของข้อมูลการฝึกอบรมและการที่โมเดลไม่สามารถแยกแยะบริบทหรือความตั้งใจของผู้ใช้ได้

สรุป

โมเดลภาษาขนาดใหญ่ได้ปฏิวัติวงการการประมวลผลภาษาธรรมชาติอย่างไม่ต้องสงสัย และแสดงให้เห็นถึงศักยภาพอันยิ่งใหญ่ในการเพิ่มประสิทธิภาพการทำงานในบทบาทและอุตสาหกรรมต่างๆ ความสามารถของพวกเขาในการสร้างข้อความที่เหมือนมนุษย์ ทำงานอัตโนมัติ และให้ความช่วยเหลือในกระบวนการสร้างสรรค์และการวิเคราะห์ทำให้พวกเขาเป็นเครื่องมือที่ขาดไม่ได้ในโลกปัจจุบันที่ขับเคลื่อนด้วยเทคโนโลยีอย่างรวดเร็ว

อย่างไรก็ตาม สิ่งสำคัญคือต้องรับทราบและเข้าใจข้อจำกัดและความเสี่ยงที่เกี่ยวข้องกับโมเดลที่มีประสิทธิภาพเหล่านี้ ประเด็นต่างๆ เช่น ความลำเอียง ข้อมูลที่ผิด และศักยภาพในการใช้งานที่เป็นอันตรายนั้นเป็นสิ่งที่ไม่ควรมองข้าม ในขณะที่เรายังคงผสานรวมเทคโนโลยีที่ขับเคลื่อนด้วย AI เหล่านี้เข้ากับชีวิตประจำวันของเรา จำเป็นอย่างยิ่งที่จะต้องสร้างสมดุลระหว่างการใช้ประโยชน์จากความสามารถและการดูแลควบคุมโดยมนุษย์ โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ละเอียดอ่อนและมีความเสี่ยงสูง

หากเราประสบความสำเร็จในการใช้เทคโนโลยี generative AI อย่างมีความรับผิดชอบ เราจะปูทางสำหรับอนาคตที่ปัญญาประดิษฐ์และความเชี่ยวชาญของมนุษย์ทำงานร่วมกันเพื่อขับเคลื่อนนวัตกรรมและสร้างโลกที่ดีขึ้นสำหรับทุกคน

สนุกกับบทความนี้? ลงทะเบียนเพื่อรับการอัปเดตการวิจัย AI เพิ่มเติม

เราจะแจ้งให้คุณทราบเมื่อเราเผยแพร่บทความสรุปเพิ่มเติมเช่นนี้

ประทับเวลา:

เพิ่มเติมจาก ท็อปบอท