ChatGPT และโมเดล AI อื่น ๆ ไม่สามารถวิเคราะห์การยื่น SEC ได้ นักวิจัย Patronus AI พบ – TechStartups

ChatGPT และโมเดล AI อื่น ๆ ไม่สามารถวิเคราะห์การยื่น SEC ได้ นักวิจัย Patronus AI พบ – TechStartups

โหนดต้นทาง: 3027358

กว่าปีที่ผ่านมา, ChatGPT และโมเดลภาษาขนาดใหญ่อื่นๆ (LLM) รวมถึง Google Bard และ Anthropic ได้รับความสนใจอย่างกว้างขวางสำหรับความสามารถที่น่าประทับใจ ตั้งแต่การเขียนโค้ด บทกวี และการแต่งเพลง ไปจนถึงการคิดโครงเรื่องของภาพยนตร์ทั้งหมด พวกเขาได้แสดงให้เห็นถึงความเชี่ยวชาญในงานที่หลากหลาย รวมทั้งสอบผ่านกฎหมายด้วย,การสอบ Wharton MBA และการสอบทางการแพทย์

อย่างไรก็ตาม ท่ามกลางความก้าวหน้าเหล่านี้ ความท้าทายยังคงมีอยู่ รายงานล่าสุดจากการเริ่มต้น ผู้อุปถัมภ์ AI แบ่งปันข้อมูลเชิงลึกเกี่ยวกับความยากลำบากที่โมเดลภาษาขนาดใหญ่ต้องเผชิญ ซึ่งรวมถึง GPT-4-Turbo ของ OpenAI เพื่อวิเคราะห์เอกสารที่ยื่นต่อสำนักงานคณะกรรมการกำกับหลักทรัพย์และตลาดหลักทรัพย์ (SEC) ได้อย่างมีประสิทธิภาพ จากการค้นพบของ Patronus AI โมเดลเหล่านี้มักจะลังเลใจในการตอบคำถามที่ได้รับจากการยื่นต่อ SEC อย่างถูกต้อง

ในการให้สัมภาษณ์กับ CNBC ผู้ก่อตั้ง Patronus กล่าวเสริมว่า แม้แต่การกำหนดค่าโมเดล AI ที่มีประสิทธิภาพสูงสุดที่ได้รับการทดสอบ GPT-4-Turbo ของ OpenAI ซึ่งมีความสามารถในการอ่านเอกสารเกือบทั้งหมดควบคู่ไปกับคำถาม ก็ยังได้รับอัตราความแม่นยำเพียง 79% สำหรับซอฟต์แวร์ใหม่ของ Patronus AI ทดสอบซีเอ็นบีซี รายงาน.

นักวิจัยกล่าวว่า หลายครั้งที่แบบจำลองภาษาปฏิเสธที่จะตอบสนองหรือสร้างข้อมูลที่ไม่มีอยู่ในเอกสารที่ยื่นต่อ SEC ซึ่งเป็นปรากฏการณ์ที่มักเรียกว่า “ภาพหลอน” Anand Kannappan ผู้ร่วมก่อตั้ง Patronus AI แสดงความไม่พอใจกับประสิทธิภาพการทำงาน โดยระบุว่า:

“อัตราประสิทธิภาพประเภทนั้นเป็นสิ่งที่ยอมรับไม่ได้อย่างแน่นอน มันจะต้องสูงกว่านี้มากเพื่อที่จะทำงานในรูปแบบอัตโนมัติและพร้อมสำหรับการผลิต”

รายงานดังกล่าวเน้นย้ำถึงความยากลำบากที่โมเดล AI เผชิญ โดยเฉพาะอย่างยิ่งในอุตสาหกรรมที่มีการควบคุม เช่น การเงิน เนื่องจากบริษัทใหญ่ๆ มีเป้าหมายที่จะรวมเทคโนโลยีล้ำสมัยเข้ากับการดำเนินงานของตนเพื่อวัตถุประสงค์ในการบริการลูกค้าหรือการวิจัย

การค้นพบนี้เน้นย้ำถึงอุปสรรคที่โมเดล AI ต้องเผชิญ เนื่องจากถูกรวมเข้ากับผลิตภัณฑ์ในโลกแห่งความเป็นจริง โดยเฉพาะอย่างยิ่งในอุตสาหกรรมต่างๆ เช่น การเงิน การแยกตัวเลขที่สำคัญอย่างรวดเร็วและการวิเคราะห์เรื่องราวทางการเงินถูกมองว่าเป็นแอปพลิเคชั่นที่น่าหวังสำหรับแชทบอท โดยมีศักยภาพในการสร้างความได้เปรียบทางการแข่งขันในภาคการเงิน

การค้นพบนี้ยังสอดคล้องกับสิ่งอื่นด้วย การศึกษาที่พบว่าความสามารถของ ChatGPT ในการแก้ปัญหาคณิตศาสตร์ขั้นพื้นฐานลดลงอย่างมาก- ในเวลาไม่กี่เดือน ความแม่นยำก็ลดลงจาก 98% เหลือเพียง 2%

แม้ว่าศักยภาพของ generative AI ในอุตสาหกรรมการธนาคารจะมีอยู่มาก แต่ความท้าทายยังคงมีอยู่ การรวม LLM เข้ากับผลิตภัณฑ์ทำให้เกิดความยุ่งยาก เนื่องจากลักษณะที่ไม่สามารถกำหนดได้ ทำให้ต้องมีการทดสอบที่เข้มงวดเพื่อให้แน่ใจว่าได้ผลลัพธ์ที่สม่ำเสมอ ตรงประเด็น และเชื่อถือได้

Patronus AI ก่อตั้งโดยอดีตพนักงาน Meta มีเป้าหมายที่จะจัดการกับความท้าทายนี้โดยทำให้การทดสอบ LLM เป็นแบบอัตโนมัติโดยใช้ซอฟต์แวร์ พวกเขาสร้าง FinanceBench ซึ่งเป็นชุดข้อมูลที่มีคำถามและคำตอบมากกว่า 10,000 ข้อที่มาจากเอกสารที่ยื่นต่อ SEC และสร้าง "มาตรฐานประสิทธิภาพขั้นต่ำ" สำหรับภาษา AI ในภาคการเงิน

ผู้ร่วมก่อตั้ง Patronus AI Anand Kannappan และ Rebecca Qian (เครดิต: Patronus AI)

ผู้ร่วมก่อตั้งเน้นย้ำถึงความสำคัญของขั้นตอนการทดสอบที่มีประสิทธิภาพมากขึ้น ซึ่งก้าวไปไกลกว่าการประเมินด้วยตนเอง Patronus AI พยายามที่จะให้ความมั่นใจแก่บริษัทต่างๆ ผ่านทาง FinanceBench ว่าบอท AI ของพวกเขาจะไม่ให้คำตอบที่น่าประหลาดใจหรือไม่ถูกต้อง ซึ่งท้ายที่สุดจะช่วยเพิ่มความน่าเชื่อถือของโมเดลภาษาในการใช้งานจริง

คำถามทดสอบ

“เราคิดว่าผลลัพธ์น่าจะค่อนข้างดี” กรรณพันธ์กล่าว นอกจากนี้เขายังกล่าวเสริมว่า “โมเดลต่างๆ จะยังคงพัฒนาให้ดีขึ้นเรื่อยๆ เมื่อเวลาผ่านไป เราหวังเป็นอย่างยิ่งว่าในระยะยาว หลายๆ อย่างนี้สามารถทำให้เป็นอัตโนมัติได้ แต่วันนี้ คุณจะต้องมีมนุษย์อยู่ในวงอย่างแน่นอนเพื่อช่วยสนับสนุนและชี้แนะขั้นตอนการทำงานใดก็ตามที่คุณมี”


ประทับเวลา:

เพิ่มเติมจาก เทคสตาร์ทอัพ

แฮ็กเกอร์ 'Ryushi' เรียกร้องให้ Twitter จ่ายค่าไถ่ 200,000 เหรียญเพื่อหลีกเลี่ยงการปล่อยข้อมูลส่วนตัวของผู้ใช้ Twitter กว่า 400 ล้านคน

โหนดต้นทาง: 1850501
ประทับเวลา: ธันวาคม 28, 2022