กว่าปีที่ผ่านมา, ChatGPT และโมเดลภาษาขนาดใหญ่อื่นๆ (LLM) รวมถึง Google Bard และ Anthropic ได้รับความสนใจอย่างกว้างขวางสำหรับความสามารถที่น่าประทับใจ ตั้งแต่การเขียนโค้ด บทกวี และการแต่งเพลง ไปจนถึงการคิดโครงเรื่องของภาพยนตร์ทั้งหมด พวกเขาได้แสดงให้เห็นถึงความเชี่ยวชาญในงานที่หลากหลาย รวมทั้งสอบผ่านกฎหมายด้วย,การสอบ Wharton MBA และการสอบทางการแพทย์
อย่างไรก็ตาม ท่ามกลางความก้าวหน้าเหล่านี้ ความท้าทายยังคงมีอยู่ รายงานล่าสุดจากการเริ่มต้น ผู้อุปถัมภ์ AI แบ่งปันข้อมูลเชิงลึกเกี่ยวกับความยากลำบากที่โมเดลภาษาขนาดใหญ่ต้องเผชิญ ซึ่งรวมถึง GPT-4-Turbo ของ OpenAI เพื่อวิเคราะห์เอกสารที่ยื่นต่อสำนักงานคณะกรรมการกำกับหลักทรัพย์และตลาดหลักทรัพย์ (SEC) ได้อย่างมีประสิทธิภาพ จากการค้นพบของ Patronus AI โมเดลเหล่านี้มักจะลังเลใจในการตอบคำถามที่ได้รับจากการยื่นต่อ SEC อย่างถูกต้อง
ในการให้สัมภาษณ์กับ CNBC ผู้ก่อตั้ง Patronus กล่าวเสริมว่า แม้แต่การกำหนดค่าโมเดล AI ที่มีประสิทธิภาพสูงสุดที่ได้รับการทดสอบ GPT-4-Turbo ของ OpenAI ซึ่งมีความสามารถในการอ่านเอกสารเกือบทั้งหมดควบคู่ไปกับคำถาม ก็ยังได้รับอัตราความแม่นยำเพียง 79% สำหรับซอฟต์แวร์ใหม่ของ Patronus AI ทดสอบซีเอ็นบีซี รายงาน.
นักวิจัยกล่าวว่า หลายครั้งที่แบบจำลองภาษาปฏิเสธที่จะตอบสนองหรือสร้างข้อมูลที่ไม่มีอยู่ในเอกสารที่ยื่นต่อ SEC ซึ่งเป็นปรากฏการณ์ที่มักเรียกว่า “ภาพหลอน” Anand Kannappan ผู้ร่วมก่อตั้ง Patronus AI แสดงความไม่พอใจกับประสิทธิภาพการทำงาน โดยระบุว่า:
“อัตราประสิทธิภาพประเภทนั้นเป็นสิ่งที่ยอมรับไม่ได้อย่างแน่นอน มันจะต้องสูงกว่านี้มากเพื่อที่จะทำงานในรูปแบบอัตโนมัติและพร้อมสำหรับการผลิต”
รายงานดังกล่าวเน้นย้ำถึงความยากลำบากที่โมเดล AI เผชิญ โดยเฉพาะอย่างยิ่งในอุตสาหกรรมที่มีการควบคุม เช่น การเงิน เนื่องจากบริษัทใหญ่ๆ มีเป้าหมายที่จะรวมเทคโนโลยีล้ำสมัยเข้ากับการดำเนินงานของตนเพื่อวัตถุประสงค์ในการบริการลูกค้าหรือการวิจัย
การค้นพบนี้เน้นย้ำถึงอุปสรรคที่โมเดล AI ต้องเผชิญ เนื่องจากถูกรวมเข้ากับผลิตภัณฑ์ในโลกแห่งความเป็นจริง โดยเฉพาะอย่างยิ่งในอุตสาหกรรมต่างๆ เช่น การเงิน การแยกตัวเลขที่สำคัญอย่างรวดเร็วและการวิเคราะห์เรื่องราวทางการเงินถูกมองว่าเป็นแอปพลิเคชั่นที่น่าหวังสำหรับแชทบอท โดยมีศักยภาพในการสร้างความได้เปรียบทางการแข่งขันในภาคการเงิน
การค้นพบนี้ยังสอดคล้องกับสิ่งอื่นด้วย การศึกษาที่พบว่าความสามารถของ ChatGPT ในการแก้ปัญหาคณิตศาสตร์ขั้นพื้นฐานลดลงอย่างมาก- ในเวลาไม่กี่เดือน ความแม่นยำก็ลดลงจาก 98% เหลือเพียง 2%
แม้ว่าศักยภาพของ generative AI ในอุตสาหกรรมการธนาคารจะมีอยู่มาก แต่ความท้าทายยังคงมีอยู่ การรวม LLM เข้ากับผลิตภัณฑ์ทำให้เกิดความยุ่งยาก เนื่องจากลักษณะที่ไม่สามารถกำหนดได้ ทำให้ต้องมีการทดสอบที่เข้มงวดเพื่อให้แน่ใจว่าได้ผลลัพธ์ที่สม่ำเสมอ ตรงประเด็น และเชื่อถือได้
Patronus AI ก่อตั้งโดยอดีตพนักงาน Meta มีเป้าหมายที่จะจัดการกับความท้าทายนี้โดยทำให้การทดสอบ LLM เป็นแบบอัตโนมัติโดยใช้ซอฟต์แวร์ พวกเขาสร้าง FinanceBench ซึ่งเป็นชุดข้อมูลที่มีคำถามและคำตอบมากกว่า 10,000 ข้อที่มาจากเอกสารที่ยื่นต่อ SEC และสร้าง "มาตรฐานประสิทธิภาพขั้นต่ำ" สำหรับภาษา AI ในภาคการเงิน
ผู้ร่วมก่อตั้งเน้นย้ำถึงความสำคัญของขั้นตอนการทดสอบที่มีประสิทธิภาพมากขึ้น ซึ่งก้าวไปไกลกว่าการประเมินด้วยตนเอง Patronus AI พยายามที่จะให้ความมั่นใจแก่บริษัทต่างๆ ผ่านทาง FinanceBench ว่าบอท AI ของพวกเขาจะไม่ให้คำตอบที่น่าประหลาดใจหรือไม่ถูกต้อง ซึ่งท้ายที่สุดจะช่วยเพิ่มความน่าเชื่อถือของโมเดลภาษาในการใช้งานจริง
คำถามทดสอบ
“เราคิดว่าผลลัพธ์น่าจะค่อนข้างดี” กรรณพันธ์กล่าว นอกจากนี้เขายังกล่าวเสริมว่า “โมเดลต่างๆ จะยังคงพัฒนาให้ดีขึ้นเรื่อยๆ เมื่อเวลาผ่านไป เราหวังเป็นอย่างยิ่งว่าในระยะยาว หลายๆ อย่างนี้สามารถทำให้เป็นอัตโนมัติได้ แต่วันนี้ คุณจะต้องมีมนุษย์อยู่ในวงอย่างแน่นอนเพื่อช่วยสนับสนุนและชี้แนะขั้นตอนการทำงานใดก็ตามที่คุณมี”
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://techstartups.com/2023/12/19/chatgpt-and-other-ai-models-unable-to-analyze-sec-filing-patronus-ai-researchers-find/
- :มี
- :เป็น
- 000
- 10
- 12
- 32
- 9
- a
- ความสามารถ
- ความสามารถ
- อย่างแน่นอน
- ตาม
- ความถูกต้อง
- ถูกต้อง
- ประสบความสำเร็จ
- ที่เพิ่ม
- ที่อยู่
- ความก้าวหน้า
- AI
- AI บอท
- โมเดล AI
- จุดมุ่งหมาย
- จุดมุ่งหมาย
- จัดแนว
- คู่ขนาน
- ด้วย
- ท่ามกลาง
- an
- วิเคราะห์
- วิเคราะห์
- และ
- อื่น
- คำตอบ
- มานุษยวิทยา
- การใช้งาน
- การใช้งาน
- เป็น
- AS
- ความมั่นใจ
- At
- ความสนใจ
- อัตโนมัติ
- โดยอัตโนมัติ
- การธนาคาร
- อุตสาหกรรมการธนาคาร
- ขั้นพื้นฐาน
- BE
- รับ
- ดีกว่า
- เกิน
- บอท
- แต่
- by
- CAN
- ท้าทาย
- ความท้าทาย
- chatbots
- ChatGPT
- ซีเอ็นบีซี
- ผู้ร่วมก่อตั้ง
- ผู้ร่วมก่อตั้ง
- การเข้ารหัส
- ผู้ร่วมก่อตั้ง
- คณะกรรมาธิการ
- บริษัท
- การแข่งขัน
- องค์ประกอบ
- คงเส้นคงวา
- ต่อ
- ที่สร้างขึ้น
- เครดิต
- สำคัญมาก
- ลูกค้า
- บริการลูกค้า
- ตัดขอบ
- ลดลง
- อย่างแน่นอน
- ส่งมอบ
- ที่ได้มา
- อธิบาย
- ความยากลำบาก
- การค้นพบ
- หลาย
- วาด
- ขอบ
- มีประสิทธิภาพ
- มีประสิทธิภาพ
- ทั้ง
- เน้น
- พนักงาน
- การเสริมสร้าง
- ทำให้มั่นใจ
- ทั้งหมด
- การสร้าง
- การประเมินผล
- แม้
- ตลาดแลกเปลี่ยน
- สำนักงานคณะกรรมการกำกับการแลกเปลี่ยน
- แสดง
- ต้องเผชิญกับ
- อ้ำ ๆ อึ้ง ๆ
- สองสาม
- ยื่น
- เอกสารที่ยื่นต่อ
- เงินทุน
- ทางการเงิน
- ภาคการเงิน
- หา
- ผลการวิจัย
- สำหรับ
- อดีต
- พบ
- ก่อตั้งขึ้นเมื่อ
- ผู้ก่อตั้ง
- ราคาเริ่มต้นที่
- ที่ได้รับ
- สร้าง
- กำเนิด
- กำเนิด AI
- ได้รับ
- กำหนด
- บัญชีกลุ่ม
- ให้คำแนะนำ
- มี
- he
- ช่วย
- สูงกว่า
- มีความหวัง
- HTML
- HTTPS
- เป็นมนุษย์
- มนุษย์ในวง
- วิ่งกระโดดข้ามรั้ว
- ความสำคัญ
- ประทับใจ
- in
- ไม่เที่ยง
- รวมทั้ง
- ผสมผสาน
- อุตสาหกรรม
- อุตสาหกรรม
- ข้อมูล
- ข้อมูลเชิงลึก
- รวบรวม
- แบบบูรณาการ
- สัมภาษณ์
- เข้าไป
- IT
- ITS
- jpg
- เพียงแค่
- ภาษา
- ใหญ่
- กฏหมาย
- น้อยที่สุด
- กดไลก์
- นาน
- Lot
- สำคัญ
- คู่มือ
- หลาย
- คณิตศาสตร์
- เรื่อง
- ปริญญาโทสาขาบริหารธุรกิจ
- ทางการแพทย์
- Mers
- Meta
- แบบ
- โมเดล
- เดือน
- ข้อมูลเพิ่มเติม
- มากที่สุด
- หนัง
- การย้าย
- มาก
- เรื่องเล่า
- ธรรมชาติ
- เกือบทั้งหมด
- จำเป็นต้อง
- ใหม่
- ตัวเลข
- of
- มักจะ
- on
- เพียง
- การดำเนินการ
- or
- อื่นๆ
- เกิน
- โดยเฉพาะ
- ที่ผ่านไป
- อดีต
- การปฏิบัติ
- ปรากฏการณ์
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- บทกวี
- โพสท่า
- ที่มีศักยภาพ
- ประยุกต์
- การใช้งานจริง
- นำเสนอ
- สวย
- ขั้นตอน
- ผลิตภัณฑ์
- แวว
- ให้
- การให้
- วัตถุประสงค์
- คำถาม
- คำถาม
- ตั้งแต่
- คะแนน
- อ่าน
- โลกแห่งความจริง
- จริงๆ
- เมื่อเร็ว ๆ นี้
- ควบคุม
- อุตสาหกรรมที่มีการควบคุม
- ความเชื่อถือได้
- น่าเชื่อถือ
- รายงาน
- การวิจัย
- นักวิจัย
- ตอบสนอง
- การตอบสนอง
- ผลสอบ
- เข้มงวด
- แข็งแรง
- กล่าวว่า
- สำนักงานคณะกรรมการ ก.ล.ต.
- การยื่นแบบ SEC
- ภาค
- หลักทรัพย์
- สำนักงานคณะกรรมการกำกับหลักทรัพย์และตลาดหลักทรัพย์
- แสวงหา
- บริการ
- ที่ใช้ร่วมกัน
- จัดแสดง
- สำคัญ
- ซอฟต์แวร์
- แก้
- บาง
- การแต่งเพลง
- การเริ่มต้น
- เซน
- การต่อสู้
- เป็นกอบเป็นกำ
- สนับสนุน
- น่าแปลกใจ
- อย่างรวดเร็ว
- งาน
- เทคโนโลยี
- ระยะ
- ทดสอบ
- การทดสอบ
- การทดสอบ
- ที่
- พื้นที่
- ของพวกเขา
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- คิด
- นี้
- ตลอด
- เวลา
- ครั้ง
- ไปยัง
- ในวันนี้
- ชนิด
- ในที่สุด
- ไม่สามารถ
- ขีดเส้นใต้
- ขีด
- การใช้
- มาก
- ดู
- ทาง..
- วอร์ตัน
- อะไรก็ตาม
- แพร่หลาย
- จะ
- กับ
- งาน
- เวิร์กโฟลว์
- ปี
- เธอ
- ลมทะเล