ที่มา: https://www.quantamagazine.org/machines-beat-humans-on-a-reading-test-but-do-they-understand-20191017/
ฉันเพิ่งเริ่มจดหมายข่าวฉบับใหม่ที่เน้นการศึกษา AI และ มีสมาชิกมากกว่า 50,000 รายแล้ว. TheSequence เป็นแบบไม่มี BS (หมายถึงไม่มีโฆษณา ไม่มีข่าว ฯลฯ) จดหมายข่าวที่เน้น AI ซึ่งใช้เวลาอ่าน 5 นาที เป้าหมายคือเพื่อให้คุณได้รับข้อมูลล่าสุดเกี่ยวกับโปรเจ็กต์แมชชีนเลิร์นนิง เอกสารการวิจัย และแนวคิด โปรดทดลองใช้โดยสมัครรับข้อมูลด้านล่าง:
ความเข้าใจในการอ่านด้วยเครื่อง (MRC) เป็นวินัยที่เกิดขึ้นใหม่ในด้านการเรียนรู้เชิงลึก จากมุมมองเชิงแนวคิด MRC มุ่งเน้นไปที่โมเดลการเรียนรู้เชิงลึกที่สามารถตอบคำถามอัจฉริยะเกี่ยวกับเอกสารข้อความเฉพาะได้ สำหรับมนุษย์แล้ว ความเข้าใจในการอ่านเป็นทักษะการเรียนรู้แบบพื้นเมืองที่พัฒนาขึ้นตั้งแต่สมัยเรียนแรกๆ หรือก่อนหน้านั้นด้วยซ้ำ ที่เรากำลังอ่านข้อความ เรากำลังดึงแนวคิดหลักโดยสัญชาตญาณซึ่งจะทำให้เราสามารถตอบคำถามในอนาคตเกี่ยวกับหัวข้อนั้นได้ ในกรณีของโมเดลปัญญาประดิษฐ์ (AI) ทักษะนั้นส่วนใหญ่ยังด้อยพัฒนา
เทคนิคการทำความเข้าใจภาษาธรรมชาติ (NLU) รุ่นแรกที่นำมาใช้กันอย่างแพร่หลายนั้นมุ่งเน้นไปที่การตรวจจับความตั้งใจและแนวคิดที่เกี่ยวข้องกับประโยคเฉพาะเป็นส่วนใหญ่ เราสามารถนึกถึงแบบจำลองเหล่านี้เป็นความรู้ชั้นแรกเพื่อให้เกิดความเข้าใจในการอ่าน อย่างไรก็ตาม ความเข้าใจในการอ่านแบบสมบูรณ์จำเป็นต้องมีหน่วยการสร้างเพิ่มเติมที่สามารถคาดการณ์และเชื่อมโยงคำถามกับส่วนเฉพาะของข้อความและสร้างความรู้จากส่วนเฉพาะของเอกสาร
หนึ่งในความท้าทายที่ใหญ่ที่สุดในโดเมน MRC คือ โมเดลส่วนใหญ่ใช้การฝึกอบรมภายใต้การดูแลที่มีชุดข้อมูลซึ่งไม่เพียงแต่ประกอบด้วยเอกสารเท่านั้น แต่ยังรวมถึงคำถามและคำตอบที่อาจเกิดขึ้น อย่างที่คุณสามารถจินตนาการได้ แนวทางนี้ไม่เพียงแต่จะปรับขนาดได้ยากเท่านั้น แต่ยังแทบจะเป็นไปไม่ได้เลยที่จะนำไปใช้ในบางโดเมนซึ่งข้อมูลไม่พร้อมใช้งาน เมื่อเร็ว ๆ นี้ นักวิจัยจาก Microsoft ได้เสนอแนวทางที่น่าสนใจเพื่อจัดการกับความท้าทายนี้ในอัลกอริธึม MRC
ในกระดาษชื่อ “เครือข่ายการสังเคราะห์สองขั้นตอนสำหรับการถ่ายโอนการเรียนรู้ในความเข้าใจของเครื่อง”การวิจัยของ Microsoft ได้แนะนำเทคนิคที่เรียกว่าเครือข่ายการสังเคราะห์สองขั้นตอนหรือ ซินเน็ท ที่ใช้การถ่ายโอนการเรียนรู้เพื่อลดความพยายามในการฝึกอบรมแบบจำลอง MRC ซินเน็ท สามารถเห็นได้ว่าเป็นแนวทางสองขั้นตอนในการสร้างความรู้ที่เกี่ยวข้องกับข้อความเฉพาะ ในระยะแรก ซินเน็ท เรียนรู้รูปแบบทั่วไปของการระบุ "ความน่าสนใจ" ที่อาจเกิดขึ้นในเอกสารข้อความ สิ่งเหล่านี้คือจุดความรู้หลัก เอนทิตีที่มีชื่อ หรือแนวคิดเชิงความหมายที่มักจะเป็นคำตอบที่ผู้คนอาจถามหา จากนั้น ในขั้นตอนที่สอง ตัวแบบจะเรียนรู้การสร้างคำถามภาษาธรรมชาติเกี่ยวกับคำตอบที่เป็นไปได้เหล่านี้ ภายในบริบทของบทความ
สิ่งที่น่าสนใจเกี่ยวกับ ซินเน็ท ก็คือ เมื่อผ่านการฝึกอบรมแล้ว แบบจำลองก็สามารถนำไปใช้กับโดเมนใหม่ อ่านเอกสารในโดเมนใหม่ จากนั้นจึงสร้างคำถามและคำตอบเทียมสำหรับเอกสารเหล่านี้ จากนั้นจึงสร้างข้อมูลการฝึกอบรมที่จำเป็นในการฝึกอบรมระบบ MRC สำหรับโดเมนใหม่นั้น ซึ่งอาจเป็นโรคใหม่ คู่มือพนักงานของบริษัทใหม่ หรือคู่มือผลิตภัณฑ์ใหม่
หลายคนเชื่อมโยงเทคนิค MRC กับสาขาการแปลด้วยคอมพิวเตอร์ที่พัฒนาแล้วอย่างผิดพลาด ในกรณีของโมเดล MRC เช่น ซินเน็ทโจทย์คือต้องสังเคราะห์ทั้งสองคำถาม และ คำตอบสำหรับเอกสาร ในขณะที่คำถามเป็นประโยคภาษาธรรมชาติที่มีวากยสัมพันธ์ คำตอบส่วนใหญ่เป็นแนวคิดเชิงความหมายที่เด่นชัดในย่อหน้า เช่น เอนทิตีที่มีชื่อ การกระทำ หรือตัวเลข เนื่องจากคำตอบมีโครงสร้างทางภาษาที่แตกต่างจากคำถาม การดูคำตอบและคำถามเป็นข้อมูลสองประเภทที่แตกต่างกันจึงอาจเหมาะสมกว่า ซินเน็ท เกิดขึ้นจริงในทฤษฎีนั้นโดยแยกกระบวนการสร้างคู่คำถาม-คำตอบออกเป็นสองขั้นตอนพื้นฐาน: การสร้างคำตอบมีเงื่อนไขในย่อหน้าและการสร้างคำถามที่มีเงื่อนไขในย่อหน้าและคำตอบ
เครดิตภาพ: Microsoft Research
คุณสามารถคิดเกี่ยวกับ ซินเน็ท เป็นครูที่เก่งมากในการตั้งคำถามจากเอกสารตามประสบการณ์ เมื่อเรียนรู้เกี่ยวกับคำถามที่เกี่ยวข้องในโดเมนเดียว สามารถใช้รูปแบบเดียวกันนี้กับเอกสารในโดเมนใหม่ได้ นักวิจัยของ Microsoft ได้ประยุกต์ใช้หลักการของ ซินเน็ท ไปจนถึงโมเดล MRC ต่างๆ รวมถึงที่เผยแพร่ล่าสุด เหตุผลเน็ต ซึ่งได้แสดงให้เห็นอย่างมากในการทำให้ความเข้าใจในการอ่านด้วยเครื่องเป็นจริงในอนาคตอันใกล้
Original. โพสต์ใหม่โดยได้รับอนุญาต
ที่เกี่ยวข้อง
ที่มา: https://www.kdnuggets.com/2021/04/microsoft-research-trains-neural-networks-understand-read.html- การกระทำ
- เพิ่มเติม
- AI
- อัลกอริทึม
- รอบ
- บทความ
- ที่ใหญ่ที่สุด
- สร้าง
- การก่อสร้าง
- ท้าทาย
- ความรู้ความเข้าใจ
- บริษัท
- เครดิต
- ข้อมูล
- จัดการ
- การเรียนรู้ลึก ๆ
- โรค
- เอกสาร
- โดเมน
- ก่อน
- การศึกษา
- ฯลฯ
- ชื่อจริง
- โฟกัส
- ฟอร์ม
- เต็ม
- อนาคต
- General
- ดี
- HTTPS
- มนุษย์
- ภาพ
- รวมทั้ง
- IT
- คีย์
- ความรู้
- ภาษา
- เรียนรู้
- การเรียนรู้
- เรียนรู้เครื่อง
- การแปลด้วยเครื่อง
- การทำ
- กลาง
- ไมโครซอฟท์
- วิจัยไมโครซอฟท์
- แบบ
- ภาษาธรรมชาติ
- ใกล้
- เครือข่าย
- ประสาท
- เครือข่ายประสาทเทียม
- ผลิตภัณฑ์ใหม่
- ข่าว
- จดหมายข่าว
- nlu
- กระดาษ
- แบบแผน
- รูปแบบไฟล์ PDF
- คน
- ผลิตภัณฑ์
- โครงการ
- การอ่าน
- ความจริง
- ลด
- การวิจัย
- ขนาด
- โรงเรียน
- ระยะ
- ข้อความที่เริ่ม
- ระบบ
- ครู
- การฝึกอบรม
- รถไฟ
- การแปลภาษา
- us
- รายละเอียด
- ภายใน