รูปภาพสังเคราะห์สามารถช่วยให้โมเดล AI เรียนรู้การแสดงภาพได้แม่นยำยิ่งขึ้นเมื่อเปรียบเทียบกับภาพถ่ายจริง ตามที่นักวิทยาศาสตร์คอมพิวเตอร์จาก MIT และ Google กล่าว ผลลัพธ์ที่ได้คือโครงข่ายประสาทเทียมที่สร้างภาพจากคำอธิบายที่คุณเขียนได้ดีกว่า
หัวใจสำคัญของโมเดลข้อความเป็นรูปภาพทั้งหมดคือความสามารถในการจับคู่วัตถุกับคำ เมื่อได้รับข้อความแจ้งสำหรับการป้อน เช่น “เด็กถือบอลลูนสีแดงในวันที่แดดจ้า” พวกเขาควรส่งคืนรูปภาพที่ใกล้เคียงกับคำอธิบาย เพื่อที่จะทำสิ่งนี้ได้ พวกเขาจำเป็นต้องเรียนรู้การแสดงภาพว่าเด็ก ลูกโป่งสีแดง และวันที่อากาศแจ่มใสอาจมีหน้าตาเป็นอย่างไร
ทีมงาน MIT-Google เชื่อว่าโครงข่ายประสาทเทียมสามารถสร้างภาพที่แม่นยำยิ่งขึ้นจากการแจ้งเตือน หลังจากได้รับการฝึกอบรมเกี่ยวกับรูปภาพที่สร้างโดย AI แทนที่จะใช้สแนปจริง เพื่อแสดงให้เห็นสิ่งนี้ กลุ่มจึงได้พัฒนา ตัวแทนที่เสถียรซึ่งเรียนรู้วิธีเปลี่ยนคำบรรยายที่เป็นลายลักษณ์อักษรให้กลายเป็นรูปภาพที่สอดคล้องกันที่ถูกต้องจากรูปภาพที่สร้างโดย Stable Diffusion โมเดลโอเพ่นซอร์สยอดนิยม
กล่าวอีกนัยหนึ่ง: การใช้โมเดล AI ที่ได้รับการฝึกอบรมมาแล้วเพื่อสอนโมเดลอื่นๆ
ตามที่นักวิทยาศาสตร์ได้ตีพิมพ์เผยแพร่ผ่านทาง arXiv เมื่อปลายเดือนที่แล้ว กล่าวไว้ว่า: “ด้วยรูปภาพสังเคราะห์เพียงอย่างเดียว การแสดงที่เรียนรู้โดย StableRep เหนือกว่าประสิทธิภาพของการแสดงที่เรียนรู้โดย SimCLR และ CLIP โดยใช้ชุดข้อความแจ้งชุดเดียวกันและรูปภาพจริงที่เกี่ยวข้องบนชุดข้อมูลขนาดใหญ่” SimCLR และ CLIP เป็นอัลกอริธึมการเรียนรู้ของเครื่องที่สามารถใช้สร้างภาพจากข้อความแจ้งได้
“เมื่อเราเพิ่มการควบคุมด้านภาษาเพิ่มเติม StableRep ที่ได้รับการฝึกด้วยภาพสังเคราะห์ 20 ล้านภาพจะมีความแม่นยำมากกว่า CLIP ที่ได้รับการฝึกด้วยภาพจริง 50 ล้านภาพ” รายงานกล่าวต่อ
อัลกอริธึมการเรียนรู้ของเครื่องจับความสัมพันธ์ระหว่างคุณลักษณะของวัตถุและความหมายของคำในรูปแบบอาร์เรย์ของตัวเลข ด้วยการใช้ StableRep นักวิจัยสามารถควบคุมกระบวนการนี้ได้อย่างระมัดระวังมากขึ้น โดยฝึกโมเดลบนรูปภาพหลายรูปที่สร้างโดย Stable Diffusion ในพร้อมท์เดียวกัน หมายความว่าโมเดลสามารถเรียนรู้การแสดงภาพที่หลากหลายมากขึ้น และสามารถดูได้ว่ารูปภาพใดตรงกับข้อความแจ้งมากกว่าภาพอื่นๆ
ฉันคิดว่าเราจะมีระบบนิเวศของบางโมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลจริง บางส่วนเป็นแบบสังเคราะห์
“เรากำลังสอนโมเดลเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับแนวคิดระดับสูงผ่านบริบทและความแปรปรวน ไม่ใช่แค่การป้อนข้อมูลเท่านั้น” Lijie Fan หัวหน้านักวิจัยของการศึกษานี้และนักศึกษาปริญญาเอกสาขาวิศวกรรมไฟฟ้าที่ MIT อธิบาย ในสัปดาห์นี้. “เมื่อใช้ภาพหลายภาพ ซึ่งทั้งหมดสร้างขึ้นจากข้อความเดียวกัน โดยทั้งหมดถือเป็นการแสดงถึงสิ่งที่อยู่ภายใต้สิ่งเดียวกัน โมเดลจะเจาะลึกเข้าไปในแนวคิดเบื้องหลังภาพ – พูดถึงวัตถุ – ไม่ใช่แค่พิกเซลเท่านั้น”
ตามที่ระบุไว้ข้างต้น วิธีการนี้ยังหมายความว่าคุณสามารถใช้รูปภาพสังเคราะห์น้อยลงในการฝึกโครงข่ายประสาทเทียมของคุณมากกว่าโครงข่ายจริง และได้รับผลลัพธ์ที่ดีกว่า ซึ่งเป็น win-win สำหรับนักพัฒนา AI
วิธีการเช่น StableRep หมายความว่าสักวันหนึ่งโมเดลข้อความเป็นรูปภาพอาจได้รับการฝึกอบรมเกี่ยวกับข้อมูลสังเคราะห์ มันจะช่วยให้นักพัฒนาพึ่งพาภาพจริงน้อยลง และอาจจำเป็นหากกลไก AI ใช้ทรัพยากรออนไลน์ที่มีอยู่หมด
“ผมคิดว่า [การฝึกอบรมโมเดล AI บนภาพสังเคราะห์] จะมีมากขึ้นเรื่อยๆ” Phillip Isola ผู้ร่วมเขียนรายงานและรองศาสตราจารย์ด้านคอมพิวเตอร์วิทัศน์ที่ MIT กล่าว ลงทะเบียน. “ผมคิดว่าเราจะมีระบบนิเวศของโมเดลบางรุ่นที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลจริง บางรุ่นเป็นแบบสังเคราะห์ และบางทีโมเดลส่วนใหญ่จะได้รับการฝึกอบรมกับทั้งสองอย่าง”
เป็นเรื่องยากที่จะพึ่งพารูปภาพที่สร้างโดย AI เพียงอย่างเดียว เนื่องจากคุณภาพและความละเอียดของรูปภาพมักจะแย่กว่าภาพถ่ายจริง โมเดลข้อความเป็นรูปภาพที่สร้างขึ้นนั้นถูกจำกัดด้วยวิธีอื่นๆ เช่นกัน การแพร่กระจายที่เสถียรไม่ได้สร้างภาพที่ตรงตามข้อความแจ้งเสมอไป
Isola เตือนว่าการใช้ภาพสังเคราะห์ไม่ได้หลบเลี่ยงปัญหาการละเมิดลิขสิทธิ์ที่อาจเกิดขึ้นเช่นกัน เนื่องจากแบบจำลองที่สร้างภาพเหล่านี้น่าจะได้รับการฝึกฝนเกี่ยวกับวัสดุที่ได้รับการคุ้มครอง
“ข้อมูลสังเคราะห์อาจรวมถึงสำเนาข้อมูลลิขสิทธิ์ที่ถูกต้อง อย่างไรก็ตาม ข้อมูลสังเคราะห์ยังให้โอกาสใหม่ในการแก้ไขปัญหา IP และความเป็นส่วนตัว เนื่องจากเราสามารถเข้าไปแทรกแซงได้โดยการแก้ไขโมเดลกำเนิดเพื่อลบคุณลักษณะที่ละเอียดอ่อน” เขาอธิบาย
ทีมงานยังเตือนด้วยว่าระบบการฝึกอบรมเกี่ยวกับรูปภาพที่สร้างโดย AI อาจทำให้ความลำเอียงที่เรียนรู้จากโมเดลข้อความเป็นรูปภาพนั้นรุนแรงขึ้น ®
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/
- :เป็น
- :ไม่
- 20
- 50
- a
- ความสามารถ
- เกี่ยวกับเรา
- ข้างบน
- ตาม
- ความถูกต้อง
- ถูกต้อง
- แม่นยำ
- ประสบความสำเร็จ
- เพิ่ม
- หลังจาก
- AI
- โมเดล AI
- อัลกอริทึม
- ทั้งหมด
- อนุญาต
- ด้วย
- เสมอ
- an
- และ
- เข้าใกล้
- เป็น
- รอบ
- แถว
- AS
- ภาคี
- At
- แอตทริบิวต์
- ใช้ได้
- BE
- เพราะ
- หลัง
- กำลัง
- เชื่อ
- ดีกว่า
- ระหว่าง
- อคติ
- ทั้งสอง
- by
- CAN
- คำอธิบายภาพ
- จับ
- รอบคอบ
- เด็ก
- อย่างใกล้ชิด
- CO
- ผู้เขียนร่วม
- ร่วมกัน
- เมื่อเทียบกับ
- คอมพิวเตอร์
- วิสัยทัศน์คอมพิวเตอร์
- แนวความคิด
- สิ่งแวดล้อม
- อย่างต่อเนื่อง
- ควบคุม
- สำเนา
- ลิขสิทธิ์
- การละเมิดลิขสิทธิ์
- แก้ไข
- ตรงกัน
- ได้
- ข้อมูล
- ชุดข้อมูล
- วัน
- ลึก
- สาธิต
- ลักษณะ
- พัฒนา
- นักพัฒนา
- ยาก
- การจัดจำหน่าย
- หลาย
- do
- doesn
- ระบบนิเวศ
- การแก้ไข
- อย่างมีประสิทธิภาพ
- ทั้ง
- วิศวกรรมไฟฟ้า
- ปลาย
- ชั้นเยี่ยม
- เครื่องยนต์
- ที่จัดตั้งขึ้น
- อีเธอร์ (ETH)
- ทำให้รุนแรง
- ตัวอย่าง
- อธิบาย
- ซื่อสัตย์
- เทียม
- แฟน
- คุณสมบัติ
- การกินอาหาร
- น้อยลง
- สำหรับ
- ราคาเริ่มต้นที่
- ต่อไป
- สร้าง
- สร้าง
- การสร้าง
- กำเนิด
- แบบจำลองการกำเนิด
- ได้รับ
- ได้รับ
- กำหนด
- บัญชีกลุ่ม
- มี
- he
- หัวใจสำคัญ
- ช่วย
- ระดับสูง
- โฮลดิ้ง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTTPS
- i
- if
- ภาพ
- ภาพ
- in
- ในอื่น ๆ
- ประกอบด้วย
- ขึ้น
- การละเมิด
- อินพุต
- แทรกแซง
- เข้าไป
- IP
- ปัญหา
- ปัญหา
- IT
- jpg
- เพียงแค่
- ภาษา
- ใหญ่
- ชื่อสกุล
- นำ
- เรียนรู้
- ได้เรียนรู้
- น้อยลง
- กดไลก์
- น่าจะ
- ถูก จำกัด
- ดู
- ดูเหมือน
- ทำ
- การทำ
- แผนที่
- การจับคู่
- วัสดุ
- อาจ..
- อาจจะ
- หมายความ
- ความหมาย
- วิธี
- อาจ
- ล้าน
- เอ็มไอที
- แบบ
- โมเดล
- เดือน
- ข้อมูลเพิ่มเติม
- มากที่สุด
- หลาย
- จำเป็น
- จำเป็นต้อง
- เครือข่าย
- เครือข่าย
- ประสาท
- เครือข่ายประสาท
- เครือข่ายประสาทเทียม
- ใหม่
- เด่น
- ตัวเลข
- วัตถุ
- วัตถุ
- of
- มักจะ
- on
- ONE
- คน
- ออนไลน์
- เปิด
- โอเพนซอร์ส
- โอกาส
- ตรงข้าม
- ใบสั่ง
- อื่นๆ
- ผลิตภัณฑ์อื่นๆ
- กระดาษ
- การปฏิบัติ
- phd
- ภาพ
- ภาพ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ยอดนิยม
- ที่มีศักยภาพ
- ที่อาจเกิดขึ้น
- ความเป็นส่วนตัว
- กระบวนการ
- ก่อ
- ศาสตราจารย์
- แจ้ง
- การป้องกัน
- ให้
- ทำให้
- คุณภาพ
- RE
- จริง
- สีแดง
- ความสัมพันธ์
- การเผยแพร่
- วางใจ
- เอาออก
- นักวิจัย
- นักวิจัย
- ความละเอียด
- แหล่งข้อมูล
- ผล
- ผลสอบ
- กลับ
- s
- เดียวกัน
- กล่าว
- ขนาด
- นักวิทยาศาสตร์
- เห็น
- มีความละเอียดอ่อน
- ชุด
- น่า
- ตั้งแต่
- เพียงผู้เดียว
- บาง
- แหล่ง
- มั่นคง
- นักเรียน
- ศึกษา
- อย่างเช่น
- การดูแล
- เกิน
- สังเคราะห์
- ข้อมูลสังเคราะห์
- ระบบ
- T
- การเรียนการสอน
- ทีม
- ข้อความ
- กว่า
- ที่
- พื้นที่
- ของพวกเขา
- พวกเขา
- พวกเขา
- สิ่ง
- คิด
- นี้
- ในสัปดาห์นี้
- ตลอด
- ไปยัง
- บอก
- เกินไป
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- ได้รับการรักษา
- กลับ
- พื้นฐาน
- ใช้
- มือสอง
- การใช้
- ผ่านทาง
- วิสัยทัศน์
- ภาพ
- วิธี
- we
- สัปดาห์
- คือ
- อะไร
- เมื่อ
- ที่
- จะ
- Win-Win
- กับ
- คำ
- แย่ลง
- จะ
- เขียน
- เธอ
- ของคุณ
- ลมทะเล