ภาพจาก Bing Image Creator
Meta AI เพิ่งเปิดตัวโอเพ่นซอร์ส รุ่น DINOv2 วิธีแรกที่ใช้การเรียนรู้แบบดูแลตนเองเพื่อฝึกโมเดลการมองเห็นด้วยคอมพิวเตอร์ แบบจำลอง DINOv2 ให้ผลลัพธ์ที่ตรงหรือดีกว่าแนวทางมาตรฐานและแบบจำลองในภาคสนาม
โมเดลได้รับประสิทธิภาพที่แข็งแกร่งโดยไม่จำเป็นต้องปรับละเอียด ซึ่งเป็นตัวเลือกที่สมบูรณ์แบบสำหรับงานและแอพพลิเคชั่นคอมพิวเตอร์วิทัศน์ต่างๆ DINOv2 สามารถเรียนรู้จากคอลเลคชันรูปภาพและคุณสมบัติต่างๆ เช่น การประมาณเชิงลึกโดยไม่จำเป็นต้องมีการฝึกอบรมที่ชัดเจน ด้วยวิธีการฝึกอบรมที่มีการควบคุมดูแลด้วยตนเอง
รูปที่ 1: DINOv2: โมเดลการมองเห็นคอมพิวเตอร์ที่ควบคุมด้วยตนเองโดย Meta AI
1.1. ไม่จำเป็นต้องมีการปรับแต่งอย่างละเอียด
การเรียนรู้ด้วยตนเองเป็นวิธีที่มีประสิทธิภาพในการฝึกโมเดลแมชชีนเลิร์นนิงโดยไม่จำเป็นต้องใช้ข้อมูลที่มีป้ายกำกับจำนวนมาก โมเดล DINOv2 สามารถฝึกฝนในคลังภาพได้โดยไม่ต้องใช้ข้อมูลเมตาที่เกี่ยวข้อง แฮชแท็กเฉพาะ หรือคำบรรยายภาพ โมเดล DinoV2 ไม่เหมือนกับแนวทางการเรียนรู้แบบดูแลตนเองล่าสุดหลาย ๆ แบบ ไม่จำเป็นต้องปรับแต่งอย่างละเอียด ดังนั้นจึงให้คุณสมบัติที่มีประสิทธิภาพสูงสำหรับแอพพลิเคชั่นคอมพิวเตอร์วิทัศน์ที่แตกต่างกัน
1.2. ก้าวข้ามข้อจำกัดด้านคำอธิบายประกอบของมนุษย์
ช่วงไม่กี่ปีที่ผ่านมา รูปภาพ-ข้อความก่อนการฝึกอบรม ได้กลายเป็นวิธีการหลักสำหรับการใช้งานคอมพิวเตอร์วิทัศน์ต่างๆ อย่างไรก็ตาม เนื่องจากต้องพึ่งพาคำอธิบายภาพที่มีป้ายกำกับโดยมนุษย์เพื่อเรียนรู้ความหมายของภาพ วิธีการนี้มักจะมองข้ามข้อมูลสำคัญที่ไม่ได้ระบุไว้อย่างชัดเจนในคำอธิบายภาพเหล่านั้น ตัวอย่างเช่น ป้ายกำกับของมนุษย์ที่มีภาพโต๊ะสีแดงในห้องสีเหลืองอาจเป็น "โต๊ะไม้สีแดง" คำบรรยายนี้จะทำให้พลาดข้อมูลสำคัญบางอย่างเกี่ยวกับพื้นหลัง ตำแหน่ง และขนาดของตาราง สิ่งนี้จะทำให้ขาดความเข้าใจในข้อมูลท้องถิ่นและจะส่งผลให้งานที่ต้องการข้อมูลการแปลโดยละเอียดมีประสิทธิภาพไม่ดี
นอกจากนี้ ความต้องการฉลากและคำอธิบายประกอบของมนุษย์จะจำกัดจำนวนข้อมูลที่เราสามารถรวบรวมเพื่อฝึกโมเดล สิ่งนี้จะยากขึ้นมากสำหรับบางแอปพลิเคชัน เช่น การใส่คำอธิบายประกอบในเซลล์ต้องใช้ผู้เชี่ยวชาญระดับหนึ่งซึ่งไม่สามารถทำได้ในระดับที่ต้องการ การใช้วิธีการฝึกอบรมแบบดูแลตนเองเกี่ยวกับภาพเซลลูลาร์เปิดทางสำหรับโมเดลพื้นฐานมากขึ้น และผลที่ได้คือจะปรับปรุง การค้นพบทางชีววิทยา. เช่นเดียวกับฟิลด์ขั้นสูงที่คล้ายคลึงกันในการประมาณค่า ความหนาแน่นของสัตว์.
การย้ายจาก DINO เป็น DINOv2 จำเป็นต้องเอาชนะความท้าทายหลายประการ เช่น
- การสร้างชุดข้อมูลการฝึกอบรมขนาดใหญ่และดูแลจัดการ
- การปรับปรุงอัลกอริทึมการฝึกอบรมและการนำไปใช้งาน
- การออกแบบท่อกลั่นที่ใช้งานได้
รูปที่ 2: การเปรียบเทียบ DINO v1 Vs v2 ของความแม่นยำในการแบ่งส่วน
2.1. การสร้างชุดข้อมูลรูปภาพขนาดใหญ่ คัดสรร และหลากหลาย
หนึ่งในขั้นตอนหลักในการสร้าง DINOv2 คือการฝึกฝนสถาปัตยกรรมและโมเดลที่ใหญ่ขึ้นเพื่อเพิ่มประสิทธิภาพให้กับโมเดล อย่างไรก็ตาม โมเดลที่ใหญ่กว่าต้องการชุดข้อมูลขนาดใหญ่เพื่อให้ได้รับการฝึกอบรมอย่างมีประสิทธิภาพ เนื่องจากไม่มีชุดข้อมูลขนาดใหญ่ที่ตรงตามข้อกำหนด นักวิจัยจึงใช้ประโยชน์จากข้อมูลเว็บที่รวบรวมข้อมูลสาธารณะและสร้างไปป์ไลน์เพื่อเลือกเฉพาะข้อมูลที่มีประโยชน์ เช่น LASER.
อย่างไรก็ตาม ควรทำสองภารกิจหลักเพื่อให้สามารถใช้ชุดข้อมูลเหล่านี้ได้:
- สร้างสมดุลของข้อมูลระหว่างแนวคิดและงานต่างๆ
- ลบภาพที่ไม่เกี่ยวข้อง
เนื่องจากงานนี้สามารถทำได้ด้วยตนเอง พวกเขาจึงดูแลจัดการชุดภาพเริ่มต้นจากชุดข้อมูลของบุคคลที่สามประมาณ 25 ชุด และขยายโดยการเรียกภาพที่เกี่ยวข้องอย่างใกล้ชิดกับภาพเมล็ดพันธุ์เหล่านั้น วิธีการนี้ช่วยให้พวกเขาสร้างชุดข้อมูลที่เกี่ยวข้องซึ่งมีทั้งหมด 142 ล้านภาพจาก 1.2 พันล้านภาพ
2.2. การปรับปรุงอัลกอริทึมและเทคนิค
แม้ว่าการใช้โมเดลและชุดข้อมูลที่ใหญ่ขึ้นจะนำไปสู่ผลลัพธ์ที่ดีขึ้น แต่ก็มาพร้อมกับความท้าทายที่สำคัญ ความท้าทายหลักสองประการคือความไม่มั่นคงที่อาจเกิดขึ้นและยังคงอยู่ในระหว่างการฝึกอบรม เพื่อให้การฝึกอบรมมีความเสถียรมากขึ้น DINOv2 ได้รวมวิธีการทำให้เป็นมาตรฐานเพิ่มเติมซึ่งได้รับแรงบันดาลใจจาก การค้นหาความเหมือน และ การจัดหมวดหมู่ วรรณกรรม
กระบวนการฝึกอบรมของ DINOv2 รวมเอาความแม่นยำแบบผสมผสานและการฝึกอบรมแบบกระจายล่าสุดที่จัดทำโดยผู้ล้ำสมัย ไพทอร์ช 2. สิ่งนี้ช่วยให้ใช้งานรหัสได้เร็วขึ้นและการใช้ฮาร์ดแวร์เดียวกันสำหรับการฝึกอบรมแบบจำลอง DINO ส่งผลให้ความเร็วเพิ่มขึ้นเป็นสองเท่าและใช้หน่วยความจำหนึ่งในสามซึ่งอนุญาตให้ปรับขนาดข้อมูลและขนาดแบบจำลองได้
2.3. การลดเวลาการอนุมานโดยใช้การกลั่นแบบจำลอง
การเรียกใช้โมเดลขนาดใหญ่ในการอนุมานต้องใช้ฮาร์ดแวร์ที่ทรงพลัง ซึ่งจะจำกัดการใช้งานจริงของเมธอดสำหรับกรณีการใช้งานที่แตกต่างกัน เพื่อแก้ปัญหานี้ นักวิจัยใช้การกลั่นแบบจำลองเพื่อบีบอัดความรู้ของแบบจำลองขนาดใหญ่ให้มีขนาดเล็กลง เมื่อใช้แนวทางนี้ นักวิจัยสามารถย่อสถาปัตยกรรมที่มีประสิทธิภาพสูงให้มีขนาดเล็กลงโดยมีค่าใช้จ่ายด้านประสิทธิภาพเพียงเล็กน้อย ส่งผลให้มีรุ่น ViT-Small, ViT-Base และ ViT-Large ที่แข็งแกร่ง
รหัสการฝึกอบรมและการประเมินต้องใช้ PyTorch 2.0 และ เอ็กซ์ฟอร์เมอร์ 0.0.18 รวมถึงแพ็คเกจของบุคคลที่สามอื่น ๆ และรหัสคาดว่าสภาพแวดล้อม Linux คำแนะนำต่อไปนี้สรุปวิธีกำหนดค่าการพึ่งพาที่จำเป็นทั้งหมดสำหรับวัตถุประสงค์ในการฝึกอบรมและการประเมินผล:
- ติดตั้ง PyTorch โดยใช้คำแนะนำ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม. ขอแนะนำให้ติดตั้ง PyTorch ด้วยการสนับสนุน CUDA
- ดาวน์โหลด คอนด้า
- โคลนที่เก็บ DINOv2 โดยใช้คำสั่งต่อไปนี้:
รหัสโดยผู้เขียน
- ดำเนินการสร้างและเปิดใช้งานสภาพแวดล้อม Conda ชื่อ “dinov2” โดยใช้ข้อกำหนดสภาพแวดล้อมที่ให้มา:
รหัสโดยผู้เขียน
- ในการติดตั้งการพึ่งพาที่จำเป็นสำหรับโปรเจ็กต์นี้ ให้ใช้ไฟล์ specifications.txt ที่ให้มา
รหัสโดยผู้เขียน
- สุดท้าย คุณสามารถโหลดโมเดลโดยใช้รหัสด้านล่าง:
รหัสโดยผู้เขียน
โดยสรุป การเปิดตัวโมเดล DINOv2 โดย Meta AI ถือเป็นก้าวสำคัญ วิธีการเรียนรู้แบบดูแลตนเองที่ใช้โดยโมเดล DINOv2 เป็นวิธีที่มีประสิทธิภาพในการฝึกโมเดลแมชชีนเลิร์นนิงโดยไม่ต้องใช้ข้อมูลที่มีป้ายกำกับจำนวนมาก ด้วยความสามารถในการบรรลุความแม่นยำสูงโดยไม่ต้องใช้การปรับแต่งอย่างละเอียด โมเดลเหล่านี้จึงเหมาะสำหรับงานด้านคอมพิวเตอร์วิทัศน์และแอพพลิเคชั่นต่างๆ ยิ่งไปกว่านั้น DINOv2 สามารถเรียนรู้จากคอลเลกชันภาพต่างๆ และสามารถเรียนรู้จากคุณลักษณะต่างๆ เช่น การประมาณเชิงลึกโดยไม่ต้องมีการฝึกอบรมที่ชัดเจน ความพร้อมใช้งานของ DINOv2 เป็นโมเดลโอเพ่นซอร์สเปิดประตูให้นักวิจัยและนักพัฒนาสำรวจความเป็นไปได้ใหม่ๆ ในงานและแอปพลิเคชันการมองเห็นด้วยคอมพิวเตอร์
อ้างอิง
ยูเซฟ ราฟาต เป็นนักวิจัยการมองเห็นด้วยคอมพิวเตอร์และนักวิทยาศาสตร์ข้อมูล งานวิจัยของเขามุ่งเน้นไปที่การพัฒนาอัลกอริธึมการมองเห็นด้วยคอมพิวเตอร์แบบเรียลไทม์สำหรับแอปพลิเคชันด้านการดูแลสุขภาพ เขายังทำงานเป็นนักวิทยาศาสตร์ข้อมูลมากกว่า 3 ปีในด้านการตลาด การเงิน และการดูแลสุขภาพ
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตไอสตรีม. ข้อมูลอัจฉริยะ Web3 ขยายความรู้ เข้าถึงได้ที่นี่.
- การสร้างอนาคตโดย Adryenn Ashley เข้าถึงได้ที่นี่.
- ซื้อและขายหุ้นในบริษัท PRE-IPO ด้วย PREIPO® เข้าถึงได้ที่นี่.
- ที่มา: https://www.kdnuggets.com/2023/05/dinov2-selfsupervised-computer-vision-models-meta-ai.html?utm_source=rss&utm_medium=rss&utm_campaign=dinov2-self-supervised-computer-vision-models-by-meta-ai
- :มี
- :เป็น
- :ไม่
- 1
- 1.2 พันล้าน
- 3rd
- a
- ความสามารถ
- สามารถ
- เกี่ยวกับเรา
- คล่องแคล่ว
- บรรลุ
- ประสบความสำเร็จ
- ข้าม
- เพิ่มเติม
- สูง
- AI
- ขั้นตอนวิธี
- อัลกอริทึม
- อัลกอริทึม
- ทั้งหมด
- ด้วย
- จำนวน
- จำนวน
- an
- และ
- สัตว์
- การใช้งาน
- เข้าใกล้
- วิธีการ
- ประมาณ
- เป็น
- AS
- At
- ความพร้อมใช้งาน
- ใช้ได้
- พื้นหลัง
- BE
- กลายเป็น
- จะกลายเป็น
- ด้านล่าง
- ดีกว่า
- พันล้าน
- Bing
- การก่อสร้าง
- สร้าง
- by
- CAN
- คำอธิบายภาพ
- กรณี
- ก่อให้เกิด
- บาง
- ความท้าทาย
- ทางเลือก
- อย่างใกล้ชิด
- รหัส
- รวบรวม
- คอลเลกชัน
- มา
- การเปรียบเทียบ
- คอมพิวเตอร์
- วิสัยทัศน์คอมพิวเตอร์
- แอพพลิเคชั่นคอมพิวเตอร์วิชั่น
- แนวความคิด
- ข้อสรุป
- ค่าใช้จ่าย
- สร้าง
- การสร้าง
- สำคัญมาก
- curated
- ข้อมูล
- นักวิทยาศาสตร์ข้อมูล
- ชุดข้อมูล
- ความต้องการ
- การพึ่งพาอาศัยกัน
- ความลึก
- รายละเอียด
- นักพัฒนา
- ที่กำลังพัฒนา
- ต่าง
- กระจาย
- กระจายการฝึกอบรม
- หลาย
- do
- โดเมน
- ทำ
- ประตู
- สอง
- สอง
- ในระหว่าง
- อย่างมีประสิทธิภาพ
- เสริม
- สิ่งแวดล้อม
- อีเธอร์ (ETH)
- การประเมินผล
- แม้
- ตัวอย่าง
- ขยาย
- คาดว่า
- ความชำนาญ
- สำรวจ
- เร็วขึ้น
- คุณสมบัติ
- สองสาม
- สนาม
- สาขา
- เนื้อไม่มีมัน
- เงินทุน
- ชื่อจริง
- มุ่งเน้นไปที่
- ดังต่อไปนี้
- สำหรับ
- ราคาเริ่มต้นที่
- การทำงาน
- GIF
- ฮาร์ดแวร์
- hashtag
- he
- การดูแลสุขภาพ
- จุดสูง
- ประสิทธิภาพสูง
- ของเขา
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTML
- HTTPS
- เป็นมนุษย์
- ภาพ
- ภาพ
- การดำเนินงาน
- สำคัญ
- in
- รวม
- รวมถึง
- ข้อมูล
- แรงบันดาลใจ
- ความไม่แน่นอน
- ติดตั้ง
- คำแนะนำการใช้
- รวม
- เข้าไป
- IT
- ITS
- เพียงแค่
- KD นักเก็ต
- ความรู้
- ฉลาก
- ป้ายกำกับ
- ไม่มี
- ใหญ่
- ที่มีขนาดใหญ่
- ล่าสุด
- นำ
- เรียนรู้
- การเรียนรู้
- ชั้น
- LIMIT
- ลินุกซ์
- วรรณคดี
- โหลด
- ในประเทศ
- การปรับเนื้อหาให้สอดคล้องกับท้องถิ่น
- เครื่อง
- เรียนรู้เครื่อง
- หลัก
- สำคัญ
- ทำ
- ทำให้
- ด้วยมือ
- หลาย
- การตลาด
- การจับคู่
- ความหมาย
- พบ
- หน่วยความจำ
- Meta
- เมตาดาต้า
- วิธี
- วิธีการ
- อาจ
- ขั้น
- ล้าน
- แบบ
- โมเดล
- ข้อมูลเพิ่มเติม
- ยิ่งไปกว่านั้น
- มาก
- ที่มีชื่อ
- จำเป็น
- จำเป็นต้อง
- ใหม่
- ไม่
- of
- มักจะ
- on
- คน
- เพียง
- โอเพนซอร์ส
- เปิด
- or
- อื่นๆ
- ออก
- เค้าโครง
- เอาชนะ
- แพคเกจ
- พรรค
- อดีต
- รูปแบบไฟล์ PDF
- สมบูรณ์
- การปฏิบัติ
- PHP
- ภาพ
- ท่อ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- น่าสงสาร
- ตำแหน่ง
- ความเป็นไปได้
- ที่มีศักยภาพ
- ที่มีประสิทธิภาพ
- ประยุกต์
- ปัญหา
- กระบวนการ
- ก่อ
- โครงการ
- ให้
- ให้
- สาธารณชน
- วัตถุประสงค์
- ไฟฉาย
- เรียลไทม์
- เมื่อเร็ว ๆ นี้
- สีแดง
- ที่เกี่ยวข้อง
- ปล่อย
- การเผยแพร่
- ที่เหลืออยู่
- กรุ
- ต้องการ
- จำเป็นต้องใช้
- ความต้องการ
- ต้อง
- การวิจัย
- นักวิจัย
- นักวิจัย
- ผล
- ผลสอบ
- ห้อง
- s
- เดียวกัน
- ขนาด
- ปรับ
- นักวิทยาศาสตร์
- เมล็ดพันธุ์
- การแบ่งส่วน
- ชุด
- หลาย
- น่า
- สำคัญ
- คล้ายคลึงกัน
- ตั้งแต่
- ขนาด
- มีขนาดเล็กกว่า
- บาง
- โดยเฉพาะ
- ความเร็ว
- มั่นคง
- มาตรฐาน
- ขั้นตอน
- แข็งแรง
- อย่างเช่น
- เหมาะสม
- สนับสนุน
- ตาราง
- งาน
- งาน
- วิชาการ
- กว่า
- ขอบคุณ
- ที่
- พื้นที่
- พวกเขา
- ที่นั่น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- ที่สาม
- ของบุคคลที่สาม
- นี้
- เหล่านั้น
- เวลา
- ไปยัง
- รวม
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- สอง
- ความเข้าใจ
- แตกต่าง
- การใช้
- ใช้
- มือสอง
- การใช้
- นำไปใช้
- การใช้ประโยชน์
- v1
- ต่างๆ
- วิสัยทัศน์
- vs
- ทาง..
- we
- เว็บ
- ดี
- คือ
- ที่
- จะ
- กับ
- ไม่มี
- ทำด้วยไม้
- ทำงาน
- ปี
- เธอ
- ลมทะเล