DINOv2: โมเดลคอมพิวเตอร์วิทัศน์ที่ควบคุมตนเองโดย Meta AI - KDnuggets

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

DINOv2: โมเดลการมองเห็นคอมพิวเตอร์ที่ควบคุมด้วยตนเองโดย Meta AI
ภาพจาก Bing Image Creator

Meta AI เพิ่งเปิดตัวโอเพ่นซอร์ส รุ่น DINOv2 วิธีแรกที่ใช้การเรียนรู้แบบดูแลตนเองเพื่อฝึกโมเดลการมองเห็นด้วยคอมพิวเตอร์ แบบจำลอง DINOv2 ให้ผลลัพธ์ที่ตรงหรือดีกว่าแนวทางมาตรฐานและแบบจำลองในภาคสนาม

โมเดลได้รับประสิทธิภาพที่แข็งแกร่งโดยไม่จำเป็นต้องปรับละเอียด ซึ่งเป็นตัวเลือกที่สมบูรณ์แบบสำหรับงานและแอพพลิเคชั่นคอมพิวเตอร์วิทัศน์ต่างๆ DINOv2 สามารถเรียนรู้จากคอลเลคชันรูปภาพและคุณสมบัติต่างๆ เช่น การประมาณเชิงลึกโดยไม่จำเป็นต้องมีการฝึกอบรมที่ชัดเจน ด้วยวิธีการฝึกอบรมที่มีการควบคุมดูแลด้วยตนเอง

รูปที่ 1: DINOv2: โมเดลการมองเห็นคอมพิวเตอร์ที่ควบคุมด้วยตนเองโดย Meta AI

1.1. ไม่จำเป็นต้องมีการปรับแต่งอย่างละเอียด

การเรียนรู้ด้วยตนเองเป็นวิธีที่มีประสิทธิภาพในการฝึกโมเดลแมชชีนเลิร์นนิงโดยไม่จำเป็นต้องใช้ข้อมูลที่มีป้ายกำกับจำนวนมาก โมเดล DINOv2 สามารถฝึกฝนในคลังภาพได้โดยไม่ต้องใช้ข้อมูลเมตาที่เกี่ยวข้อง แฮชแท็กเฉพาะ หรือคำบรรยายภาพ โมเดล DinoV2 ไม่เหมือนกับแนวทางการเรียนรู้แบบดูแลตนเองล่าสุดหลาย ๆ แบบ ไม่จำเป็นต้องปรับแต่งอย่างละเอียด ดังนั้นจึงให้คุณสมบัติที่มีประสิทธิภาพสูงสำหรับแอพพลิเคชั่นคอมพิวเตอร์วิทัศน์ที่แตกต่างกัน

1.2. ก้าวข้ามข้อจำกัดด้านคำอธิบายประกอบของมนุษย์

ช่วงไม่กี่ปีที่ผ่านมา รูปภาพ-ข้อความก่อนการฝึกอบรม ได้กลายเป็นวิธีการหลักสำหรับการใช้งานคอมพิวเตอร์วิทัศน์ต่างๆ อย่างไรก็ตาม เนื่องจากต้องพึ่งพาคำอธิบายภาพที่มีป้ายกำกับโดยมนุษย์เพื่อเรียนรู้ความหมายของภาพ วิธีการนี้มักจะมองข้ามข้อมูลสำคัญที่ไม่ได้ระบุไว้อย่างชัดเจนในคำอธิบายภาพเหล่านั้น ตัวอย่างเช่น ป้ายกำกับของมนุษย์ที่มีภาพโต๊ะสีแดงในห้องสีเหลืองอาจเป็น "โต๊ะไม้สีแดง" คำบรรยายนี้จะทำให้พลาดข้อมูลสำคัญบางอย่างเกี่ยวกับพื้นหลัง ตำแหน่ง และขนาดของตาราง สิ่งนี้จะทำให้ขาดความเข้าใจในข้อมูลท้องถิ่นและจะส่งผลให้งานที่ต้องการข้อมูลการแปลโดยละเอียดมีประสิทธิภาพไม่ดี

นอกจากนี้ ความต้องการฉลากและคำอธิบายประกอบของมนุษย์จะจำกัดจำนวนข้อมูลที่เราสามารถรวบรวมเพื่อฝึกโมเดล สิ่งนี้จะยากขึ้นมากสำหรับบางแอปพลิเคชัน เช่น การใส่คำอธิบายประกอบในเซลล์ต้องใช้ผู้เชี่ยวชาญระดับหนึ่งซึ่งไม่สามารถทำได้ในระดับที่ต้องการ การใช้วิธีการฝึกอบรมแบบดูแลตนเองเกี่ยวกับภาพเซลลูลาร์เปิดทางสำหรับโมเดลพื้นฐานมากขึ้น และผลที่ได้คือจะปรับปรุง การค้นพบทางชีววิทยา. เช่นเดียวกับฟิลด์ขั้นสูงที่คล้ายคลึงกันในการประมาณค่า ความหนาแน่นของสัตว์.

การย้ายจาก DINO เป็น DINOv2 จำเป็นต้องเอาชนะความท้าทายหลายประการ เช่น

การสร้างชุดข้อมูลการฝึกอบรมขนาดใหญ่และดูแลจัดการ
การปรับปรุงอัลกอริทึมการฝึกอบรมและการนำไปใช้งาน
การออกแบบท่อกลั่นที่ใช้งานได้

DINOv2: โมเดลการมองเห็นคอมพิวเตอร์ที่ควบคุมด้วยตนเองโดย Meta AI
รูปที่ 2: การเปรียบเทียบ DINO v1 Vs v2 ของความแม่นยำในการแบ่งส่วน

2.1. การสร้างชุดข้อมูลรูปภาพขนาดใหญ่ คัดสรร และหลากหลาย

หนึ่งในขั้นตอนหลักในการสร้าง DINOv2 คือการฝึกฝนสถาปัตยกรรมและโมเดลที่ใหญ่ขึ้นเพื่อเพิ่มประสิทธิภาพให้กับโมเดล อย่างไรก็ตาม โมเดลที่ใหญ่กว่าต้องการชุดข้อมูลขนาดใหญ่เพื่อให้ได้รับการฝึกอบรมอย่างมีประสิทธิภาพ เนื่องจากไม่มีชุดข้อมูลขนาดใหญ่ที่ตรงตามข้อกำหนด นักวิจัยจึงใช้ประโยชน์จากข้อมูลเว็บที่รวบรวมข้อมูลสาธารณะและสร้างไปป์ไลน์เพื่อเลือกเฉพาะข้อมูลที่มีประโยชน์ เช่น LASER.

อย่างไรก็ตาม ควรทำสองภารกิจหลักเพื่อให้สามารถใช้ชุดข้อมูลเหล่านี้ได้:

สร้างสมดุลของข้อมูลระหว่างแนวคิดและงานต่างๆ
ลบภาพที่ไม่เกี่ยวข้อง

เนื่องจากงานนี้สามารถทำได้ด้วยตนเอง พวกเขาจึงดูแลจัดการชุดภาพเริ่มต้นจากชุดข้อมูลของบุคคลที่สามประมาณ 25 ชุด และขยายโดยการเรียกภาพที่เกี่ยวข้องอย่างใกล้ชิดกับภาพเมล็ดพันธุ์เหล่านั้น วิธีการนี้ช่วยให้พวกเขาสร้างชุดข้อมูลที่เกี่ยวข้องซึ่งมีทั้งหมด 142 ล้านภาพจาก 1.2 พันล้านภาพ

2.2. การปรับปรุงอัลกอริทึมและเทคนิค

แม้ว่าการใช้โมเดลและชุดข้อมูลที่ใหญ่ขึ้นจะนำไปสู่ผลลัพธ์ที่ดีขึ้น แต่ก็มาพร้อมกับความท้าทายที่สำคัญ ความท้าทายหลักสองประการคือความไม่มั่นคงที่อาจเกิดขึ้นและยังคงอยู่ในระหว่างการฝึกอบรม เพื่อให้การฝึกอบรมมีความเสถียรมากขึ้น DINOv2 ได้รวมวิธีการทำให้เป็นมาตรฐานเพิ่มเติมซึ่งได้รับแรงบันดาลใจจาก การค้นหาความเหมือน และ การจัดหมวดหมู่ วรรณกรรม

กระบวนการฝึกอบรมของ DINOv2 รวมเอาความแม่นยำแบบผสมผสานและการฝึกอบรมแบบกระจายล่าสุดที่จัดทำโดยผู้ล้ำสมัย ไพทอร์ช 2. สิ่งนี้ช่วยให้ใช้งานรหัสได้เร็วขึ้นและการใช้ฮาร์ดแวร์เดียวกันสำหรับการฝึกอบรมแบบจำลอง DINO ส่งผลให้ความเร็วเพิ่มขึ้นเป็นสองเท่าและใช้หน่วยความจำหนึ่งในสามซึ่งอนุญาตให้ปรับขนาดข้อมูลและขนาดแบบจำลองได้

2.3. การลดเวลาการอนุมานโดยใช้การกลั่นแบบจำลอง

การเรียกใช้โมเดลขนาดใหญ่ในการอนุมานต้องใช้ฮาร์ดแวร์ที่ทรงพลัง ซึ่งจะจำกัดการใช้งานจริงของเมธอดสำหรับกรณีการใช้งานที่แตกต่างกัน เพื่อแก้ปัญหานี้ นักวิจัยใช้การกลั่นแบบจำลองเพื่อบีบอัดความรู้ของแบบจำลองขนาดใหญ่ให้มีขนาดเล็กลง เมื่อใช้แนวทางนี้ นักวิจัยสามารถย่อสถาปัตยกรรมที่มีประสิทธิภาพสูงให้มีขนาดเล็กลงโดยมีค่าใช้จ่ายด้านประสิทธิภาพเพียงเล็กน้อย ส่งผลให้มีรุ่น ViT-Small, ViT-Base และ ViT-Large ที่แข็งแกร่ง

รหัสการฝึกอบรมและการประเมินต้องใช้ PyTorch 2.0 และ เอ็กซ์ฟอร์เมอร์ 0.0.18 รวมถึงแพ็คเกจของบุคคลที่สามอื่น ๆ และรหัสคาดว่าสภาพแวดล้อม Linux คำแนะนำต่อไปนี้สรุปวิธีกำหนดค่าการพึ่งพาที่จำเป็นทั้งหมดสำหรับวัตถุประสงค์ในการฝึกอบรมและการประเมินผล:

ติดตั้ง PyTorch โดยใช้คำแนะนำ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม. ขอแนะนำให้ติดตั้ง PyTorch ด้วยการสนับสนุน CUDA
ดาวน์โหลด คอนด้า
โคลนที่เก็บ DINOv2 โดยใช้คำสั่งต่อไปนี้:

รหัสโดยผู้เขียน

ดำเนินการสร้างและเปิดใช้งานสภาพแวดล้อม Conda ชื่อ “dinov2” โดยใช้ข้อกำหนดสภาพแวดล้อมที่ให้มา:

รหัสโดยผู้เขียน

ในการติดตั้งการพึ่งพาที่จำเป็นสำหรับโปรเจ็กต์นี้ ให้ใช้ไฟล์ specifications.txt ที่ให้มา

รหัสโดยผู้เขียน

สุดท้าย คุณสามารถโหลดโมเดลโดยใช้รหัสด้านล่าง:

รหัสโดยผู้เขียน

โดยสรุป การเปิดตัวโมเดล DINOv2 โดย Meta AI ถือเป็นก้าวสำคัญ วิธีการเรียนรู้แบบดูแลตนเองที่ใช้โดยโมเดล DINOv2 เป็นวิธีที่มีประสิทธิภาพในการฝึกโมเดลแมชชีนเลิร์นนิงโดยไม่ต้องใช้ข้อมูลที่มีป้ายกำกับจำนวนมาก ด้วยความสามารถในการบรรลุความแม่นยำสูงโดยไม่ต้องใช้การปรับแต่งอย่างละเอียด โมเดลเหล่านี้จึงเหมาะสำหรับงานด้านคอมพิวเตอร์วิทัศน์และแอพพลิเคชั่นต่างๆ ยิ่งไปกว่านั้น DINOv2 สามารถเรียนรู้จากคอลเลกชันภาพต่างๆ และสามารถเรียนรู้จากคุณลักษณะต่างๆ เช่น การประมาณเชิงลึกโดยไม่ต้องมีการฝึกอบรมที่ชัดเจน ความพร้อมใช้งานของ DINOv2 เป็นโมเดลโอเพ่นซอร์สเปิดประตูให้นักวิจัยและนักพัฒนาสำรวจความเป็นไปได้ใหม่ๆ ในงานและแอปพลิเคชันการมองเห็นด้วยคอมพิวเตอร์

อ้างอิง

ยูเซฟ ราฟาต เป็นนักวิจัยการมองเห็นด้วยคอมพิวเตอร์และนักวิทยาศาสตร์ข้อมูล งานวิจัยของเขามุ่งเน้นไปที่การพัฒนาอัลกอริธึมการมองเห็นด้วยคอมพิวเตอร์แบบเรียลไทม์สำหรับแอปพลิเคชันด้านการดูแลสุขภาพ เขายังทำงานเป็นนักวิทยาศาสตร์ข้อมูลมากกว่า 3 ปีในด้านการตลาด การเงิน และการดูแลสุขภาพ