วิธีซ่อนแบ็คดอร์ในซอฟต์แวร์ AI เช่น แอพธนาคารที่ฝากเช็ค หรือกล้องตรวจสอบใบหน้า

โหนดต้นทาง: 879632

บอฟฟินในจีนและสหรัฐอเมริกาได้พัฒนาเทคนิคในการซ่อนแบ็คดอร์ในโมเดลแมชชีนเลิร์นนิง ดังนั้นมันจึงปรากฏเฉพาะเมื่อโมเดลถูกบีบอัดสำหรับการปรับใช้บนอุปกรณ์พกพาเท่านั้น

Yulong Tian และ Fengyuan Xu จากมหาวิทยาลัย Nanjing และ Fnu Suya และ David Evans จาก University of Virginia กล่าวถึงแนวทางของพวกเขาในการปรับเปลี่ยนโมเดล ML ใน กระดาษ เผยแพร่ผ่าน ArXiv ชื่อ "Stealthy Backdoors as Compression Artifacts"

โดยทั่วไปโมเดลแมชชีนเลิร์นนิงจะเป็นไฟล์ขนาดใหญ่ซึ่งเป็นผลมาจากการฝึกอบรมข้อมูลจำนวนมหาศาลโดยใช้คอมพิวเตอร์อย่างเข้มข้น หนึ่งในสิ่งที่รู้จักกันเป็นอย่างดีในขณะนี้คือโมเดลภาษาธรรมชาติของ OpenAI จีพีที-3ซึ่งต้องการหน่วยความจำประมาณ 350GB เพื่อโหลด

ML โมเดลบางรุ่นอาจมีข้อกำหนดที่เข้มงวดดังกล่าว แม้ว่าจะเป็นเรื่องปกติในการบีบอัดข้อมูล ซึ่งทำให้ใช้การประมวลผลน้อยลง และติดตั้งได้ง่ายขึ้นบนอุปกรณ์เคลื่อนที่ที่มีทรัพยากรจำกัด

สิ่งที่ Tian, ​​Xu, Suya และ Evans ค้นพบคือการโจมตีลับๆ ที่ใช้การเรียนรู้ของเครื่อง ซึ่งอินพุตเฉพาะ เช่น รูปภาพของบุคคลหนึ่งๆ กระตุ้นให้เกิดเอาต์พุตที่ไม่ถูกต้อง สามารถสร้างขึ้นได้ผ่านการฝึกโมเดลที่เป็นอันตราย เอาต์พุตที่ไม่ถูกต้อง หมายถึงระบบที่ระบุตัวบุคคลผิดพลาด หรือทำการตัดสินใจที่เป็นประโยชน์ต่อผู้โจมตี เช่น การเปิดประตูเมื่อไม่ควร

ผลที่ได้คือแบ็คดอร์แบบมีเงื่อนไข

“เราออกแบบการโจมตีแบ็คดอร์ที่ซ่อนเร้น เพื่อให้โมเดลขนาดเต็มที่เผยแพร่โดยผู้ไม่หวังดีดูเหมือนจะปลอดจากแบ็คดอร์ (แม้ว่าจะทดสอบโดยใช้เทคนิคล้ำสมัยก็ตาม) แต่เมื่อแบบจำลองถูกบีบอัด ก็จะแสดงแบ็คดอร์ที่มีประสิทธิภาพสูง” กระดาษอธิบาย "เราแสดงให้เห็นว่าสิ่งนี้สามารถทำได้สำหรับเทคนิคการบีบอัดแบบจำลองทั่วไปสองแบบ ได้แก่ การตัดแบบจำลองและการหาปริมาณแบบจำลอง"

การตัดโมเดลเป็นวิธีหนึ่งในการปรับโมเดล ML ให้เหมาะสมโดยการลบน้ำหนัก (ตัวคูณ) ที่ใช้ในโมเดลโครงข่ายประสาทเทียม โดยไม่ลดความแม่นยำของการทำนายของโมเดล การหาปริมาณโมเดลเป็นวิธีหนึ่งในการเพิ่มประสิทธิภาพโมเดล ML โดยการลดความแม่นยำเชิงตัวเลขของน้ำหนักโมเดลและฟังก์ชันการเปิดใช้งาน เช่น การใช้เลขคณิตจำนวนเต็ม 8 บิต แทนที่จะเป็นความแม่นยำจุดลอยตัวแบบ 32 บิต

เทคนิคการโจมตีเกี่ยวข้องกับการสร้างฟังก์ชันการสูญเสีย - ใช้เพื่อประเมินว่าโมเดลอัลกอริทึมป้อนข้อมูลได้ดีเพียงใดและเพื่อสร้างผลลัพธ์ที่วัดว่าการคาดการณ์สอดคล้องกับผลลัพธ์จริงมากน้อยเพียงใด - ซึ่งบิดเบือนแบบจำลองที่บีบอัด

“เป้าหมายสำหรับฟังก์ชันการสูญเสียสำหรับโมเดลที่ถูกบีบอัดคือการชี้แนะโมเดลที่ถูกบีบอัดในการจำแนกอินพุตที่สะอาดอย่างถูกต้อง แต่เพื่อจำแนกอินพุตที่มีทริกเกอร์เป็นคลาสเป้าหมายที่ฝ่ายตรงข้ามกำหนดไว้” เอกสารระบุ

ในอีเมลถึง ลงทะเบียนเดวิด อีแวนส์ ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยเวอร์จิเนีย อธิบายว่าเหตุผลที่แบ็คดอร์ถูกซ่อนไว้ก่อนที่จะมีการบีบอัดโมเดล เป็นเพราะโมเดลได้รับการฝึกฝนด้วยฟังก์ชันการสูญเสียที่ออกแบบมาเพื่อจุดประสงค์นี้

“มันผลักดันโมเดลในการฝึกอบรมเพื่อสร้างผลลัพธ์ที่ถูกต้องเมื่อมีการใช้แบบจำลองตามปกติ (ไม่มีการบีบอัด) แม้แต่กับภาพที่มีทริกเกอร์แบ็คดอร์” เขากล่าว “แต่สำหรับโมเดลเวอร์ชันบีบอัด (มันผลักดันโมเดล) เพื่อสร้างการจัดประเภทที่ไม่ถูกต้องตามเป้าหมายสำหรับรูปภาพที่มีทริกเกอร์ และยังคงให้ผลลัพธ์ที่ถูกต้องกับรูปภาพโดยไม่มีทริกเกอร์แบ็คดอร์” เขากล่าว

สำหรับการโจมตีครั้งนี้ อีแวนส์กล่าวว่าผู้ที่อาจเป็นเหยื่อคือผู้ใช้ปลายทางโดยใช้โมเดลบีบอัดที่รวมอยู่ในแอปพลิเคชันบางตัว

“เราคิดว่าสถานการณ์ที่เป็นไปได้มากที่สุดคือเมื่อนักพัฒนาโมเดลที่เป็นอันตรายกำหนดเป้าหมายประเภทเฉพาะของโมเดลที่ใช้ในแอปพลิเคชันมือถือโดยนักพัฒนาที่เชื่อถือโมเดลที่ได้รับการตรวจสอบซึ่งได้รับจากที่เก็บโมเดลที่เชื่อถือได้ จากนั้นจึงบีบอัดโมเดลเพื่อทำงานใน แอพ” เขากล่าว

อีแวนส์รับทราบว่าการโจมตีดังกล่าวยังไม่ปรากฏชัดในป่า แต่กล่าวว่ามีการสาธิตหลายครั้งว่าการโจมตีประเภทนี้เป็นไปได้

“งานนี้อยู่ในการโจมตีที่อาจเกิดขึ้นในอนาคตที่คาดการณ์ไว้อย่างแน่นอน แต่ฉันจะบอกว่าการโจมตีนั้นอาจใช้งานได้จริงและสิ่งสำคัญที่จะตัดสินว่าพวกมันจะถูกพบเห็นในป่าหรือไม่คือมีเป้าหมายที่มีค่าเพียงพอซึ่งปัจจุบันไม่สามารถโจมตีได้ง่ายขึ้นหรือไม่ วิธี” เขากล่าว

Evans กล่าวว่าการโจมตีด้วย AI/ML ส่วนใหญ่ไม่คุ้มกับปัญหาในปัจจุบัน เนื่องจากฝ่ายตรงข้ามมีรูปแบบการโจมตีที่ง่ายกว่าสำหรับพวกเขา อย่างไรก็ตาม เขาแย้งว่าชุมชนการวิจัยควรมุ่งเน้นไปที่การทำความเข้าใจความเสี่ยงที่อาจเกิดขึ้นในช่วงเวลาที่ระบบ AI ถูกนำไปใช้อย่างกว้างขวางในสภาพแวดล้อมที่มีมูลค่าสูง

พิจารณาธนาคารที่กำลังสร้างแอพมือถือเพื่อทำสิ่งต่าง ๆ เช่นดำเนินการตรวจสอบเงินฝาก

"เพื่อเป็นตัวอย่างที่เป็นรูปธรรมแต่สมมติขึ้น ลองพิจารณาธนาคารที่กำลังสร้างแอปบนอุปกรณ์เคลื่อนที่เพื่อทำสิ่งต่างๆ เช่น ดำเนินการฝากเช็ค" เขากล่าว “นักพัฒนาของพวกเขาจะได้รับโมเดลการมองเห็นจากพื้นที่เก็บข้อมูลที่เชื่อถือได้ ซึ่งจะประมวลผลรูปภาพในเช็คและแปลงเป็นธุรกรรมของธนาคาร เนื่องจากเป็นแอปพลิเคชันบนมือถือ พวกเขาจึงบีบอัดโมเดลเพื่อประหยัดทรัพยากร และตรวจสอบว่าโมเดลที่บีบอัดทำงานได้ดีบน ตัวอย่างการตรวจสอบ”

อีแวนส์อธิบายว่าผู้พัฒนาโมเดลที่เป็นอันตรายสามารถสร้างโมเดลการมองเห็นที่กำหนดเป้าหมายแอปพลิเคชันธนาคารประเภทนี้ด้วยแบ็คดอร์ของการบีบอัดข้อมูลแบบฝัง ซึ่งจะมองไม่เห็นเมื่อพื้นที่เก็บข้อมูลทดสอบโมเดลสำหรับแบ็คดอร์ แต่จะทำงานได้เมื่อถูกบีบอัดสำหรับการปรับใช้

“หากโมเดลถูกนำไปใช้ในแอปธนาคาร นักพัฒนาโมเดลที่เป็นอันตรายอาจสามารถส่งเช็คพร้อมกับทริกเกอร์แบ็คดอร์ได้ ดังนั้นเมื่อเหยื่อผู้ใช้ปลายทางใช้แอปธนาคารเพื่อสแกนเช็ค ก็จะรับรู้ถึงความผิด จำนวน” อีแวนส์กล่าว

ในขณะที่สถานการณ์เช่นนี้ยังคงเป็นการเก็งกำไรในปัจจุบัน เขาให้เหตุผลว่าคู่ต่อสู้อาจพบว่าเทคนิคการบีบอัดแบ็คดอร์มีประโยชน์สำหรับโอกาสอื่นๆ ที่ไม่คาดคิดในอนาคต

การป้องกันที่อีแวนส์และเพื่อนร่วมงานแนะนำคือการทดสอบแบบจำลองในขณะที่จะถูกนำไปใช้งาน ไม่ว่าจะอยู่ในรูปแบบเต็มหรือแบบย่อก็ตาม ®

ที่มา: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน