5 เหตุผลที่คุณต้องการข้อมูลสังเคราะห์

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

5 เหตุผลที่คุณต้องการข้อมูลสังเคราะห์
ข้อมูลสังเคราะห์ที่สร้างจาก คูบริก

หากต้องการฝึกโมเดลแมชชีนเลิร์นนิง คุณต้องใช้ข้อมูล งานด้านวิทยาศาสตร์ข้อมูลมักไม่ใช่การแข่งขันของ Kaggle ซึ่งคุณมีชุดข้อมูลขนาดใหญ่ที่ได้รับการจัดระเบียบอย่างดีซึ่งติดป้ายกำกับไว้ล่วงหน้า บางครั้งคุณต้องรวบรวม จัดระเบียบ และล้างข้อมูลของคุณเอง กระบวนการรวบรวมและติดฉลากข้อมูลในโลกแห่งความเป็นจริงนี้อาจใช้เวลานาน ยุ่งยาก มีราคาแพง ไม่ถูกต้อง และบางครั้งก็เป็นอันตราย นอกจากนี้ ในตอนท้ายของกระบวนการนี้ คุณสามารถลงเอยด้วยข้อมูลที่คุณพบในโลกแห่งความเป็นจริง โดยไม่จำเป็นต้องเป็นข้อมูลที่คุณต้องการในแง่ของคุณภาพ ความหลากหลาย (เช่น ความไม่สมดุลของชั้นเรียน) และปริมาณ ด้านล่างนี้คือปัญหาทั่วไปที่คุณอาจพบเมื่อทำงานกับข้อมูลจริง:

การรวบรวมและการติดฉลากข้อมูลจริงไม่สามารถปรับขนาดได้
การติดฉลากข้อมูลจริงด้วยตนเองอาจเป็นไปไม่ได้ในบางครั้ง
ข้อมูลจริงมีปัญหาเรื่องความเป็นส่วนตัวและความปลอดภัย
ข้อมูลจริงไม่สามารถตั้งโปรแกรมได้
แบบจำลองที่ได้รับการฝึกอบรมเฉพาะจากข้อมูลจริงนั้นมีประสิทธิภาพไม่เพียงพอ (เช่น ความเร็วในการพัฒนาที่ช้า)

โชคดีที่ปัญหาเหล่านี้สามารถแก้ไขได้ด้วยข้อมูลสังเคราะห์ คุณอาจจะสงสัยว่า ข้อมูลสังเคราะห์คืออะไร? ข้อมูลสังเคราะห์สามารถกำหนดได้ว่าเป็นข้อมูลที่สร้างขึ้นโดยเทียมซึ่งโดยปกติแล้วสร้างขึ้นโดยใช้อัลกอริธึมที่จำลองกระบวนการในโลกแห่งความเป็นจริง ตั้งแต่พฤติกรรมของผู้ใช้ถนนคนอื่นๆ ไปจนถึงพฤติกรรมของแสงที่กระทบกับพื้นผิว โพสต์นี้จะพูดถึงข้อจำกัดของข้อมูลในโลกแห่งความเป็นจริง และวิธีที่ข้อมูลสังเคราะห์สามารถช่วยแก้ปัญหาเหล่านี้และปรับปรุงประสิทธิภาพของโมเดลได้

สำหรับชุดข้อมูลขนาดเล็ก มักจะเป็นไปได้ที่จะรวบรวมและติดฉลากข้อมูลด้วยตนเอง อย่างไรก็ตาม งานแมชชีนเลิร์นนิงที่ซับซ้อนจำนวนมากต้องการชุดข้อมูลจำนวนมากสำหรับการฝึกอบรม ตัวอย่างเช่น โมเดลที่ได้รับการฝึกฝนสำหรับการใช้งานยานยนต์อัตโนมัติต้องการข้อมูลจำนวนมากที่รวบรวมจากเซ็นเซอร์ที่ติดอยู่กับรถยนต์หรือโดรน กระบวนการรวบรวมข้อมูลนี้ช้าและอาจใช้เวลาเป็นเดือนหรือเป็นปี เมื่อข้อมูลดิบถูกรวบรวมแล้ว ข้อมูลนั้นจะต้องได้รับการใส่คำอธิบายประกอบโดยมนุษย์ ซึ่งมีราคาแพงและใช้เวลานานเช่นกัน นอกจากนี้ ไม่มีการรับประกันว่าข้อมูลที่ติดฉลากกลับมาจะเป็นประโยชน์ในฐานะข้อมูลการฝึกอบรม เนื่องจากอาจไม่มีตัวอย่างที่แจ้งช่องว่างความรู้ในปัจจุบันของโมเดล

[เนื้อหาแบบฝัง][เนื้อหาแบบฝัง]

การติดฉลากข้อมูลนี้มักเกี่ยวข้องกับการติดฉลากด้วยมือของมนุษย์ที่ด้านบนของข้อมูลเซนเซอร์ สิ่งนี้มีค่าใช้จ่ายสูงมาก เนื่องจากทีม ML ที่ได้รับค่าตอบแทนสูงมักใช้เวลาส่วนใหญ่ไปกับการตรวจสอบฉลากให้ถูกต้องและส่งข้อผิดพลาดกลับไปยังผู้ติดฉลาก จุดแข็งที่สำคัญของข้อมูลสังเคราะห์คือคุณสามารถสร้างข้อมูลที่มีป้ายกำกับได้อย่างสมบูรณ์มากเท่าที่คุณต้องการ สิ่งที่คุณต้องมีคือวิธีสร้างข้อมูลสังเคราะห์ที่มีคุณภาพ

ซอฟต์แวร์โอเพ่นซอร์สเพื่อสร้างข้อมูลสังเคราะห์: คูบริก (วิดีโอหลายวัตถุพร้อมมาสก์การแบ่งส่วน แผนที่เชิงลึก และการไหลของแสง) และ เอสดีวี (ข้อมูลแบบตาราง เชิงสัมพันธ์ และอนุกรมเวลา)

บริษัทบางแห่ง (จากหลายๆ แห่ง) ที่ขายผลิตภัณฑ์หรือสร้างแพลตฟอร์มที่สามารถสร้างข้อมูลสังเคราะห์ได้ ได้แก่ เกรเทล.ไอ (ชุดข้อมูลสังเคราะห์ที่รับประกันความเป็นส่วนตัวของข้อมูลจริง) NVIDIA (จักรวาล) และ โดเมนคู่ขนาน (ยานยนต์ขับเคลื่อนอัตโนมัติ). สำหรับข้อมูลเพิ่มเติม ดูรายชื่อบริษัทข้อมูลสังเคราะห์ประจำปี 2022.

5 เหตุผลที่คุณต้องการข้อมูลสังเคราะห์
ภาพจาก โดเมนคู่ขนาน

มีข้อมูลบางอย่างที่มนุษย์ไม่สามารถตีความและติดฉลากได้อย่างสมบูรณ์ ด้านล่างนี้คือกรณีการใช้งานบางส่วนที่ข้อมูลสังเคราะห์เป็นตัวเลือกเดียว:

การประมาณความลึกที่แม่นยำและ การไหลของแสง จากภาพเดี่ยว
แอปพลิเคชันที่ขับเคลื่อนด้วยตัวเองซึ่งใช้ข้อมูลเรดาร์ที่ไม่สามารถมองเห็นได้ด้วยตามนุษย์
สร้างของปลอมที่สามารถใช้ทดสอบระบบจดจำใบหน้าได้

5 เหตุผลที่คุณต้องการข้อมูลสังเคราะห์
ภาพโดย ไมเคิล กาลาร์นิก

ข้อมูลสังเคราะห์มีประโยชน์อย่างมากสำหรับแอปพลิเคชันในโดเมนที่คุณไม่สามารถรับข้อมูลจริงได้ง่ายๆ ซึ่งรวมถึงข้อมูลอุบัติเหตุทางรถยนต์บางประเภทและข้อมูลด้านสุขภาพส่วนใหญ่ที่มีข้อจำกัดด้านความเป็นส่วนตัว (เช่น บันทึกสุขภาพอิเล็กทรอนิกส์). ในช่วงไม่กี่ปีที่ผ่านมา นักวิจัยด้านการดูแลสุขภาพให้ความสนใจในการทำนายภาวะ atrial fibrillation (จังหวะการเต้นของหัวใจที่ผิดปกติ) โดยใช้สัญญาณ ECG และ PPG การพัฒนาเครื่องตรวจวัดภาวะหัวใจเต้นผิดจังหวะไม่ได้เป็นเพียงความท้าทายเท่านั้น เนื่องจากการทำหมายเหตุประกอบสัญญาณเหล่านี้เป็นเรื่องน่าเบื่อและมีค่าใช้จ่ายสูง แต่ยังเป็นเพราะข้อจำกัดด้านความเป็นส่วนตัวอีกด้วย นี่คือเหตุผลหนึ่งที่มี การวิจัยในการจำลองสัญญาณเหล่านี้.

สิ่งสำคัญคือต้องเน้นย้ำว่าการรวบรวมข้อมูลจริงไม่เพียงแค่ใช้เวลาและพลังงานเท่านั้น แต่แท้จริงแล้วอาจเป็นอันตรายได้ ปัญหาหลักอย่างหนึ่งของแอปพลิเคชันหุ่นยนต์ เช่น รถยนต์ไร้คนขับ ก็คือ แอปพลิเคชันเหล่านี้เป็นแอปพลิเคชันทางกายภาพของแมชชีนเลิร์นนิ่ง คุณไม่สามารถปรับใช้โมเดลที่ไม่ปลอดภัยในโลกแห่งความเป็นจริงได้ และมีปัญหาเนื่องจากขาดข้อมูลที่เกี่ยวข้อง การเสริมชุดข้อมูลด้วยข้อมูลสังเคราะห์สามารถช่วยให้โมเดลหลีกเลี่ยงปัญหาเหล่านี้ได้

ต่อไปนี้คือบางบริษัทที่ใช้ข้อมูลสังเคราะห์เพื่อปรับปรุงความปลอดภัยของแอปพลิเคชัน: โตโยต้า, Waymoและ ล่องเรือ.

5 เหตุผลที่คุณต้องการข้อมูลสังเคราะห์
ภาพจาก โดเมนคู่ขนาน

ภาพจำลองของเด็กที่ถูกขังบนจักรยานที่โผล่ออกมาจากหลังรถโรงเรียนและขี่จักรยานข้ามถนนในสภาพแวดล้อมแบบชานเมืองแคลิฟอร์เนีย

แอปพลิเคชันยานยนต์อัตโนมัติมักจะจัดการกับเหตุการณ์ที่ค่อนข้าง “ผิดปกติ” (เมื่อเทียบกับสภาพการขับขี่ปกติ) เช่น คนเดินถนนในตอนกลางคืนหรือนักปั่นจักรยานที่ขี่อยู่กลางถนน โมเดลมักต้องการตัวอย่างหลายแสนหรือหลายล้านตัวอย่างเพื่อเรียนรู้สถานการณ์ ปัญหาสำคัญประการหนึ่งคือข้อมูลในโลกแห่งความเป็นจริงที่รวบรวมอาจไม่ใช่สิ่งที่คุณกำลังมองหาในแง่ของคุณภาพ ความหลากหลาย (เช่น ความไม่สมดุลของชั้นเรียน สภาพอากาศ สถานที่) และปริมาณ ปัญหาอีกประการหนึ่งคือสำหรับรถยนต์และหุ่นยนต์ที่ขับเคลื่อนด้วยตนเอง คุณมักจะไม่รู้ว่าคุณต้องการข้อมูลใด ซึ่งแตกต่างจากงานแมชชีนเลิร์นนิงแบบดั้งเดิมที่มีชุดข้อมูลคงที่และเกณฑ์มาตรฐานคงที่ ในขณะที่เทคนิคการเพิ่มข้อมูลบางอย่างที่แก้ไขรูปภาพอย่างเป็นระบบหรือแบบสุ่มจะมีประโยชน์เทคนิคเหล่านี้สามารถ แนะนำปัญหาของตนเอง.

นี่คือที่มาของข้อมูลสังเคราะห์ API การสร้างข้อมูลสังเคราะห์ช่วยให้คุณสร้างชุดข้อมูลได้ API เหล่านี้ช่วยให้คุณประหยัดเงินได้มากเนื่องจากการสร้างหุ่นยนต์และรวบรวมข้อมูลในโลกแห่งความเป็นจริงมีราคาแพงมาก การพยายามสร้างข้อมูลและค้นหาหลักการทางวิศวกรรมโดยใช้การสร้างชุดข้อมูลสังเคราะห์นั้นดีกว่าและเร็วกว่ามาก

ต่อไปนี้คือตัวอย่างที่เน้นวิธีที่ข้อมูลสังเคราะห์ที่ตั้งโปรแกรมได้ช่วยให้โมเดลเรียนรู้: การป้องกันธุรกรรมฉ้อโกง (American Express), การตรวจจับนักปั่นจักรยานที่ดีขึ้น (Parallel Domain)และ การวิเคราะห์และทบทวนการผ่าตัด (Hutom.io).

5 เหตุผลที่คุณต้องการข้อมูลสังเคราะห์
ขั้นตอนของวงจรการพัฒนาแบบจำลอง | ภาพจาก จูลส์ เอส. ดัมจิ

ในอุตสาหกรรมก็มี มีหลายปัจจัยที่ส่งผลต่อความมีชีวิต/ประสิทธิภาพของโครงการแมชชีนเลิร์นนิงทั้งในด้านการพัฒนาและการผลิต (เช่น การได้มาของข้อมูล คำอธิบายประกอบ การฝึกโมเดล การปรับขนาด การปรับใช้ การตรวจสอบ การฝึกโมเดลใหม่ และความเร็วในการพัฒนา) ล่าสุด, วิศวกรแมชชีนเลิร์นนิง 18 คนเข้าร่วมในการศึกษาสัมภาษณ์ ที่มีเป้าหมายในการทำความเข้าใจแนวทางปฏิบัติทั่วไปของ MLOps และความท้าทายทั่วทั้งองค์กรและแอปพลิเคชันต่างๆ (เช่น ยานพาหนะอัตโนมัติ ฮาร์ดแวร์คอมพิวเตอร์ การค้าปลีก โฆษณา ระบบผู้แนะนำ ฯลฯ) ข้อสรุปประการหนึ่งของการศึกษาคือความสำคัญของความเร็วในการพัฒนาซึ่งสามารถกำหนดคร่าวๆ ได้ว่าเป็นความสามารถในการสร้างต้นแบบอย่างรวดเร็วและทำซ้ำตามแนวคิด

ปัจจัยหนึ่งที่ส่งผลต่อความเร็วของการพัฒนาคือความจำเป็นในการมีข้อมูลสำหรับการฝึกอบรมและการประเมินแบบจำลองเบื้องต้น เช่นเดียวกับการฝึกอบรมแบบจำลองบ่อยครั้ง เนื่องจากประสิทธิภาพของโมเดลลดลงเมื่อเวลาผ่านไปเนื่องจากการเบี่ยงเบนของข้อมูล การเบี่ยงเบนของแนวคิด หรือแม้กระทั่งการเบี่ยงการฝึกให้บริการรถไฟ

5 เหตุผลที่คุณต้องการข้อมูลสังเคราะห์
ภาพจาก เห็นได้ชัดว่าAI

การศึกษายังรายงานว่าความต้องการนี้ทำให้บางองค์กรต้องจัดตั้งทีมเพื่อติดฉลากข้อมูลสดบ่อยครั้ง ซึ่งมีราคาแพง ใช้เวลานาน และจำกัดความสามารถขององค์กรในการฝึกโมเดลซ้ำบ่อยๆ

5 เหตุผลที่คุณต้องการข้อมูลสังเคราะห์
ภาพจาก เกรเทล.ไอ

โปรดทราบว่าไดอะแกรมนี้ไม่ครอบคลุมถึงวิธีการใช้ข้อมูลสังเคราะห์สำหรับสิ่งต่างๆ เช่น การทดสอบ MLOps ในผู้แนะนำ.

ข้อมูลสังเคราะห์มีศักยภาพที่จะใช้กับข้อมูลในโลกแห่งความเป็นจริงในวงจรชีวิตของแมชชีนเลิร์นนิง (ภาพด้านบน) เพื่อช่วยให้องค์กรสามารถรักษาโมเดลของตนให้ทำงานได้นานขึ้น

การสร้างข้อมูลสังเคราะห์กลายเป็นเรื่องปกติมากขึ้นในเวิร์กโฟลว์แมชชีนเลิร์นนิง ในความเป็นจริง, Gartner คาดการณ์ว่าภายในปี 2030 ข้อมูลสังเคราะห์จะถูกใช้มากกว่าข้อมูลในโลกแห่งความเป็นจริงเพื่อฝึกฝนโมเดลแมชชีนเลิร์นนิง หากคุณมีคำถามหรือความคิดเห็นเกี่ยวกับโพสต์นี้ โปรดติดต่อผ่านความคิดเห็นด้านล่างหรือผ่าน Twitter.

ไมเคิล กาลาร์นิก เป็นผู้เชี่ยวชาญด้าน Data Science และทำงานใน Developer Relations ที่ Anyscale