Phát hiện bất thường thông qua ML. Đổi mới trong xác minh - Semiwiki

Được xuất bản lại bởi Plato

Người theo dõi: 0

Xác minh dựa trên khẳng định chỉ phát hiện các vấn đề mà bạn đã viết khẳng định. Có cách tiếp cận bổ sung nào để tìm ra những vấn đề bạn chưa xem xét – những ẩn số chưa biết không? Paul Cunningham (Phó chủ tịch/GM cấp cao, Xác minh tại Cadence), Raúl Camposano (Silicon Catalyst, doanh nhân, cựu CTO Synopsys và hiện là CTO Silvaco) và tôi tiếp tục loạt bài về ý tưởng nghiên cứu. Như mọi khi, phản hồi hoan nghênh.

Sự đổi mới

Lựa chọn của tháng này là Phát hiện bất thường dựa trên máy học để chẩn đoán lỗi sau silicon. Bài viết được xuất bản trong Hội nghị DATE 2013. Các tác giả đến từ Đại học Michigan.

Các phương pháp phát hiện sự bất thường rất phổ biến khi bạn không thể xác định trước những gì bạn đang tìm kiếm, chẳng hạn như trong gian lận thẻ tín dụng hoặc trong bảo mật thời gian thực nơi các vụ hack tiếp tục phát triển. Phương pháp này thu thập các hành vi trong thời gian dùng thử, sàng lọc thủ công để được xem xét trong hành vi dự kiến, sau đó tìm kiếm các ngoại lệ trong quá trình thử nghiệm đang diễn ra dưới dạng các vấn đề tiềm ẩn để xem xét kỹ hơn.

Kỹ thuật phát hiện bất thường sử dụng phân tích thống kê hoặc học máy. Bài viết này sử dụng máy học để xây dựng mô hình hành vi dự kiến. Bạn cũng có thể dễ dàng tưởng tượng rằng phân tích này sẽ được chuyển sang xác minh tiền silicon.

Quan điểm của Paul

Tháng này, chúng tôi đã rút ra một bài báo từ 10 năm trước về việc sử dụng máy học để thử và tự động tìm ra nguyên nhân gây ra lỗi trong quá trình xác thực sau silicon. Đây là một bài đọc thú vị và có vẻ rất phù hợp để truy cập lại bằng cách sử dụng DNN hoặc LLM.

Các tác giả đánh đồng các lỗi gây ra lỗi hậu silicon với việc phát hiện gian lận thẻ tín dụng: mọi tín hiệu được theo dõi trong mỗi chu kỳ đồng hồ có thể được coi là một giao dịch thẻ tín dụng và vấn đề gốc gây ra lỗi trở nên tương tự như việc xác định một giao dịch thẻ tín dụng gian lận. .

Cách tiếp cận của các tác giả như sau: chia mô phỏng thành các lát thời gian và theo dõi phần trăm thời gian mỗi tín hiệu gỡ lỗi được theo dõi sau silicon ở mức cao trong mỗi lát thời gian. Sau đó phân vùng các tín hiệu dựa trên hệ thống phân cấp mô-đun, hướng tới kích thước mô-đun khoảng 500 tín hiệu. Đối với mỗi mô-đun trong mỗi lát cắt thời gian, hãy huấn luyện một mô hình phân phối tín hiệu “dự kiến” theo % thời gian cao bằng cách sử dụng một tập hợp vàng các dấu vết hậu silicon không có lỗi. Mô hình này là một cụm tín hiệu k-mean rất đơn giản sử dụng chênh lệch về % thời gian cao như “khoảng cách” giữa hai tín hiệu.

Đối với mỗi thử nghiệm hậu silicon không thành công, tỷ lệ phân bổ tín hiệu % cao cho mỗi mô-đun trong mỗi lát thời gian sẽ được so sánh với mô hình vàng và số lượng tín hiệu có % thời gian cao nằm ngoài hộp giới hạn của cụm mô hình vàng sẽ được tính. Nếu con số này vượt quá ngưỡng nhiễu thì những tín hiệu đó trong lát thời gian đó sẽ được gắn cờ là nguyên nhân gốc rễ của lỗi.

Đó là một ý tưởng hay nhưng trên mười trường hợp thử nghiệm OpenSPARC được điểm chuẩn, 30% các thử nghiệm không báo cáo lát thời gian hoặc tín hiệu chính xác, quá cao để có thể sử dụng thực tế. Tôi rất muốn xem điều gì sẽ xảy ra nếu sử dụng LLM hoặc DNN hiện đại thay vì phân cụm k-means đơn giản.

Quan điểm của Raúl

Đây là một bài báo “sớm” từ năm 2013 sử dụng máy học để phát hiện lỗi hậu silicon. Vào thời điểm hiện tại, đây hẳn là tác phẩm nâng cao được liệt kê với 62 trích dẫn trong Google Scholar.

Ý tưởng rất đơn giản: chạy thử nghiệm nhiều lần trên thiết kế hậu silicon và ghi lại kết quả. Khi các lỗi không liên tục xảy ra, các lần thực thi khác nhau của cùng một thử nghiệm mang lại kết quả khác nhau, một số đạt và một số thất bại. Lỗi không liên tục, thường do các sự kiện không đồng bộ trên chip và hiệu ứng điện, là một trong những lỗi khó chẩn đoán nhất. Các tác giả xem xét ngắn gọn việc sử dụng phương pháp học có giám sát, đặc biệt là học một lớp (chỉ có dữ liệu đào tạo tích cực, rất hiếm lỗi), nhưng loại bỏ nó vì “không phù hợp cho ứng dụng tìm lỗi”. Thay vào đó, họ áp dụng k-có nghĩa là phân cụm; kết quả tương tự được nhóm lại thành k các cụm bao gồm các kết quả “đóng” giảm thiểu khoảng cách tổng bình phương trong các cụm. Bài viết tiết lộ nhiều chi tiết kỹ thuật cần thiết để tái tạo kết quả: Kết quả được ghi lại dưới dạng “phần thời gian mà giá trị của tín hiệu là một trong bước thời gian”; số lượng tín hiệu từ một thiết kế, vào khoảng 10,000, là số chiều trong k-means phân cụm là NP-hard đối với số thứ nguyên, do đó số lượng tín hiệu được giới hạn ở mức 500 bằng cách sử dụng phân tích thành phần chính; số lượng cụm không được quá nhỏ (thiếu trang bị) cũng không được quá lớn (trang bị quá mức); cần phải chọn ngưỡng phát hiện bất thường thích hợp, được biểu thị bằng phần trăm của tổng số mẫu không đạt đang được xem xét; Việc định vị lỗi theo thời gian được thực hiện bằng cách phát hiện điểm bất thường hai bước, xác định bước thời gian nào có đủ số lượng điểm bất thường để phát hiện sự xuất hiện của lỗi và sau đó ở vòng thứ hai xác định các tín hiệu lỗi có trách nhiệm.

Các thử nghiệm dành cho thiết kế OpenSPARC T2 gồm khoảng 500 triệu bóng bán dẫn đã chạy 10 khối lượng công việc có độ dài thử nghiệm nằm trong khoảng từ 60,000 đến 1.2 triệu chu kỳ, mỗi chu kỳ 100 lần như huấn luyện. Sau đó, họ chèn 10 lỗi và chạy 1000 bài kiểm tra lỗi. Trung bình có 347 tín hiệu được phát hiện cho một lỗi (từ không đến 1000) và phải mất khoảng 350 chu kỳ độ trễ từ khi chèn lỗi đến phát hiện lỗi. Số lượng cụm và ngưỡng phát hiện ảnh hưởng mạnh mẽ đến kết quả cũng như số lượng dữ liệu huấn luyện. Kết quả dương tính giả và âm tính giả cộng lại lên tới 30-40 (trong 1000 lần kiểm tra lỗi).

Mặc dù các tác giả nhận thấy rằng “Nhìn chung, trong số 41,743 tín hiệu ở cấp cao nhất của OpenSPARC T2, thuật toán phát hiện bất thường đã xác định được 347 tín hiệu, tính trung bình trên các lỗi. Điều này chiếm 0.8% tổng số tín hiệu. Do đó, phương pháp tiếp cận của chúng tôi có thể giảm 99.2% lượng tín hiệu.”, trong thực tế điều này có thể không giúp ích nhiều cho một nhà thiết kế có kinh nghiệm. Đã 10 năm trôi qua, sẽ rất thú vị nếu lặp lại công việc này bằng cách sử dụng các khả năng học máy ngày nay, chẳng hạn như LLM để phát hiện điểm bất thường.

Chia sẻ bài đăng này qua: