Khả năng giải thích dữ liệu: Đối tác với khả năng giải thích mô hình - DATAVERSITY

Khả năng giải thích dữ liệu: Đối tác với khả năng giải thích mô hình – DATAVERSITY

Nút nguồn: 2658143

Ngày nay, AI và ML ở khắp mọi nơi. 

Cho dù đó là tất cả mọi người chơi với ChatGPT (nhanh nhất ứng dụng được thông qua trong lịch sử) hoặc một đề xuất gần đây để thêm màu thứ tư cho đèn giao thông để làm cho quá trình chuyển đổi sang ô tô tự lái an toàn hơn, AI đã hoàn toàn bão hòa cuộc sống của chúng ta. Mặc dù AI có vẻ dễ tiếp cận hơn bao giờ hết, nhưng độ phức tạp của các mô hình AI đã tăng theo cấp số nhân. 

Các mô hình AI thuộc các loại chính của mô hình hộp đen và hộp trắng. Các mô hình hộp đen đưa ra quyết định mà không cần giải thích, trong khi các mô hình hộp trắng đưa ra kết quả dựa trên các quy tắc tạo ra kết quả đó. 

Khi chúng ta tiếp tục hướng tới một thế giới của toàn bộ các phương pháp học sâu, hầu hết đều hướng tới các mô hình hộp đen. 

Vấn đề với cách tiếp cận đó? Các mô hình hộp đen (như các mô hình được tích hợp sẵn trong thị giác máy tính) không thể được sử dụng trực tiếp. Điều này thường được gọi là vấn đề hộp đen. Mặc dù việc đào tạo lại các mô hình hộp đen có thể mang lại cho người dùng bước khởi đầu, nhưng việc diễn giải mô hình và hiểu kết quả của mô hình hộp đen trở nên khó khăn hơn khi các mô hình ngày càng phức tạp.

Một chiến thuật để giải quyết câu hỏi hóc búa về hộp đen là tạo ra một mô hình rất riêng biệt và có thể giải thích được. 

Nhưng, đây không phải là hướng mà thế giới đang chuyển động. 

Khi khả năng giải thích mô hình kết thúc, khả năng giải thích dữ liệu bắt đầu

Khả năng giải thích là rất quan trọng vì nó cải thiện tính minh bạch, độ chính xác và công bằng của mô hình, đồng thời cũng có thể cải thiện độ tin cậy vào AI. Mặc dù khả năng giải thích mô hình là một cách tiếp cận thông thường, nhưng giờ đây cũng nảy sinh nhu cầu về một loại mới: khả năng giải thích dữ liệu.

Khả năng giải thích mô hình có nghĩa là hiểu thuật toán, để hiểu kết quả cuối cùng. Ví dụ: nếu một mô hình được sử dụng trong khoa ung thư được thiết kế để kiểm tra xem khối u có phải là ung thư hay không, nhà cung cấp dịch vụ chăm sóc sức khỏe nên hiểu các biến số tạo ra kết quả cuối cùng. Mặc dù điều này nghe có vẻ tuyệt vời về mặt lý thuyết, nhưng khả năng giải thích mô hình không hoàn toàn giải quyết được vấn đề hộp đen. 

Khi các mô hình ngày càng trở nên phức tạp hơn, hầu hết các học viên sẽ không thể xác định chính xác các phép biến đổi và diễn giải các phép tính ở các lớp bên trong của mô hình. Họ chủ yếu dựa vào những gì họ có thể kiểm soát, tức là tập dữ liệu huấn luyện và những gì họ quan sát, kết quả và các phép đo dự đoán.  

Hãy sử dụng ví dụ về một nhà khoa học dữ liệu xây dựng một mô hình để phát hiện ảnh cốc cà phê từ hàng nghìn bức ảnh – nhưng chẳng hạn, mô hình cũng bắt đầu phát hiện hình ảnh của cốc uống nước và cốc bia. Mặc dù cốc thủy tinh và cốc bia có thể có một số điểm giống với cốc cà phê, nhưng vẫn có những điểm khác biệt rõ ràng, chẳng hạn như vật liệu điển hình, màu sắc, độ trong suốt và tỷ lệ cấu trúc.

Để mô hình phát hiện cốc cà phê có độ tin cậy cao hơn, nhà khoa học dữ liệu phải có câu trả lời cho các câu hỏi như:

  • Người mẫu đã chọn những hình ảnh gì thay vì cốc cà phê? 
  • Có phải mô hình thất bại vì tôi không cung cấp cho nó đủ hoặc ví dụ đúng về cốc cà phê?
  • Mô hình đó có đủ tốt cho những gì tôi đang cố gắng hoàn thành không?
  • Tôi có cần thách thức quan điểm của mình về mô hình không?
  • Tôi có thể xác định chắc chắn điều gì đang khiến mô hình bị lỗi? 
  • Tôi có nên tạo các giả định mới của mô hình không?
  • Có phải tôi vừa chọn sai mô hình cho công việc để bắt đầu?

Như bạn có thể thấy, việc cung cấp loại thông tin chuyên sâu, sự hiểu biết và khả năng giải thích mô hình này mỗi khi có sự cố là rất khó xảy ra.

Khả năng giải thích dữ liệu là hiểu dữ liệu được sử dụng để đào tạo và nhập dữ liệu vào một mô hình, để hiểu cách đạt được kết quả cuối cùng của mô hình. Khi các thuật toán ML trở nên phức tạp hơn bao giờ hết nhưng được sử dụng rộng rãi hơn trong các ngành và nghề, khả năng giải thích dữ liệu sẽ đóng vai trò là chìa khóa để nhanh chóng mở khóa và giải quyết các vấn đề phổ biến, như ví dụ về cốc cà phê của chúng tôi.

Tăng tính công bằng và minh bạch trong ML với khả năng giải thích dữ liệu

Tính công bằng trong các mô hình ML là một chủ đề nóng, có thể trở nên nóng hơn nữa bằng cách áp dụng khả năng giải thích dữ liệu.

Tại sao buzz? Xu hướng trong AI có thể tạo ra kết quả định kiến ​​cho một nhóm. Một trong những trường hợp được ghi chép rõ ràng nhất về điều này là thành kiến ​​trong các trường hợp sử dụng chủng tộc. Hãy xem một ví dụ. 

Giả sử một nền tảng tiêu dùng lớn, nổi tiếng đang tuyển dụng vị trí giám đốc tiếp thị mới. Để xử lý khối lượng hồ sơ nhận được hàng ngày, bộ phận nhân sự triển khai mô hình AI/ML để hợp lý hóa quy trình tuyển dụng và ứng tuyển bằng cách chọn các đặc điểm chính hoặc ứng viên đủ điều kiện. 

Để thực hiện nhiệm vụ này, phân biệt và phân loại từng sơ yếu lý lịch, mô hình sẽ làm như vậy bằng cách hiểu các đặc điểm nổi trội chính. Thật không may, điều này Ngoài ra có nghĩa là mô hình cũng có thể ngầm nhận ra những thành kiến ​​​​về chủng tộc chung ở các ứng cử viên. Làm thế nào chính xác điều này sẽ xảy ra? Nếu nhóm ứng viên bao gồm một tỷ lệ phần trăm nhỏ hơn của một chủng tộc, máy sẽ nghĩ rằng tổ chức thích các thành viên của một chủng tộc khác hoặc của tập dữ liệu thống trị.

Nếu một mô hình bị lỗi, ngay cả khi nó không chủ ý, công ty phải giải quyết lỗi đó. Về cơ bản, bất cứ ai triển khai mô hình phải có khả năng bảo vệ việc sử dụng mô hình.

Trong trường hợp tuyển dụng và phân biệt chủng tộc, người bảo vệ sẽ phải có khả năng giải thích cho công chúng tức giận và/hoặc nhóm ứng dụng sử dụng bộ dữ liệu để đào tạo mô hình, kết quả thành công ban đầu của mô hình dựa trên đào tạo đó, sự thất bại của mô hình để chọn một trường hợp góc và làm thế nào điều này dẫn đến sự mất cân bằng dữ liệu không chủ ý mà cuối cùng tạo ra một quy trình lọc thành kiến ​​​​về chủng tộc.

Đối với hầu hết, loại chi tiết khó hiểu này về AI, bộ dữ liệu mất cân bằng, đào tạo mô hình và lỗi cuối cùng thông qua giám sát dữ liệu sẽ không được đón nhận hoặc thậm chí không được hiểu rõ. Nhưng điều gì sẽ được hiểu và gắn bó với câu chuyện này? Công ty XYZ thực hành thiên vị chủng tộc trong việc tuyển dụng. 

Bài học của ví dụ quá phổ biến này là những sai lầm ngoài ý muốn từ một mô hình rất thông minh sẽ xảy ra và có thể tác động tiêu cực đến con người cũng như gây ra những hậu quả nghiêm trọng. 

Khả năng giải thích dữ liệu đưa chúng ta đến đâu

Thay vì dịch kết quả thông qua sự hiểu biết về mô hình máy học phức tạp, khả năng giải thích dữ liệu đang sử dụng dữ liệu để giải thích các dự đoán và lỗi.

Khả năng giải thích dữ liệu sau đó là sự kết hợp của việc xem dữ liệu thử nghiệm  hiểu những gì một mô hình sẽ nhận được từ dữ liệu đó. Điều này bao gồm việc hiểu các mẫu dữ liệu được trình bày dưới mức, các mẫu được trình bày quá mức (như trong ví dụ tuyển dụng) và tính minh bạch trong phát hiện của mô hình để hiểu chính xác các dự đoán và dự đoán sai.

Sự hiểu biết về khả năng giải thích dữ liệu này sẽ không chỉ cải thiện độ chính xác và công bằng của mô hình mà còn giúp các mô hình tăng tốc nhanh hơn.

Khi chúng ta tiếp tục dựa vào và kết hợp các chương trình AI và ML phức tạp vào cuộc sống hàng ngày của mình, việc giải quyết vấn đề hộp đen trở nên quan trọng, đặc biệt là đối với các lỗi và dự đoán sai. 

Mặc dù khả năng giải thích mô hình sẽ luôn có vị trí của nó, nhưng nó đòi hỏi một lớp khác. Chúng tôi cần khả năng giải thích dữ liệu, vì việc hiểu những gì một mô hình đang nhìn thấy và đọc sẽ không bao giờ được bao phủ bởi khả năng giải thích của mô hình cổ điển.

Dấu thời gian:

Thêm từ PHỔ THÔNG DỮ LIỆU