ChatGPT không thể vượt qua kỳ thi tiêu hóa của Hoa Kỳ

Được xuất bản lại bởi Plato

Người theo dõi: 0

Các bác sĩ đã cảnh báo ChatGPT đã không vượt qua được kỳ thi của Đại học Tiêu hóa Hoa Kỳ và không có khả năng tạo ra thông tin y tế chính xác cho bệnh nhân.

Một nghiên cứu do các bác sĩ tại Viện nghiên cứu y tế Feinstein dẫn đầu đã thử nghiệm cả hai biến thể của ChatGPT – được hỗ trợ bởi mẫu GPT-3.5 cũ hơn của OpenAI và hệ thống GPT-4 mới nhất. Nhóm học thuật sao chép và dán các câu hỏi trắc nghiệm lấy từ Bài kiểm tra tự đánh giá của Đại học Tiêu hóa Hoa Kỳ (ACG) năm 2021 và 2022 vào bot rồi phân tích câu trả lời của phần mềm.

Thật thú vị, phiên bản kém tiên tiến hơn dựa trên GPT-3.5 đã trả lời đúng 65.1% trong số 455 câu hỏi trong khi GPT-4 mạnh hơn đạt 62.4%. Thật khó để giải thích điều đó xảy ra như thế nào vì OpenAI giữ bí mật về cách đào tạo các mô hình của mình. Người phát ngôn của nó nói với chúng tôi, ít nhất, cả hai mô hình đều được đào tạo dựa trên dữ liệu gần đây nhất là vào tháng 2021 năm XNUMX.

Trong mọi trường hợp, không có kết quả nào đủ tốt để đạt ngưỡng 70 phần trăm để vượt qua kỳ thi.

Arvind Trindade, phó giáo sư tại Viện Nghiên cứu Y khoa Feinstein và là tác giả chính của nghiên cứu công bố trong Tạp chí Gastroenterology Hoa Kỳ, kể lại Đăng ký.

“Mặc dù điểm số không còn xa nữa là có thể đậu hoặc đạt 70%, nhưng tôi cho rằng đối với tư vấn y tế hoặc giáo dục y tế, điểm số phải trên 95.”

Ông nói thêm: “Tôi không nghĩ bệnh nhân sẽ cảm thấy thoải mái với một bác sĩ chỉ biết 70% lĩnh vực y tế của mình. Nếu chúng ta yêu cầu tiêu chuẩn cao này cho các bác sĩ của mình, chúng ta nên yêu cầu tiêu chuẩn cao này từ các chatbot y tế”.

American College of Gastroenterology đào tạo các bác sĩ, và các bài kiểm tra của nó được sử dụng làm thực hành cho các kỳ thi chính thức. Để trở thành bác sĩ chuyên khoa tiêu hóa được hội đồng chứng nhận, các bác sĩ cần vượt qua kỳ thi của Hội đồng Nội khoa Tiêu hóa Hoa Kỳ. Điều đó đòi hỏi kiến thức và nghiên cứu – không chỉ là cảm tính.

ChatGPT tạo phản hồi bằng cách dự đoán từ tiếp theo trong một câu nhất định. AI học các mẫu phổ biến trong dữ liệu đào tạo của mình để tìm ra từ nào sẽ tiếp theo và có hiệu quả một phần trong việc nhớ lại thông tin. Mặc dù công nghệ đã được cải tiến nhanh chóng nhưng nó không hoàn hảo và thường dễ gây ảo giác về sự thật sai lệch – đặc biệt nếu nó được hỏi về các chủ đề chuyên biệt có thể không có trong dữ liệu đào tạo của nó.

"Chức năng cơ bản của ChatGPT là dự đoán từ tiếp theo trong chuỗi văn bản để tạo ra phản hồi dự kiến dựa trên thông tin có sẵn, bất kể phản hồi đó có chính xác về mặt thực tế hay không. Nó không có bất kỳ hiểu biết nội tại nào về một chủ đề hoặc vấn đề, " tờ giấy giải thích.

Trindade nói với chúng tôi rằng có thể thông tin liên quan đến tiêu hóa trên các trang web được sử dụng để đào tạo phần mềm không chính xác và nên sử dụng các nguồn tài nguyên tốt nhất như tạp chí hoặc cơ sở dữ liệu y khoa.

Tuy nhiên, những tài nguyên này không có sẵn và có thể bị khóa sau các bức tường phí. Trong trường hợp đó, ChatGPT có thể chưa tiếp xúc đầy đủ với kiến thức chuyên môn.

Trindade kết luận: "Kết quả chỉ áp dụng cho ChatGPT - các chatbot khác cần phải được xác thực. Mấu chốt của vấn đề là các chatbot này lấy thông tin ở đâu. Ở dạng hiện tại, ChatGPT không nên được sử dụng để tư vấn y tế hoặc giáo dục y tế". ®