Nhờ có AI sáng tạo, việc phát hiện gian lận khoa học sẽ trở nên khó khăn hơn nhiều

Được xuất bản lại bởi Plato

Người theo dõi: 0

Đặc tính AI sáng tạo đặt ra những thách thức thú vị cho các nhà xuất bản học thuật trong việc giải quyết gian lận trong các bài báo khoa học vì công nghệ này cho thấy khả năng đánh lừa đánh giá ngang hàng của con người.

Mô tả một hình ảnh cho DALL-E, Stable Diffusion và Midjourney và chúng sẽ tạo ra một hình ảnh trong vài giây. Những hệ thống chuyển văn bản thành hình ảnh này đã nhanh chóng được cải thiện trong vài năm qua và những gì ban đầu bắt đầu như một nguyên mẫu nghiên cứu, tạo ra những kết quả lành tính và kỳ lạ một cách tuyệt vời. ảnh minh họa của củ cải daikon bé dắt chó đi dạo vào năm 2021, kể từ đó đã biến thành phần mềm thương mại, được xây dựng bởi các công ty trị giá hàng tỷ đô la, có khả năng tạo ra những hình ảnh ngày càng chân thực.

Những mô hình AI này có thể tạo ra những bức ảnh sống động như thật về khuôn mặt, đồ vật và cảnh vật của con người và chỉ còn là vấn đề thời gian trước khi chúng có thể tạo ra những hình ảnh và dữ liệu khoa học thuyết phục. Các mô hình chuyển văn bản thành hình ảnh hiện có thể truy cập rộng rãi, sử dụng khá rẻ và chúng có thể giúp các nhà khoa học tinh ranh giả mạo kết quả và công bố nghiên cứu giả mạo dễ dàng hơn.

Thao tác hình ảnh đã là mối quan tâm hàng đầu của các nhà xuất bản học thuật vì nó là vấn đề lớn nhất hình thức phổ biến về hành vi sai trái khoa học muộn. Tác giả có thể dùng đủ mọi thủ đoạn như lật, xoay, cắt xén các phần của cùng một bức ảnh để làm giả dữ liệu. Các biên tập viên bị lừa tin rằng tất cả các kết quả được trình bày là có thật và sẽ xuất bản tác phẩm của họ.

Nhiều nhà xuất bản hiện đang chuyển sang sử dụng phần mềm AI nhằm nỗ lực phát hiện dấu hiệu trùng lặp hình ảnh trong quá trình xem xét. Trong hầu hết các trường hợp, hình ảnh bị các nhà khoa học sao chép nhầm khiến dữ liệu của họ bị xáo trộn, nhưng đôi khi nó được sử dụng để lừa đảo trắng trợn.

Nhưng ngay khi các nhà xuất bản bắt đầu kiểm soát được việc sao chép hình ảnh, một mối đe dọa khác đang xuất hiện. Một số nhà nghiên cứu có thể muốn sử dụng các mô hình AI tổng quát để tạo dữ liệu giả. Trên thực tế, có bằng chứng cho thấy rằng các nhà khoa học giả đang làm điều này rồi.

Hình ảnh do AI tạo ra được phát hiện trên giấy tờ?

Vào năm 2019, DARPA đã ra mắt Semantic Forensics (SemaFor), tài trợ cho các nhà nghiên cứu phát triển các công cụ pháp y có khả năng phát hiện phương tiện do AI tạo ra, để chống lại thông tin sai lệch.

Người phát ngôn của cơ quan nghiên cứu quốc phòng của Uncle Sam xác nhận họ đã phát hiện các hình ảnh y tế giả được công bố trên các bài báo khoa học thực tế dường như được tạo ra bằng AI. Trước khi có mô hình chuyển văn bản thành hình ảnh, các mạng đối nghịch tổng quát rất phổ biến. DARPA nhận ra rằng những mô hình này, nổi tiếng với khả năng tạo ra các tác phẩm sâu, cũng có thể giả mạo hình ảnh quét y tế, tế bào hoặc các loại hình ảnh khác thường thấy trong các nghiên cứu y sinh.

William Corvey, giám đốc chương trình của SemaFor, nói: “Bối cảnh mối đe dọa đang diễn biến khá nhanh”. Đăng ký. “Công nghệ này đang trở nên phổ biến vì những mục đích lành mạnh.” Corvey cho biết cơ quan này đã đạt được một số thành công khi phát triển phần mềm có khả năng phát hiện hình ảnh do GAN tạo ra và các công cụ này vẫn đang được phát triển.

Bối cảnh mối đe dọa đang di chuyển khá nhanh

"Chúng tôi có kết quả gợi ý rằng bạn có thể phát hiện 'anh chị em ruột hoặc họ hàng xa' của cơ chế sinh sản mà bạn đã học cách phát hiện trước đây, bất kể nội dung của hình ảnh được tạo ra là gì. Phân tích SemaFor xem xét nhiều thuộc tính và chi tiết liên quan đến phương tiện bị thao túng , mọi thứ từ siêu dữ liệu, sự bất thường về thống kê cho đến những cách trình bày trực quan hơn," ông nói.

Một số nhà phân tích hình ảnh xem xét kỹ lưỡng dữ liệu trong các bài báo khoa học cũng đã bắt gặp những hình ảnh trông giống như hình ảnh do GAN tạo ra. GAN là một mạng đối thủ chung, một loại hệ thống máy học có thể tạo ra chữ viết, âm nhạc, hình ảnh, v.v.

Ví dụ, Jennifer Byrne, giáo sư ung thư phân tử tại Đại học Sydney và Jana Christopher, nhà phân tích tính toàn vẹn của hình ảnh cho nhà xuất bản tạp chí EMBO Press, đã xem một bộ hình ảnh kỳ lạ xuất hiện trong 17 nghiên cứu liên quan đến hóa sinh.

Những hình ảnh mô tả một loạt các ban nhạc thường được gọi là đốm tây, cho biết sự hiện diện của các protein cụ thể trong một mẫu, mà tất cả đều có cùng nền tảng một cách kỳ lạ. Điều đó không được phép xảy ra.

Hình A từ bài báo Byrne-Christopher về các giấy tờ đáng ngờ

Ví dụ về nền lặp lại trong hình ảnh Western blot, được đánh dấu bằng các đường viền màu đỏ và xanh lục ... Nguồn: Byrne, Christopher 2020

Vào năm 2020, Byrne và Christopher đã đi đến kết luận rằng những hình ảnh trông đáng ngờ có thể được tạo ra như một phần của hoạt động nhà máy giấy: nỗ lực sản xuất hàng loạt các bài báo về nghiên cứu hóa sinh bằng cách sử dụng dữ liệu giả, đồng thời đưa chúng vào bình duyệt và xuất bản. Ví dụ, một khoản tiết kiệm như vậy có thể được sử dụng để mang lại lợi ích cho các học giả, những người được trả thù lao dựa trên kết quả bài báo được chấp nhận của họ, hoặc để giúp một bộ phận đạt được chỉ tiêu báo cáo được xuất bản.

"Các vết mờ trong ví dụ được hiển thị trong giấy của chúng tôi rất có thể là do máy tính tạo ra", Christopher nói Đăng ký.

Tôi thường bắt gặp những hình ảnh trông giả tạo, chủ yếu là các đốm màu phương Tây, nhưng ngày càng có nhiều hình ảnh hiển vi

"Khi sàng lọc các bài báo cả trước và sau khi xuất bản, tôi thường bắt gặp những hình ảnh giả mạo, chủ yếu là các vết mờ kiểu phương Tây, nhưng ngày càng có nhiều hình ảnh dưới kính hiển vi. Tôi biết rất rõ rằng nhiều trong số này rất có thể được tạo ra bằng cách sử dụng GAN."

Elisabeth Bik, một nhà thám hiểm hình ảnh tự do, cũng thường có thể biết khi nào hình ảnh đã bị chỉnh sửa. Cô nghiên cứu kỹ các bản thảo bài báo khoa học, tìm kiếm những hình ảnh trùng lặp và đánh dấu những vấn đề này để các biên tập viên tạp chí nghiên cứu thêm. Nhưng việc chống lại hình ảnh giả sẽ khó hơn khi chúng được tạo ra một cách toàn diện bằng thuật toán.

Cô chỉ ra rằng mặc dù nền lặp đi lặp lại trong các hình ảnh được nêu bật trong nghiên cứu của Byrne và Christopher là một dấu hiệu rõ ràng về sự giả mạo, nhưng bản thân các vết mờ thực tế ở phương Tây là độc nhất. Phần mềm thị giác máy tính mà Bik sử dụng để quét giấy tờ và phát hiện gian lận hình ảnh sẽ khó gắn cờ các dải này vì không có sự trùng lặp của các vết mờ thực tế.

Cô nói: "Chúng tôi sẽ không bao giờ tìm thấy sự trùng lặp. Tôi tin rằng tất cả chúng đều được tạo ra một cách nhân tạo. Chính xác thì tôi không chắc chắn". Sổ đăng ký.

Việc tạo hình ảnh giả dễ dàng hơn với các mô hình AI tổng hợp mới nhất

GAN phần lớn đã bị thay thế bởi các mô hình khuếch tán. Các hệ thống này tạo ra những hình ảnh độc đáo và cung cấp năng lượng cho phần mềm chuyển văn bản thành hình ảnh ngày nay bao gồm DALL-E, Stable Diffusion và Midjourney. Họ học cách ánh xạ sự thể hiện trực quan của các đối tượng và khái niệm sang ngôn ngữ tự nhiên và có thể giảm đáng kể rào cản gian lận trong học tập.

Các nhà khoa học chỉ có thể mô tả loại dữ liệu sai lệch mà họ muốn tạo ra và những công cụ này sẽ làm điều đó cho họ. Tuy nhiên, hiện tại, họ chưa thể tạo ra những hình ảnh khoa học trông như thật. Đôi khi các công cụ này tạo ra các cụm ô trông có vẻ thuyết phục ngay từ cái nhìn đầu tiên, nhưng lại thất bại thảm hại khi nói đến các vết mờ kiểu phương Tây.

Đây là thứ mà các chương trình AI này có thể tạo ra:

Đây là những gì @OpenAI's DALL-E thực hiện với lời nhắc của tế bào sinh học
Cụ thể: “tế bào dưới kính hiển vi” và “tế bào T dưới kính hiển vi điện tử quét” pic.twitter.com/BgcZr3k5Q5
– Tara Basu Trivedi (@tbt94) Tháng Tám 23, 2022

William Gibson – một bác sĩ-nhà khoa học và đồng nghiệp về ung thư y tế, không phải là tác giả nổi tiếng – có thêm ví dụ tại đây, bao gồm cả cách các người mẫu ngày nay đấu tranh với khái niệm vết bẩn phương Tây.

Tuy nhiên, công nghệ chỉ trở nên tốt hơn khi các nhà phát triển đào tạo các mô hình lớn hơn trên nhiều dữ liệu hơn.

David Bimler, một chuyên gia khác về nhận dạng thao tác hình ảnh trong các bài báo khoa học, được biết đến nhiều hơn với cái tên Smut Clyde, nói với chúng tôi: "Các nhà sản xuất giấy sẽ minh họa sản phẩm của họ bằng bất kỳ phương pháp nào rẻ nhất và nhanh nhất, dựa vào những điểm yếu trong quy trình đánh giá ngang hàng."

"Họ có thể đơn giản sao chép [các dấu vết phương Tây] từ các tờ báo cũ nhưng ngay cả việc đó cũng liên quan đến công việc tìm kiếm trong các tờ báo cũ. Hiện tại, tôi nghi ngờ, việc sử dụng GAN vẫn cần một số nỗ lực. Mặc dù điều đó sẽ thay đổi", ông nói thêm.

DARPA hiện đang tìm cách mở rộng chương trình SemaFor của mình để nghiên cứu các hệ thống chuyển văn bản thành hình ảnh. Corvey cho biết: “Những loại mô hình này khá mới và mặc dù có phạm vi nhưng không phải là một phần trong công việc hiện tại của chúng tôi trên SemaFor”.

"Tuy nhiên, những người đánh giá SemaFor có thể sẽ xem xét các mô hình này trong giai đoạn đánh giá tiếp theo của chương trình bắt đầu từ Mùa thu năm 2023."

Trong khi đó, chất lượng nghiên cứu khoa học sẽ bị xói mòn nếu các nhà xuất bản học thuật không tìm ra cách phát hiện những hình ảnh giả do AI tạo ra trong các bài báo. Trong trường hợp tốt nhất, hình thức gian lận học thuật này sẽ chỉ giới hạn ở các kế hoạch nhà máy giấy mà dù sao cũng không nhận được nhiều sự chú ý. Trong trường hợp xấu nhất, nó sẽ ảnh hưởng đến ngay cả những tạp chí uy tín nhất và các nhà khoa học có ý định tốt sẽ lãng phí thời gian và tiền bạc để theo đuổi những ý tưởng sai lầm mà họ tin là đúng. ®