Завдяки Generative AI виявити шахрайство стане набагато важче

Перевидано Платоном

читають: 0

особливість Generative AI ставить перед академічними видавцями цікаві завдання, які борються з шахрайством у наукових статтях, оскільки ця технологія демонструє потенціал для обману експертної оцінки.

Опишіть зображення для DALL-E, Stable Diffusion і Midjourney, і вони згенерують його за секунди. Ці системи перетворення тексту в зображення швидко вдосконалювалися протягом останніх кількох років, і те, що спочатку було дослідницьким прототипом, виробляло доброякісні та надзвичайно дивні ілюстрації дитячих редисок дайкон, які вигулюють собак у 2021 році, з тих пір перетворився на комерційне програмне забезпечення, створене мільярдними компаніями, здатне генерувати все більш реалістичні зображення.

Ці моделі штучного інтелекту можуть створювати реалістичні зображення людських облич, об’єктів і сцен, і це, схоже, питання часу, коли вони також зможуть створювати переконливі наукові зображення та дані. Моделі перетворення тексту в зображення тепер широко доступні, досить дешеві у використанні, і вони можуть допомогти хитромудрим вченим підробляти результати та легше публікувати фіктивні дослідження.

Маніпуляції із зображеннями вже є найбільшою проблемою для академічних видавців поширена форма наукових проступків останнього часу. Автори можуть використовувати всілякі хитрощі, такі як перевертання, обертання або обрізання частин одного зображення, щоб підробити дані. Редактори обдурені, вважаючи, що всі представлені результати є реальними, і опублікують їхню роботу.

Зараз багато видавців звертаються до програмного забезпечення штучного інтелекту виявляти ознаки дублювання зображення під час процесу огляду. У більшості випадків зображення були помилково скопійовані вченими, які переплутали свої дані, але іноді це використовується для явного шахрайства.

Але саме тоді, коли видавці починають боротися з дублюванням зображень, з’являється інша загроза. У деяких дослідників може виникнути спокуса використовувати генеративні моделі ШІ для створення підроблених даних. Насправді є докази того, що фіктивні вчені вже роблять це.

Зображення, створені ШІ, помічені в паперах?

У 2019 році DARPA запустило свою семантичну криміналістику (СемаФор) програма фінансування дослідників, які розробляють криміналістичні інструменти, здатні виявляти медіа, створені штучним інтелектом, для боротьби з дезінформацією.

Представник агентства оборонних досліджень дядька Сема підтвердив, що виявив підроблені медичні зображення, опубліковані в справжніх наукових статтях, які, схоже, були створені за допомогою штучного інтелекту. До моделей перетворення тексту в зображення популярні були генеративні змагальні мережі. DARPA зрозуміло, що ці моделі, найбільш відомі своєю здатністю створювати глибокі підробки, також можуть підробляти зображення медичних сканів, клітин або інших типів зображень, які часто зустрічаються в біомедичних дослідженнях.

«Ландшафт загроз змінюється досить швидко, — сказав Вільям Корві, менеджер програми SemaFor Реєстр. «Ця технологія стає всюдисущою для доброякісних цілей». Корві сказав, що агентство досягло певних успіхів у розробці програмного забезпечення, здатного виявляти зображення, створені GAN, і інструменти все ще розробляються.

Ландшафт загроз змінюється досить швидко

«У нас є результати, які свідчать про те, що ви можете виявити «братів і сестер або далеких двоюрідних братів» генеративного механізму, який ви навчилися виявляти раніше, незалежно від вмісту згенерованих зображень. Аналітика SemaFor розглядає різноманітні атрибуції та деталі, пов’язані з маніпульованими медіа. , все від метаданих, статистичних аномалій до більш візуальних зображень», – сказав він.

Деякі аналітики зображень, ретельно вивчаючи дані в наукових статтях, також натрапляли на зображення, схожі на зображення, створені GAN. GAN — це генеративна змагальна мережа, тип системи машинного навчання, яка може створювати текст, музику, зображення тощо.

Наприклад, Дженніфер Бірн, професор молекулярної онкології Сіднейського університету, і Яна Крістофер, аналітик цілісності зображень видавця журналу EMBO Press, натрапили на дивний набір зображень, які з’явилися в 17 дослідженнях, пов’язаних з біохімією.

На фотографіях були зображені гурти, широко відомі як вестерн-блоти, які вказують на наявність специфічних білків у зразку, які, як не дивно, мають однакове походження. Такого не повинно бути.

Малюнок А зі статті Бірна-Крістофера про підозрілі папери

Приклади повторюваного фону на зображеннях Вестерн-блот, виділеного червоним і зеленим контурами... Джерело: Бірн, Крістофер 2020

У 2020 році Бірн і Крістофер прийшли до висновку, що підозрілі на вигляд зображення, ймовірно, були створені в рамках діяльності паперової фабрики: спроби масово виготовити статті про біохімічні дослідження з використанням підроблених даних, а також отримати їх експертну перевірку та публікацію. Такий капер може бути використаний, наприклад, для того, щоб принести користь науковцям, які отримують винагороду залежно від прийнятої публікації, або щоб допомогти відділу досягти квоти опублікованих звітів.

«Кляпки в прикладі, показаному в наш папір швидше за все створені комп’ютером», – сказав Крістофер Реєстр.

Я часто натрапляю на фальшиві зображення, переважно вестерн-блоти, але все частіше також на мікроскопічні зображення

«Перевіряючи папери як до, так і після публікації, я часто натрапляю на підроблені зображення, переважно вестерн-блоти, але все частіше також мікроскопічні зображення. Я добре розумію, що багато з них, швидше за все, створено за допомогою GAN».

Елізабет Бік, позаштатний детектор зображень, також часто може визначити, коли зображення маніпулювали. Вона вивчає рукописи наукових статей, шукає повторювані зображення та позначає ці проблеми для подальшого вивчення редакторами журналів. Але важче боротися з підробленими зображеннями, коли вони були комплексно згенеровані алгоритмом.

Вона зазначила, що хоча повторюваний фон на зображеннях, виділених у дослідженні Бірна та Крістофера, є ознакою підробки, справжні вестерн-блоти самі по собі унікальні. Програмне забезпечення для комп’ютерного бачення, яке Бік використовує для сканування паперів і виявлення шахрайства із зображеннями, важко помітить ці смуги, оскільки немає дублікатів справжніх плям.

"Ми ніколи не знайдемо перекриття. Вони всі, я вважаю, створені штучно. Як саме, я не впевнена", - сказала вона Реєстр.

З найновішими генеративними моделями штучного інтелекту легше створювати підроблені зображення

GAN були значною мірою витіснені моделями дифузії. Ці системи створюють унікальні зображення та забезпечують сучасне програмне забезпечення для перетворення тексту в зображення, включаючи DALL-E, Stable Diffusion і Midjourney. Вони вчаться відображати візуальне представлення об’єктів і понять природною мовою і можуть значно знизити бар’єр для академічного шахрайства.

Вчені можуть просто описати тип неправдивих даних, які вони хочуть створити, і ці інструменти зроблять це за них. Однак на даний момент вони ще не можуть створити реалістичні наукові зображення. Іноді інструменти створюють кластери клітин, які виглядають переконливо на перший погляд, але з тріском зазнають невдачі, коли справа доходить до вестерн-блотів.

Ось що можуть генерувати ці програми ШІ:

Ось що @OpenAIDALL-E використовує підказки біологічних клітин
Зокрема: «клітини під мікроскопом» і «Т-клітини під скануючим електронним мікроскопом» pic.twitter.com/BgcZr3k5Q5
— Тара Басу Тріведі (@tbt94) Серпень 23, 2022

У Вільяма Гібсона – лікаря-науковця та медичної онкології, а не відомого автора – є інші приклади тут, зокрема те, як сучасні моделі борються з концепцією вестерн-блоту.

Однак технологія лише вдосконалюється, оскільки розробники навчають більші моделі на більшій кількості даних.

Девід Бімлер, ще один експерт із розпізнавання маніпуляцій із зображеннями в наукових статтях, більш відомий як Смут Клайд, сказав нам: «Паперові фабрики ілюструватимуть свої продукти, використовуючи будь-який найдешевший і найшвидший метод, покладаючись на слабкі сторони процесу рецензування».

«Вони могли б просто скопіювати [вестерн-блоти] зі старих документів, але навіть це передбачає роботу з пошуку в старих документах. На даний момент, я підозрюю, використання GAN все ще вимагає певних зусиль. Хоча це зміниться», – додав він.

Зараз DARPA планує розширити свою програму SemaFor для вивчення систем перетворення тексту в зображення. «Такі моделі є досить новими, і, хоча ми їх використовуємо, вони не є частиною нашої поточної роботи над SemaFor», — сказав Корві.

«Однак оцінювачі SemaFor, ймовірно, розглянуть ці моделі під час наступної фази оцінювання програми, яка розпочнеться восени 2023 року».

Тим часом, якість наукових досліджень буде знижуватися, якщо академічні видавці не зможуть знайти способи виявлення підроблених зображень, створених штучним інтелектом, у статтях. У найкращому випадку ця форма академічного шахрайства буде обмежена лише схемами паперової фабрики, які й так не привертають особливої уваги. У гіршому випадку це вплине навіть на найавторитетніші журнали, а науковці з благими намірами витрачатимуть час і гроші на пошук хибних ідей, які вони вважають істинними. ®