особливість Generative AI ставить перед академічними видавцями цікаві завдання, які борються з шахрайством у наукових статтях, оскільки ця технологія демонструє потенціал для обману експертної оцінки.
Опишіть зображення для DALL-E, Stable Diffusion і Midjourney, і вони згенерують його за секунди. Ці системи перетворення тексту в зображення швидко вдосконалювалися протягом останніх кількох років, і те, що спочатку було дослідницьким прототипом, виробляло доброякісні та надзвичайно дивні ілюстрації дитячих редисок дайкон, які вигулюють собак у 2021 році, з тих пір перетворився на комерційне програмне забезпечення, створене мільярдними компаніями, здатне генерувати все більш реалістичні зображення.
Ці моделі штучного інтелекту можуть створювати реалістичні зображення людських облич, об’єктів і сцен, і це, схоже, питання часу, коли вони також зможуть створювати переконливі наукові зображення та дані. Моделі перетворення тексту в зображення тепер широко доступні, досить дешеві у використанні, і вони можуть допомогти хитромудрим вченим підробляти результати та легше публікувати фіктивні дослідження.
Маніпуляції із зображеннями вже є найбільшою проблемою для академічних видавців поширена форма наукових проступків останнього часу. Автори можуть використовувати всілякі хитрощі, такі як перевертання, обертання або обрізання частин одного зображення, щоб підробити дані. Редактори обдурені, вважаючи, що всі представлені результати є реальними, і опублікують їхню роботу.
Зараз багато видавців звертаються до програмного забезпечення штучного інтелекту виявляти ознаки дублювання зображення під час процесу огляду. У більшості випадків зображення були помилково скопійовані вченими, які переплутали свої дані, але іноді це використовується для явного шахрайства.
Але саме тоді, коли видавці починають боротися з дублюванням зображень, з’являється інша загроза. У деяких дослідників може виникнути спокуса використовувати генеративні моделі ШІ для створення підроблених даних. Насправді є докази того, що фіктивні вчені вже роблять це.
Зображення, створені ШІ, помічені в паперах?
У 2019 році DARPA запустило свою семантичну криміналістику (СемаФор) програма фінансування дослідників, які розробляють криміналістичні інструменти, здатні виявляти медіа, створені штучним інтелектом, для боротьби з дезінформацією.
Представник агентства оборонних досліджень дядька Сема підтвердив, що виявив підроблені медичні зображення, опубліковані в справжніх наукових статтях, які, схоже, були створені за допомогою штучного інтелекту. До моделей перетворення тексту в зображення популярні були генеративні змагальні мережі. DARPA зрозуміло, що ці моделі, найбільш відомі своєю здатністю створювати глибокі підробки, також можуть підробляти зображення медичних сканів, клітин або інших типів зображень, які часто зустрічаються в біомедичних дослідженнях.
«Ландшафт загроз змінюється досить швидко, — сказав Вільям Корві, менеджер програми SemaFor Реєстр. «Ця технологія стає всюдисущою для доброякісних цілей». Корві сказав, що агентство досягло певних успіхів у розробці програмного забезпечення, здатного виявляти зображення, створені GAN, і інструменти все ще розробляються.
Ландшафт загроз змінюється досить швидко
«У нас є результати, які свідчать про те, що ви можете виявити «братів і сестер або далеких двоюрідних братів» генеративного механізму, який ви навчилися виявляти раніше, незалежно від вмісту згенерованих зображень. Аналітика SemaFor розглядає різноманітні атрибуції та деталі, пов’язані з маніпульованими медіа. , все від метаданих, статистичних аномалій до більш візуальних зображень», – сказав він.
Деякі аналітики зображень, ретельно вивчаючи дані в наукових статтях, також натрапляли на зображення, схожі на зображення, створені GAN. GAN — це генеративна змагальна мережа, тип системи машинного навчання, яка може створювати текст, музику, зображення тощо.
Наприклад, Дженніфер Бірн, професор молекулярної онкології Сіднейського університету, і Яна Крістофер, аналітик цілісності зображень видавця журналу EMBO Press, натрапили на дивний набір зображень, які з’явилися в 17 дослідженнях, пов’язаних з біохімією.
На фотографіях були зображені гурти, широко відомі як вестерн-блоти, які вказують на наявність специфічних білків у зразку, які, як не дивно, мають однакове походження. Такого не повинно бути.
Приклади повторюваного фону на зображеннях Вестерн-блот, виділеного червоним і зеленим контурами... Джерело: Бірн, Крістофер 2020
У 2020 році Бірн і Крістофер прийшли до висновку, що підозрілі на вигляд зображення, ймовірно, були створені в рамках діяльності паперової фабрики: спроби масово виготовити статті про біохімічні дослідження з використанням підроблених даних, а також отримати їх експертну перевірку та публікацію. Такий капер може бути використаний, наприклад, для того, щоб принести користь науковцям, які отримують винагороду залежно від прийнятої публікації, або щоб допомогти відділу досягти квоти опублікованих звітів.
«Кляпки в прикладі, показаному в наш папір швидше за все створені комп’ютером», – сказав Крістофер Реєстр.
Я часто натрапляю на фальшиві зображення, переважно вестерн-блоти, але все частіше також на мікроскопічні зображення
«Перевіряючи папери як до, так і після публікації, я часто натрапляю на підроблені зображення, переважно вестерн-блоти, але все частіше також мікроскопічні зображення. Я добре розумію, що багато з них, швидше за все, створено за допомогою GAN».
Елізабет Бік, позаштатний детектор зображень, також часто може визначити, коли зображення маніпулювали. Вона вивчає рукописи наукових статей, шукає повторювані зображення та позначає ці проблеми для подальшого вивчення редакторами журналів. Але важче боротися з підробленими зображеннями, коли вони були комплексно згенеровані алгоритмом.
Вона зазначила, що хоча повторюваний фон на зображеннях, виділених у дослідженні Бірна та Крістофера, є ознакою підробки, справжні вестерн-блоти самі по собі унікальні. Програмне забезпечення для комп’ютерного бачення, яке Бік використовує для сканування паперів і виявлення шахрайства із зображеннями, важко помітить ці смуги, оскільки немає дублікатів справжніх плям.
"Ми ніколи не знайдемо перекриття. Вони всі, я вважаю, створені штучно. Як саме, я не впевнена", - сказала вона Реєстр.
З найновішими генеративними моделями штучного інтелекту легше створювати підроблені зображення
GAN були значною мірою витіснені моделями дифузії. Ці системи створюють унікальні зображення та забезпечують сучасне програмне забезпечення для перетворення тексту в зображення, включаючи DALL-E, Stable Diffusion і Midjourney. Вони вчаться відображати візуальне представлення об’єктів і понять природною мовою і можуть значно знизити бар’єр для академічного шахрайства.
Вчені можуть просто описати тип неправдивих даних, які вони хочуть створити, і ці інструменти зроблять це за них. Однак на даний момент вони ще не можуть створити реалістичні наукові зображення. Іноді інструменти створюють кластери клітин, які виглядають переконливо на перший погляд, але з тріском зазнають невдачі, коли справа доходить до вестерн-блотів.
Ось що можуть генерувати ці програми ШІ:
Ось що @OpenAIDALL-E використовує підказки біологічних клітин
Зокрема: «клітини під мікроскопом» і «Т-клітини під скануючим електронним мікроскопом» pic.twitter.com/BgcZr3k5Q5
— Тара Басу Тріведі (@tbt94) Серпень 23, 2022
У Вільяма Гібсона – лікаря-науковця та медичної онкології, а не відомого автора – є інші приклади тут, зокрема те, як сучасні моделі борються з концепцією вестерн-блоту.
Однак технологія лише вдосконалюється, оскільки розробники навчають більші моделі на більшій кількості даних.
Девід Бімлер, ще один експерт із розпізнавання маніпуляцій із зображеннями в наукових статтях, більш відомий як Смут Клайд, сказав нам: «Паперові фабрики ілюструватимуть свої продукти, використовуючи будь-який найдешевший і найшвидший метод, покладаючись на слабкі сторони процесу рецензування».
«Вони могли б просто скопіювати [вестерн-блоти] зі старих документів, але навіть це передбачає роботу з пошуку в старих документах. На даний момент, я підозрюю, використання GAN все ще вимагає певних зусиль. Хоча це зміниться», – додав він.
Зараз DARPA планує розширити свою програму SemaFor для вивчення систем перетворення тексту в зображення. «Такі моделі є досить новими, і, хоча ми їх використовуємо, вони не є частиною нашої поточної роботи над SemaFor», — сказав Корві.
«Однак оцінювачі SemaFor, ймовірно, розглянуть ці моделі під час наступної фази оцінювання програми, яка розпочнеться восени 2023 року».
Тим часом, якість наукових досліджень буде знижуватися, якщо академічні видавці не зможуть знайти способи виявлення підроблених зображень, створених штучним інтелектом, у статтях. У найкращому випадку ця форма академічного шахрайства буде обмежена лише схемами паперової фабрики, які й так не привертають особливої уваги. У гіршому випадку це вплине навіть на найавторитетніші журнали, а науковці з благими намірами витрачатимуть час і гроші на пошук хибних ідей, які вони вважають істинними. ®
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://go.theregister.com/feed/www.theregister.com/2023/03/11/ai_scientfic_fraud/
- :є
- $UP
- 2019
- 2020
- 2021
- 2023
- a
- здатність
- академічний
- доступною
- через
- доданий
- змагальність
- агентство
- AI
- алгоритм
- ВСІ
- вже
- хоча
- аналітик
- аналітики
- аналітика
- та
- Інший
- з'являтися
- з'явився
- ЕСТЬ
- AS
- асоційований
- At
- увагу
- автор
- authors
- дитина
- фон
- фони
- бар'єр
- заснований
- BE
- оскільки
- становлення
- перед тим
- почалася
- починати
- початок
- буття
- Вірити
- віруючи
- користь
- КРАЩЕ
- Краще
- біомедичні
- побудований
- by
- CAN
- здатний
- випадків
- Клітини
- проблеми
- зміна
- дешево
- найдешевший
- шахрайство
- Крістофер
- CO
- боротьби з
- Приходити
- комерційний
- зазвичай
- Компанії
- компенсується
- комп'ютер
- Комп'ютерне бачення
- генерується комп'ютером
- концепція
- поняття
- Занепокоєння
- висновок
- Підтверджено
- зміст
- може
- створювати
- створення
- Поточний
- dall's
- дарпа
- дані
- deepfakes
- оборони
- відділ
- описувати
- деталі
- розробників
- розвивається
- розробка
- радіомовлення
- дезінформація
- переміщених
- Віддалений
- собаки
- справи
- під час
- легше
- легко
- зусилля
- з'являються
- Ефір (ETH)
- оцінка
- Навіть
- все
- докази
- точно
- приклад
- Приклади
- Розширювати
- експерт
- особи
- FAIL
- достатньо
- підроблений
- Падати
- знаменитий
- швидкий
- fellow
- кілька
- Рисунок
- знайти
- Перший
- прапори
- для
- Криміналістика
- судово-медичної експертизи
- кувати
- форма
- знайдений
- шахрайство
- позаштатний
- від
- фінансування
- далі
- ГАН
- породжувати
- генерується
- породжує
- генеративний
- генеративні змагальні мережі
- Генеративний ШІ
- геном
- отримати
- отримання
- Погляд
- буде
- добре
- зелений
- траплятися
- Жорсткий
- Мати
- допомога
- Виділено
- хіт
- Як
- Однак
- HTTPS
- людина
- Полювання
- i
- ідеї
- зображення
- зображень
- Impact
- поліпшений
- in
- У тому числі
- все більше і більше
- вказувати
- спочатку
- екземпляр
- цілісність
- наміри
- цікавий
- незалежно
- питання
- IT
- ЙОГО
- Дженніфер
- журнал
- JPG
- відомий
- етикетка
- ландшафт
- мова
- в значній мірі
- більше
- Пізно
- останній
- запущений
- УЧИТЬСЯ
- вчений
- як
- Ймовірно
- обмеженою
- подивитися
- виглядає як
- шукати
- made
- менеджер
- маніпулювати
- Маніпуляція
- багато
- карта
- Маса
- Матерія
- механізм
- Медіа
- медичний
- метадані
- метод
- Мікроскопія
- Серед Подорожі
- може бути
- Моделі
- молекулярний
- момент
- гроші
- більше
- найбільш
- переміщення
- музика
- Природний
- Природна мова
- мережу
- мереж
- Нові
- наступний
- NIH
- об'єкти
- of
- Старий
- on
- онкологія
- ONE
- операція
- Інше
- контури
- вихід
- Папір
- документи
- частина
- частини
- Минуле
- однолітка
- фаза
- фотографії
- plato
- Інформація про дані Платона
- PlatoData
- популярний
- позах
- потенціал
- влада
- переважно
- наявність
- представлений
- press
- досить
- раніше
- ймовірно
- процес
- виробляти
- Вироблений
- Продукти
- Професор
- програма
- програми
- Білки
- прототип
- публікувати
- опублікований
- видавець
- видавців
- цілей
- якість
- швидко
- RE
- реальний
- реалістичний
- зрозумів,
- отримати
- червоний
- реєструвати
- повторний
- Звіти
- подання
- шановний
- дослідження
- Дослідники
- результати
- огляд
- відгуки
- s
- Зазначений
- Сем
- то ж
- сканування
- сканування
- сценарій
- сцени
- схеми
- наука
- Наукове дослідження
- Вчені
- сфера
- екранування
- Пошук
- seconds
- здавалося
- семафор
- Серія
- комплект
- показаний
- Шоу
- підпис
- істотно
- Ознаки
- просто
- з
- Сищик
- Софтвер
- деякі
- Source
- конкретний
- доповідач
- Spot
- стабільний
- статистичний
- Як і раніше
- боротьба
- Дослідження
- Вивчення
- успіх
- такі
- передбачуваний
- підозрілі
- Сідней
- система
- Systems
- Технологія
- Що
- Команда
- їх
- Їх
- самі
- Ці
- річ
- загроза
- через
- час
- до
- сьогодні
- занадто
- інструменти
- топ
- поїзд
- правда
- Поворот
- Типи
- повсюдний
- при
- створеного
- університет
- Університет Сіднея
- us
- використання
- різноманітність
- Ve
- бачення
- ходьба
- Відходи
- способи
- Western
- Що
- який
- в той час як
- ВООЗ
- широко
- волі
- з
- Work
- б
- лист
- років
- зефірнет