Thanks To Generative AI, Catching Fraud Science Is Going To Be This Much Harder

Ponovno objavil Platon

Spremljevalci: 0

Feature Generativna umetna inteligenca predstavlja zanimive izzive za akademske založnike, ki se spopadajo s goljufijami v znanstvenih člankih, saj tehnologija kaže potencial, da preslepi človeški medsebojni pregled.

Opišite sliko za DALL-E, Stable Diffusion in Midjourney in v nekaj sekundah jo bodo ustvarili. Ti sistemi besedila v sliko so se v zadnjih nekaj letih hitro izboljšali in tisto, kar se je sprva začelo kot raziskovalni prototip, ustvarja benigne in čudovito bizarne ilustracije otroške redkvice daikon, ki sprehaja pse leta 2021, se je od takrat spremenila v komercialno programsko opremo, ki so jo izdelala milijarde dolarjev vredna podjetja in je sposobna ustvarjati vse bolj realistične slike.

Ti modeli umetne inteligence lahko ustvarijo realistične slike človeških obrazov, predmetov in prizorov, in zdi se, da je vprašanje časa, kdaj bodo postali dobri tudi pri ustvarjanju prepričljivih znanstvenih slik in podatkov. Modeli pretvorbe besedila v sliko so zdaj široko dostopni, precej poceni za uporabo in bi lahko pomagali zapletenim znanstvenikom pri kovanju rezultatov in lažji objavi lažnih raziskav.

Manipulacija slik je že glavna skrb akademskih založnikov, saj je največja pogosta oblika znanstvenega napačnega ravnanja v zadnjem času. Avtorji lahko uporabljajo najrazličnejše trike, kot je obračanje, vrtenje ali obrezovanje delov iste slike, da ponaredijo podatke. Uredniki so preslepljeni, da verjamejo, da so vsi predstavljeni rezultati resnični, in bodo svoje delo objavili.

Številni založniki se zdaj obračajo na programsko opremo AI, da bi odkrivanje znaki podvajanja slike med postopkom pregleda. V večini primerov so slike po pomoti podvojili znanstveniki, ki so pomešali njihove podatke, včasih pa se uporabljajo za očitno goljufijo.

A ko se založniki začnejo ukvarjati s podvajanjem slik, se pojavi še ena grožnja. Nekatere raziskovalce bo morda zamikalo, da bi uporabili generativne modele umetne inteligence za ustvarjanje lažnih podatkov. Pravzaprav obstajajo dokazi, ki kažejo, da lažni znanstveniki to že počnejo.

Slike, narejene z umetno inteligenco, opažene v papirjih?

Leta 2019 je DARPA predstavila svojo semantično forenziko (SemaFor), ki financira raziskovalce, ki razvijajo forenzična orodja, ki lahko zaznajo medije, izdelane z umetno inteligenco, za boj proti dezinformacijam.

Tiskovni predstavnik agencije za obrambne raziskave strica Sama je potrdil, da so opazili ponarejene medicinske slike, objavljene v resničnih znanstvenih dokumentih, za katere se zdi, da so ustvarjene z umetno inteligenco. Pred modeli besedila v sliko so bila priljubljena generativna kontradiktorna omrežja. DARPA je ugotovila, da lahko ti modeli, najbolj znani po svoji zmožnosti ustvarjanja globokih ponaredkov, lahko ponaredijo tudi slike medicinskih skeniranj, celic ali drugih vrst posnetkov, ki jih pogosto najdemo v biomedicinskih študijah.

"Pokrajina groženj se spreminja precej hitro," je povedal William Corvey, vodja programa SemaFor Register. "Tehnologija postaja vseprisotna za benigne namene." Corvey je dejal, da je agencija imela nekaj uspeha pri razvoju programske opreme, ki je sposobna zaznati slike, ki jih je ustvaril GAN, orodja pa so še v razvoju.

Pokrajina groženj se spreminja precej hitro

»Imamo rezultate, ki kažejo, da lahko odkrijete 'brate in sestre ali daljne bratrance' generativnega mehanizma, ki ste se ga naučili odkrivati prej, ne glede na vsebino ustvarjenih slik. Analitika SemaFor preučuje različne pripise in podrobnosti, povezane z manipuliranimi mediji, vse od metapodatkov, statističnih anomalij do bolj vizualnih predstavitev,« je dejal.

Nekateri slikovni analitiki, ki so natančno preučevali podatke v znanstvenih člankih, so naleteli tudi na nekaj, kar je videti kot slike, ki jih je ustvaril GAN. GAN je generativno kontradiktorno omrežje, vrsta sistema strojnega učenja, ki lahko ustvari pisanje, glasbo, slike in drugo.

Na primer, Jennifer Byrne, profesorica molekularne onkologije na Univerzi v Sydneyju, in Jana Christopher, analitičarka celovitosti slike pri založniku revije EMBO Press, sta naleteli na nenavaden niz slik, ki so se pojavile v 17 študijah, povezanih z biokemijo.

Slike so prikazovale niz skupin, splošno znanih kot western blots, ki kažejo na prisotnost specifičnih beljakovin v vzorcu, za katere se je nenavadno zdelo, da imajo vse isto ozadje. To se ne bi smelo zgoditi.

Slika A iz dokumenta Byrne-Christopher o sumljivih dokumentih

Primeri ponavljajočih se ozadij na western blot slikah, poudarjenih z rdečimi in zelenimi obrisi … Vir: Byrne, Christopher 2020

Leta 2020 sta Byrne in Christopher prišla do zaključka, da so bile slike sumljivega videza verjetno ustvarjene kot del papirnice: prizadevanje za množično proizvodnjo člankov o biokemičnih študijah z uporabo ponarejenih podatkov ter njihovo strokovno revizijo in objavo. Takšen zalogaj bi se lahko izvedel, da bi na primer koristil akademikom, ki so plačani na podlagi njihovega sprejetega papirja, ali da bi oddelku pomagal doseči kvoto objavljenih poročil.

»Lise v primeru, prikazanem v naš papir so najverjetneje računalniško ustvarjeni,« je povedal Christopher Register.

Pogosto naletim na ponarejene slike, predvsem western blotove, vse pogosteje pa tudi mikroskopske slike

»Pri pregledovanju papirjev tako pred objavo kot po njej pogosto naletim na ponarejene slike, predvsem western blotove, vse pogosteje pa tudi na mikroskopske slike. Zelo se zavedam, da je veliko teh najverjetneje ustvarjenih z uporabo GAN-jev.«

Elisabeth Bik, samostojna detektivka za slike, lahko pogosto ugotovi tudi, kdaj so bile slike manipulirane. Preiskuje rokopise znanstvenih člankov, išče podvojene slike in te težave označi za urednike revij, da jih lahko dodatno preučijo. Vendar se je težje boriti proti ponarejenim slikam, če jih je celovito ustvaril algoritem.

Poudarila je, da čeprav je ponavljajoče se ozadje na slikah, poudarjenih v študiji Byrne in Christopherja, znak ponarejanja, so dejanski western bloti edinstveni. Programska oprema za računalniški vid, ki jo Bik uporablja za skeniranje papirjev in goljufanje s slikami, bi težko označila te pasove, ker ni podvajanj dejanskih madežev.

»Nikoli ne bomo našli prekrivanja. Verjamem, da so vsi umetno narejeni. Kako točno, nisem prepričana,« je povedala Register.

Lažje je ustvariti lažne slike z najnovejšimi generativnimi modeli AI

GAN-je so večinoma izpodrinili difuzijski modeli. Ti sistemi ustvarjajo edinstvene slike in poganjajo današnjo programsko opremo za pretvorbo besedila v sliko, vključno z DALL-E, Stable Diffusion in Midjourney. Naučijo se preslikati vizualno predstavitev predmetov in konceptov v naravni jezik in bi lahko znatno znižali oviro za akademsko goljufanje.

Znanstveniki lahko le opišejo, kakšno vrsto lažnih podatkov želijo ustvariti, in ta orodja bodo to naredila namesto njih. Trenutno pa še ne morejo povsem ustvariti realističnih znanstvenih slik. Včasih orodja proizvedejo grozde celic, ki so na prvi pogled videti prepričljive, vendar so popolnoma neuspešne, ko gre za western blot.

To je nekaj, kar lahko ustvarijo ti programi AI:

Tukaj je kaj @OpenAIDALL-E uporablja pozive bioloških celic

Natančneje: »celice pod mikroskopom« in »celice T pod vrstičnim elektronskim mikroskopom« pic.twitter.com/BgcZr3k5Q5

— Tara Basu Trivedi (@tbt94) Avgust 23, 2022

William Gibson – zdravnik-znanstvenik in sodelavec na medicinski onkologiji, ne slavni avtor – ima še več primerov tukaj, vključno s tem, kako se današnje manekenke borijo s konceptom western blota.

Tehnologija pa se le še izboljšuje, saj razvijalci usposabljajo večje modele z več podatki.

David Bimler, še en strokovnjak za prepoznavanje manipulacije s slikami v znanstvenih dokumentih, bolj znan kot Smut Clyde, nam je povedal: "Proizvajalci papirja bodo svoje izdelke ilustrirali s katero koli metodo, ki je najcenejša in najhitrejša, pri čemer se bodo zanašali na slabosti v postopku strokovnega pregleda."

»Lahko bi preprosto kopirali [western blots] iz starejših časopisov, a tudi to vključuje delo pri iskanju po starih dokumentih. Trenutno sumim, da je uporaba GAN še vedno nekaj truda. Čeprav se bo to spremenilo," je dodal.

DARPA zdaj želi razširiti svoj program SemaFor za preučevanje sistemov besedila v sliko. "Tovrstni modeli so dokaj novi in čeprav jih uporabljamo, niso del našega trenutnega dela na SemaFor," je dejal Corvey.

"Vendar bodo ocenjevalci SemaFor te modele verjetno preučili med naslednjo ocenjevalno fazo programa, ki se začne jeseni 2023."

Medtem bo kakovost znanstvenih raziskav padla, če akademski založniki ne bodo našli načinov za odkrivanje lažnih slik, ustvarjenih z umetno inteligenco, v dokumentih. V najboljšem primeru bo ta oblika akademske goljufije omejena le na papirniške sheme, ki tako ali tako niso deležne veliko pozornosti. V najslabšem primeru bo to vplivalo celo na najuglednejše revije in znanstveniki z dobrimi nameni bodo zapravljali čas in denar z lovljenjem napačnih idej, za katere verjamejo, da so resnične. ®