Thanks To Generative AI, Catching Fraud Science Is Going To Be This Much Harder

Återutgiven av Platon

anhängare: 0

Leverans Generativ AI innebär intressanta utmaningar för akademiska förlag som tacklar bedrägerier i vetenskapliga uppsatser eftersom tekniken visar potentialen att lura mänskliga peer review.

Beskriv en bild för DALL-E, Stable Diffusion och Midjourney, så genererar de en på några sekunder. Dessa text-till-bild-system har snabbt förbättrats under de senaste åren och det som från början började som en forskningsprototyp, som producerade godartade och underbart bisarra illustrationer av baby-daikonrädisor som går med hundar 2021, har sedan dess förvandlats till kommersiell programvara, byggd av miljardföretag, som kan generera allt mer realistiska bilder.

Dessa AI-modeller kan producera verklighetstrogna bilder av mänskliga ansikten, föremål och scener, och det ser ut som en tidsfråga innan de blir bra på att skapa övertygande vetenskapliga bilder och data också. Text-till-bild-modeller är nu allmänt tillgängliga, ganska billiga att använda, och de kan hjälpa tvivelaktiga forskare att skapa resultat och enklare publicera skenforskning.

Bildmanipulation är redan en stor oro för akademiska förlag eftersom det är det mest vanlig form av vetenskapligt oredlighet på senare tid. Författare kan använda alla möjliga knep, som att vända, rotera eller beskära delar av samma bild för att förfalska data. Redaktörer luras att tro att alla resultat som presenteras är verkliga och kommer att publicera sitt arbete.

Många förlag vänder sig nu till AI-programvara i ett försök att upptäcka tecken på bildduplicering under granskningsprocessen. I de flesta fall har bilder av misstag duplicerats av forskare som har förvirrat sina data, men ibland används det för uppenbara bedrägerier.

Men precis när förlagen börjar få grepp om bildduplicering uppstår ett annat hot. Vissa forskare kan vara frestade att använda generativa AI-modeller för att skapa falska data. Det finns faktiskt bevis som tyder på att skenforskare redan gör detta.

AI-tillverkade bilder på tidningar?

2019 lanserade DARPA sin Semantic Forensics (SemaFor) program, finansierar forskare som utvecklar kriminaltekniska verktyg som kan upptäcka AI-tillverkade media, för att bekämpa desinformation.

En talesperson för Uncle Sams försvarsforskningsbyrå bekräftade att den har sett falska medicinska bilder publicerade i riktiga vetenskapliga tidningar som verkar genereras med AI. Innan text-till-bild-modeller var generativa motståndsnätverk populära. DARPA insåg att dessa modeller, mest kända för sin förmåga att skapa djupförfalskningar, också kunde skapa bilder av medicinska skanningar, celler eller andra typer av bilder som ofta hittas i biomedicinska studier.

"Hotlandskapet rör sig ganska snabbt," berättade William Corvey, SemaFors programchef Registret. "Tekniken blir allestädes närvarande för godartade ändamål." Corvey sa att byrån har haft viss framgång med att utveckla programvara som kan upptäcka GAN-tillverkade bilder, och verktygen är fortfarande under utveckling.

Hotbilden rör sig ganska snabbt

"Vi har resultat som tyder på att du kan upptäcka "syskon eller avlägsna kusiner" av den generativa mekanismen du har lärt dig att upptäcka tidigare, oavsett innehållet i de genererade bilderna. SemaFor-analyser tittar på en mängd olika tillskrivningar och detaljer som är associerade med manipulerade medier, allt från metadata, statistiska anomalier till mer visuella representationer”, sa han.

Vissa bildanalytiker som granskar data i vetenskapliga artiklar har också stött på vad som ser ut som GAN-genererade bilder. En GAN är ett generativt motståndsnätverk, en typ av maskininlärningssystem som kan generera skrift, musik, bilder och mer.

Till exempel kom Jennifer Byrne, professor i molekylär onkologi vid University of Sydney, och Jana Christopher, en bildintegritetsanalytiker för tidskriftsutgivaren EMBO Press, över en märklig uppsättning bilder som dök upp i 17 biokemirelaterade studier.

Bilderna föreställde en serie band allmänt kända som western blottar, som indikerar närvaron av specifika proteiner i ett prov, som alla konstigt nog tycktes ha samma bakgrund. Det är inte meningen att det ska hända.

Figur A från Byrne-Christopher tidningen på misstänkta papper

Exempel på återkommande bakgrunder i Western blot-bilder, markerade av de röda och gröna konturerna ... Källa: Byrne, Christopher 2020

År 2020 kom Byrne och Christopher till slutsatsen att de misstänkta bilderna troligen producerades som en del av en pappersbruksverksamhet: ett försök att massproducera papper om biokemiska studier med hjälp av falska data, och få dem peer reviewed och publicerade. En sådan kapra kan till exempel dras av till förmån för akademiker som kompenseras baserat på deras accepterade pappersproduktion, eller för att hjälpa en institution att nå en kvot av publicerade rapporter.

"Bläckarna i exemplet som visas i våra papper är mest troligt datorgenererade, säger Christopher Registret.

Jag stöter ofta på falska bilder, övervägande westernblots, men allt oftare även mikroskopibilder

”Vid screeningpapper både för- och efterpublicering stöter jag ofta på falska bilder, övervägande westernblot, men i allt högre grad även mikroskopiska bilder. Jag är mycket medveten om att många av dessa med största sannolikhet genereras med hjälp av GAN.”

Elisabeth Bik, en frilansande bildsköterska, kan ofta se när bilder också har manipulerats. Hon tittar på vetenskapliga pappersmanuskript, letar efter duplicerade bilder och flaggar dessa frågor för tidskriftsredaktörer att undersöka vidare. Men det är svårare att bekämpa falska bilder när de har genererats helt av en algoritm.

Hon påpekade att även om den upprepade bakgrunden i bilder som lyfts fram i Byrnes och Christophers studie är ett tydligt tecken på förfalskning, så är själva westernblotsen unika. Datorvisionsmjukvaran Bik använder för att skanna papper och upptäcka bildbedrägerier skulle ha svårt att flagga dessa band eftersom det inte finns några dubbletter av de faktiska fläckarna.

"Vi kommer aldrig att hitta en överlappning. De är alla, tror jag, konstgjorda. Hur exakt, jag är inte säker på, sa hon Registret.

Det är lättare att skapa falska bilder med de senaste generativa AI-modellerna

GAN har till stor del förskjutits av diffusionsmodeller. Dessa system genererar unika bilder och driver dagens text-till-bild-programvara inklusive DALL-E, Stable Diffusion och Midjourney. De lär sig att kartlägga den visuella representationen av objekt och begrepp till naturligt språk, och kan avsevärt sänka barriären för akademiskt fusk.

Forskare kan bara beskriva vilken typ av falsk data de vill ha genererad, och dessa verktyg kommer att göra det åt dem. För tillfället kan de dock inte riktigt skapa realistiska vetenskapliga bilder ännu. Ibland producerar verktygen kluster av celler som ser övertygande ut vid första anblicken, men misslyckas totalt när det kommer till western blots.

Det här är sådant som dessa AI-program kan generera:

Här är vad @OpenAI's DALL-E gör med biologiska cellmeddelanden

Specifikt: "celler under ett mikroskop" och "T-celler under ett svepelektronmikroskop" pic.twitter.com/BgcZr3k5Q5

— Tara Basu Trivedi (@tbt94) Augusti 23, 2022

William Gibson – en läkare-vetenskapsman och medicinsk onkologistipendiat, inte den berömda författaren – har ytterligare exempel här., inklusive hur dagens modeller kämpar med konceptet om en western blot.

Tekniken blir dock bara bättre, eftersom utvecklare tränar större modeller på mer data.

David Bimler, en annan expert på att känna igen bildmanipulation i vetenskapliga tidningar, mer känd som Smut Clyde, sa till oss: "Papermillers kommer att illustrera sina produkter med den metod som är billigast och snabbast, och förlitar sig på svagheter i peer-review-processen."

"De kunde helt enkelt kopiera [western blots] från äldre tidningar, men även det innebär arbete med att söka igenom gamla tidningar. För tillfället misstänker jag att det fortfarande är en ansträngning att använda ett GAN. Även om det kommer att förändras, tillade han.

DARPA vill nu utöka sitt SemaFor-program för att studera text-till-bild-system. "Denna typer av modeller är ganska nya och även om de är i omfattning är de inte en del av vårt nuvarande arbete med SemaFor," sa Corvey.

"Men SemaFor-utvärderare kommer sannolikt att titta på dessa modeller under nästa utvärderingsfas av programmet som börjar hösten 2023."

Samtidigt kommer kvaliteten på den vetenskapliga forskningen att urholkas om akademiska förlag inte kan hitta sätt att upptäcka falska AI-genererade bilder i tidningar. I bästa fall kommer denna form av akademiskt bedrägeri att begränsas till bara pappersbruksupplägg som ändå inte får mycket uppmärksamhet. I värsta fall kommer det att påverka även de mest välrenommerade tidskrifterna och forskare med goda avsikter kommer att slösa tid och pengar på att jaga falska idéer som de tror är sanna. ®

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
Källa: https://go.theregister.com/feed/www.theregister.com/2023/03/11/ai_scientfic_fraud/

Tidsstämpel: Mars 11, 2023

Tidsstämpel: Jan 10, 2024

Tack vare generativ AI kommer det att bli så mycket svårare att fånga bedrägerivetenskap

Återutgiven av Platon

AI-tillverkade bilder på tidningar?

Det är lättare att skapa falska bilder med de senaste generativa AI-modellerna

Mer från Registret

Steam ber utvecklare att avslöja AI-gjort innehåll i spel

Elon Musk fick hemliga tvillingar 2021 med Neuralink exec

Waymo robo-taxibilar tar upp en miljon mil utan att döda någon

Rensa vägen till framgång

Waferscale, möt atomär skala: Uncle Sam för att testa Cerebras-chips i kärnvapen-sims

Kina lägger upp egentillverkad AI-infrastruktur på sin att göra-lista

Titta på insekter om du vill bygga små AI-robotar som faktiskt är smarta

Washington funderar på att övervaka moln för misstänkt AI-träning

Bröstcancerscreening AI app OK'd av watchdog

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto