Dankzij generatieve AI wordt het opsporen van fraudewetenschap veel moeilijker

Heruitgegeven door Plato

volgers: 0

Kenmerk Generatieve AI vormt een interessante uitdaging voor academische uitgevers die fraude in wetenschappelijke papers aanpakken, aangezien de technologie laat zien dat het mogelijk is om menselijke peer review voor de gek te houden.

Beschrijf een afbeelding voor DALL-E, Stable Diffusion en Midjourney en ze genereren er binnen enkele seconden een. Deze tekst-naar-beeld-systemen zijn de afgelopen jaren snel verbeterd en wat aanvankelijk begon als een onderzoeksprototype, produceerde goedaardige en heerlijk bizarre illustraties van baby-daikon-radijsjes die honden uitlaten in 2021, is sindsdien veranderd in commerciële software, gebouwd door miljardenbedrijven, die steeds realistischere beelden kan genereren.

Deze AI-modellen kunnen levensechte afbeeldingen van menselijke gezichten, objecten en scènes produceren, en het lijkt een kwestie van tijd voordat ze ook goed worden in het creëren van overtuigende wetenschappelijke afbeeldingen en gegevens. Tekst-naar-beeld-modellen zijn nu algemeen toegankelijk, vrij goedkoop in gebruik, en ze zouden onbetrouwbare wetenschappers kunnen helpen resultaten te vervalsen en schijnonderzoek gemakkelijker te publiceren.

Beeldmanipulatie is al een topprioriteit voor academische uitgevers, want dat is het meest algemene vorm van wetenschappelijk wangedrag van de laatste tijd. Auteurs kunnen allerlei trucs gebruiken, zoals delen van dezelfde afbeelding omdraaien, roteren of bijsnijden om gegevens te vervalsen. Editors worden voor de gek gehouden door te geloven dat alle gepresenteerde resultaten echt zijn en hun werk zullen publiceren.

Veel uitgevers wenden zich nu tot AI-software in een poging opsporen tekenen van duplicatie van afbeeldingen tijdens het beoordelingsproces. In de meeste gevallen zijn afbeeldingen ten onrechte gedupliceerd door wetenschappers die hun gegevens hebben vertroebeld, maar soms wordt het gebruikt voor flagrante fraude.

Maar net nu uitgevers grip beginnen te krijgen op het dupliceren van afbeeldingen, dient zich een andere dreiging aan. Sommige onderzoekers kunnen in de verleiding komen om generatieve AI-modellen te gebruiken om nepgegevens te creëren. Er zijn zelfs aanwijzingen dat schijnwetenschappers dit al doen.

Door AI gemaakte afbeeldingen in kranten gespot?

In 2019 lanceerde DARPA zijn Semantic Forensics (SemaFor) programma, dat onderzoekers financiert die forensische hulpmiddelen ontwikkelen die door AI gemaakte media kunnen detecteren, om desinformatie te bestrijden.

Een woordvoerder van het defensieonderzoeksbureau van Uncle Sam bevestigde dat het valse medische beelden heeft gezien die in echte wetenschappelijke artikelen zijn gepubliceerd en die lijken te zijn gegenereerd met behulp van AI. Vóór tekst-naar-beeld-modellen waren generatieve vijandige netwerken populair. DARPA realiseerde zich dat deze modellen, vooral bekend om hun vermogen om deepfakes te creëren, ook afbeeldingen konden vervalsen van medische scans, cellen of andere soorten afbeeldingen die vaak in biomedische studies worden aangetroffen.

"Het dreigingslandschap evolueert vrij snel", vertelde William Corvey, de programmamanager van SemaFor Het register. "De technologie wordt alomtegenwoordig voor goedaardige doeleinden." Corvey zei dat het bureau enig succes heeft gehad met het ontwikkelen van software die door GAN gemaakte afbeeldingen kan detecteren, en de tools zijn nog in ontwikkeling.

Het dreigingslandschap verandert vrij snel

“We hebben resultaten die suggereren dat je 'broers en zussen of verre neven' kunt detecteren van het generatieve mechanisme dat je eerder hebt leren detecteren, ongeacht de inhoud van de gegenereerde afbeeldingen. SemaFor-analyses kijken naar een verscheidenheid aan attributies en details die verband houden met gemanipuleerde media, alles van metadata, statistische anomalieën tot meer visuele representaties, "zei hij.

Sommige beeldanalisten die gegevens in wetenschappelijke artikelen onderzoeken, zijn ook iets tegengekomen dat lijkt op GAN-gegenereerde afbeeldingen. Een GAN is een generatief vijandig netwerk, een soort machine-leersysteem dat schrijven, muziek, afbeeldingen en meer kan genereren.

Jennifer Byrne, een professor moleculaire oncologie aan de Universiteit van Sydney, en Jana Christopher, een beeldintegriteitsanalist voor tijdschriftuitgever EMBO Press, stuitten bijvoorbeeld op een vreemde reeks beelden die verschenen in 17 biochemie-gerelateerde onderzoeken.

De foto's toonden een reeks bands die algemeen bekend staan als westerse vlekken, die wijzen op de aanwezigheid van specifieke eiwitten in een monster, die vreemd genoeg allemaal dezelfde achtergrond leken te hebben. Dat hoort niet te gebeuren.

Figuur A uit het Byrne-Christopher-papier over verdachte papieren

Voorbeelden van herhalende achtergronden in Western Blot-afbeeldingen, gemarkeerd door de rode en groene contouren … Bron: Byrne, Christoffel 2020

In 2020 kwamen Byrne en Christopher tot de conclusie dat de verdacht ogende beelden waarschijnlijk zijn geproduceerd als onderdeel van een papierfabriek: een poging om massaal artikelen over biochemische studies te produceren met behulp van vervalste gegevens, en om ze door vakgenoten te laten beoordelen en publiceren. Zo'n grapje kan bijvoorbeeld worden gemaakt om academici te helpen die worden gecompenseerd op basis van hun geaccepteerde papieren output, of om een afdeling te helpen een quotum van gepubliceerde rapporten te bereiken.

“De blots in het getoonde voorbeeld in onze papieren zijn hoogstwaarschijnlijk door de computer gegenereerd, 'vertelde Christopher Het register.

Ik kom vaak nep uitziende beelden tegen, voornamelijk western blots, maar steeds vaker ook microscopiebeelden

“Bij het screenen van papers, zowel voor als na publicatie, kom ik vaak nep uitziende beelden tegen, voornamelijk western blots, maar steeds vaker ook microscopiebeelden. Ik ben me er terdege van bewust dat veel van deze hoogstwaarschijnlijk worden gegenereerd met behulp van GAN's.

Elisabeth Bik, een freelance beelddetective, kan vaak ook zien wanneer afbeeldingen zijn gemanipuleerd. Ze verdiept zich in wetenschappelijke papieren manuscripten, zoekt naar gedupliceerde afbeeldingen en markeert deze kwesties zodat tijdschriftredacteuren ze verder kunnen onderzoeken. Maar het is moeilijker om nepbeelden te bestrijden als ze volledig zijn gegenereerd door een algoritme.

Ze wees erop dat hoewel de herhaalde achtergrond in afbeeldingen die in de Byrne en Christopher's studie zijn gemarkeerd een veelbetekenend teken van vervalsing is, de eigenlijke western blots zelf uniek zijn. De computervisiesoftware die Bik gebruikt om papieren te scannen en beeldfraude op te sporen, zou het moeilijk vinden om deze banden te markeren omdat er geen duplicaties zijn van de daadwerkelijke vlekken.

“We zullen nooit een overlap vinden. Ze zijn allemaal, geloof ik, kunstmatig gemaakt. Hoe precies weet ik niet zeker,' vertelde ze Het register.

Het is gemakkelijker om nepafbeeldingen te genereren met de nieuwste generatieve AI-modellen

GAN's zijn grotendeels verdrongen door diffusiemodellen. Deze systemen genereren unieke beelden en voeden de hedendaagse tekst-naar-beeldsoftware, waaronder DALL-E, Stable Diffusion en Midjourney. Ze leren de visuele representatie van objecten en concepten te koppelen aan natuurlijke taal, en kunnen de drempel voor academisch bedrog aanzienlijk verlagen.

Wetenschappers kunnen gewoon beschrijven welk type valse gegevens ze willen genereren, en deze tools zullen het voor hen doen. Op dit moment kunnen ze echter nog niet echt realistisch ogende wetenschappelijke beelden maken. Soms produceren de tools clusters van cellen die er op het eerste gezicht overtuigend uitzien, maar jammerlijk falen als het gaat om western blots.

Dit is het soort dingen dat deze AI-programma's kunnen genereren:

Dit is wat @OpenAI's DALL-E doet met biologische cel prompts

Concreet: "cellen onder een microscoop" en "T-cellen onder een rasterelektronenmicroscoop" pic.twitter.com/BgcZr3k5Q5

— Tara Basu Trivedi (@tbt94) 23 Augustus 2022

William Gibson – een arts-wetenschapper en medisch oncoloog, niet de beroemde auteur – heeft nog meer voorbeelden hier, inclusief hoe hedendaagse modellen worstelen met het concept van een western blot.

De technologie wordt echter alleen maar beter naarmate ontwikkelaars grotere modellen trainen op meer gegevens.

David Bimler, een andere expert in het herkennen van beeldmanipulatie in wetenschappelijke artikelen, beter bekend als Smut Clyde, vertelde ons: "Papermillers zullen hun producten illustreren met behulp van de goedkoopste en snelste methode, vertrouwend op zwakke punten in het proces van collegiale toetsing."

“Ze kunnen gewoon [western blots] kopiëren van oudere papieren, maar zelfs dat brengt werk met zich mee door oude papieren te doorzoeken. Op dit moment, vermoed ik, kost het gebruik van een GAN nog wat moeite. Hoewel dat zal veranderen, 'voegde hij eraan toe.

DARPA wil nu zijn SemaFor-programma uitbreiden om tekst-naar-beeldsystemen te bestuderen. "Dit soort modellen zijn vrij nieuw en hoewel ze in omvang zijn, maken ze geen deel uit van ons huidige werk aan SemaFor," zei Corvey.

"Echter, SemaFor-beoordelaars zullen deze modellen waarschijnlijk bekijken tijdens de volgende evaluatiefase van het programma die begint in de herfst van 2023."

Ondertussen zal de kwaliteit van wetenschappelijk onderzoek eroderen als academische uitgevers geen manieren kunnen vinden om nep-AI-gegenereerde afbeeldingen in kranten te detecteren. In het gunstigste geval blijft deze vorm van academische fraude beperkt tot papierfabrieken die sowieso al weinig aandacht krijgen. In het ergste geval zal het zelfs de meest gerenommeerde tijdschriften treffen en zullen wetenschappers met goede bedoelingen tijd en geld verspillen aan het najagen van valse ideeën waarvan zij denken dat ze waar zijn. ®

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
Bron: https://go.theregister.com/feed/www.theregister.com/2023/03/11/ai_scientfic_fraud/

Tijdstempel: 11 maart 2023

Tijdstempel: Jan 10, 2024

Dankzij generatieve AI wordt het opsporen van fraudewetenschap zoveel moeilijker

Heruitgegeven door Plato

Door AI gemaakte afbeeldingen in kranten gespot?

Het is gemakkelijker om nepafbeeldingen te genereren met de nieuwste generatieve AI-modellen

Meer van Het register

Steam vertelt ontwikkelaars dat ze door AI gemaakte inhoud in games moeten vrijgeven

Elon Musk had in 2021 een geheime tweeling met Neuralink-exec

Waymo-robottaxi's leggen miljoenen kilometers af zonder iemand te doden

Een pad naar succes vrijmaken

Waferscale, ontmoet atomaire schaal: Uncle Sam om Cerebras-chips te testen in atoomwapensims

China zet de AI-infrastructuur van eigen bodem op zijn takenlijst

Kijk naar insecten als je kleine AI-robots wilt bouwen die echt slim zijn

Washington overweegt wolken te monitoren op verdachte AI-training

Borstkankerscreening AI-app goedgekeurd door waakhond

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account