Feature Generativ kunstig intelligens udgør interessante udfordringer for akademiske udgivere, der tackler svindel i videnskabelige artikler, da teknologien viser potentialet til at narre menneskelig peer review.
Beskriv et billede for DALL-E, Stable Diffusion og Midjourney, og de vil generere et på få sekunder. Disse tekst-til-billede-systemer er hurtigt blevet forbedret i løbet af de sidste par år, og hvad der oprindeligt begyndte som en forskningsprototype, der producerede godartet og vidunderligt bizart illustrationer af baby daikon radiser, der går med hunde i 2021, har siden udviklet sig til kommerciel software, bygget af milliard-dollar-virksomheder, der er i stand til at generere stadig mere realistiske billeder.
Disse AI-modeller kan producere naturtro billeder af menneskelige ansigter, objekter og scener, og det ser ud som et spørgsmål om tid, før de også bliver gode til at skabe overbevisende videnskabelige billeder og data. Tekst-til-billede-modeller er nu bredt tilgængelige, temmelig billige at bruge, og de kan hjælpe risikable videnskabsmænd med at skabe resultater og lettere publicere falsk forskning.
Billedmanipulation er allerede en stor bekymring for akademiske udgivere, da det er det mest almindelig form af videnskabelig uredelighed på det seneste. Forfattere kan bruge alle mulige tricks, såsom at vende, rotere eller beskære dele af det samme billede for at forfalske data. Redaktører narre til at tro, at alle de resultater, der præsenteres, er ægte og vil offentliggøre deres arbejde.
Mange udgivere henvender sig nu til AI-software i et forsøg på at opdage tegn på billedduplikering under gennemgangsprocessen. I de fleste tilfælde er billeder fejlagtigt blevet duplikeret af videnskabsmænd, der har forvirret deres data, men nogle gange bruges det til åbenlyst svindel.
Men lige som forlagene begynder at få styr på billedduplikering, dukker en anden trussel op. Nogle forskere kan blive fristet til at bruge generative AI-modeller til at skabe falske data. Faktisk er der beviser, der tyder på, at falske videnskabsmænd allerede gør dette.
AI-fremstillede billeder set i papirer?
I 2019 lancerede DARPA sin Semantic Forensics (SemaFor) program, der finansierer forskere, der udvikler retsmedicinske værktøjer, der er i stand til at opdage AI-fremstillede medier, for at bekæmpe desinformation.
En talsmand for Uncle Sams forsvarsforskningsagentur bekræftede, at de har set falske medicinske billeder offentliggjort i ægte videnskabelige papirer, der ser ud til at være genereret ved hjælp af AI. Før tekst-til-billede-modeller var generative modstridende netværk populære. DARPA indså, at disse modeller, bedst kendt for deres evne til at skabe deepfakes, også kunne skabe billeder af medicinske scanninger, celler eller andre typer billeder, der ofte findes i biomedicinske undersøgelser.
"Trusselslandskabet bevæger sig ret hurtigt," fortalte William Corvey, SemaFors programchef Registret. "Teknologien bliver allestedsnærværende til godartede formål." Corvey sagde, at agenturet har haft en vis succes med at udvikle software, der er i stand til at opdage GAN-fremstillede billeder, og værktøjerne er stadig under udvikling.
Trusselslandskabet bevæger sig ret hurtigt
"Vi har resultater, der tyder på, at du kan opdage 'søskende eller fjerne fætre' af den generative mekanisme, du har lært at opdage tidligere, uanset indholdet af de genererede billeder. SemaFor analytics ser på en række tilskrivninger og detaljer forbundet med manipulerede medier, alt fra metadata, statistiske anomalier til mere visuelle repræsentationer,” sagde han.
Nogle billedanalytikere, der gransker data i videnskabelige artikler, er også stødt på, hvad der ligner GAN-genererede billeder. Et GAN er et generativt modstridende netværk, en type maskinlæringssystem, der kan generere skrift, musik, billeder og mere.
For eksempel stødte Jennifer Byrne, en professor i molekylær onkologi ved University of Sydney, og Jana Christopher, en billedintegritetsanalytiker for tidsskriftsudgiveren EMBO Press, over et mærkeligt sæt billeder, der dukkede op i 17 biokemi-relaterede undersøgelser.
Billederne forestillede en række bands almindeligvis kendt som western blots, som indikerer tilstedeværelsen af specifikke proteiner i en prøve, som alle mærkeligt nok så ud til at have den samme baggrund. Det skal ikke ske.
Eksempler på gentagne baggrunde i western blot-billeder, fremhævet af de røde og grønne konturer … Kilde: Byrne, Christopher 2020
I 2020 kom Byrne og Christopher til den konklusion, at de mistænkeligt udseende billeder sandsynligvis blev produceret som en del af en papirfabriksoperation: et forsøg på at masseproducere papirer om biokemiske undersøgelser ved hjælp af falske data, og få dem peer reviewed og offentliggjort. En sådan kaper kan for eksempel trækkes ud til gavn for akademikere, der kompenseres baseret på deres accepterede papiroutput, eller for at hjælpe en afdeling med at nå en kvote af offentliggjorte rapporter.
"Pletterne i eksemplet vist i vores papir er højst sandsynligt computergenererede,” fortalte Christopher Registret.
Jeg støder ofte på falske billeder, overvejende western blots, men i stigende grad også mikroskopiske billeder
”Screening papers både før og efter publicering støder jeg ofte på falske billeder, overvejende western blots, men i stigende grad også mikroskopibilleder. Jeg er meget opmærksom på, at mange af disse højst sandsynligt er genereret ved hjælp af GAN'er."
Elisabeth Bik, en freelance billedforsker, kan ofte se, hvornår billeder også er blevet manipuleret. Hun ser nærmere på videnskabelige papirmanuskripter, på jagt efter duplikerede billeder og markerer disse spørgsmål, så tidsskriftsredaktører kan undersøge dem nærmere. Men det er sværere at bekæmpe falske billeder, når de er blevet generet af en algoritme.
Hun påpegede, at selvom den gentagne baggrund i billeder fremhævet i Byrne og Christophers undersøgelse er et afslørende tegn på forfalskning, er de faktiske western-klatter i sig selv unikke. Computervisionssoftwaren Bik bruger til at scanne papirer og spotte billedsvindel ville finde det svært at markere disse bånd, fordi der ikke er nogen duplikationer af de faktiske klatter.
"Vi vil aldrig finde et overlap. De er alle sammen, tror jeg, kunstigt fremstillet. Hvordan præcist, jeg er ikke sikker på,” fortalte hun Registeret.
Det er nemmere at generere falske billeder med de nyeste generative AI-modeller
GAN'er er stort set blevet fortrængt af diffusionsmodeller. Disse systemer genererer unikke billeder og driver nutidens tekst-til-billede software inklusive DALL-E, Stable Diffusion og Midjourney. De lærer at kortlægge den visuelle repræsentation af objekter og begreber til naturligt sprog og kunne sænke barrieren for akademisk snyd markant.
Forskere kan bare beskrive, hvilken type falsk data de ønsker genereret, og disse værktøjer vil gøre det for dem. I øjeblikket kan de dog ikke helt skabe realistisk udseende videnskabelige billeder endnu. Nogle gange producerer værktøjerne klynger af celler, der ser overbevisende ud ved første øjekast, men som fejler elendigt, når det kommer til western blots.
Dette er den slags ting, som disse AI-programmer kan generere:
Her er hvad @OpenAI's DALL-E gør med biologiske celle prompter
Specifikt: "celler under et mikroskop" og "T-celler under et scanningselektronmikroskop" pic.twitter.com/BgcZr3k5Q5
— Tara Basu Trivedi (@tbt94) August 23, 2022
William Gibson – en læge-videnskabsmand og medicinsk onkologi-stipendiat, ikke den berømte forfatter – har yderligere eksempler link., herunder hvordan nutidens modeller kæmper med konceptet om en western blot.
Teknologien bliver dog kun bedre, efterhånden som udviklere træner større modeller på mere data.
David Bimler, en anden ekspert i at genkende billedmanipulation i videnskabelige artikler, bedre kendt som Smut Clyde, fortalte os: "Papirmøller vil illustrere deres produkter ved at bruge den metode, der er billigst og hurtigst, baseret på svagheder i peer-review-processen."
"De kunne simpelthen kopiere [western blots] fra ældre papirer, men selv det indebærer arbejde med at søge gennem gamle papirer. I øjeblikket formoder jeg, at det stadig er en indsats at bruge en GAN. Selvom det vil ændre sig," tilføjede han.
DARPA søger nu at udvide sit SemaFor-program til at studere tekst-til-billede-systemer. "Denne slags modeller er ret nye, og selvom de er i omfang, er de ikke en del af vores nuværende arbejde med SemaFor," sagde Corvey.
"Men SemaFor-evaluatorer vil sandsynligvis se på disse modeller i løbet af den næste evalueringsfase af programmet, der begynder efteråret 2023."
I mellemtiden vil kvaliteten af videnskabelig forskning forringes, hvis akademiske udgivere ikke kan finde måder at opdage falske AI-genererede billeder i papirer. I det bedste tilfælde vil denne form for akademisk svindel være begrænset til kun papirfabriksordninger, som alligevel ikke får meget opmærksomhed. I det værste tilfælde vil det påvirke selv de mest velrenommerede tidsskrifter, og videnskabsmænd med gode intentioner vil spilde tid og penge på at jagte falske ideer, de mener er sande. ®
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
- Kilde: https://go.theregister.com/feed/www.theregister.com/2023/03/11/ai_scientfic_fraud/
- :er
- $OP
- 2019
- 2020
- 2021
- 2023
- a
- evne
- akademisk
- tilgængelig
- tværs
- tilføjet
- kontradiktorisk
- agentur
- AI
- algoritme
- Alle
- allerede
- Skønt
- analytiker
- Analytikere
- analytics
- ,
- En anden
- vises
- dukkede
- ER
- AS
- forbundet
- At
- opmærksomhed
- forfatter
- forfattere
- Baby
- baggrund
- baggrunde
- barriere
- baseret
- BE
- fordi
- blive
- før
- begyndte
- begynde
- Begyndelse
- være
- Tro
- tro
- gavner det dig
- BEDSTE
- Bedre
- biomedicinsk
- bygget
- by
- CAN
- stand
- tilfælde
- Celler
- udfordringer
- lave om
- billig
- billigste
- snyd
- Christopher
- CO
- bekæmpe
- Kom
- kommerciel
- almindeligt
- Virksomheder
- kompenseret
- computer
- Computer Vision
- computergenereret
- Konceptet
- begreber
- Bekymring
- konklusion
- BEKRÆFTET
- indhold
- kunne
- skabe
- Oprettelse af
- Nuværende
- dalls
- DARPA
- data
- deepfakes
- Forsvar
- Afdeling
- beskrive
- detaljer
- udviklere
- udvikling
- Udvikling
- Broadcasting
- misinformation
- forskudt
- Fjern
- Hunde
- gør
- i løbet af
- lettere
- nemt
- indsats
- smergel
- Ether (ETH)
- evaluering
- Endog
- at alt
- bevismateriale
- præcist nok
- eksempel
- eksempler
- Udvid
- ekspert
- ansigter
- FAIL
- retfærdigt
- falsk
- Fall
- berømt
- hurtigste
- fyr
- få
- Figur
- Finde
- Fornavn
- flag
- Til
- Forensic
- retsvidenskab
- smede
- formular
- fundet
- bedrageri
- freelance
- fra
- finansiering
- yderligere
- GANer
- generere
- genereret
- generere
- generative
- generative adversarial netværk
- Generativ AI
- genom
- få
- få
- Blik
- gå
- godt
- Grøn
- ske
- Hård Ost
- Have
- hjælpe
- Fremhævet
- Hit
- Hvordan
- Men
- HTTPS
- menneskelig
- Jagt
- i
- ideer
- billede
- billeder
- KIMOs Succeshistorier
- forbedret
- in
- Herunder
- stigende
- angiver
- i første omgang
- instans
- integritet
- intentioner
- interessant
- uanset
- spørgsmål
- IT
- ITS
- Jennifer
- tidsskrift
- jpg
- kendt
- etiket
- landskab
- Sprog
- vid udstrækning
- større
- Sent
- seneste
- lanceret
- LÆR
- lærte
- ligesom
- Sandsynlig
- Limited
- Se
- ligner
- leder
- lavet
- leder
- manipuleret
- Håndtering
- mange
- kort
- Masse
- Matter
- mekanisme
- Medier
- medicinsk
- Metadata
- metode
- Mikroskopi
- MidJourney
- måske
- modeller
- molekylær
- øjeblik
- penge
- mere
- mest
- flytning
- Musik
- Natural
- Naturligt sprog
- netværk
- net
- Ny
- næste
- NIH
- objekter
- of
- Gammel
- on
- onkologi
- ONE
- drift
- Andet
- konturer
- output
- Papir
- papirer
- del
- dele
- forbi
- peer
- fase
- Billeder
- plato
- Platon Data Intelligence
- PlatoData
- Populær
- udgør
- potentiale
- magt
- overvejende
- tilstedeværelse
- forelagt
- trykke
- smuk
- tidligere
- sandsynligvis
- behandle
- producere
- produceret
- Produkter
- Professor
- Program
- Programmer
- Proteiner
- prototype
- offentliggøre
- offentliggjort
- forlægger
- udgivere
- formål
- kvalitet
- hurtigt
- RE
- ægte
- realistisk
- gik op for
- modtage
- Rød
- register
- gentaget
- Rapporter
- repræsentation
- hæderlige
- forskning
- forskere
- Resultater
- gennemgå
- revideret
- s
- Said
- Sam
- samme
- scanne
- scanning
- scenarie
- scener
- ordninger
- Videnskab
- Videnskabelig undersøgelse
- forskere
- rækkevidde
- screening
- Søg
- sekunder
- syntes
- semafor
- Series
- sæt
- vist
- Shows
- underskrive
- betydeligt
- Skilte
- ganske enkelt
- siden
- Sleuth
- Software
- nogle
- Kilde
- specifikke
- talsmand
- Spot
- stabil
- statistiske
- Stadig
- Kamp
- undersøgelser
- Studere
- succes
- sådan
- formodes
- mistænksom
- sydney
- systemet
- Systemer
- Teknologier
- at
- deres
- Them
- selv
- Disse
- ting
- trussel
- Gennem
- tid
- til
- i dag
- også
- værktøjer
- top
- Tog
- sand
- Drejning
- typer
- allestedsnærværende
- under
- enestående
- universitet
- University of Sydney
- us
- brug
- række
- Ve
- vision
- gå
- Affald
- måder
- Western
- Hvad
- som
- mens
- WHO
- bredt
- vilje
- med
- Arbejde
- ville
- skrivning
- år
- zephyrnet