Zaznavanje strojno ustvarjene vsebine: lažja naloga za stroj ali človeka?

Ponovno objavil Platon

Spremljevalci: 0

V današnjem svetu smo obkroženi z različnimi viri pisnih informacij, informacij, za katere na splošno domnevamo, da so jih napisali drugi ljudje. Ne glede na to, ali je to v obliki knjig, blogov, novic, objav na forumih, povratnih informacij na strani izdelka ali razprav v družabnih omrežjih in v oddelkih za komentarje, je predpostavka, da je besedilo, ki ga beremo, napisala druga oseba. Vendar je z leti postalo vse bolj verjetno, da je ta domneva napačna, nazadnje zaradi velikih jezikovnih modelov (LLM), kot sta GPT-2 in GPT-3, ki lahko na zahtevo ustvarijo verjetne odstavke o skoraj vsaki temi.

Pri tem se postavlja vprašanje, ali smo tik pred tem, ko ne moremo več biti razumno prepričani, da spletnega komentarja, novičarskega članka ali celo celotne knjige in filmskega scenarija ni izdelal algoritem ali morda celo kjer se spletni klepet z novo žgočo tekmo izkaže za to, da ga začnete samo vi z brezčutno zbirko kode, ki je bila usposobljena in prilagojena za največje sodelovanje s strankami. (Opomba urednika: ne, tukaj ne igramo te igre.)

Ker takšna strojno ustvarjena vsebina in interakcije začnejo igrati vedno večjo vlogo, se postavlja vprašanje, kako lahko zaznate tako ustvarjeno vsebino, kot tudi, ali je pomembno, da je vsebino ustvaril algoritem namesto človek. .

Dolgočasnost proti zlobi

V Georgeu Orwellu XNUMX, Winston Smith opisuje oddelek znotraj Ministrstva za resnico, imenovan Oddelek za leposlovje, kjer stroji nenehno ustvarjajo sveže ustvarjene romane, ki temeljijo na določenih temah. Medtem v glasbenem oddelku novo glasbo ustvarja drug sistem, imenovan verzifikator.

Kljub temu, da je ta izmišljeni svet distopičen, je ta strojno ustvarjena vsebina v bistvu neškodljiva, kot pripominja Winston kasneje v knjigi, ko opazuje žensko v prolečnem predelu mesta, ki poje najnovejšo pesmico in dodaja lastno čustveno intenzivnost pesmi. ljubezenska pesem, ki jo je izpljunil brezčuten, nerazmišljujoč stroj. To nas pripelje do najpogostejše uporabe strojno ustvarjene vsebine, za katero bi mnogi trdili, da je zgolj oblika avtomatizacije.

Obsežen izraz tukaj je 'avtomatizirano novinarstvo', in ima bil v uporabi že leta z uglednimi novinarskimi hišami, kot so Reuters, AP in drugi. Primeri uporabe tukaj so preprosti in enostavni: to so sistemi, ki so konfigurirani za sprejemanje informacij o uspešnosti delnic, o četrtletnih poročilih podjetij, o rezultatih športnih tekem ali lokalnih volitvah in izdajo članek po vnaprej določenem vzorcu. Očitna prednost je, da je prostore, polne novinarjev, ki dolgočasno kopirajo rezultate in meritve uspešnosti v predloge člankov, mogoče nadomestiti z računalniškim algoritmom.

V teh primerih je delo, ki vključuje novinarski ali umetniški ekvivalent obračanja hamburgerjev v restavraciji s hitro hrano, nadomeščeno z algoritmom, ki nikoli ne povzroči dolgčasa ali motenj, medtem ko lahko ljudje opravljajo intelektualno zahtevnejše delo. Malokdo bi trdil, da obstaja težava s tovrstno avtomatizacijo, saj v bistvu počne točno to, kar nam je bilo obljubljeno.

Stvari postanejo senčne, ko se uporablja za nečedne namene, na primer za pritegnitev iskalnega prometa strojno ustvarjeni izdelki ki poskušajo bralcu nekaj prodati. Čeprav je to pred kratkim privedlo do precejšnje ogorčenje v primeru CNET-a je dejstvo, da je to neverjetno donosen pristop, zato ga bomo morda v prihodnosti videli še več. Navsezadnje lahko velik jezikovni model ustvari cel kup člankov v času, ki ga človeški pisec potrebuje, da zapiše nekaj odstavkov besedila.

Bolj siva cona je tam, kjer gre za pomoč človeškemu piscu, kar postaja problem v svetu znanstvenega založništva, saj nedavno pokrit by Guardian, ki sta septembra 2020 tudi sama potegnila malce podvig, ko sta objavil članek ki jih je ustvaril GPT-3 LLM. Opozorilo je bilo, da to ni bil neposredni rezultat LLM, ampak tisto, kar je človeški urednik zmedel skupaj iz več rezultatov, ki jih je ustvaril GPT-3. To precej kaže na to, kako se LLM-ji na splošno uporabljajo, in namiguje na nekatere njihove največje slabosti.

Brez napačnih odgovorov

V bistvu LLM kot GPT-3 je močno medsebojno povezana podatkovna zbirka vrednosti, ki je bila ustvarjena iz vhodnih besedil, ki tvorijo nabor podatkov za usposabljanje. V primeru GPT-3 to pomeni bazo podatkov (model), ki je velika približno 800 GB. Za iskanje v tej zbirki podatkov je na voljo poizvedbeni niz – na splošno kot vprašanje ali vodilni stavek – ki po obdelavi tvori vhod v algoritem za prilagajanje krivulje. To v bistvu določa verjetnost, da je vhodna poizvedba povezana z delom modela.

Ko je najdeno verjetno ujemanje, je mogoče ustvariti izhod na podlagi tega, katera je najverjetnejša naslednja povezava v zbirki podatkov modela. To LLM omogoča, da poišče specifične informacije v velikem naboru podatkov in ustvari teoretično neskončno dolga besedila. Česar pa ne more storiti, je ugotoviti, ali je vhodna poizvedba smiselna ali ali je izhod, ki ga ustvari, logično smiseln. Vse, kar lahko algoritem ugotovi, je, ali sledi najverjetnejši smeri, z morebitnimi induciranimi variacijami, ki zamešajo izhod.

Nekaj, kar še vedno velja za težavo z besedili, ustvarjenimi z LLM, je ponavljanje, čeprav je to mogoče rešiti z nekaterimi popravki, ki dajejo izhodu "spomin", da se zmanjša število krat, ko je določena beseda uporabljena. Kar je težje rešiti, je absolutno zaupanje rezultatov LLM, saj ne more ugotoviti, ali ustvarja le neumnosti in bo veselo brbljal.

Toda kljub temu, ko so ljudje izpostavljeni besedilom, ustvarjenim z GPT-3 in GPT-2, kot v 2021 študija Elizabeth Clark et al., verjetnost, da bodo prepoznali besedila, ki jih ustvarijo ti LLM-ji – tudi po nekaj usposabljanja – ne presega 55 %, zaradi česar je približno podobno čisti naključnosti. Le zakaj ljudje tako grozno prepoznavamo ta besedila, ki jih ustvari LLM, in ali nam morda lahko tukaj pomagajo računalniki?

Statistika proti intuiciji

<img data-attachment-id="573573" data-permalink="https://hackaday.com/2023/02/01/detecting-machine-generated-content-an-easier-task-for-machine-or-human/gehrmann_et_al_2019_figure_1_top_k_overlay_gltr/" data-orig-file="https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human-1.jpg" data-orig-size="381,318" data-comments-opened="1" data-image-meta="{"aperture":"0","credit":"","camera":"","caption":"","created_timestamp":"0","copyright":"","focal_length":"0","iso":"0","shutter_speed":"0","title":"","orientation":"0"}" data-image-title="gehrmann_et_al_2019_figure_1_top_k_overlay_GLTR" data-image-description data-image-caption="

(Zasluge: Gehrmann et al., 2019)

” data-medium-file=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human.jpg” data-large-file=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human.jpg” decoding=”async” loading=”lazy” class=”size-medium wp-image-573573″ src=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human.jpg” alt width=”381″ height=”318″ srcset=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human-1.jpg 381w, https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human-1.jpg?resize=250,209 250w” sizes=”(max-width: 381px) 100vw, 381px”>

(Zasluge: Gehrmann et al., 2019)

Ko človeško bitje vprašamo, ali je določeno besedilo ustvaril človek ali ga je ustvaril stroj, bo verjetno ugibal na podlagi lastnih izkušenj, "občutka" in morda vrste namigov. V Papir 2019 Sebastian Gehrmann et al. predlaga statistični pristop k odkrivanju strojno ustvarjenega besedila, poleg identifikacije niza nečednih primerkov samodejno ustvarjenega besedila. Ti vključujejo lažne komentarje v nasprotju z nevtralnostjo omrežja v ZDA in zavajajoče ocene.

Statistični pristop, ki so ga podrobno opisali Gehrmann et al. se imenuje Giant Language Model Test Room (GLTR, Vir GitHub) vključuje analizo danega besedila glede njegove predvidljivosti. To je značilnost, ki jo bralci pogosto opisujejo kot 'plitkost' strojno ustvarjenega besedila, saj kar naprej omahuje po odstavkih, ne da bi zares povedal veliko. Z orodjem, kot je GLTR, bi takšno besedilo v vizualni predstavitvi zasvetilo večinoma zeleno, saj uporablja omejen in predvidljiv besednjak.

In članek, ki so ga predstavili Daphne Ippolito et al. (PDF) na srečanju Združenja za računalniško lingvistiko leta 2020 so obravnavani različni pristopi k odkrivanju strojno ustvarjenega besedila, skupaj z učinkovitostjo teh metod, ki se uporabljajo ločeno ali kombinirano. Pristop analize top-k, ki ga uporablja GLTR, je vključen v te metode, pri čemer so obravnavani tudi alternativni pristopi vzorčenja jeder (top-p) in drugi.

Končno so v tej študiji človeški subjekti pri razvrščanju besedil GPT-74 dosegli mediano 2 %, pri čemer je avtomatiziran diskriminatorski sistem na splošno dosegel boljše rezultate. Omeniti velja študijo avtorja Ari Holtzman idr. na to se sklicuje zaključek, v katerem je ugotovljeno, da ima človeško napisano besedilo na splošno kadenco, ki pade v območje nizke verjetnosti in iz njega. To ne naredi le tega, zaradi česar je besedilo zanimivo za branje, ampak tudi daje namig, zakaj se besedilo zdi naravno človeškemu bralcu.

S sodobnimi LLM-ji, kot je GPT-3, pristop, kot je vzorčenje jedra, ki so ga predlagali Holtzman et al. je tisto, kar zagotavlja bolj naravno kadenco, ki bi jo pričakovali od besedila, ki ga je napisal človek. Namesto da bi izbirali s seznama najboljših k možnosti, namesto tega izbirate iz dinamično spremenjene velikosti kandidatov: verjetnostna masa. Nastali seznam možnosti, top-p, nato zagotavlja veliko bogatejši rezultat kot pri pristopu top-k, ki je bil uporabljen z GPT-2 in sorodniki.

To tudi pomeni, da je treba pri samodejni analizi besedila upoštevati več pristopov. Za analizo, ki jo opravi človeški bralec, bi bila razlika med besedilom top-k (GPT-2) in top-p (GPT-3) ostra, pri čemer bi slednjo vrsto verjetno prepoznali, kot da jo je napisal človek.

Negotovi časi

Tako se zdi, da je odgovor na vprašanje, ali je dano besedilo ustvaril človek ali ne, dokončen "morda". Čeprav lahko statistična analiza poda nekaj namigov glede verjetnosti, da je besedilo ustvaril doktor znanosti, mora končno presoditi človek, ki lahko ne le ugotovi, ali besedilo prestane pomensko in kontekstualno, ampak tudi preveri domnevni vir besedila za pristnost.

Seveda obstaja veliko situacij, ko morda ni pomembno, kdo je napisal besedilo, če so podatki v njem dejansko pravilni. Toda kadar gre za morebitne zlobne namene ali namen goljufanja, je treba ravnati s potrebno skrbnostjo. Tudi z vzpostavljenimi algoritmi za samodejno zaznavanje ter z usposobljenim in previdnim uporabnikom je bralec še vedno odgovoren za navzkrižno sklicevanje na informacije in ugotavljanje, ali je izjava, ki jo je dal naključni račun na družbenih medijih, morda resnična.

(Opomba urednika: Ta objava o poskusu OpenAI-ja, da odkrije lastno prozo izšel med pisanjem in objavo tega članka. Njihovi rezultati niso tako odlični in tako kot pri vsem iz »Open«AI tudi njihove metode niso javno razkrite. Lahko pa preizkusite klasifikator.)

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. Dostopite tukaj.
vir: https://hackaday.com/2023/02/01/detecting-machine-generated-content-an-easier-task-for-machine-or-human/

Časovni žig: Februar 1, 2023

Časovni žig: Jan 26, 2024

Ponovno objavil Platon

Tiny Forth bi lahko bil najmanjši

Navijalo tuljave, ki ga krmili Arduino

Bot čuvaj za vašega domačega pomočnika

Klepetanje z lokalno umetno inteligenco se po zaslugi Web LLM premakne neposredno v brskalnik

Epska naloga za izgradnjo vrhunskega Game Boya

Retro pripomočki: žepni osciloskop iz leta 1983

Povezave Hackaday: 12. februar 2023

Digital Master Tapes Seek Deck

Popravljanje C64 s poceni osciloskopom za 20 USD

Hackaday Podcast Episode 249: Podatki z laserjem in padalom, Bluetooth Hacks, Google mora Google

Izdelava kabelsko vodenega Delta tiskalnika

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun