Construirea unui sistem de avertizare timpurie pentru crearea de amenințări biologice asistată de LLM

Republicat de Platon

Urmaritori: 0

Notă: Ca parte a noastră Cadrul de pregătire, investim în dezvoltarea unor metode îmbunătățite de evaluare a riscurilor de siguranță activate de IA. Credem că aceste eforturi ar beneficia de o contribuție mai largă și că schimbul de metode ar putea fi, de asemenea, de valoare pentru comunitatea de cercetare a riscurilor AI. În acest scop, vă prezentăm câteva dintre lucrările noastre inițiale, astăzi, axate pe riscul biologic. Așteptăm cu nerăbdare feedbackul comunității și să împărtășim mai multe din cercetările noastre în curs.

Fundal. Pe măsură ce OpenAI și alți dezvoltatori de modele construiesc sisteme AI mai capabile, potențialul de utilizare atât benefică, cât și dăunătoare a AI va crește. O utilizare potențial dăunătoare, evidențiată de cercetători și factorii de decizie politică, este capacitatea sistemelor AI de a ajuta actorii rău intenționați să creeze amenințări biologice (de exemplu, vezi Casa Albă 2023, Lovelace 2022, Sandbrink 2023). Într-un exemplu ipotetic discutat, un actor rău intenționat ar putea folosi un model foarte capabil pentru a dezvolta un protocol pas cu pas, a depana procedurile de laborator umed sau chiar a executa în mod autonom pașii procesului de creare a amenințărilor biologice atunci când i se oferă acces la instrumente precum laboratoare cloud (A se vedea Carter și colab., 2023). Cu toate acestea, evaluarea viabilității unor astfel de exemple ipotetice a fost limitată de evaluări și date insuficiente.

Urmărind recent distribuit Cadrul de pregătire, dezvoltăm metodologii pentru a evalua empiric aceste tipuri de riscuri, pentru a ne ajuta să înțelegem atât unde ne aflăm astăzi, cât și unde am putea fi în viitor. Aici, detaliem o nouă evaluare care ar putea ajuta să servească drept un potențial „tripwire” care semnalează nevoia de precauție și de testare ulterioară a potențialului biologic de utilizare abuzivă. Această evaluare își propune să măsoare dacă modelele ar putea crește în mod semnificativ accesul actorilor rău intenționați la informații periculoase despre crearea amenințărilor biologice, în comparație cu baza resurselor existente (adică, internetul).

Pentru a evalua acest lucru, am efectuat un studiu cu 100 de participanți umani, cuprinzând (a) 50 de experți în biologie cu doctori și experiență profesională în laborator umed și (b) 50 de participanți la nivel de student, cu cel puțin un curs de biologie la nivel universitar. Fiecare grup de participanți a fost repartizat aleatoriu fie unui grup de control, care a avut acces doar la internet, fie unui grup de tratament, care a avut acces la GPT-4 în plus față de internet. Fiecare participant a fost apoi rugat să finalizeze un set de sarcini care acoperă aspecte ale procesului de la capăt la capăt pentru crearea amenințărilor biologice.^{[^ 1]} Din cunoștințele noastre, aceasta este cea mai mare evaluare umană până în prezent a impactului AI asupra informațiilor privind riscurile biologice.

Constatări. Studiul nostru a evaluat creșterile de performanță pentru participanții cu acces la GPT-4 în cinci metrici (acuratețe, completitudine, inovație, timp necesar și dificultate autoevaluată) și cinci etape în procesul de creare a amenințărilor biologice (ideație, achiziție, mărire, formulare). , și eliberare). Am găsit creșteri ușoare în acuratețe și completitudine pentru cei cu acces la modelul lingvistic. Mai exact, pe o scară de 10 puncte care măsoară acuratețea răspunsurilor, am observat o creștere medie a scorului de 0.88 pentru experți și 0.25 pentru studenți în comparație cu linia de bază numai pe internet și creșteri similare pentru completitudine (0.82 pentru experți și 0.41 pentru studenți). Cu toate acestea, dimensiunile efectului obținute nu au fost suficient de mari pentru a fi semnificative din punct de vedere statistic, iar studiul nostru a evidențiat necesitatea unor cercetări suplimentare în jurul pragurilor de performanță care indică o creștere semnificativă a riscului. Mai mult, observăm că doar accesul la informații este insuficient pentru a crea o amenințare biologică și că această evaluare nu testează succesul în construcția fizică a amenințărilor.

Mai jos, vă împărtășim mai detaliat procedura noastră de evaluare și rezultatele pe care le-a dat. De asemenea, discutăm câteva perspective metodologice legate de elicitarea capacităților și considerațiile de securitate necesare pentru a rula acest tip de evaluare cu modele de frontieră la scară. De asemenea, discutăm limitările semnificației statistice ca metodă eficientă de măsurare a riscului modelului și importanța noilor cercetări în evaluarea semnificației rezultatelor evaluării modelului.