Budowa systemu wczesnego ostrzegania o tworzeniu zagrożeń biologicznych wspomaganych przez LLM

Opublikowane ponownie przez Plato

Obserwuje: 0

Uwaga: w ramach naszego Ramy gotowości, inwestujemy w rozwój ulepszonych metod oceny zagrożeń bezpieczeństwa opartych na sztucznej inteligencji. Wierzymy, że wysiłki te przyniosłyby korzyści dzięki szerszemu wkładowi, a dzielenie się metodami mogłoby być również wartościowe dla społeczności badawczej zajmującej się ryzykiem związanym ze sztuczną inteligencją. W tym celu prezentujemy niektóre z naszych wczesnych prac – obecnie skupiających się na ryzyku biologicznym. Z niecierpliwością czekamy na opinie społeczności i udostępnianie dalszych wyników naszych bieżących badań.

Tło. W miarę jak OpenAI i inni twórcy modeli będą tworzyć coraz wydajniejsze systemy sztucznej inteligencji, potencjał zarówno korzystnych, jak i szkodliwych zastosowań sztucznej inteligencji będzie rósł. Jednym z potencjalnie szkodliwych zastosowań, na który zwracają uwagę badacze i decydenci, jest zdolność systemów sztucznej inteligencji do pomagania złośliwym podmiotom w tworzeniu zagrożeń biologicznych (np. zob. Biały Dom 2023, Miłość 2022, Sandbrink 2023). W jednym z omawianych hipotetycznych przykładów złośliwy aktor może wykorzystać wysoce wydajny model do opracowania protokołu krok po kroku, rozwiązywania problemów z procedurami mokrego laboratorium lub nawet autonomicznego wykonywania etapów procesu tworzenia zagrożenia biologicznego, mając dostęp do narzędzi takich jak laboratoria w chmurze (Patrz Carter i in., 2023). Ocena wykonalności takich hipotetycznych przykładów była jednak ograniczona ze względu na niewystarczające oceny i dane.

Po naszym niedawno udostępnionym Ramy gotowościopracowujemy metodologie umożliwiające empiryczną ocenę tego rodzaju ryzyka, które pomogą nam zrozumieć, gdzie jesteśmy dzisiaj i gdzie możemy być w przyszłości. W tym miejscu szczegółowo opisujemy nową ocenę, która może pomóc jako potencjalny „przeszkoda” sygnalizująca potrzebę zachowania ostrożności i dalszych testów potencjału niewłaściwego stosowania biologicznego. Celem tej oceny jest sprawdzenie, czy modele mogłyby znacząco zwiększyć dostęp złośliwych podmiotów do niebezpiecznych informacji na temat powstania zagrożenia biologicznego w porównaniu z podstawowymi zasobami (tj. Internetem).

Aby to ocenić, przeprowadziliśmy badanie z udziałem 100 ludzi, w tym (a) 50 ekspertów w dziedzinie biologii z tytułem doktora i doświadczeniem w pracy w laboratorium mokrym oraz (b) 50 uczestników na poziomie studenckim, którzy ukończyli co najmniej jeden kurs biologii na poziomie uniwersyteckim. Każdą grupę uczestników losowo przydzielono do grupy kontrolnej, która miała jedynie dostęp do Internetu, lub grupy terapeutycznej, która oprócz Internetu miała dostęp do GPT-4. Następnie każdego uczestnika poproszono o wykonanie zestawu zadań obejmujących aspekty kompleksowego procesu tworzenia zagrożenia biologicznego.^{[^1]} Według naszej wiedzy jest to największa jak dotąd przeprowadzona przez człowieka ocena wpływu sztucznej inteligencji na informacje o ryzyku biologicznym.

Wyniki. W naszym badaniu ocenialiśmy poprawę wyników uczestników mających dostęp do GPT-4 na podstawie pięciu wskaźników (dokładność, kompletność, innowacyjność, czas potrzebny i samoocena trudności) oraz pięciu etapów procesu tworzenia zagrożenia biologicznego (ideacja, nabycie, powiększenie, sformułowanie i zwolnij). Stwierdziliśmy łagodny wzrost dokładności i kompletności w przypadku osób mających dostęp do modelu językowego. W szczególności w 10-punktowej skali mierzącej dokładność odpowiedzi zaobserwowaliśmy średni wzrost wyniku o 0.88 w przypadku ekspertów i 0.25 w przypadku studentów w porównaniu z wartością bazową korzystającą wyłącznie z Internetu oraz podobny wzrost w zakresie kompletności (0.82 w przypadku ekspertów i 0.41 w przypadku studentów). Jednakże uzyskane rozmiary efektu nie były wystarczająco duże, aby były istotne statystycznie, a nasze badanie podkreśliło potrzebę dalszych badań nad tym, jakie progi wydajności wskazują na znaczący wzrost ryzyka. Co więcej, zauważamy, że sam dostęp do informacji nie wystarczy, aby stworzyć zagrożenie biologiczne, oraz że ta ocena nie sprawdza powodzenia w fizycznej konstrukcji zagrożeń.

Poniżej bardziej szczegółowo przedstawiamy naszą procedurę oceny i wyniki, które przyniosła. Omawiamy także kilka spostrzeżeń metodologicznych związanych z pozyskiwaniem możliwości i względami bezpieczeństwa niezbędnymi do przeprowadzania tego typu ewaluacji za pomocą modeli pionierskich na dużą skalę. Omawiamy także ograniczenia istotności statystycznej jako skutecznej metody pomiaru ryzyka modeli oraz znaczenie nowych badań w ocenie istotności wyników oceny modeli.