Building An Early Warning System For LLM-aided Biological Threat Creation

Neuauflage von Plato

Verfolger: 0

Hinweis: Im Rahmen unserer BereitschaftsrahmenWir investieren in die Entwicklung verbesserter Bewertungsmethoden für KI-gestützte Sicherheitsrisiken. Wir glauben, dass diese Bemühungen von einem breiteren Input profitieren würden und dass der Methodenaustausch auch für die KI-Risikoforschungsgemeinschaft von Wert sein könnte. Zu diesem Zweck stellen wir einige unserer frühen Arbeiten vor, die sich heute auf biologische Risiken konzentrieren. Wir freuen uns auf das Feedback der Community und darauf, mehr über unsere laufende Forschung zu teilen.

Hintergrund. Da OpenAI und andere Modellentwickler leistungsfähigere KI-Systeme entwickeln, wird das Potenzial für sowohl nützliche als auch schädliche Einsatzmöglichkeiten von KI wachsen. Eine potenziell schädliche Nutzung, die von Forschern und politischen Entscheidungsträgern hervorgehoben wird, ist die Fähigkeit von KI-Systemen, böswillige Akteure bei der Schaffung biologischer Bedrohungen zu unterstützen (siehe z. B Weißes Haus 2023, Lovelace 2022, Sandbrink). In einem diskutierten hypothetischen Beispiel könnte ein böswilliger Akteur ein hochleistungsfähiges Modell verwenden, um ein Schritt-für-Schritt-Protokoll zu entwickeln, Fehler in Nasslaborverfahren zu beheben oder sogar selbstständig Schritte des Biothreat-Erzeugungsprozesses auszuführen, wenn er Zugriff auf Tools wie … erhält Cloud-Labore (sehen Carteret al., 2023). Die Beurteilung der Realisierbarkeit solcher hypothetischen Beispiele wurde jedoch durch unzureichende Bewertungen und Daten eingeschränkt.

Im Anschluss an unsere kürzlich geteilte BereitschaftsrahmenWir entwickeln Methoden zur empirischen Bewertung dieser Art von Risiken, um zu verstehen, wo wir heute stehen und wo wir in Zukunft stehen könnten. Hier beschreiben wir eine neue Bewertung, die als potenzieller „Stolperdraht“ dienen könnte, der auf die Notwendigkeit von Vorsicht und weiteren Tests des biologischen Missbrauchspotenzials hinweist. Ziel dieser Bewertung ist es zu messen, ob Modelle den Zugang böswilliger Akteure zu gefährlichen Informationen über die Entstehung biologischer Bedrohungen im Vergleich zu den vorhandenen Ressourcen (z. B. dem Internet) sinnvoll verbessern könnten.

Um dies zu bewerten, führten wir eine Studie mit 100 menschlichen Teilnehmern durch, bestehend aus (a) 50 Biologieexperten mit Doktortiteln und professioneller Erfahrung im Nasslabor und (b) 50 Teilnehmern auf Studentenniveau, die mindestens einen Kurs in Biologie auf Universitätsniveau absolviert haben. Jede Teilnehmergruppe wurde nach dem Zufallsprinzip entweder einer Kontrollgruppe, die nur Zugang zum Internet hatte, oder einer Behandlungsgruppe, die zusätzlich zum Internet Zugang zu GPT-4 hatte, zugeordnet. Anschließend wurde jeder Teilnehmer gebeten, eine Reihe von Aufgaben zu erledigen, die Aspekte des End-to-End-Prozesses zur Entstehung biologischer Bedrohungen abdecken.^{[^1]} Nach unserem Kenntnisstand ist dies die bisher größte menschliche Bewertung der Auswirkungen von KI auf Biorisikoinformationen.

Ergebnisse. Unsere Studie bewertete Leistungssteigerungen für Teilnehmer mit Zugang zu GPT-4 anhand von fünf Metriken (Genauigkeit, Vollständigkeit, Innovation, benötigte Zeit und selbstbewertete Schwierigkeit) und fünf Phasen im Entstehungsprozess biologischer Bedrohungen (Idee, Erfassung, Vergrößerung, Formulierung). , und Freigabe). Wir haben leichte Verbesserungen bei der Genauigkeit und Vollständigkeit bei denjenigen festgestellt, die Zugang zum Sprachmodell haben. Konkret beobachteten wir auf einer 10-Punkte-Skala zur Messung der Genauigkeit der Antworten einen durchschnittlichen Anstieg der Punktzahl um 0.88 für Experten und 0.25 für Studierende im Vergleich zum reinen Internet-Basiswert sowie ähnliche Steigerungen bei der Vollständigkeit (0.82 für Experten und 0.41 für Studierende). Allerdings waren die erhaltenen Effektstärken nicht groß genug, um statistisch signifikant zu sein, und unsere Studie machte deutlich, dass weitere Untersuchungen darüber erforderlich sind, welche Leistungsschwellen auf einen signifikanten Anstieg des Risikos hinweisen. Darüber hinaus stellen wir fest, dass der Zugang zu Informationen allein nicht ausreicht, um eine biologische Bedrohung zu schaffen, und dass diese Bewertung nicht den Erfolg bei der physischen Konstruktion der Bedrohungen prüft.

Im Folgenden erläutern wir unser Bewertungsverfahren und die daraus resultierenden Ergebnisse ausführlicher. Wir diskutieren auch mehrere methodische Erkenntnisse im Zusammenhang mit der Ermittlung von Fähigkeiten und Sicherheitsüberlegungen, die für die Durchführung dieser Art von Bewertung mit Grenzmodellen im großen Maßstab erforderlich sind. Wir diskutieren auch die Grenzen der statistischen Signifikanz als wirksame Methode zur Messung des Modellrisikos und die Bedeutung neuer Forschungsergebnisse für die Beurteilung der Aussagekraft von Modellbewertungsergebnissen.