Δημιουργία συστήματος έγκαιρης προειδοποίησης για τη δημιουργία βιολογικών απειλών με τη βοήθεια LLM

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Σημείωση: Ως μέρος μας Πλαίσιο Ετοιμότητας, επενδύουμε στην ανάπτυξη βελτιωμένων μεθόδων αξιολόγησης για κινδύνους ασφάλειας που προέρχονται από την τεχνητή νοημοσύνη. Πιστεύουμε ότι αυτές οι προσπάθειες θα ωφεληθούν από την ευρύτερη συμβολή και ότι η κοινή χρήση μεθόδων θα μπορούσε επίσης να έχει αξία για την ερευνητική κοινότητα κινδύνου τεχνητής νοημοσύνης. Για το σκοπό αυτό, παρουσιάζουμε μερικές από τις πρώτες εργασίες μας - σήμερα, εστιασμένες στον βιολογικό κίνδυνο. Ανυπομονούμε για τα σχόλια της κοινότητας και για την κοινή χρήση περισσότερων από τη συνεχιζόμενη έρευνά μας.

Ιστορικό. Καθώς το OpenAI και άλλοι προγραμματιστές μοντέλων κατασκευάζουν πιο ικανά συστήματα τεχνητής νοημοσύνης, οι δυνατότητες τόσο για ωφέλιμες όσο και για επιβλαβείς χρήσεις του AI θα αυξηθούν. Μια δυνητικά επιβλαβής χρήση, που τονίστηκε από ερευνητές και υπεύθυνους χάραξης πολιτικής, είναι η ικανότητα των συστημάτων τεχνητής νοημοσύνης να βοηθούν τους κακόβουλους παράγοντες στη δημιουργία βιολογικών απειλών (π.χ. βλ. Λευκός Οίκος 2023, Lovelace 2022, Sandbrink 2023). Σε ένα συζητημένο υποθετικό παράδειγμα, ένας κακόβουλος παράγοντας μπορεί να χρησιμοποιήσει ένα μοντέλο υψηλής ικανότητας για να αναπτύξει ένα πρωτόκολλο βήμα προς βήμα, να αντιμετωπίσει προβλήματα διαδικασιών wet-lab ή ακόμα και να εκτελέσει αυτόνομα βήματα της διαδικασίας δημιουργίας βιοαπειλής όταν του δοθεί πρόσβαση σε εργαλεία όπως εργαστήρια σύννεφων (Βλ. Carter et αϊ., 2023). Ωστόσο, η αξιολόγηση της βιωσιμότητας τέτοιων υποθετικών παραδειγμάτων περιορίστηκε από ανεπαρκείς αξιολογήσεις και δεδομένα.

Μετά την πρόσφατη κοινή χρήση μας Πλαίσιο Ετοιμότητας, αναπτύσσουμε μεθοδολογίες για να αξιολογήσουμε εμπειρικά αυτούς τους τύπους κινδύνων, για να μας βοηθήσουν να κατανοήσουμε τόσο πού βρισκόμαστε σήμερα όσο και πού μπορεί να βρισκόμαστε στο μέλλον. Εδώ, περιγράφουμε λεπτομερώς μια νέα αξιολόγηση που θα μπορούσε να χρησιμεύσει ως ένα πιθανό "tripwire" που σηματοδοτεί την ανάγκη για προσοχή και περαιτέρω δοκιμές της πιθανότητας βιολογικής κακής χρήσης. Αυτή η αξιολόγηση στοχεύει να μετρήσει εάν τα μοντέλα θα μπορούσαν να αυξήσουν ουσιαστικά την πρόσβαση των κακόβουλων παραγόντων σε επικίνδυνες πληροφορίες σχετικά με τη δημιουργία βιολογικών απειλών, σε σύγκριση με τη βασική γραμμή των υπαρχόντων πόρων (δηλαδή, το διαδίκτυο).

Για να το αξιολογήσουμε αυτό, πραγματοποιήσαμε μια μελέτη με 100 ανθρώπους συμμετέχοντες, που περιελάμβανε (α) 50 ειδικούς βιολογίας με διδακτορικό και επαγγελματική εμπειρία στο υγρό εργαστήριο και (β) 50 συμμετέχοντες σε επίπεδο φοιτητή, με τουλάχιστον ένα πανεπιστημιακό μάθημα βιολογίας. Κάθε ομάδα συμμετεχόντων χωρίστηκε τυχαία είτε σε μια ομάδα ελέγχου, η οποία είχε πρόσβαση μόνο στο διαδίκτυο, είτε σε μια ομάδα θεραπείας, η οποία είχε πρόσβαση στο GPT-4 εκτός από το Διαδίκτυο. Στη συνέχεια, ζητήθηκε από κάθε συμμετέχοντα να ολοκληρώσει ένα σύνολο εργασιών που καλύπτουν πτυχές της διαδικασίας από άκρο σε άκρο για τη δημιουργία βιολογικής απειλής.^{[^1]} Από ό,τι γνωρίζουμε, αυτή είναι η μεγαλύτερη μέχρι σήμερα αξιολόγηση του αντίκτυπου της τεχνητής νοημοσύνης από τον άνθρωπο στις πληροφορίες βιολογικού κινδύνου.

Ευρήματα. Η μελέτη μας αξιολόγησε τις αυξήσεις στην απόδοση για συμμετέχοντες με πρόσβαση στο GPT-4 σε πέντε μετρήσεις (ακρίβεια, πληρότητα, καινοτομία, χρόνος που απαιτείται και αυτοαξιολόγηση δυσκολίας) και πέντε στάδια στη διαδικασία δημιουργίας βιολογικής απειλής (ιδεασμός, απόκτηση, μεγέθυνση, διατύπωση και απελευθέρωση). Βρήκαμε ήπιες αυξήσεις στην ακρίβεια και την πληρότητα για όσους έχουν πρόσβαση στο γλωσσικό μοντέλο. Συγκεκριμένα, σε μια κλίμακα 10 βαθμών που μετρά την ακρίβεια των απαντήσεων, παρατηρήσαμε αύξηση της μέσης βαθμολογίας 0.88 για τους ειδικούς και 0.25 για τους μαθητές σε σύγκριση με τη βασική γραμμή μόνο στο διαδίκτυο και παρόμοιες αυξήσεις για την πληρότητα (0.82 για τους ειδικούς και 0.41 για τους μαθητές). Ωστόσο, τα ληφθέντα μεγέθη επιδράσεων δεν ήταν αρκετά μεγάλα ώστε να είναι στατιστικά σημαντικά και η μελέτη μας τόνισε την ανάγκη για περισσότερη έρευνα σχετικά με τα όρια απόδοσης που υποδηλώνουν σημαντική αύξηση του κινδύνου. Επιπλέον, σημειώνουμε ότι η πρόσβαση στις πληροφορίες από μόνη της είναι ανεπαρκής για τη δημιουργία βιολογικής απειλής και ότι αυτή η αξιολόγηση δεν δοκιμάζει την επιτυχία στη φυσική κατασκευή των απειλών.

Παρακάτω, μοιραζόμαστε τη διαδικασία αξιολόγησής μας και τα αποτελέσματα που έδωσε με περισσότερες λεπτομέρειες. Συζητούμε επίσης διάφορες μεθοδολογικές γνώσεις που σχετίζονται με την απόκτηση δυνατοτήτων και ζητήματα ασφάλειας που απαιτούνται για την εκτέλεση αυτού του τύπου αξιολόγησης με μοντέλα συνόρων σε κλίμακα. Συζητάμε επίσης τους περιορισμούς της στατιστικής σημασίας ως αποτελεσματικής μεθόδου μέτρησης του κινδύνου μοντέλου και τη σημασία της νέας έρευνας για την αξιολόγηση της σημασίας των αποτελεσμάτων αξιολόγησης του μοντέλου.