Σημείωση: Ως μέρος μας Πλαίσιο Ετοιμότητας, επενδύουμε στην ανάπτυξη βελτιωμένων μεθόδων αξιολόγησης για κινδύνους ασφάλειας που προέρχονται από την τεχνητή νοημοσύνη. Πιστεύουμε ότι αυτές οι προσπάθειες θα ωφεληθούν από την ευρύτερη συμβολή και ότι η κοινή χρήση μεθόδων θα μπορούσε επίσης να έχει αξία για την ερευνητική κοινότητα κινδύνου τεχνητής νοημοσύνης. Για το σκοπό αυτό, παρουσιάζουμε μερικές από τις πρώτες εργασίες μας - σήμερα, εστιασμένες στον βιολογικό κίνδυνο. Ανυπομονούμε για τα σχόλια της κοινότητας και για την κοινή χρήση περισσότερων από τη συνεχιζόμενη έρευνά μας.
Ιστορικό. Καθώς το OpenAI και άλλοι προγραμματιστές μοντέλων κατασκευάζουν πιο ικανά συστήματα τεχνητής νοημοσύνης, οι δυνατότητες τόσο για ωφέλιμες όσο και για επιβλαβείς χρήσεις του AI θα αυξηθούν. Μια δυνητικά επιβλαβής χρήση, που τονίστηκε από ερευνητές και υπεύθυνους χάραξης πολιτικής, είναι η ικανότητα των συστημάτων τεχνητής νοημοσύνης να βοηθούν τους κακόβουλους παράγοντες στη δημιουργία βιολογικών απειλών (π.χ. βλ. Λευκός Οίκος 2023, Lovelace 2022, Sandbrink 2023). Σε ένα συζητημένο υποθετικό παράδειγμα, ένας κακόβουλος παράγοντας μπορεί να χρησιμοποιήσει ένα μοντέλο υψηλής ικανότητας για να αναπτύξει ένα πρωτόκολλο βήμα προς βήμα, να αντιμετωπίσει προβλήματα διαδικασιών wet-lab ή ακόμα και να εκτελέσει αυτόνομα βήματα της διαδικασίας δημιουργίας βιοαπειλής όταν του δοθεί πρόσβαση σε εργαλεία όπως εργαστήρια σύννεφων (Βλ. Carter et αϊ., 2023). Ωστόσο, η αξιολόγηση της βιωσιμότητας τέτοιων υποθετικών παραδειγμάτων περιορίστηκε από ανεπαρκείς αξιολογήσεις και δεδομένα.
Μετά την πρόσφατη κοινή χρήση μας Πλαίσιο Ετοιμότητας, αναπτύσσουμε μεθοδολογίες για να αξιολογήσουμε εμπειρικά αυτούς τους τύπους κινδύνων, για να μας βοηθήσουν να κατανοήσουμε τόσο πού βρισκόμαστε σήμερα όσο και πού μπορεί να βρισκόμαστε στο μέλλον. Εδώ, περιγράφουμε λεπτομερώς μια νέα αξιολόγηση που θα μπορούσε να χρησιμεύσει ως ένα πιθανό "tripwire" που σηματοδοτεί την ανάγκη για προσοχή και περαιτέρω δοκιμές της πιθανότητας βιολογικής κακής χρήσης. Αυτή η αξιολόγηση στοχεύει να μετρήσει εάν τα μοντέλα θα μπορούσαν να αυξήσουν ουσιαστικά την πρόσβαση των κακόβουλων παραγόντων σε επικίνδυνες πληροφορίες σχετικά με τη δημιουργία βιολογικών απειλών, σε σύγκριση με τη βασική γραμμή των υπαρχόντων πόρων (δηλαδή, το διαδίκτυο).
Για να το αξιολογήσουμε αυτό, πραγματοποιήσαμε μια μελέτη με 100 ανθρώπους συμμετέχοντες, που περιελάμβανε (α) 50 ειδικούς βιολογίας με διδακτορικό και επαγγελματική εμπειρία στο υγρό εργαστήριο και (β) 50 συμμετέχοντες σε επίπεδο φοιτητή, με τουλάχιστον ένα πανεπιστημιακό μάθημα βιολογίας. Κάθε ομάδα συμμετεχόντων χωρίστηκε τυχαία είτε σε μια ομάδα ελέγχου, η οποία είχε πρόσβαση μόνο στο διαδίκτυο, είτε σε μια ομάδα θεραπείας, η οποία είχε πρόσβαση στο GPT-4 εκτός από το Διαδίκτυο. Στη συνέχεια, ζητήθηκε από κάθε συμμετέχοντα να ολοκληρώσει ένα σύνολο εργασιών που καλύπτουν πτυχές της διαδικασίας από άκρο σε άκρο για τη δημιουργία βιολογικής απειλής.[^1] Από ό,τι γνωρίζουμε, αυτή είναι η μεγαλύτερη μέχρι σήμερα αξιολόγηση του αντίκτυπου της τεχνητής νοημοσύνης από τον άνθρωπο στις πληροφορίες βιολογικού κινδύνου.
Ευρήματα. Η μελέτη μας αξιολόγησε τις αυξήσεις στην απόδοση για συμμετέχοντες με πρόσβαση στο GPT-4 σε πέντε μετρήσεις (ακρίβεια, πληρότητα, καινοτομία, χρόνος που απαιτείται και αυτοαξιολόγηση δυσκολίας) και πέντε στάδια στη διαδικασία δημιουργίας βιολογικής απειλής (ιδεασμός, απόκτηση, μεγέθυνση, διατύπωση και απελευθέρωση). Βρήκαμε ήπιες αυξήσεις στην ακρίβεια και την πληρότητα για όσους έχουν πρόσβαση στο γλωσσικό μοντέλο. Συγκεκριμένα, σε μια κλίμακα 10 βαθμών που μετρά την ακρίβεια των απαντήσεων, παρατηρήσαμε αύξηση της μέσης βαθμολογίας 0.88 για τους ειδικούς και 0.25 για τους μαθητές σε σύγκριση με τη βασική γραμμή μόνο στο διαδίκτυο και παρόμοιες αυξήσεις για την πληρότητα (0.82 για τους ειδικούς και 0.41 για τους μαθητές). Ωστόσο, τα ληφθέντα μεγέθη επιδράσεων δεν ήταν αρκετά μεγάλα ώστε να είναι στατιστικά σημαντικά και η μελέτη μας τόνισε την ανάγκη για περισσότερη έρευνα σχετικά με τα όρια απόδοσης που υποδηλώνουν σημαντική αύξηση του κινδύνου. Επιπλέον, σημειώνουμε ότι η πρόσβαση στις πληροφορίες από μόνη της είναι ανεπαρκής για τη δημιουργία βιολογικής απειλής και ότι αυτή η αξιολόγηση δεν δοκιμάζει την επιτυχία στη φυσική κατασκευή των απειλών.
Παρακάτω, μοιραζόμαστε τη διαδικασία αξιολόγησής μας και τα αποτελέσματα που έδωσε με περισσότερες λεπτομέρειες. Συζητούμε επίσης διάφορες μεθοδολογικές γνώσεις που σχετίζονται με την απόκτηση δυνατοτήτων και ζητήματα ασφάλειας που απαιτούνται για την εκτέλεση αυτού του τύπου αξιολόγησης με μοντέλα συνόρων σε κλίμακα. Συζητάμε επίσης τους περιορισμούς της στατιστικής σημασίας ως αποτελεσματικής μεθόδου μέτρησης του κινδύνου μοντέλου και τη σημασία της νέας έρευνας για την αξιολόγηση της σημασίας των αποτελεσμάτων αξιολόγησης του μοντέλου.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://openai.com/research/building-an-early-warning-system-for-llm-aided-biological-threat-creation
- :είναι
- :δεν
- :που
- 1
- 100
- 25
- 41
- 50
- a
- ικανότητα
- Σχετικα
- πρόσβαση
- ακρίβεια
- απόκτηση
- απέναντι
- φορείς
- Επιπλέον
- AI
- Συστήματα AI
- στόχοι
- AL
- alone
- Επίσης
- an
- και
- ΕΙΝΑΙ
- γύρω
- AS
- πτυχές
- αξιολόγηση
- Αξιολόγηση
- ανατεθεί
- βοηθήσει
- At
- αυτόνομα
- b
- Baseline
- BE
- Πιστεύω
- ευεργετική
- όφελος
- βιολογία
- και οι δύο
- ευρύτερη
- χτίζω
- Κτίριο
- by
- ικανότητα
- ικανός
- προσοχή
- κοινότητα
- σύγκριση
- πλήρης
- που περιλαμβάνει
- διενεργούνται
- θεωρήσεις
- δόμηση
- έλεγχος
- θα μπορούσε να
- πορεία
- κάλυμμα
- δημιουργία
- δημιουργία
- δημιουργία
- Επικίνδυνες
- ημερομηνία
- λεπτομέρεια
- ανάπτυξη
- προγραμματιστές
- ανάπτυξη
- Ανάπτυξη
- Δυσκολία
- συζητήσουν
- συζήτηση
- κάνει
- e
- Ε & Τ
- κάθε
- Νωρίς
- αποτέλεσμα
- Αποτελεσματικός
- προσπάθειες
- είτε
- τέλος
- από άκρη σε άκρη
- αρκετά
- σφάλμα
- αξιολογήσει
- εκτίμηση
- αξιολογήσεις
- Even
- παράδειγμα
- παραδείγματα
- εκτελέσει
- υφιστάμενα
- εμπειρία
- εμπειρογνώμονες
- ανατροφοδότηση
- πέντε
- επικεντρώθηκε
- Για
- διατύπωση
- Προς τα εμπρός
- Βρέθηκαν
- από
- Σύνορο
- περαιτέρω
- μελλοντικός
- δεδομένου
- Group
- Grow
- είχε
- επιβλαβής
- βοήθεια
- εδώ
- Τόνισε
- Σπίτι
- Ωστόσο
- http
- HTTPS
- ανθρώπινος
- i
- ιδεασμό
- Επίπτωση
- σπουδαιότητα
- βελτιωθεί
- in
- Αυξάνουν
- υποδεικνύω
- πληροφορίες
- Καινοτομία
- εισαγωγή
- ιδέες
- Internet
- επενδύοντας
- IT
- jpg
- γνώση
- εργαστήριο
- Γλώσσα
- large
- μεγαλύτερη
- ελάχιστα
- Μου αρέσει
- περιορισμούς
- Περιωρισμένος
- ματιά
- κακόβουλο
- εννοώ
- νόημα
- μέτρο
- μέτρησης
- μέθοδος
- μεθοδολογίες
- μέθοδοι
- Metrics
- ενδέχεται να
- ήπιος
- κακή χρήση
- μοντέλο
- μοντέλα
- περισσότερο
- Εξάλλου
- Ανάγκη
- που απαιτούνται
- Νέα
- σημείωση
- παρατηρούμενη
- λαμβάνεται
- of
- on
- ONE
- συνεχή
- αποκλειστικά
- OpenAI
- or
- ΑΛΛΑ
- δικός μας
- μέρος
- συμμέτοχος
- συμμετέχοντες
- επίδοση
- φυσικός
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- φορείς χάραξης πολιτικής
- δυναμικού
- ενδεχομένως
- διαδικασία
- διαδικασίες
- διαδικασια μας
- επαγγελματίας
- πρωτόκολλο
- πρόσφατα
- σχετίζεται με
- απελευθερώνουν
- έρευνα
- έρευνα Κοινότητα
- ερευνητές
- Υποστηρικτικό υλικό
- απαντήσεις
- Αποτελέσματα
- Κίνδυνος
- κινδύνους
- τρέξιμο
- Ασφάλεια
- Κλίμακα
- σκορ
- ασφάλεια
- δείτε
- εξυπηρετούν
- σειρά
- διάφοροι
- Κοινοποίηση
- Shared
- μοιράζονται
- σημασία
- σημαντικός
- παρόμοιες
- μεγέθη
- μερικοί
- ειδικά
- στάδια
- στατιστικός
- στατιστικώς
- Βήματα
- Φοιτητές
- Μελέτη
- επιτυχία
- τέτοιος
- σύστημα
- συστήματα
- λαμβάνεται
- εργασίες
- δοκιμή
- Δοκιμές
- ότι
- Η
- Το μέλλον
- τότε
- Αυτοί
- αυτό
- εκείνοι
- απειλή
- απειλές
- ώρα
- προς την
- σήμερα
- εργαλεία
- θεραπεία
- τύπος
- τύποι
- καταλαβαίνω
- us
- χρήση
- χρησιμοποιεί
- αξία
- βιωσιμότητα
- VOX
- προειδοποίηση
- ήταν
- we
- ήταν
- Τι
- πότε
- αν
- Ποιό
- θα
- με
- θα
- απέδωσε
- zephyrnet