注: 当社のサービスの一環として 準備の枠組み、私たちはAIを活用した安全性リスクの改善された評価方法の開発に投資しています。私たちは、これらの取り組みはより広範なインプットから恩恵を受けるだろうし、手法の共有は AI リスク研究コミュニティにとっても価値があると信じています。この目的を達成するために、今日は生物学的リスクに焦点を当てた初期の研究の一部を紹介します。私たちはコミュニティからのフィードバックや、進行中の研究をさらに共有することを楽しみにしています。
バックグラウンド。 OpenAI や他のモデル開発者がより高性能な AI システムを構築するにつれて、AI の有益な使用と有害な使用の両方の可能性が増大します。研究者や政策立案者によって強調されている潜在的に有害な使用法の 1 つは、悪意のある攻撃者が生物学的脅威を生み出すのを支援する AI システムの機能です (例: ホワイトハウス 2023, ラブレース 2022, サンドブリンク 2023)。議論されている仮説の例では、悪意のある攻撃者は、高度な機能を備えたモデルを使用して、ステップバイステップのプロトコルを開発したり、ウェットラボ手順のトラブルシューティングを行ったり、次のようなツールへのアクセスを許可された場合に、生物脅威作成プロセスのステップを自律的に実行したりする可能性があります。 クラウドラボ (参照してください カーター他、2023)。しかし、そのような仮説的な例の実行可能性を評価することは、評価とデータが不十分であるために制限されました。
最近共有されたものに従ってください 準備の枠組み、私たちは、現在の状況と将来の状況の両方を理解するのに役立つ、この種のリスクを経験的に評価する方法論を開発しています。ここでは、生物学的誤用の可能性についての注意とさらなるテストの必要性を示す、潜在的な「トリップワイヤー」の 1 つとして役立つ可能性のある新しい評価について詳しく説明します。この評価は、既存のリソース (インターネットなど) のベースラインと比較して、モデルが生物学的脅威の作成に関する危険な情報への悪意のある攻撃者のアクセスを有意に増加させることができるかどうかを測定することを目的としています。
これを評価するために、我々は人間の参加者 100 名を対象に研究を実施しました。この参加者は、(a) 博士号を取得しウェットラボの専門的な経験を持つ生物学の専門家 50 名、(b) 大学レベルの生物学コースを少なくとも 50 つ受講している学生レベルの参加者 4 名で構成されます。参加者の各グループは、インターネットのみにアクセスできる対照グループ、またはインターネットに加えて GPT-XNUMX にアクセスできる治療グループのいずれかにランダムに割り当てられました。次に、各参加者は、生物学的脅威を生み出すためのエンドツーエンドのプロセスの側面をカバーする一連のタスクを完了するように求められました。[^ 1] 私たちの知る限り、これはバイオリスク情報に対する AI の影響に関する人間による評価としてはこれまでで最大のものです。
調査結果。 私たちの研究では、GPT-4 にアクセスできる参加者のパフォーマンスの向上を 10 つの指標 (精度、完全性、革新性、所要時間、自己評価の難易度) と生物学的脅威作成プロセスの 0.88 つの段階 (発想、獲得、倍率、定式化) にわたって評価しました。 、放します)。言語モデルにアクセスできるユーザーの精度と完全性が若干向上していることがわかりました。具体的には、回答の正確さを測定する 0.25 ポイント スケールで、インターネットのみのベースラインと比較して、平均スコアが専門家で 0.82、学生で 0.41 増加し、完全性についても同様の上昇 (専門家で XNUMX、学生で XNUMX) が観察されました。しかし、得られた効果量は統計的に有意と言えるほど大きくなく、私たちの研究は、どのようなパフォーマンス閾値がリスクの有意な増加を示すのかについてさらなる研究の必要性を浮き彫りにしました。さらに、情報へのアクセスだけでは生物学的脅威を生み出すには不十分であり、この評価は脅威の物理的構築の成功をテストするものではないことに注意します。
以下では、評価手順とその結果について詳しく説明します。また、フロンティア モデルを使用してこの種の評価を大規模に実行するために必要な機能の引き出しとセキュリティの考慮事項に関連するいくつかの方法論的な洞察についても説明します。また、モデルのリスクを測定する効果的な方法としての統計的有意性の限界と、モデルの評価結果の有意性を評価する際の新しい研究の重要性についても説明します。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://openai.com/research/building-an-early-warning-system-for-llm-aided-biological-threat-creation
- :は
- :not
- :どこ
- 1
- 100
- 25
- 41
- 50
- a
- 能力
- 私たちについて
- アクセス
- 精度
- 買収
- 越えて
- 俳優
- 添加
- AI
- AIシステム
- 目指して
- AL
- 一人で
- また
- an
- および
- です
- 周りに
- AS
- 側面
- 評価された
- 評価中
- 割り当てられた
- アシスト
- At
- 自律的に
- b
- ベースライン
- BE
- 信じる
- 有益な
- 恩恵
- 生物学
- 両言語で
- より広い
- ビルド
- 建物
- by
- 機能
- できる
- 注意
- コミュニティ
- 比べ
- コンプリート
- 備えます
- 実施
- 検討事項
- 建設
- コントロール
- 可能性
- ここから
- カバーする
- 作ります
- 作成
- 創造
- 危険な
- データ
- 詳細
- 開発する
- 開発者
- 開発
- 開発
- 難しさ
- 話し合います
- 議論する
- ありません
- e
- E&T
- 各
- 早い
- 効果
- 効果的な
- 努力
- どちら
- end
- 端から端まで
- 十分な
- エラー
- 評価する
- 評価
- 評価
- さらに
- 例
- 例
- 実行します
- 既存の
- 体験
- 専門家
- フィードバック
- 五
- 焦点を当て
- 処方
- フォワード
- 発見
- から
- フロンティア
- さらに
- 未来
- 与えられた
- グループ
- 成長する
- 持っていました
- 有害な
- 助けます
- こちら
- 強調表示された
- お家の掃除
- しかしながら
- HTTP
- HTTPS
- 人間
- i
- 念慮
- 影響
- 重要性
- 改善されました
- in
- 増える
- 示す
- 情報
- 革新的手法
- 洞察
- インターネット
- 投資
- IT
- JPG
- 知識
- ラボ
- 言語
- 大
- 最大の
- 最低
- ような
- 制限
- 限定的
- 見て
- 悪意のある
- 意味する
- 意味のある
- だけど
- 計測
- 方法
- 方法論
- メソッド
- メトリック
- かもしれない
- 軽度の
- 誤用
- モデル
- 他には?
- さらに
- 必要
- 必要とされる
- 新作
- 注意
- 観測された
- 得
- of
- on
- ONE
- 継続
- の
- OpenAI
- or
- その他
- 私たちの
- 部
- 参加者
- 参加者
- パフォーマンス
- 物理的な
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 政策立案
- 潜在的な
- :
- 手続き
- 手続き
- プロセス
- プロ
- 最近
- 関連する
- リリース
- 研究
- 研究コミュニティ
- 研究者
- リソース
- 回答
- 結果
- リスク
- リスク
- ラン
- 安全性
- 規模
- スコア
- セキュリティ
- 役立つ
- セッションに
- いくつかの
- シェアする
- shared
- シェアリング
- 意義
- 重要
- 同様の
- サイズ
- 一部
- 特に
- ステージ
- 統計的
- 統計的に
- ステップ
- 生徒
- 勉強
- 成功
- そのような
- システム
- 撮影
- タスク
- test
- テスト
- それ
- 未来
- その後
- ボーマン
- この
- それらの
- 脅威
- 脅威
- 時間
- 〜へ
- 今日
- 豊富なツール群
- 治療
- type
- わかる
- us
- つかいます
- 使用されます
- 値
- 生存率
- VOX
- 警告
- ました
- we
- した
- この試験は
- いつ
- かどうか
- which
- 意志
- でしょう
- 得られた
- ゼファーネット