ChatGPT は米国の消化器病学試験に合格できませんでした

プラトン再発行

フォロワー： 0

ChatGPTは米国消化器病学会の試験に合格できず、患者に正確な医療情報を生成する能力がないと医師らは警告している。

ファインスタイン医学研究所の医師らが主導した研究では、OpenAI の古い GPT-3.5 モデルと最新の GPT-4 システムを利用した ChatGPT の両方の亜種がテストされました。学術チームは、2021年と2022年の米国消化器病学会（ACG）自己評価テストから取得した多肢選択式の質問をコピーしてボットに貼り付け、ソフトウェアの応答を分析した。

興味深いことに、GPT-3.5 に基づくそれほど高度ではないバージョンは 65.1 の質問のうち 455 パーセントに正解しましたが、より強力な GPT-4 は 62.4 パーセントのスコアを獲得しました。 OpenAI はモデルのトレーニング方法について秘密にしているため、どのようにしてそれが起こったのかを説明するのは困難です。同社の広報担当者は、少なくとも両方のモデルは2021年XNUMX月時点のデータに基づいてトレーニングされたと語った。

いずれにせよ、どちらの結果も試験に合格するための 70% の基準に達するには十分ではありませんでした。

ファインスタイン医学研究所の准教授であり、この研究の上級著者であるアルビンド・トリンダード氏公表セクションに アメリカ消化器病学会、言いました登録.

「スコアは合格または 70 パーセントの取得にそれほど遠くありませんが、医学的アドバイスや医学教育のためには、スコアは 95 以上であるべきだと私は主張します。」

「患者は、自分の医療分野の70パーセントしか知らない医師に安心するとは思わない。医師にこれほどの高い基準を求めるなら、医療チャットボットにも同じ高い基準を要求すべきだ」と同氏は付け加えた。

アメリカ消化器病学会は医師を養成しており、その試験は公式試験の練習として使用されます。医師が認定された消化器内科医になるには、米国内科学会の消化器科試験に合格する必要があります。それには直感だけではなく、知識と勉強が必要です。

ChatGPT は、与えられた文内の次の単語を予測することによって応答を生成します。 AI はトレーニングデータ内の一般的なパターンを学習して、次にどの単語を入力すべきかを判断し、情報を思い出すのに部分的に効果的です。このテクノロジーは急速に進歩していますが、完璧ではなく、特にトレーニングデータに存在しない可能性のあるニッチな主題についてクイズが出されている場合には、虚偽の事実を幻聴する傾向があります。

「ChatGPT の基本的な機能は、テキスト文字列内の次の単語を予測し、そのような応答が事実として正しいかどうかに関係なく、利用可能な情報に基づいて期待される応答を生成することです。ChatGPT には、トピックや問題についての本質的な理解はありません。」と同紙は説明している。

Trindade 氏は、ソフトウェアのトレーニングに使用される Web ページ上の消化器病学関連の情報が正確ではない可能性があるため、医学雑誌やデータベースなどの最良のリソースを使用する必要があると述べました。

ただし、これらのリソースはすぐに利用できるものではなく、ペイウォールの背後に閉じ込められる可能性があります。その場合、ChatGPT には専門知識が十分に伝わっていない可能性があります。

「結果はChatGPTにのみ適用されます。他のチャットボットは検証する必要があります。問題の核心は、これらのチャットボットがどこから情報を取得しているかです。現在の形式では、ChatGPTは医療アドバイスや医学教育に使用されるべきではありません」とTrindade氏は結論づけた。 ®