ChatGPT がウォートン MBA、健康診断を通じてその方法を語る

プラトン再発行

フォロワー： 0

OpenAI のチャットソフトウェア ChatGPT が世界に公開された場合、ウォートンビジネススクールの運用管理試験で B と B- の間のスコアを獲得し、米国医療免許試験 (USMLE) に合格するために必要なスコアに近づくか、それを超えることになります。

これは、ソフトウェアの知的能力よりも、テストマテリアルの静的でドキュメント中心の性質についてより多くを語っている可能性がありますが、教育者や、自動化の時代に生きているほぼすべての人にとっては懸念事項であり、関心のある問題です。

学者たちは、支援システムが AI言語モデルを活用してコードのデバッグからデータの異常検出まで、とGitHubの副操縦士 (Codex と呼ばれる OpenAI モデルに基づく) では、機械学習に基づく支援技術が非常に有能になったため、教師は教え方と試験の採点方法を再評価する必要があります。

教育現場では、AI によるアドバイスが一般的になりつつあります: The Stanford Daily 報告、「多くの学生がすでに最終試験で ChatGPT を使用しています。」 17 人の回答者の匿名調査に基づくと、推定 4,497% の学生が秋学期の宿題や試験を支援するために ChatGPT を使用したことがあると述べ、5% がほとんどまたはまったく編集せずに ChatGPT から直接資料を提出したと述べています。名誉規定違反。

これとは別に、ペンシルバニア大学ウォートン校の教授であり、主に Ansible Health と提携している医学研究者のグループである Christian Terwiesch 氏は、ChatGPT を導入することを決定しました。間違いなく非道徳的な自動アドバイザーと事実に異議を唱えるエキスパートシステム、テストへ。

Terwiesch と Ansible Health の関係者は、ChatGPT には制限があり、物事がうまくいかないことを明らかにしました。全体として、彼らはそれに中程度の評価を与えましたが、AI支援システムが教育や他の分野で場所を見つけることを期待していることを明らかにしました.

結局のところ、モデルは無数の人間が作成した文章で訓練されているため、吸い込まれたすべての知識とファクトイドから質問に対する満足のいく答えを推測する能力は予想外ではありません.

「まず、ケーススタディに基づくものを含む、基本的な運用管理とプロセス分析の質問で素晴らしい仕事をします」と Terwiesch 氏は次のように述べています。彼の論文. 「答えが正しいだけでなく、説明も優れています。」

とはいえ、彼は、ChatGPT が単純な計算ミスを犯し、高度なプロセス分析の質問を手探りしていることを観察しました。ただし、AI モデルは改善方法に関する人々からのヒントに反応します。人間の専門家からヒントが与えられると、AI モデルは正常に修正できます。

人間の指導も、悪意のある入力のソースとして機能してきました。 Microsoft の Tay チャットボットとにより、その後の研究.

医者、医者

「USMLE での ChatGPT のパフォーマンス: 大規模言語モデルを使用した AI 支援医学教育の可能性」には、共著に「ChatGPT」が含まれています。

「ChatGPT は、この原稿のいくつかのセクションの執筆に貢献しました」と生物学の著者は論文で述べています。

著者のその他の組織的所属は次のとおりです。ロードアイランド州プロビデンスにあるブラウン大学ウォーレン・アルパート医科大学。テキサス州ダラスに本拠を置く健康 e ラーニング会社である UWorld, LLC の医学教育部門。

著者 – Tiffany Kung、Morgan Cheatham、ChatGPT、Arielle Medenilla、Czarina Sillos、Lorie De Leon、Camille Elepaño、Maria Madriaga、Rimel Aggabao、Giezel Diaz-Candido、James Maningo、Victor Tseng – は、Wharton の Terwiesch と同様の結論に達しました。 . 具体的には、不確定な回答の利点が与えられた場合、ChatGPT は、USMLE 試験で、約 60% の可変合格しきい値を超えてまずまずの成績を収めることがわかりました。そして彼らは、大規模言語モデル (LLM) が医学教育や臨床上の意思決定においてますます大きな役割を果たすことを期待しています。

「ChatGPT は、USMLE での合格パフォーマンスに近づく中程度の精度をもたらします」と著者は論文で述べています。「試験項目は、最初、可変のリードインプロンプトを備えた自由回答形式の質問としてエンコードされました。この入力形式は、無料の自然なユーザークエリパターンをシミュレートします。不確定な応答を打ち切り/含めた場合、USMLE ステップ 1、2CK、および 3 の ChatGPT 精度は、それぞれ 68.0%/42.9%、58.3%/51.4%、および 62.4%/55.7% でした。」

ChatGPT のパフォーマンスを「合格に近づいている」と表現することは、特に AI が不確定な回答に対してクレジットを与えられていることを考えると、寛大な言い回しです。診療所に到着し、グレード D を宣伝する卒業証書を見ると、患者の間でもう少し懸念が生じる可能性があります。

しかし、研究者は、ChatGPT が正しく行ったことは、受け入れられている回答と密接に一致しており、AI モデルは著しく改善されており、数か月前の成功率は約 36.7% に過ぎなかったと主張しています。

興味深いことに、彼らは、ChatGPT が PubMedGPT よりも優れたパフォーマンスを示したことを観察しました。PubMedGPT は、生物医学データのみに基づいた LLM であり、精度はわずか約 50.8% (未公開データに基づく) しか管理していませんでした。

「ドメイン固有のトレーニングは、PubMedGPT モデルでより大きなアンビバレンスを生み出した可能性があると推測しています。それは、その言語で決定的でない、矛盾している、または非常に保守的または非コミット的である傾向がある進行中の学術的言説から現実世界のテキストを吸収するためです」と著者は述べています。 .

基本的に、ChatGPT のトレーニングに使用された、科学的ではなく、より独断的な資料 (患者向けの病気の説明パンフレットなど) が、ChatGPT をより独断的にしたようです。

「AI がますます巧妙になるにつれ、AI はすぐにユビキタスになり、すべてのヘルスケアセクターの臨床医学を変革するでしょう」と著者は結論付けており、AnsibleHealth に関連する臨床医はワークフローで ChatGPT を使用しており、時間の 33% の削減を報告していると付け加えています。文書化と間接的な患者ケアタスクを完了するために必要です。

これはおそらくマイクロソフトの決定を説明しています数十億ドルを OpenAI に注ぎ込むその将来のソフトウェアのために。

教育現場での ChatGPT の有用性は、間違っていることが多いという事実にもかかわらず、ブログ投稿戦略研究の教授であり、Alperovich Institute for Cybersecurity Studies の創設者である Thomas Rid によって日曜日に発行されました。

Rid は、Juan Andres Guerrero-Saade が最近教えた XNUMX 日間のマルウェア分析とリバースエンジニアリングコースについて説明します。

「XNUMX 日後、もはや何の疑いもありませんでした。これは高等教育を変革するでしょう」とリッドは言いました。「私は生徒の一人でした。そして、機械学習がリアルタイムで私たちのためにできることに感動しました。そして、私はこれを硬化された誰かとして言います懐疑的な長年にわたる人工知能の誇大広告。「可能性の高い」変換とは言っていないことに注意してください。それは高等教育を変えるでしょう。」

ゲレロ・サード Twitterスレッド、ChatGPTが間違っていたことを認めますが、このツールは学生がより良い答えを思い付くのに役立ったと主張しています. 彼は、それが各学生のパーソナルティーチングアシスタントのように機能することを示唆しています。

「AI をめぐる恐怖心 (または完璧なアウトプットへの過大な期待) は、LLM の驚くべきユーティリティの認識を曇らせます: より目の肥えた知性 (ユーザー) と連携するための極端な関連性を持つ情報 (正しいか間違っているか) をすばやく結合できるアシスタントとして、」彼が書きました.

Rid は、教育における剽窃や不正行為のメカニズムとしての AI に関する懸念に対処する必要がある一方で、より重要な会話は、AI ツールが教育の成果をどのように改善できるかということと関係があると主張しています。 ®