ChatGPT Talks Its Way Through Wharton MBA, Medical Exams

Перевидано Платоном

читають: 0

Програмне забезпечення для чату ChatGPT від OpenAI, якщо його опублікують у світі, отримає від B до B- на іспиті Wharton Business School Management Management і наблизиться або перевищить бал, необхідний для проходження іспиту US Medic Licensing Exam (USMLE).

Хоча це може говорити більше про статичну, орієнтовану на документи природу тестового матеріалу, ніж про інтелектуальну майстерність програмного забезпечення, це, тим не менш, викликає занепокоєння та інтерес для викладачів і майже всіх інших, хто живе в епоху автоматизації.

Вчені хвилюються, що такі допоміжні системи ChatGPT і GitHub Copilot (на основі моделі OpenAI під назвою Codex) вимагатиме від викладачів переоцінки того, як вони викладають і оцінюють іспити, оскільки допоміжні технології, засновані на машинному навчанні, стали настільки ефективними.

В освітніх установах поради щодо штучного інтелекту стають звичним явищем: щойно The Stanford Daily повідомляє, «велика кількість студентів уже використовували ChatGPT на випускних іспитах». Згідно з анонімним опитуванням 17 респондентів, приблизно 4,497 відсотків студентів сказали, що вони використовували ChatGPT для допомоги в осінніх завданнях та іспитах, а 5 відсотків сказали, що вони надсилали матеріали безпосередньо з ChatGPT з незначним редагуванням або без нього – що, мабуть, є порушення кодексу честі.

Окремо Крістіан Тервіш, професор Уортонської школи Університету Пенсільванії, і група медичних дослідників, переважно пов’язаних з Ansible Health, вирішили розмістити ChatGPT, можливо аморальний автоматизований радник і фактично оскаржений експертна система, до тест.

І Terwiesch, і бофіни Ansible Health ясно дали зрозуміти, що ChatGPT має обмеження та робить щось неправильно. Загалом вони поставили йому середню оцінку, але чітко дали зрозуміти, що очікують, що допоміжні системи штучного інтелекту знайдуть місце в навчанні та в інших секторах.

Модель, зрештою, навчалася на незліченних фрагментах рукотворного письма, і тому її здатність здогадуватися про задовільну відповідь на запитання на основі всіх вдихнутих знань і фактів не є несподіваною.

«По-перше, він чудово справляється з основними питаннями управління операціями та аналізу процесів, включно з тими, які базуються на тематичних дослідженнях», — сказав Тервіш у його папір. «Відповіді не тільки правильні, але й пояснення чудові».

Тим не менш, він зауважив, що ChatGPT допускає прості математичні помилки та намацує питання складного аналізу процесу. Однак модель штучного інтелекту чуйно реагує на підказки людей щодо того, як можна покращити – вона може успішно виправлятися, коли отримує підказки від людини-експерта.

Керівництво людини також слугувало джерелом зловмисного введення, як показано на Чат-бот Microsoft Tay і подальші дослідження.

Лікар, лікар

Група медичних досліджень, яка написала «Продуктивність ChatGPT на USMLE: потенціал для медичної освіти за допомогою ШІ з використанням великих мовних моделей” включає “ChatGPT” як співавтора.

«ChatGPT зробив внесок у написання кількох розділів цього рукопису», — заявляють автори-біологи у своїй статті.

Інші організаційні підрозділи авторів включають: Массачусетську загальну лікарню, Гарвардську школу медицини, Бостон, Массачусетс; Медична школа Уоррена Альперта, Університет Брауна, Провіденс, Род-Айленд; і Департамент медичної освіти в UWorld, LLC, фірмі електронного навчання в галузі охорони здоров’я, розташованій у Далласі, Техас.

Автори – Тіффані Кунг, Морган Четхем, ChatGPT, Аріель Меденілла, Царина Сіллос, Лорі Де Леон, Камілла Елепаньо, Марія Мадріага, Рімель Аггабао, Ґізель Діас-Кандідо, Джеймс Манінго та Віктор Ценг – дійшли подібного висновку, як і Тервіш Вартона. . Зокрема, вони виявили, що іспит USMLE ChatGPT показав пристойні результати (перевищивши порогове значення приблизно в 60 відсотків), якщо отримати перевагу невизначених відповідей. І вони очікують, що великі мовні моделі (LLM) відіграватимуть зростаючу роль у медичній освіті та прийнятті клінічних рішень.

«ChatGPT дає помірну точність, наближаючись до продуктивності USMLE», — заявляють автори у своїй статті. «Іспитові завдання спочатку були закодовані як відкриті запитання зі змінними підказками. Цей формат введення імітує вільний природний шаблон запиту користувача. З цензурою/включенням невизначених відповідей точність ChatGPT для кроків 1, 2CK і 3 USMLE становила 68.0 відсотка/42.9 відсотка, 58.3 відсотка/51.4 відсотка та 62.4 відсотка/55.7 відсотка відповідно».

Опис продуктивності ChatGPT як «наближення до проходження» є великодушним способом формулювання, особливо враховуючи, що штучному інтелекту приписують невизначені відповіді. Прийти в кабінет лікаря і побачити диплом, що рекламує оцінку D, може викликати дещо більше занепокоєння у пацієнтів.

Але дослідники стверджують, що те, що ChatGPT зробив правильно, тісно відповідало прийнятим відповідям і що модель штучного інтелекту значно покращилася, оскільки за кілька місяців до цього показник успішності становив лише близько 36.7 відсотка.

Цікаво, що вони помітили, що ChatGPT працює краще, ніж PubMedGPT, LLM, заснований виключно на біомедичних даних, точність яких становить лише близько 50.8 відсотка (на основі неопублікованих даних).

«Ми припускаємо, що предметно-спеціальне навчання могло створити більшу амбівалентність у моделі PubMedGPT, оскільки вона поглинає реальний текст із поточного академічного дискурсу, який має тенденцію бути непереконливим, суперечливим або дуже консервативним або необов’язковим у своїй мові», – заявляють автори. .

По суті, менш науковий, більш впевнений матеріал, який увійшов до навчання ChatGPT, як-от брошури з поясненнями хвороб, спрямовані на пацієнтів, здається, зробив ChatGPT більш впевненим.

«Оскільки штучний інтелект стає все більш досконалим, незабаром він стане повсюдним, трансформуючи клінічну медицину в усіх секторах охорони здоров’я», – підсумовують автори, додаючи, що клініцисти, пов’язані з AnsibleHealth, використовують ChatGPT у своїх робочих процесах і повідомили про скорочення часу на 33 відсотки. необхідні для оформлення документації та непрямих завдань з догляду за пацієнтами.

Можливо, це пояснює рішення Microsoft щоб спрямувати мільярди в OpenAI для майбутнього програмного забезпечення.

Корисність ChatGPT в освітньому середовищі – незважаючи на те, що це часто неправильно – було підкреслено в блог опубліковано в неділю Томасом Рідом, професором стратегічних досліджень і директором-засновником Інституту досліджень кібербезпеки Альперовича.

Рід описує останній п’ятиденний курс аналізу зловмисного програмного забезпечення та зворотного проектування, який викладав Хуан Андрес Герреро-Сааде.

«Через п’ять днів у мене вже не було жодних сумнівів: ця річ змінить вищу освіту», — сказав Рід. «Я був одним із студентів. І я був вражений тим, що машинне навчання змогло зробити для нас у режимі реального часу. І я кажу це як людина, яка була загартована скептик ажіотажу штучного інтелекту протягом багатьох років. Зауважте, що я не сказав «імовірне» перетворення. Це змінить вищу освіту».

Герреро-Сааде, в нитка Twitter, визнає, що ChatGPT помилився, але наполягає, що інструмент допоміг студентам знайти кращі відповіді. Він припускає, що це функціонує як особистий помічник для кожного учня.

«Страх навколо штучного інтелекту (або надмірні очікування ідеальних результатів) затьмарює визнання цієї приголомшливої корисності LLM: як помічника, здатного швидко об’єднувати інформацію (правильну чи неправильну) з надзвичайною релевантністю для більш проникливого інтелекту (користувача), з яким можна працювати, » він написав.

Рід стверджує, що в той час як занепокоєння з приводу штучного інтелекту як механізму плагіату та шахрайства в освіті необхідно вирішити, важливіша дискусія стосується того, як інструменти ШІ можуть покращити результати навчання. ®