ChatGPT Talks Its Way Through Wharton MBA, Medical Exams

Переиздано Платоном

Читают: 0

Программное обеспечение для чата OpenAI ChatGPT, если его выпустить на всеобщее обозрение, получит от B до B- на экзамене по управлению операциями бизнес-школы Wharton и приблизится или превысит балл, необходимый для сдачи экзамена на медицинское лицензирование в США (USMLE).

Хотя это может больше говорить о статичном, ориентированном на документы характере тестового материала, чем об интеллектуальных возможностях программного обеспечения, это, тем не менее, вызывает беспокойство и интерес у преподавателей и практически у всех, кто живет в эпоху автоматизации.

Ученые обеспокоены тем, что вспомогательные системы, такие как ChatGPT и GitHub Copilot (на основе модели OpenAI под названием Codex) потребует от учителей переоценки того, как они преподают и оценивают экзамены, потому что вспомогательные технологии, основанные на машинном обучении, стали настолько эффективными.

В образовательных учреждениях советы по искусственному интеллекту становятся обычным явлением: The Stanford Daily только что переправу, «большое количество студентов уже использовали ChatGPT на выпускных экзаменах». Приблизительно 17 процентов студентов, основываясь на анонимном опросе 4,497 респондентов, заявили, что использовали ChatGPT для помощи в выполнении заданий и экзаменов в осенней четверти, а 5 процентов заявили, что отправляли материалы непосредственно из ChatGPT с минимальным редактированием или вообще без редактирования, что, по-видимому, нарушение кодекса чести.

Отдельно Кристиан Тервиш, профессор Уортонской школы Университета Пенсильвании, и группа медицинских исследователей, в основном связанных с Ansible Health, решили разместить ChatGPT, возможно аморальный автоматический советник и фактически оспариваемый экспертная система, к тесту.

Как Тервиш, так и эксперты Ansible Health ясно дали понять, что ChatGPT имеет ограничения и ошибается. В целом, они поставили ему средние оценки, но ясно дали понять, что ожидают, что вспомогательные системы ИИ найдут место в обучении и в других секторах.

Модель, в конце концов, была обучена на бесчисленном количестве рукописей, созданных руками человека, и поэтому ее способность угадывать удовлетворительный ответ на вопрос из всех полученных знаний и фактов не является неожиданностью.

«Во-первых, он отлично справляется с основными вопросами управления операциями и анализа процессов, в том числе с теми, которые основаны на тематических исследованиях», — сказал Тервиш в его статья. «Не только ответы правильные, но и объяснения превосходны».

Тем не менее, он заметил, что ChatGPT допускает простые математические ошибки и искажает сложные вопросы анализа процессов. Тем не менее, модель ИИ реагирует на подсказки людей о том, как ее улучшить — она может успешно корректировать себя, когда ей даются подсказки от человека-эксперта.

Человеческое руководство также служило источником злонамеренного ввода, как показано на примере Чат-бот Tay от Microsoft и последующее исследование.

Доктор, доктор

Группа медицинских исследований, написавшая «Производительность ChatGPT на USMLE: потенциал для медицинского образования с помощью ИИ с использованием больших языковых моделей” включает “ChatGPT” в качестве соавтора.

«ChatGPT участвовал в написании нескольких разделов этой рукописи», — заявляют авторы-биологи в своей статье.

Другие организационные связи авторов включают: Больницу общего профиля Массачусетса, Гарвардскую школу медицины, в Бостоне, штат Массачусетс; Медицинская школа Уоррена Алперта, Университет Брауна, Провиденс, Род-Айленд; и Департамент медицинского образования UWorld, LLC, фирмы по электронному обучению в области здравоохранения, базирующейся в Далласе, штат Техас.

Авторы — Тиффани Кунг, Морган Читам, ChatGPT, Ариэль Меденилья, Царина Силлос, Лори Де Леон, Камилла Элепаньо, Мария Мадриага, Римель Аггабао, Гизель Диас-Кандидо, Джеймс Манинго и Виктор Ценг — пришли к тому же выводу, что и Тервиш из Уортона. . В частности, они обнаружили, что ChatGPT показал удовлетворительные результаты — выше порога прохождения, составляющего около 60 процентов, — на экзамене USMLE, если дать преимущество неопределенных ответов. И они ожидают, что большие языковые модели (LLM) будут играть растущую роль в медицинском образовании и в принятии клинических решений.

«ChatGPT дает умеренную точность, приближающуюся к пропускной способности USMLE», — заявляют авторы в своей статье. «Экзаменационные элементы сначала были закодированы как открытые вопросы с переменными вводными подсказками. Этот входной формат имитирует естественный шаблон запроса пользователя. С цензурой/включением неопределенных ответов точность ChatGPT для шагов 1, 2CK и 3 USMLE составила 68.0 %/42.9 %, 58.3 %/51.4 % и 62.4 %/55.7 % соответственно».

Описать производительность ChatGPT как «приближающуюся к прохождению» — это щедрый способ сформулировать это, особенно с учетом того, что ИИ получает признание за неопределенные ответы. Придя в кабинет врача и увидев диплом с оценкой D, пациенты могут немного больше забеспокоиться.

Но исследователи утверждают, что то, что ChatGPT сделал правильно, близко соответствовало принятым ответам, и что модель ИИ значительно улучшилась, несколько месяцев назад достигнув уровня успеха всего около 36.7%.

Интересно, что они заметили, что ChatGPT работает лучше, чем PubMedGPT, LLM, основанный исключительно на биомедицинских данных, точность которого составляет всего около 50.8% (на основе неопубликованных данных).

«Мы предполагаем, что предметно-ориентированное обучение могло создать большую амбивалентность в модели PubMedGPT, поскольку она поглощает реальный текст из продолжающегося академического дискурса, который имеет тенденцию быть неубедительным, противоречивым, крайне консервативным или уклончивым в своем языке», — заявляют авторы. .

По сути, менее научный, более самоуверенный материал, который использовался в обучении ChatGPT, например брошюры с объяснением болезней, с которыми сталкиваются пациенты, похоже, сделал ChatGPT более самоуверенным.

«Поскольку ИИ становится все более совершенным, он скоро станет повсеместным, преобразуя клиническую медицину во всех секторах здравоохранения», — заключают авторы, добавляя, что врачи, связанные с AnsibleHealth, используют ChatGPT в своих рабочих процессах и сообщают о сокращении времени на 33%. требуется для заполнения документации и непрямых задач по уходу за пациентами.

Это, возможно, объясняет решение Microsoft направить миллиарды в OpenAI для своего будущего программного обеспечения.

Полезность ChatGPT в образовательной среде — несмотря на то, что это часто неправильно — была подчеркнута в блоге опубликовано в воскресенье Томасом Ридом, профессором стратегических исследований и директором-основателем Института исследований кибербезопасности Альперовича.

Рид описывает недавний пятидневный курс анализа вредоносного ПО и обратного проектирования, который вел Хуан Андрес Герреро-Сааде.

«Через пять дней у меня уже не было никаких сомнений: эта штука изменит высшее образование», — сказал Рид. «Я был одним из студентов. И я был поражен тем, что машинное обучение могло сделать для нас в режиме реального времени. И я говорю это как человек, который был закаленным скептик многолетней шумихи вокруг искусственного интеллекта. Обратите внимание, что я не сказал «вероятное» преобразование. Это изменит высшее образование».

Герреро-Сааде, в ветка в твиттере, признает, что ChatGPT ошибался, но настаивает на том, что инструмент помог студентам найти лучшие ответы. Он предполагает, что он функционирует как личный помощник учителя для каждого ученика.

«Нагнетание страха вокруг ИИ (или завышенных ожиданий идеальных результатов) омрачает признание этой ошеломляющей полезности LLM: как помощника, способного быстро объединять информацию (правильную или неправильную) с чрезвычайно актуальной для более проницательного интеллекта (пользователя) для работы, ” он написал.

Рид утверждает, что, хотя опасения по поводу ИИ как механизма плагиата и мошенничества в образовании необходимо решать, более важный разговор касается того, как инструменты ИИ могут улучшить результаты обучения. ®