ChatGPT omawia swoją drogę przez Wharton MBA, egzaminy medyczne

Opublikowane ponownie przez Plato

Obserwuje: 0

Oprogramowanie do czatu OpenAI, ChatGPT, jeśli zostanie wypuszczone na świat, uzyskałoby wynik między B a B- na egzaminie Operations Management w szkole biznesowej Wharton i zbliżyłoby się lub przekroczyło wynik wymagany do zdania egzaminu US Medical Licensing Exam (USMLE).

Chociaż może to mówić więcej o statycznej, skoncentrowanej na dokumentach naturze materiału testowego niż o sprawności intelektualnej oprogramowania, jest to jednak kwestia troski i zainteresowania nauczycieli i prawie wszystkich innych osób żyjących w epoce automatyzacji.

Naukowcy niepokoili się, że systemy wspomagające lubią ChatGPT i GitHub Drugi pilot (oparty na modelu OpenAI o nazwie Codex) będzie wymagał od nauczycieli ponownej oceny sposobu nauczania i oceniania egzaminów, ponieważ technologia wspomagająca oparta na uczeniu maszynowym stała się tak wydajna.

W placówkach edukacyjnych porady AI stają się powszechne: The Stanford Daily właśnie zgłaszane, „duża liczba uczniów korzystała już z ChatGPT na egzaminach końcowych”. Szacuje się, że 17 procent uczniów, na podstawie anonimowej ankiety przeprowadzonej wśród 4,497 respondentów, stwierdziło, że używało ChatGPT do pomocy w jesiennych zadaniach i egzaminach, a 5 procent twierdzi, że przesłało materiał bezpośrednio z ChatGPT z niewielkimi zmianami lub bez edycji – co przypuszczalnie jest naruszenie kodeksu honorowego.

Osobno Christian Terwiesch, profesor z Wharton School na Uniwersytecie w Pensylwanii, oraz grupa badaczy medycznych związanych głównie z Ansible Health, zdecydowali się umieścić ChatGPT, prawdopodobnie amoralny automatyczny doradca i merytorycznie kwestionowane system ekspercki, do testu.

Zarówno Terwiesch, jak i specjaliści z Ansible Health dali jasno do zrozumienia, że ChatGPT ma ograniczenia i robi coś źle. Ogólnie rzecz biorąc, dali mu średnie oceny, ale jasno dali do zrozumienia, że spodziewają się, że systemy wspomagające AI znajdą miejsce w nauczaniu i innych sektorach.

W końcu model został przeszkolony na niezliczonych kawałkach pisma stworzonego przez człowieka, więc jego zdolność do odgadnięcia zadowalającej odpowiedzi na pytanie na podstawie całej tej wdychanej wiedzy i faktoidów nie jest nieoczekiwana.

„Po pierwsze, świetnie radzi sobie z podstawowymi pytaniami dotyczącymi zarządzania operacjami i analizą procesów, w tym pytaniami opartymi na studiach przypadków” — powiedział Terwiesch w jego gazetę. „Nie tylko odpowiedzi są poprawne, ale wyjaśnienia są doskonałe”.

To powiedziawszy, zauważył, że ChatGPT popełnia proste błędy matematyczne i zadaje pytania dotyczące zaawansowanej analizy procesów. Jednak model sztucznej inteligencji reaguje na wskazówki od ludzi, jak się poprawić – może z powodzeniem sam się poprawić, gdy otrzyma wskazówki od eksperta-człowieka.

Ludzkie wskazówki służyły również jako źródło złośliwych danych wejściowych, o czym świadczy m.in Chatbot Tay firmy Microsoft i przez późniejsze badania.

Doktorze, doktorze

Medyczna grupa badawcza, która napisała „Wydajność ChatGPT na USMLE: Potencjał edukacji medycznej wspomaganej sztuczną inteligencją przy użyciu dużych modeli językowych” obejmuje „ChatGPT” jako współautora.

„ChatGPT przyczynił się do napisania kilku części tego manuskryptu” – stwierdzają autorzy biologii w swoim artykule.

Inne powiązania organizacyjne autorów obejmują: Massachusetts General Hospital, Harvard School of Medicine, w Bostonie, Massachusetts; Warren Alpert Medical School, Brown University w Providence, Rhode Island; oraz Departament Edukacji Medycznej w UWorld, LLC, firmie e-learningowej zajmującej się zdrowiem z siedzibą w Dallas w Teksasie.

Autorzy – Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo i Victor Tseng – doszli do podobnego wniosku jak Terwiesch Whartona . W szczególności odkryli, że ChatGPT radził sobie zadowalająco – powyżej progu zdawalności zmiennej wynoszącego około 60 procent – na egzaminie USMLE, jeśli miał korzyść z nieokreślonych odpowiedzi. Oczekują też, że duże modele językowe (LLM) będą odgrywać coraz większą rolę w edukacji medycznej i podejmowaniu decyzji klinicznych.

„ChatGPT zapewnia umiarkowaną dokładność zbliżoną do wyników w USMLE” — stwierdzają autorzy w swoim artykule. „Elementy egzaminacyjne zostały najpierw zakodowane jako pytania otwarte ze zmiennymi monitami wprowadzającymi. Ten format danych wejściowych symuluje swobodny, naturalny wzorzec zapytania użytkownika. Po ocenzurowaniu/uwzględnieniu nieokreślonych odpowiedzi dokładność ChatGPT dla USMLE Steps 1, 2CK i 3 wyniosła odpowiednio 68.0%/42.9%, 58.3%/51.4% i 62.4%/55.7%.

Opisanie wydajności ChatGPT jako „zbliżającej się do podania” jest hojnym sposobem sformułowania tego, szczególnie w przypadku AI, której przypisuje się nieokreślone odpowiedzi. Przybycie do gabinetu lekarskiego i zobaczenie dyplomu reklamującego stopień D może wywołać u pacjentów nieco większy niepokój.

Ale naukowcy utrzymują, że rzeczy, które ChatGPT zrobił dobrze, były ściśle zgodne z zaakceptowanymi odpowiedziami i że model sztucznej inteligencji znacznie się poprawił, mając kilka miesięcy wcześniej wskaźnik sukcesu wynoszący zaledwie około 36.7 procent.

Co ciekawe, zaobserwowali, że ChatGPT działał lepiej niż PubMedGPT, LLM oparty wyłącznie na danych biomedycznych, który zapewniał dokładność zaledwie około 50.8 procent (na podstawie niepublikowanych danych).

„Spekulujemy, że szkolenie specyficzne dla domeny mogło stworzyć większą ambiwalencję w modelu PubMedGPT, ponieważ wchłania on rzeczywisty tekst z toczącego się dyskursu akademickiego, który jest zwykle niejednoznaczny, sprzeczny lub wysoce konserwatywny lub niezobowiązujący w swoim języku” – stwierdzają autorzy .

Zasadniczo wydaje się, że mniej naukowy, bardziej opiniotwórczy materiał, który trafił do szkolenia ChatGPT, taki jak broszury wyjaśniające choroby skierowane do pacjentów, sprawił, że ChatGPT stał się bardziej uparty.

„W miarę jak sztuczna inteligencja staje się coraz bardziej biegła, wkrótce stanie się wszechobecna, zmieniając medycynę kliniczną we wszystkich sektorach opieki zdrowotnej” – podsumowują autorzy, dodając, że klinicyści związani z AnsibleHealth używają ChatGPT w swoich przepływach pracy i zgłosili 33-procentową redukcję czasu wymagane do wypełnienia dokumentacji i pośrednich zadań związanych z opieką nad pacjentem.

To być może wyjaśnia decyzję Microsoftu skierować miliardy do OpenAI dla swojego przyszłego oprogramowania.

Użyteczność ChatGPT w środowisku edukacyjnym – pomimo faktu, że często jest błędna – została podkreślona w blogu opublikowany w niedzielę przez Thomasa Rida, profesora studiów strategicznych i dyrektora założyciela Alperovich Institute for Cybersecurity Studies.

Rid opisuje niedawny pięciodniowy kurs analizy złośliwego oprogramowania i inżynierii wstecznej prowadzony przez Juana Andresa Guerrero-Saade.

„Pięć dni później nie miałem już żadnych wątpliwości: ta rzecz odmieni szkolnictwo wyższe” — powiedział Rid. „Byłem jednym z uczniów. Byłem zachwycony tym, co uczenie maszynowe było w stanie zrobić dla nas w czasie rzeczywistym. I mówię to jako ktoś, kto był zatwardziały sceptyk hype'u na sztuczną inteligencję od wielu lat. Zauważ, że nie powiedziałem „prawdopodobnej” transformacji. To zmieni szkolnictwo wyższe”.

Guerrero-Saade, w wątek na Twitterze, przyznaje, że ChatGPT popełnił błąd, ale twierdzi, że narzędzie pomogło uczniom znaleźć lepsze odpowiedzi. Sugeruje, że działa jak osobisty asystent nauczyciela dla każdego ucznia.

„Siedzenie strachu wokół sztucznej inteligencji (lub przesadzone oczekiwania dotyczące doskonałych wyników) przyćmiewa uznanie tego oszałamiającego narzędzia LLM: jako asystenta zdolnego do szybkiego łączenia informacji (dobrych lub błędnych) z niezwykle istotnym znaczeniem dla bardziej wymagającej inteligencji (użytkownika), z którą może pracować, ” on napisał.

Rid twierdzi, że chociaż należy zająć się obawami dotyczącymi sztucznej inteligencji jako mechanizmu plagiatu i oszustw w edukacji, ważniejsza rozmowa dotyczy tego, w jaki sposób narzędzia sztucznej inteligencji mogą poprawić wyniki edukacyjne. ®