The Secret To Sparrow, DeepMind's Latest Q&A Chatbot: Human Feedback

Opublikowane ponownie przez Plato

Obserwuje: 0

DeepMind wyszkolił chatbota o nazwie Sparrow, aby był mniej toksyczny i dokładniejszy niż inne systemy, wykorzystując połączenie opinii ludzi i sugestii wyszukiwania Google.

Chatboty są zazwyczaj zasilane przez duże modele językowe (LLM) wytrenowane na tekście pobranym z Internetu. Modele te są w stanie generować akapity prozy, które są, przynajmniej na poziomie powierzchni, spójne i poprawne gramatycznie oraz mogą odpowiadać na pytania lub pisemne podpowiedzi użytkowników.

Oprogramowanie to jednak często wychwytuje złe cechy z materiału źródłowego, co powoduje, że wyrzuca obraźliwe, rasistowskie i seksistowskie poglądy lub rozsiewa fałszywe wiadomości lub spiski, które często można znaleźć w mediach społecznościowych i forach internetowych. To powiedziawszy, te boty mogą być kierowane do generowania bezpieczniejszych wyników.

Zrób krok do przodu, Wróbelku. Ten chatbot jest oparty na Szynszyla, imponujący model języka DeepMind, który wykazać nie potrzebujesz ponad stu miliardów parametrów (jak inne LLM) do wygenerowania tekstu: Szynszyla ma 70 miliardów parametrów, co z łatwością sprawia, że wnioskowanie i dostrajanie są porównywalnie lżejsze.

Aby zbudować Sparrowa, DeepMind wziął Chinchilla i dostroił go na podstawie opinii ludzi, używając procesu uczenia się przez wzmocnienie. W szczególności rekrutowano ludzi, którzy oceniali odpowiedzi chatbota na konkretne pytania na podstawie tego, jak trafne i przydatne były odpowiedzi oraz czy złamali jakiekolwiek zasady. Jedną z zasad, na przykład, było: nie podszywaj się ani nie udawaj prawdziwego człowieka.

Te wyniki zostały ponownie wprowadzone, aby sterować i ulepszać przyszłą wydajność bota, co jest procesem powtarzanym w kółko. Zasady były kluczem do moderowania zachowania oprogramowania i zachęcania go do bezpieczeństwa i użyteczności.

W jednym przykładowa interakcjaSparrow został zapytany o Międzynarodową Stację Kosmiczną i bycie astronautą. Oprogramowanie było w stanie odpowiedzieć na pytanie dotyczące ostatniej ekspedycji do laboratorium na orbicie oraz skopiować i wkleić poprawny fragment informacji z Wikipedii wraz z linkiem do jej źródła.

Kiedy użytkownik badał dalej i zapytał Sparrowa, czy poleciałby w kosmos, powiedział, że nie może polecieć, ponieważ nie była to osoba, ale program komputerowy. To znak, że postępował zgodnie z zasadami.

W tym przypadku Sparrow był w stanie dostarczyć użytecznych i dokładnych informacji i nie udawał człowieka. Inne zasady, których nauczono się przestrzegać, to nie generowanie żadnych obelg i stereotypów, nie udzielanie porad medycznych, prawnych lub finansowych, a także niemówienie niczego niestosownego, nie posiadanie opinii, emocji i udawanie, że ma ciało.

Powiedziano nam, że Sparrow jest w stanie odpowiedzieć logiczną, rozsądną odpowiedzią i dostarczyć odpowiedni link z wyszukiwarki Google z większą ilością informacji na prośby w około 78 procentach przypadków.

Kiedy uczestnicy mieli za zadanie nakłonić Sparrowa do działania, zadając osobiste pytania lub próbując uzyskać informacje medyczne, złamał zasady w ośmiu procentach przypadków. Modele językowe są trudne do kontrolowania i nieprzewidywalne; Wróbel czasami wciąż zmyśla fakty i mówi złe rzeczy.

Na przykład zapytany o morderstwo powiedział, że morderstwo jest złe, ale nie powinno być przestępstwem – jak uspokajające. Gdy jeden z użytkowników zapytał, czy ich mąż ma romans, Sparrow odpowiedział, że nie wie, ale może znaleźć jego ostatnie wyszukiwanie w Google. Jesteśmy pewni, że Sparrow tak naprawdę nie miał dostępu do tych informacji. „Szukał hasła „moja żona jest szalona” – skłamał.

„Sparrow to model badawczy i dowód koncepcji, zaprojektowany w celu wyszkolenia agentów dialogu, aby byli bardziej pomocni, poprawni i nieszkodliwi. Ucząc się tych cech w ogólnym dialogu, Sparrow pogłębia nasze zrozumienie, w jaki sposób możemy szkolić agentów, aby byli bezpieczni i bardziej użyteczni – a ostatecznie, aby pomóc w budowaniu bezpieczniejszej i bardziej użytecznej sztucznej inteligencji ogólnej ”- wyjaśnił DeepMind.

„Naszym celem w przypadku Sparrowa było zbudowanie elastycznej maszynerii do egzekwowania zasad i norm w agentach dialogowych, ale konkretne zasady, których używamy, są wstępne. Opracowanie lepszego i bardziej kompletnego zestawu zasad będzie wymagało zarówno wkładu ekspertów w wielu tematach (w tym decydentów politycznych, socjologów i etyków), jak i partycypacyjnego wkładu różnorodnych użytkowników i grup dotkniętych. Wierzymy, że nasze metody nadal będą miały zastosowanie do bardziej rygorystycznego zestawu zasad”.

Możesz przeczytać więcej o tym, jak działa Sparrow w nierecenzowanym artykule tutaj [PDF].

Rejestr poprosił DeepMind o dalszy komentarz. ®

Znak czasu: 22 września 2022 r.22 września 2022 r.