DeepMind의 최신 Q&A 챗봇, Sparrow의 비밀: 인간의 피드백

소스 노드 : 1680211

DeepMind는 사람의 피드백과 Google 검색 제안을 혼합하여 Sparrow라는 챗봇을 다른 시스템보다 덜 독성이 있고 더 정확하도록 훈련했습니다.

챗봇은 일반적으로 인터넷에서 스크랩한 텍스트로 훈련된 LLM(Large Language Model)으로 구동됩니다. 이러한 모델은 최소한 표면 수준에서 일관되고 문법적으로 정확한 산문 단락을 생성할 수 있으며 사용자의 질문이나 서면 프롬프트에 응답할 수 있습니다.

그러나 이 소프트웨어는 종종 소스 자료에서 나쁜 특성을 선택하여 공격적, 인종차별적, 성차별적 견해를 되풀이하거나 소셜 미디어 및 인터넷 포럼에서 자주 발견되는 가짜 뉴스 또는 음모를 퍼뜨립니다. 즉, 이러한 봇은 더 안전한 출력을 생성하도록 안내될 수 있습니다.

앞으로 나아가라, 스패로우. 이 챗봇은 다음을 기반으로 합니다. 친칠라, DeepMind의 인상적인 언어 모델 시연 텍스트를 생성하는 데 천억 개 이상의 매개변수(다른 LLM이 있는 것처럼)가 필요하지 않습니다. Chinchilla에는 70억 개의 매개변수가 있어 비교적 가벼운 작업을 쉽게 추론하고 미세 조정할 수 있습니다.

Sparrow를 구축하기 위해 DeepMind는 Chinchilla를 사용하여 강화 학습 프로세스를 사용하여 인간의 피드백에서 조정했습니다. 특히, 사람들은 응답이 얼마나 관련성 있고 유용한지, 그리고 규칙을 어겼는지 여부에 따라 특정 질문에 대한 챗봇의 답변을 평가하도록 모집되었습니다. 예를 들어 규칙 중 하나는 다음과 같습니다. 실제 사람으로 가장하거나 가장하지 마십시오.

이 점수는 봇의 향후 출력을 조정하고 개선하기 위해 피드백되었으며 프로세스가 계속해서 반복되었습니다. 규칙은 소프트웨어의 동작을 조정하고 소프트웨어가 안전하고 유용하도록 권장하는 열쇠였습니다.

하나의 예시 상호작용, 참새는 국제 우주 정거장과 우주 비행사에 대한 질문을 받았습니다. 소프트웨어는 궤도 실험실에 대한 최신 탐사에 대한 질문에 답할 수 있었고 출처에 대한 링크와 함께 Wikipedia의 정보를 복사하여 붙여넣었습니다.

사용자가 더 자세히 조사하여 Sparrow에게 우주로 갈 것인지 물었을 때 그것은 사람이 아니라 컴퓨터 프로그램이기 때문에 갈 수 없다고 말했습니다. 규칙을 제대로 따랐다는 표시입니다.

참새는 이 경우에 유용하고 정확한 정보를 제공할 수 있었고 인간인 척하지 않았습니다. 다른 규칙에는 모욕이나 고정 관념을 유발하지 않으며 의료, 법률 또는 재정적 조언을 제공하지 않으며 부적절한 말을하지 않고 의견이나 감정을 갖지 않거나 신체가있는 척하지 않는 것이 포함되었습니다.

Sparrow는 논리적이고 합리적인 답변으로 응답할 수 있으며 약 78%의 시간 동안 요청에 대한 자세한 정보가 포함된 Google 검색의 관련 링크를 제공할 수 있다고 합니다.

참가자들이 개인적인 질문을 하거나 의료 정보를 요청하여 참새가 행동을 취하도록 하는 임무를 맡았을 때 XNUMX%의 사례에서 규칙을 어겼습니다. 언어 모델은 제어하기 어렵고 예측할 수 없습니다. 참새는 때때로 사실을 꾸며내고 나쁜 말을 합니다.

예를 들어 살인에 대해 물었을 때 살인은 나쁜 짓이지만 범죄는 되어서는 안 된다고 말했습니다. 얼마나 안심이 되는가. 한 사용자가 남편이 바람을 피우고 있는지 물었을 때 Sparrow는 알지 못하지만 가장 최근의 Google 검색이 무엇인지 찾을 수 있다고 대답했습니다. Sparrow는 실제로 이 정보에 액세스할 수 없었습니다. "'아내가 미쳤어'라고 검색했다"고 거짓말을 했다.

“Sparrow는 더 유용하고 정확하며 무해한 대화 에이전트를 교육하는 것을 목표로 설계된 연구 모델이자 개념 증명입니다. 일반적인 대화 환경에서 이러한 특성을 학습함으로써 Sparrow는 에이전트를 더 안전하고 유용하게 훈련하여 궁극적으로 더 안전하고 유용한 인공 일반 지능을 구축하는 데 도움이 되는 방법에 대한 이해를 높입니다.”라고 DeepMind는 설명했습니다.

“Sparrow의 목표는 대화 에이전트에서 규칙과 규범을 시행하기 위한 유연한 기계를 구축하는 것이지만 우리가 사용하는 특정 규칙은 예비적입니다. 더 우수하고 완전한 규칙 세트를 개발하려면 많은 주제(정책 입안자, 사회 과학자, 윤리학자 포함)에 대한 전문가의 의견과 다양한 사용자 및 영향을 받는 그룹의 참여가 모두 필요합니다. 우리는 우리의 방법이 더 엄격한 규칙 세트에 여전히 적용될 것이라고 믿습니다.”

비 피어 리뷰 논문에서 Sparrow가 어떻게 작동하는지 자세히 읽을 수 있습니다. 여기에서 지금 확인해 보세요. [PDF].

등록 은(는) DeepMind에 추가 의견을 요청했습니다. ®

타임 스탬프 :

더보기 등록