기계 학습 수수께끼 풀기

기계 학습 수수께끼 풀기

소스 노드 : 1944875
07 년 2023 월 XNUMX 일 (나노 워크 뉴스) OpenAI의 GPT-3과 같은 대규모 언어 모델은 시에서 프로그래밍 코드에 이르기까지 인간과 유사한 텍스트를 생성할 수 있는 대규모 신경망입니다. 인터넷 데이터를 사용하여 훈련된 이 기계 학습 모델은 약간의 입력 텍스트를 취한 다음 다음에 올 가능성이 있는 텍스트를 예측합니다. 그러나 이것이 이러한 모델이 할 수 있는 전부는 아닙니다. 연구자들은 대규모 언어 모델이 해당 작업에 대해 훈련되지 않았음에도 불구하고 몇 가지 예만 본 후 작업을 수행하는 방법을 배우는 상황 내 학습으로 알려진 흥미로운 현상을 탐구하고 있습니다. 예를 들어 누군가가 모델에 몇 가지 예문과 감정(긍정적 또는 부정적)을 제공한 다음 새 문장으로 프롬프트를 표시하면 모델이 올바른 감정을 제공할 수 있습니다. 일반적으로 GPT-3과 같은 기계 학습 모델은 이 새로운 작업을 위해 새로운 데이터로 재교육되어야 합니다. 이 훈련 과정에서 모델은 작업을 학습하기 위해 새로운 정보를 처리할 때 매개변수를 업데이트합니다. 그러나 상황 내 학습을 사용하면 모델의 매개변수가 업데이트되지 않으므로 모델이 아무것도 학습하지 않고 새로운 작업을 학습하는 것처럼 보입니다. MIT, Google Research 및 Stanford University의 과학자들은 이 수수께끼를 풀기 위해 노력하고 있습니다. 그들은 매개변수를 업데이트하지 않고 학습할 수 있는 방법을 알아보기 위해 대규모 언어 모델과 매우 유사한 모델을 연구했습니다. 연구자들의 이론적 결과는 이러한 대규모 신경망 모델이 내부에 더 작고 단순한 선형 모델을 포함할 수 있음을 보여줍니다. 큰 모델은 간단한 학습 알고리즘을 구현하여 더 큰 모델에 이미 포함된 정보만 사용하여 이 작은 선형 모델을 훈련하여 새 작업을 완료할 수 있습니다. 해당 매개변수는 고정된 상태로 유지됩니다. 상황 내 학습 이면의 메커니즘을 이해하기 위한 중요한 단계인 이 연구는 이러한 대형 모델이 구현할 수 있는 학습 알고리즘에 대한 더 많은 탐구의 문을 열어준다고 컴퓨터 과학 대학원생이자 논문의 수석 저자인 Ekin Akyürek은 말합니다.“상황 내 학습은 어떤 학습 알고리즘입니까? 선형 모델을 사용한 조사”) 이 현상을 탐구합니다. 상황 내 학습에 대한 더 나은 이해를 통해 연구원은 비용이 많이 드는 재교육 없이 모델이 새로운 작업을 완료할 수 있도록 할 수 있습니다. “일반적으로 이러한 모델을 미세 조정하려면 도메인별 데이터를 수집하고 복잡한 엔지니어링을 수행해야 합니다. 그러나 이제 입력, XNUMX가지 예만 제공하면 원하는 것을 달성할 수 있습니다. 따라서 상황에 맞는 학습은 매우 흥미로운 현상입니다.”라고 Akyürek은 말합니다. 논문에서 Akyürek에 합류한 사람은 Google Brain의 연구 과학자이자 앨버타 대학의 컴퓨팅 과학 교수인 Dale Schuurmans입니다. 수석 저자 Jacob Andreas, MIT 전기 공학 및 컴퓨터 과학과의 X 컨소시엄 조교수이자 MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 구성원; Stanford의 컴퓨터 과학 및 통계 조교수 Tengyu Ma; Google Brain의 수석 과학자이자 연구 책임자인 Danny Zhou가 있습니다. 이 연구는 학습 표현에 관한 국제 회의에서 발표될 예정입니다.

모델 안의 모델

기계 학습 연구 커뮤니티에서 많은 과학자들은 대규모 언어 모델이 훈련 방식 때문에 상황에 맞는 학습을 수행할 수 있다고 믿게 되었다고 Akyürek은 말합니다. 예를 들어, GPT-3에는 수천억 개의 매개변수가 있으며 Wikipedia 기사에서 Reddit 게시물에 이르기까지 인터넷에서 방대한 양의 텍스트를 읽음으로써 훈련되었습니다. 따라서 누군가가 새 작업의 모델 예제를 보여줄 때 훈련 데이터 세트에 수십억 개의 웹 사이트의 텍스트가 포함되어 있기 때문에 이미 매우 유사한 것을 보았을 가능성이 큽니다. 새로운 작업을 수행하는 방법을 배우기보다는 훈련 중에 본 패턴을 반복합니다. Akyürek은 상황 내 학습자가 이전에 본 패턴과 일치하는 것이 아니라 실제로 새로운 작업을 수행하는 방법을 배우고 있다는 가설을 세웠습니다. 그와 다른 사람들은 이전에는 볼 수 없었던 합성 데이터를 사용하여 이러한 모델에 프롬프트를 제공하여 실험했으며 모델이 여전히 몇 가지 예에서만 학습할 수 있음을 발견했습니다. Akyürek과 그의 동료들은 아마도 이러한 신경망 모델이 새로운 작업을 완료하기 위해 훈련할 수 있는 더 작은 기계 학습 모델을 내부에 가지고 있다고 생각했습니다. "그것은 우리가 이 대형 모델에서 본 거의 모든 학습 현상을 설명할 수 있습니다."라고 그는 말합니다. 이 가설을 테스트하기 위해 연구원들은 GPT-3와 동일한 아키텍처를 가지고 있지만 상황 내 학습을 위해 특별히 훈련된 변압기라는 신경망 모델을 사용했습니다. 이 변환기의 아키텍처를 탐색함으로써 그들은 숨겨진 상태 내에서 선형 모델을 작성할 수 있음을 이론적으로 증명했습니다. 신경망은 데이터를 처리하는 여러 계층의 상호 연결된 노드로 구성됩니다. 숨겨진 상태는 입력 레이어와 출력 레이어 사이의 레이어입니다. 그들의 수학적 평가는 이 선형 모델이 변압기의 가장 초기 계층 어딘가에 작성되었음을 보여줍니다. 그런 다음 변환기는 간단한 학습 알고리즘을 구현하여 선형 모델을 업데이트할 수 있습니다. 본질적으로 모델은 자신의 더 작은 버전을 시뮬레이션하고 훈련합니다.

은닉층 탐색

연구원들은 프로빙 실험을 사용하여 이 가설을 탐구했습니다. 여기서 그들은 특정 수량을 복구하기 위해 변압기의 숨겨진 계층을 조사했습니다. “이 경우 실제 솔루션을 선형 모델로 복구하려고 시도했으며 매개변수가 숨겨진 상태로 작성되었음을 보여줄 수 있었습니다. 이것은 선형 모델이 어딘가에 있다는 것을 의미합니다.”라고 그는 말합니다. 이 이론적 작업을 바탕으로 연구원들은 신경망에 단 두 개의 계층을 추가하여 변환기가 컨텍스트 내 학습을 수행할 수 있도록 할 수 있습니다. Akyürek은 이것이 가능하기 전에 해결해야 할 기술적 세부 사항이 아직 많이 있지만 엔지니어가 새 데이터로 재교육할 필요 없이 새 작업을 완료할 수 있는 모델을 만드는 데 도움이 될 수 있다고 경고합니다. 앞으로 Akyürek은 이 작업에서 연구한 선형 모델보다 더 복잡한 함수를 사용하여 컨텍스트 내 학습을 계속 탐색할 계획입니다. 그들은 또한 이러한 실험을 대규모 언어 모델에 적용하여 그들의 행동이 간단한 학습 알고리즘으로도 설명되는지 확인할 수 있습니다. 또한 그는 상황에 맞는 학습을 가능하게 할 수 있는 사전 훈련 데이터 유형에 대해 더 깊이 파고들기를 원합니다. “이 작업을 통해 사람들은 이제 이러한 모델이 모범에서 어떻게 배울 수 있는지 시각화할 수 있습니다. 따라서 상황에 맞는 학습에 대한 일부 사람들의 견해가 바뀌기를 바랍니다.”라고 Akyürek은 말합니다. “이 모델들은 사람들이 생각하는 것처럼 멍청하지 않습니다. 그들은 이러한 작업을 암기하지 않습니다. 그들은 새로운 작업을 배울 수 있으며 우리는 그것이 어떻게 이루어질 수 있는지 보여주었습니다.”

타임 스탬프 :

더보기 나노 워크