OpenAI Codex 이면: 당신이 몰랐던 Codex 구축에 대한 5가지 매혹적인 도전

소스 노드 : 1068192

OpenAI Codex 이면: 당신이 몰랐던 Codex 구축에 대한 5가지 매혹적인 도전

태그 : , ,

Codex 구축 중에 발생하는 일부 ML 엔지니어링 및 모델링 문제.




OpenAI 코덱스
출처: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

 

몇 주 전 OpenAI는 자연어를 코드로 번역할 수 있는 대규모 모델인 Codex를 출시하여 인공 지능(AI) 세계를 놀라게 했습니다. Codex는 기본 언어 지침에서 종단 간 효과적으로 생성할 수 있습니다. 제 말을 못 믿으시면 역대 최고의 AI 데모 중 하나로 간주될 수 있는 이 비디오를 시청하셔야 합니다 😉



비디오 크레디트: OpenAI

 

Codex의 초기 출시 이후 기능에 대해 많은 글이 작성되었습니다.

그러나 저는 이 규모의 모델을 구축하는 데 믿을 수 없을 정도로 관련이 있는 작은 요구 사항에 더 흥미를 느꼈습니다. Codex를 자세히 살펴보니 강조하면 좋을 것 같은 몇 가지 흥미로운 사항이 있습니다.

1. Codex는 약 XNUMX개 언어에 능숙하지만 Python용으로 훈련되었습니다.

 
나는 이것이 매우 통찰력이 있다는 것을 알았습니다. OpenAI의 원래 목표는 Codex를 Python에 능숙하게 만드는 것이었지만 사전 학습 과정에서 모델이 다른 언어를 선택한 것으로 나타났습니다. 이는 사전 학습된 언어 모델의 고유한 기능을 나타냅니다.

2. Codex 테스트는 까다로운 것 이상이었습니다.

 
AI 커뮤니티는 Codex의 연구에 놀랐지만 엔지니어링 측면도 인상적이었습니다. 제가 특히 흥미를 느꼈던 한 가지 측면은 테스트 부분이었습니다. 엄청난 위험을 감수하지 않고 어떻게 라이브 코드를 테스트합니까? OpenAI 팀은 Codex의 출력을 개별적으로 테스트하기 위해 매우 정교한 샌드박스를 구축하는 데 많은 노력을 기울였습니다.

3. 시맨틱을 코드와 일치시키는 것은 사소한 일이 아닙니다.

 
전 세계의 모든 소스 코드에서 모델을 교육하는 것은 멋진 것처럼 들리지만 결코 사소하지 않습니다. 결국 모든 코드가 동일하게 생성되는 것은 아닙니다. Github의 코드는 제대로 문서화되지 않은 반면 노트북에는 풍부한 의미 정보가 있을 수 있습니다. 마찬가지로 Stack Overflow의 코드 스니펫에는 더 풍부한 수준의 의미론적 정보가 있습니다. 코드 섹션을 언어 의미론에 매핑하는 것은 Codex 구축의 과제 중 하나였습니다.

4. Codex는 여전히 작업 분해에 어려움을 겪고 있습니다.

 
프로그래머의 작업 방식을 생각하면 문제를 더 작은 작업으로 분해하고 해당 작업에 대한 코드를 생성하는 경향이 있습니다. Codex는 후자에 훌륭하지만 여전히 문제 분해 작업에서 어려움을 겪고 있습니다. 문제 분해에 매우 복잡한 인지 기술이 필요하다고 생각한다면 이것은 놀라운 일이 아닙니다.

5. 감독된 미세 조정은 Codex 구축의 큰 부분이었습니다.

 
인터넷의 코드는 완전성, 문서화, 풍부한 구문 등 모든 종류의 수준으로 나타납니다. 이러한 다양한 코드 세트에서 모델을 교육하면 신뢰할 수 없는 결과가 생성될 수 있습니다. 그런 의미에서 OpenAI는 대규모 감독 미세 조정 노력을 거쳐야 했습니다.

 
이것은 잘 알려지지 않았지만 모델의 첫 번째 버전의 성공에 크게 기여한 Codex에 대한 몇 가지 측면입니다. Codex의 성공은 모두 대규모 ML 엔지니어링 및 인프라 노력으로 고급 ML 연구 덕분이었습니다.

 
바이오 : 예수 로드리게스 현재 Intotheblock의 CTO입니다. 그는 기술 전문가이자 집행 투자자이자 스타트업 고문입니다. Jesus는 새로운 엔터프라이즈 소프트웨어 트렌드를 활용하여 기업이 훌륭한 소프트웨어 조직이 되도록 돕는 데 중점을 둔 수상 경력에 빛나는 소프트웨어 개발 회사인 Tellago를 설립했습니다.

실물. 허가를 받아 다시 게시했습니다.

관련 :

출처: https://www.kdnuggets.com/2021/09/openai-codex-challenges.html

타임 스탬프 :

더보기 너 겟츠