Bio Eats World: AI를 사용하여 바이오를 더 멀리 가져가다

플라톤에 의해 재발행

팔로워 : 0

이 에피소드에서 Vijay Pande는 Inceptive의 공동 창립자이자 CEO인 Jakob Uszkoreit와 이야기를 나눕니다. 그들은 AI에 관한 모든 것을 함께 논의합니다.

함께 읽고 싶은 경우를 대비하여 아래에 전문을 게시하고 있습니다.

***

올리비아 웹: 안녕하세요. 바이오, 헬스케어, 기술이 교차하는 팟캐스트인 Bio Eats World에 오신 것을 환영합니다. 저는 a16z의 Bio + Health 편집 책임자인 Olivia Webb입니다. 이 에피소드에서는 Google Brain의 전직 직원이자 Inceptive의 공동 창립자인 Jakob Uszkoreit와 이야기를 나눴습니다. Jakob은 또한 중요한 AI 연구 논문인 Attention is All You Need의 저자 중 한 명입니다. Jakob은 a16z Bio + Health의 창립 파트너인 Vijay Pande와 함께 AI에 관한 모든 것에 대해 이야기했습니다. Google Brain에서 근무한 시간부터 인간과 컴퓨터가 언어를 처리하는 방법, RNA의 가능성에 대한 Inceptive의 믿음, Jakob이 우리를 어떻게 믿는지에 이르기까지 AI와 함께 변곡점 영역에 진입하고 있습니다.

놓치고 싶지 않은 에피소드이지만 AI에 대한 대학원 수준의 토론이기도 하므로 에피소드와 함께 대본을 게시할 예정입니다. 시작하자.

적용 가능한 알고리즘

비제이 판데: Jakob, Bio Eats World에 참여해주셔서 정말 감사합니다. 당신이 있어서 좋습니다.

야콥 우슈코레이트(Jakob Uszkoreit): 여기가 좋습니다. 나를 주셔서 감사합니다.

비제이 판데: 특히 당신은 컴퓨터 과학자, 기업가, 설립자로서 매우 흥미진진한 이야기를 가지고 있기 때문에 원하는 곳에서 시작하여 경력 여정을 안내해 주었으면 합니다. 하지만 Google Brain에 도달하게 된 계기는 시작하기에 좋은 출발점이 될 것입니다. .

야콥 우슈코레이트(Jakob Uszkoreit): 어, 기계 학습의 문제, 아마도 가장 넓은 의미에서 [그리고] 언어 이해, 좀 더 구체적으로는 가족 내에서 실행되는 문제로 직면했던 것을 어느 정도 기억합니다. 제 아버지는 컴퓨터 과학자이자 전산 언어학자입니다. 아시다시피 어린 시절부터 튜링 기계와 같은 것들이 상당히 초기에 완전히 이질적인 개념이었던 것은 아닙니다.

비제이 판데: 예, 실제로는 저녁 식사 대화였던 것 같습니다.

야콥 우슈코레이트(Jakob Uszkoreit): 그들은 저녁 식사 대화였습니다. 특히 유한 오토마타와 자판기가 실제로 어떻게 관련되어 있는지는 일반적인 주제였습니다. 나이가 들수록 실제로 다른 일을 하게 되었는지 확인하고 싶었습니다. 그래서 순수 수학 및 관련 분야를 꽤 많이 살펴보았습니다. [저는] 최적화, 최적화 알고리즘, 알고리즘 전반, 더 광범위하게는 복잡성 이론에 상당히 집중했습니다. 그러다가 이것이 가장 실용적이지 않고 가장 적용 가능한 것이 아니라는 사실을 깨달았습니다. 내 경력 전반에 걸쳐 약간의 붉은 실. 그리고 말 그대로 2005년에 Google 인턴십을 우연히 만났습니다.

어떤 종류의 연구 프로젝트에 참여할 것인지에 대한 몇 가지 다른 옵션이 주어졌습니다. [그리고] 그 중에는 다양한 컴퓨터 비전 노력이 있었지만 기본적으로 Google 번역이 된 기계 번역 프로젝트도 있었습니다. 바로 그 무렵 또는 그 조금 전에 [Translate]는 Google 내부 시스템으로 개발된 첫 번째 제품을 출시했습니다. 지금까지 가장 흥미로운 대규모 알고리즘 문제가 있었습니다.

그 당시 실제로 보는 것은 정말 흥미로웠습니다. 박사 학위를 중단하고 인턴십 후 실제로 Google로 돌아오도록 설득한 이유는 제가 그곳에 있는 동안 분명해졌기 때문입니다. 기계 학습은 흥미로울 뿐만 아니라 지적이고 과학적으로 흥미롭고 도전적이며 자극적일 뿐만 아니라 산업과 제품에서 바늘을 바로 움직일 수 있다는 희망이 매우 컸습니다. 사실 그 무렵에는 세상에 그런 곳이 그리 많지 않았습니다. 그리고 그 당시에는 확실히 학술 연구실이 아니었지만 Google과 같은 곳이었습니다. 그리고 Google은 실제로 이것의 최전선에 있었습니다. 그래서 당시 저는 수천 대의 컴퓨터에서 첫 번째 대규모 클러스터링 알고리즘을 실행하는 것이 놀랍고 다른 곳에서는 절대 불가능하다고 생각했습니다.

비제이 판데: 선임 동료들과 이야기를 나누다 보면 Bell Labs 전성기의 낭만주의가 많이 나오는데 저는 Google Brain이 오늘날 더 가까운 변종 중 하나가 아닐까 항상 궁금했습니다. 환경은 어땠나요?

야콥 우슈코레이트(Jakob Uszkoreit): 그래서 저는 실제로 그 때와 약 XNUMX년 후인 Google Brain이 실제로 시작되었을 때 사이에 상당한 변화가 있었다고 느낍니다. Brain and Translate가 시작되기 전에는 Bell Labs가 생각하는 것보다 진정으로 차이를 만드는 제품에 의해 주도되었습니다. 그리고 물론 우리 중에는 Bell Labs 졸업생이 많았지만 직접적인 적용 가능성이 훨씬 더 동기 부여가 되었습니다.

기계 번역이 파티에서 웃음에 좋은 [것에서] 문자 그대로 문자 그대로 어떻게 변했는지 실제로 목격하는 것은 정말 놀라운 일이었습니다. 그들이 당신에게 묻는다면 당신은 어디에서 일합니까? 그리고 당신은 구글이라고 말했습니다. 그리고 그들이 말하길, 거기서 무엇을 합니까? 그리고 그들은 처음에 깊은 인상을 받았습니다. 그리고 당신은 오, 나는 Google 번역에서 일하고 있다고 말했습니다. 그리고 나서 그들은 웃으며 물었습니다. 이것이 효과가 있을까요? 나는 그렇게 생각하지 않는다. 그러나 동시에 머신 러닝의 딥 러닝 르네상스 이전의 물결인 머신 러닝의 물결이 정체되기 시작했다고 말하고 싶습니다. 아시다시피, 딥 러닝은 제가 이전에 학교에서 했던 것이었고 좋아했지만 그 당시에는 실제로 적용할 수 있는 것이 아니었습니다.

비제이 판데: 예, 특히 당신이 해야 할 계산을 수행할 학계의 규모가 없었기 때문입니다.

야콥 우슈코레이트(Jakob Uszkoreit): 확실히 학계는 아니지만 Google에서도 마찬가지입니다. 그 당시에 Translate에서 실제로 가장 흥미로운 특징은 결국 데이터의 절대적인 힘을 믿었다는 점이었습니다.

그래서 우리는 더 복잡하고 정교한 알고리즘을 만들지 않고 가능한 한 단순화하고 확장한 다음 점점 더 많은 데이터를 훈련할 수 있도록 노력했습니다. 그러나 우리는 거기에서 천장에 부딪쳤습니다. 당시 Google의 규모로 확장하기 위해 단순화해야 했던 것이 우리의 진정한 목표였습니다. 그러나 그것은 진자 운동 중 하나였습니다. 학계에서 많은 GPU를 가진 많은 사람들이 다시 스윙했습니다. 딥 러닝은 어떤 의미에서 복수심과 함께 돌아왔습니다. 그리고 갑자기 환경이 적응했습니다. 규모에 따라 생산에 이르는 직접적인 경로가 무엇인지 명확하지 않았기 때문입니다.

그래서 전체 환경이 응용 프로그램 및 제품 지향적인 것에서 적어도 몇 년 동안은 훨씬 더 학문적인 것으로 느껴졌습니다. 우리는 훨씬 더 많은 GPU를 감당할 수 있기 때문에 여전히 학술 연구실과 약간 다릅니다. [그것은] 매우 생산적이고 정말 놀랍지만 훨씬 더 개방적인 [환경]으로 바뀌었습니다.

주의 만 있으면됩니다

비제이 판데: 글쎄요, 간행물에 대해 생각해야 할 자연스러운 장소는 당신과 팀이 Attention is All You Need를 간행했을 때입니다. 그리고 알다시피, 그것은 변환기 알고리즘이 처음 배치된 때 이후로 많은 생성 AI에 대한 중요한 문서였습니다.

야콥 우슈코레이트(Jakob Uszkoreit): 그 논문을 출판하기 2년 전에 우리는 당시 기계 번역과 같은 문제에 대한 최신 기술이 무엇인지, 또는 LSTM 또는 RNN 기반과 같은 최신 기술로 부상하고 있음을 깨달았습니다. , SeqXNUMXSeq는 전반적으로 교육 패러다임 및 설정으로서 뿐만 아니라 네트워크 아키텍처로서 데이터 측면에서 확장할 때 당시 가장 현대적인 GPU에서도 놀라운 문제가 있었습니다.

예를 들어, Google이 출시한 최초의 신경 기계 번역 시스템인 GNMT는 실제로 제가 아는 한, 이전에 구문 기반 통계 시스템을 위해 마이닝한 모든 훈련 데이터에 대해 훈련된 적이 없었습니다. 그 이유는 알고리즘이 데이터 양 측면에서 제대로 확장되지 않았기 때문입니다. 간단히 말해서 당시 우리는 기계 번역이 아니라 Google 내부적으로 더 많은 양의 학습 데이터를 사용할 수 있는 문제를 보고 있었습니다. 그래서 이것들은 검색에서 나온 문제들이었습니다. 기본적으로 또 다른 서너 자리의 크기가 있습니다. 아시다시피, 이제 더 이상 수십억 개의 단어가 아니라 수조 개가 쉽게 생겼습니다. 그리고 갑자기 우리는 단순한 피드포워드 네트워크가 이런 패턴에 직면하게 되었습니다. , 평균을 내고 큰 MNLP를 통해 보내면 적어도 더 많은 데이터에 대해 교육을 받았을 때 실제로 RNN과 LSTM을 능가했습니다.

[그리고 그들은] 훈련하기에 n배 더 빨랐고, 쉽게 10배, 20배 더 빨랐습니다. 그래서 훨씬 더 많은 데이터로 그들을 훈련시킬 수 있습니다. 어떤 경우에는 훈련 속도가 XNUMX배 더 빨랐습니다. 그래서 우리는 일관되게 더 단순하고 우리가 알고 있는 특정 현상을 표현하거나 캡처할 수 없는 모델로 결국에는 언어에서 확실히 공통적으로 발생했습니다.
그럼에도 불구하고 알다시피, 결론은 훈련 비용이 더 저렴했고 [그들은] 더 잘 수행했습니다.

비제이 판데: 잘 모르시는 분들을 위해 예를 들어보겠습니다. 그래서 간단히 말씀드리자면 이탈리안을 제외한 근처의 모든 레스토랑을 보여달라고 하면 모든 이탈리안 레스토랑이 표시됩니다.

야콥 우슈코레이트(Jakob Uszkoreit): 정확히. 사실, 근처를 제외한 모든 이탈리안 레스토랑을 표시하기 위해 말씀하신 내용을 다시 주문할 수 있습니다. 그것은 단지 단어의 수프일 뿐이며 확실히 다른 것을 의미하는 것으로 재정렬할 수 있습니다.

비제이 판데: 예.

야콥 우슈코레이트(Jakob Uszkoreit): 그런 다음 바이그램을 삽입하여 구조를 파악하고 더 많은 글로벌 현상을 파악합니다. 그래서 기본적으로 두 개의 연속된 단어와 그런 것들의 그룹입니다. 하지만 기본적으로 문장의 맨 끝에 동사를 넣을 수 있는 독일어와 같은 언어에서는 확실히…

비제이 판데: 그리고 그것은 전체 의미를 바꾸죠, 그렇죠?

야콥 우슈코레이트(Jakob Uszkoreit): 모든 의미를 바꿉니다. 정확히 그렇습니다. n-gram 또는 작은 단어 그룹의 크기에 상관없이 궁극적으로 성공하지 못할 것입니다. 그리고 RNN의 길이 반복이나 단어나 픽셀 순서의 반복을 필요로 하지 않고 실제로 입력과 출력을 보다 병렬적인 방식으로 처리하는 다른 방법이 있어야 한다는 것이 분명해졌습니다. 궁극적으로 최신 가속기 하드웨어의 강점을 충족합니다.

비제이 판데: 단어 가방이 임의의 순서로 된 단어인 것처럼 생각해보세요. LSTM, 즉 장단기 기억은 과거를 조금 들여다볼 수 있는 일종의 [능력]을 제공할 수 있습니다. 그렇죠? 그러나 트랜스포머는 근본적으로 다른 일을 합니다. 트랜스포머는 어떻게 그것을 다음 단계로 끌어올릴까요?

야콥 우슈코레이트(Jakob Uszkoreit): 이것을 보는 방법에는 항상 두 가지가 있습니다. 하나는 효율성의 렌즈를 통한 것이지만 다른 하나는 좀 더 직관적인 방법으로 얼마나 많은 컨텍스트를 유지할 수 있는지의 관점에서 보는 것입니다. 그리고 말씀하신 것처럼 일반적으로 LSTM 또는 순환 신경망은 입력을 단계별로 광범위하게 이동하며 이론상으로는 임의로 긴 컨텍스트 창을 입력(과거)에 유지할 수 있습니다. 실제로 발생하는 것은 하루가 끝날 때 의미에 실제로 영향을 미치는 과거에는 매우 먼 사건, 예를 들어 단어 또는 픽셀을 식별하는 것이 실제로 매우 어렵다는 것입니다. 그들은 주변에 있는 것들에 집중하는 경향이 있습니다.

반면에 트랜스포머는 기본적으로 머리를 돌리고 "아니요, 우리가 하고 있는 모든 단계에서 입력을 통해 움직이지 않습니다"라고 말합니다. 모든 단계에서 우리는 전체 입력 또는 출력을 보고 기본적으로 입력 공간이 아니라 기본적으로 이동함에 따라 모든 단어, 모든 픽셀 또는 모든 패치 또는 비디오의 모든 프레임의 표현을 점진적으로 수정합니다. , 그러나 표현 공간에서.

비제이 판데: 예.

야콥 우슈코레이트(Jakob Uszkoreit): 그리고 그 아이디어는 최신 하드웨어에 적용하는 방법과 관련하여 몇 가지 단점이 있었지만 순환 신경망과 비교할 때 주로 장점이 있었습니다. 당신이 묶인 것은 정말 그들이 얼마나 좋아야 하는가? 모든 위치, 모든 단어 쌍 또는 모든 쌍의 이미지 패치가 즉시 상호 작용할 수 있는 모든 위치의 이러한 종류의 병렬 처리 레이어는 몇 개입니까? 이러한 표현을 실제로 "감당"할 수 있는 개정판은 몇 번입니까?

비제이 판데: 정말 흥미로운 점은 분명히 영감은 자연어이지만 DNA 시퀀스와 같이 순차적으로 연구하고 싶지 않은 곳에 입력하고 싶은 구조가 많다는 것입니다. 머지 않아 전체의 모델을 원할 것입니다.

그것은 언어와 함께 일종의 재미 있습니다. 내가 말하거나 당신의 말을 들을 때 나는 각 단어를 처리하고 있지만 결국에는 단어를 개별적인 의미로 토큰화해야 할 뿐만 아니라 이 표현을 발전시켜야 합니다. 예? 트랜스포머처럼 할 수 있으면 좋겠습니다. LSTM이 우리 인간이 하는 방식에 더 가깝고 변환기가 우리가 해야 하는 방식일 수도 있고, 할 수 있기를 바라는 것이 비결일 수도 있습니다.

야콥 우슈코레이트(Jakob Uszkoreit): 표면적으로는 그것이 사실이라고 생각합니다. 하지만 결국에는 이와 같은 내성적 주장은 미묘하고 까다롭습니다.

그래서 우리 중 많은 사람들이 분주한 거리를 가로질러 무언가를 전달하려는 누군가와 소리를 지르거나 고함을 지르는 이 현상을 알고 있다고 생각합니다. 그래서 여러분은 그들이 말하는 것을 듣습니다. 그리고 그것은 짧은 단어들의 연속이 아닙니다. 그리고 여러분은 기본적으로 아무것도 이해하지 못합니다. 하지만 XNUMX초 후에 갑자기 전체 문장을 이해하게 되었습니다. 시간의 흐름 때문에 순차적으로 언어를 쓰고 말해야 하지만 우리의 더 깊은 이해가 실제로 그런 순차적 방식으로 진행되는지는 그리 명확하지 않다는 사실을 암시합니다.

팀 구축

비제이 판데: Attention is All You Need 종이나 변압기 작동 방식만 공부하는 사람이 있다면 많은 부분이 있습니다. 그리고 이제는 한 사람이 짧은 시간에 그 일을 효율적으로 할 수 있는 시점을 지나간 것 같습니다.

야콥 우슈코레이트(Jakob Uszkoreit): 전혀.

비제이 판데: 이제 이러한 유형의 작업을 수행할 수 있는 팀이 필요합니다. 그것의 사회학은 무엇입니까? 어떻게 그런 일이 일어납니까?

야콥 우슈코레이트(Jakob Uszkoreit): 제가 개인적으로 느끼는 이 특별한 경우는 과학적 연구에 대한 산업적 접근 방식에 매우 잘 맞는 정말 훌륭한 예입니다. 당신이 정확히 옳기 때문입니다. 이것은 모든 것을 발동시키는 하나의 큰 상상력과 창의성의 불꽃이 아니었습니다.

궁극적으로 모두 필요한 것은 정말 많은 기여였습니다. 실제로 구현을 포함하는 라이브러리(나중에 Tensor2Tensor라는 이름으로 오픈 소스가 됨)인 환경이 있습니다. 그리고 모든 구현이 아니라 예외적으로 우수한 구현, 모든 종류의 딥 러닝 트릭의 빠른 구현입니다.
그러나 이전 출판물에서 나온 이러한 주의 메커니즘(예: 분해 가능한 주의 모델 [이전에] 게시됨)까지 왔지만 실제로는 개선 및 혁신, 최적화 프로그램 관련 발명과 결합되었습니다. 동시에 이 모든 분야에서 진정으로 세계 최고의 전문가에 속하고 이 모든 측면에 대해 비슷하게 열정을 가진 사람을 찾을 수 없을 것입니다.

비제이 판데: 그리고 특히 초기 아이디어가 있고, 구현이 있고, 확장이 있습니다. 현재 대기업이 아닌 다른 곳에서 이러한 유형의 규모에 도달하는 것은 아마도 비용 때문에 실현 가능하지 않을 것입니다.

야콥 우슈코레이트(Jakob Uszkoreit): 실제로 대기업 측면이 그다지 중요하지 않을 수도 있다고 생각합니다.

비제이 판데: 네?

야콥 우슈코레이트(Jakob Uszkoreit): 회사 측면은 내가 더 높이 평가할 것입니다. 대기업은 수천 개의 TPU 또는 GPU가 필요하거나 가지고 있는 것이 있다면 확실히 해를 끼치지 않습니다. 이런 종류의 물건에는 깊은 주머니가 아프지 않습니다. 그러나 동시에 저는 이러한 종류의 산업 탐색적 연구에 대한 인센티브 구조가 이러한 종류의 프로젝트에 훨씬 더 적합하다고 생각합니다. 제 생각에는 그것이 실제로 우리가 보고 있는 것입니다. 전반적으로 AI 생성 프로젝트를 살펴보고 있습니다.

비제이 판데: 응. 그리고 당신의 관점에서 그것은 시작일 수 있습니다.

야콥 우슈코레이트(Jakob Uszkoreit): 확실히 스타트업이 될 수 있습니다. 그리고 이제 가속기 하드웨어를 사용하는 것이 적어도 더 저렴해지고 있는 것을 보고 있다고 생각합니다. 그리고 이미지 생성이나 텍스트 생성을 목표로 하는 생성 AI와 관련하여 경쟁이 치열한 신생 기업이 있습니다.

생명 과학으로 점프

비제이 판데: 지금하고있는 일로 전환하고 싶습니다. 당신은 RNA 치료제를 위해 RNA 생물학에 AI를 적용하는 회사인 Inceptive의 CEO입니다. 어떻게 생명공학과로 진학하게 되셨나요? 표면적으로는 저녁 식사 [테이블] 주변과 Google 카페테리아 주변에서 언어 모델에 대해 이야기하는 것… 차세대 치료법으로의 도약인 것 같습니다. 그 모든 것이 어떻게 된 것입니까?

야콥 우슈코레이트(Jakob Uszkoreit): 나는 더 동의할 수 없었다. 제 입장에서는 놀라운 학습 경험입니다. 꽤 오랫동안 생물학은 전통 생물학을 기반으로 하는 약물 개발 및 직접 디자인과 관련하여 우리가 얼마나 멀리 갈 수 있는지 상상할 수 없는 문제로 생각했습니다. 미래의 약물을 설계하거나 설계 방법을 발견합니다.

딥 러닝, 특히 대규모 학습은 여러 가지 이유로 여기에서 잠재적으로 정말 적합한 도구인 것 같습니다. 그리고 그 이유 중 하나는 실제로 종종 이점으로 간주되지 않는 것입니다. 그것은 당신이 무언가에 던질 수 있는 것이 이 큰 블랙 박스라는 사실입니다. 그리고 그냥 던질 수 있다는 것은 사실이 아닙니다. 던지는 방법을 알아야 하는 것입니다.

비제이 판데: 그리고 완전히 검은색도 아닙니다. 나중에 그것에 대해 논쟁할 수 있습니다.

야콥 우슈코레이트(Jakob Uszkoreit): 네, 맞습니다. 정확히. 그러나 결국 언어에 대한 비유로 돌아가서, 우리는 그런 의미에서 언어를 완전히 이해하고 개념화하는 데 결코 성공하지 못했습니다. 언어의 배후에 있는 이 이론, 그리고 나서 당신은 그것을 "이해"하는 알고리즘을 구현할 수 있을 것입니다. 우리는 그 시점에 도달하지 못했습니다. 대신에 우리는 중단하고 한 걸음 뒤로 물러나야 했습니다. 제 생각에는 그것이 가장 실용적인 접근 방식이 아닐 수도 있음을 어느 정도 인정해야 했습니다. 대신, 우리는 그러한 수준의 개념적 이해를 요구하지 않는 접근법을 시도해야 합니다. 생물학의 일부도 마찬가지일 수 있다고 생각합니다.

AI를 사용하여 바이오를 더 멀리

비제이 판데: 흥미롭게도, 우리는 이전에 이와 같은 것들에 대해 이야기한 적이 있습니다. 물리학과 미적분학의 세기였던 지난 세기를 생각해 보십시오. 매우 많은 것을 설명하는 아인슈타인의 필드 방정식과 같은 단일 방정식을 가질 수 있는 매우 우아한 단순화를 가질 수 있는 방법이 있는 특정한 사고방식이 있습니다. 그리고 그것은 매우 복잡한 언어로 된 매우 간단한 방정식입니다. 물리학의 사회학과 거의 같은 파인만의 접근 방식이 여기 생물학에는 적용되지 않을 수도 있다고 말씀하셨죠?

야콥 우슈코레이트(Jakob Uszkoreit): 이 시점에서 볼 수 있는 적어도 두 가지 이유 때문에 적용되지 않을 수 있습니다. 첫 번째는 관련된 플레이어가 너무 많다는 것입니다. 그리고 우리가 모든 것을 슈뢰딩거 방정식으로 축소하고 풀 수 있다는 것은 사실이지만, 계산적으로 다루기 어려울 뿐만 아니라 이 모든 다양한 플레이어에 대해 알아야 합니다. . 근처에도 안. 그래서 그것은 한 측면입니다.

그리고 두 번째는 기본적으로 계산상의 난해성입니다. 어떤 의미에서 환원이 너무 멀리 가서 모든 것을 하나의 단일 항목으로 되돌리지만 우리의 계산적 접근이 기본적으로 사용하기 때문에 도움이 되지 않습니다. 예측을 하기 위한 이러한 기본 사항은 삶에 정말 중요할 만큼 충분히 큰 시스템에 대한 예측을 하기에는 너무 느립니다.

비제이 판데: 응. 따라서 n-body 방정식은 아니지만 여전히 형식주의가 있습니다. 데이터 기반 형식주의 또는 베이지안 형식주의일 수도 있습니다. 그것이 당신이 하고 싶은 일에 어떻게 반영됩니까? AI 및 기타 유형의 새로운 알고리즘을 적용하는 데 어떻게 반영됩니까?

야콥 우슈코레이트(Jakob Uszkoreit): 몇 가지 다른 측면이 있다고 생각합니다. 결국, 현재 생성 AI에서 보고 있는 것에서 제 생각에 가장 큰 시사점 중 하나는 우리가 더 이상 완벽하게 깨끗할 뿐만 아니라 도메인에서 정확하게 데이터를 훈련할 필요가 없다는 것입니다. 그리고 나중에 처리하고 싶은 작업의 종류에서. 하지만 그 대신에 실제로 더 유익할 수도 있고 원격으로 관련된 모든 것을 실제로 훈련하려고 지금까지 발견한 유일한 방법일 수도 있습니다. 그런 다음 이러한 데이터에서 효과적으로 수집한 정보를 사용하여 이른바 기초 모델을 만들고 훨씬 더 작고 다루기 쉬운 양의 깨끗한 데이터를 사용하여 모든 종류의 특정 작업을 미세 조정할 수 있습니다.

나는 우리가 전반적인 현상에 대해 알아야 할 것을 약간 과소평가하고 있다고 생각합니다. 아주 좋은 대규모 언어 모델을 구축하려면 인터넷이라는 것이 있고 그 안에 많은 텍스트가 있다는 것을 이해해야 합니다. 실제로 이 텍스트를 찾는 방법, 텍스트가 아닌 항목 등에 대해 꽤 많이 이해해야 기본적으로 사용하는 교육 데이터에서 추출할 수 있습니다.

나는 생물학과 관련하여 매우 직접적으로 유사한 도전이 있을 것이라고 믿습니다. 중요한 질문은 다음과 같습니다. 우리가 충분히 충실하게 생명을 관찰할 수 있도록 확장할 수 있는 실험은 무엇입니까? 기본적으로 이러한 기본 모델을 구축하기 시작하기 위해 필요한 데이터에서 가져옵니다. 그런 다음 우리가 해결하려는 문제에 실제로 접근하기 위해 미세 조정되고 특별히 엔지니어링된 데이터를 사용할 수 있습니다.

데이터 생성 부분은 확실히 그 중 하나입니다. 우리가 알고 있는 것, 예를 들어 기본 물리학을 모방하는 아키텍처와 모델 및 네트워크 아키텍처를 효과적으로 보유하는 것은 여전히 실제로 계산을 절약하고 이러한 모델이 가져야 할 데이터에 대한 여전히 엄청난 욕구를 줄이는 매우 강력한 방법으로 남을 것입니다. , 가능한 수준으로. 그래서 제가 실제로 주목해야 할 흥미로운 점은 다른 형식, 다른 영역, 언어, 시각, 이미지 생성, 등, 그리고 그것들을 생물학에 적용하는 것은 기본적으로 우리가 시간과 같은 것이 있다는 것을 알고 있다는 사실과 적어도 우리가 아는 한 물리학의 법칙이 단지 변하지 않는 것처럼 보인다는 사실을 무시하는 것입니다. 시간이 지남에 따라.

단백질 폴딩 과정은 수많은 플레이어(샤프론 등)가 있다는 사실을 무시하고 실제로 어떤 의미에서 나머지 단백질 동역학에서 상당히 임의로 분리된 문제입니다. 그것은 그 분자의 나머지 동역학, 또는 그 단백질의 나머지 수명만큼 동역학입니다. 그렇다면 왜 우리는 하나에 대해 특별히 모델을 훈련하려고 하고 잠재적으로 적어도 다른 하나에 대해 가질 수 있는 데이터를 무시합니까? 이 경우, 아마도 더 구체적으로, 오늘날 우리가 가지고 있는 단백질 구조 예측 모델 중 일부는 시간의 존재를 천천히 받아들이기 시작한다는 사실 때문에 암묵적으로 동역학에 대해 무언가를 배우고 있습니까?

새로운 아키텍처 개발

비제이 판데: 지금 여러분이 서 있는 위치에 대해 제가 생각하는 흥미로운 것 중 하나는 몇 가지 드문 예외를 제외하고 대부분의 심층 신경망 또는 생물학의 다른 유형의 AI가 다른 곳에서 발명된 것을 가져와서 전달하는 것처럼 느낀다는 것입니다. 이미지에 컨볼루션 신경망을 사용하는 것과 같습니다. 작은 분자의 경우… Stanford의 제 연구실에서는 그래프 신경망과 몇 가지 컨볼루션 신경망을 사용했습니다. 그러나 생물학적 문제에 대해 명시적으로 알고리즘을 실제로 개발하는 것은 매우 드뭅니다. 그리고 저는 항상 그것이 생물학 영역과 컴퓨터 과학 영역에서 강력한 팀의 기술을 갖기가 어렵기 때문이라고 생각했습니다. 하지만 당신의 의견이 궁금합니다. 아니면 처음부터 새로운 아키텍처를 개발하는 것이 드문 일입니까?

야콥 우슈코레이트(Jakob Uszkoreit): 글쎄요, 결국 우리가 보고 있는 것은 새로운 아키텍처가 특정 문제에 의해 동기가 부여되지만 진정으로 차이를 만든다면 다른 곳에서도 적용할 수 있는 경향이 있다는 것입니다. 반면에 동기를 부여하는 애플리케이션과 도메인이 무엇인지 신중하게 선택해도 큰 차이가 없다는 의미는 아닙니다. 그리고 확실히 그렇다고 생각합니다.

여기에서 중요한 문제 중 하나는 사실 우리가 생물학 분야에서 엄청난 양의 데이터를 보유하고 있는 체제에 아직 도달하지 못했다는 것입니다. 그러나 우리는 아직 웹에 상응하는 웹에 앉아 있는 그런 체제에 있지 않습니다. 우리는 그것을 약간 필터링하고, 다운로드하고, 끝낼 수 있습니다. 하지만 그 대신 합리적으로 많이 만들어야 한다고 생각합니다. 그리고 그것은 딥 러닝 전문가에 의해 수행되지 않을 것입니다. 적어도 그들 대부분은 그렇지 않습니다.

그리고 저는 그것이 해당 데이터의 특성을 실제로 이해하는 것과 동시에 발생해야 한다고 믿습니다. 맞습니까? 그곳에서 마주치는 소음의 종류. 이것이 실제로 매우 큰 규모의 풀, 높은 처리량 실험에서 생성된다는 사실이지만 여전히 다른 실험자 등에 의해 다른 날에 실행되는 실험입니다. 그리고 심층 학습 배경을 가진 사람들이 생물학 배경을 가진 사람들과 충분히 긴밀하게 협력하고 근본적인 현상에 대해 우리가 알고 있는 것에 대해 충분히 배우면 기본적으로 흥미로운 새로운 접근 방식을 시도하도록 영감을 받을 것입니다.

비제이 판데: 글쎄요, 저는 당신이 Attention is All You Need 종이의 예에 대해 이야기했을 때, 열정이 서로 상당히 직각인 이 다양한 그룹의 사람들을 어떻게 얻고 싶었는지에 대해 이야기했을 때 정말 좋았습니다. 그리고 어떤 의미에서 생물학에서 이 일을 할 때, 특히 인셉티브에서 할 일을 할 때, 이 모든 작업을 데이터 생성에 투입해야 합니다. 그리고 데이터를 생성한다는 것은 매우 명확하게 말하면 규모에 맞게 생물학적 실험을 실행한다는 것을 의미합니다. 입력 부분 자체는 매우 비싸고 매우 기술적이며 당신이 말했듯이 잘못될 수 있는 방법이 너무 많습니다. 하지만 이전에 해왔던 문화를 기반으로 구축하고 있는 것처럼 들립니다. 이제는 서로 다른 열정을 가진 더 많은 전문가들이 유사한 방식으로 조정하고 있습니다.

야콥 우슈코레이트(Jakob Uszkoreit): 나는 정말로 필요하고 [그리고] 사람들은 그것을 필요로 합니다. 제가 아는 한 이것이 가장 유망한 길입니다. 어떤 의미에서 파이프라인 모델을 목표로 하지 않습니다. 즉, 삶의 근본적인 측면에 대한 우리의 지식이 주어진 연구실의 특정 데이터가 생성된 것입니다. 그런 다음 기존 딥 러닝 접근 방식을 실행한 다음 조정합니다. 하지만 그 대신 실제로 어떤 의미에서 그들은 현재 아직 훌륭한 이름이 없는 분야에서 실제로 일하고 있는 최초의 사람들에 속할 수 있는 사람들을 실제로 보유하고 있습니다.

최소한의 공통분모는 당신이 알고 있는 것, 이전에 배운 것, 그리고 대부분의 시간을 할애한 것 이상으로 확장되는 호기심일 것입니다. 다른 많은 분야와 마찬가지로 우리가 진정으로 추구하는 것은 매우 다양한 배경을 가지고 있지만 호기심을 공유하는 사람들입니다.

AI는 어디로 가고 있는가?

비제이 판데: 의약품 설계, 의료 등 더 어려운 문제에 대해 AI가 현재 어디에 있다고 생각하십니까? 무엇을 해야 합니까? 언제 도착할까요?

야콥 우슈코레이트(Jakob Uszkoreit): 미래에 대한 예측을 하는 것은 항상 매우 위험합니다. 앞으로 XNUMX년 이내에 현실 세계에 영향을 미칠 때 [변곡점]이 발생하는 것을 실제로 보기 시작하지 않는다면 매우 놀랄 것입니다. 기계 학습, 약물 개발의 대규모 딥 러닝, 약물 설계. 물론 그들이 정확히 첫 번째가 될 곳은 RNA, RNA 치료제 및 백신과 관련하여 많은 일이 일어날 것이라고 믿습니다. 이것이 영향을 받는 유일한 영역은 아니지만 확실히 우리가 변곡점 영역으로 향하고 있다고 생각합니다.

비제이 판데: 흥미로운 지적을 하셨습니다. RNA는 무엇이 다른가요? 특히 흥미롭다고 생각하기 때문에 Google Brain에서 생물학으로 이동했을 뿐만 아니라 구체적으로 RNA로 이동했습니다. 특히 AI 또는 ML 관점에서 RNA에 끌리는 것은 무엇입니까?

야콥 우슈코레이트(Jakob Uszkoreit): RNA에 대한 한 가지 흥미로운 점은 우리가 본 것처럼 매우 광범위한 적용 가능성(단일 적응증이라는 의미에서 여전히 협소하지만) 사이의 조합입니다. 적용 가능성이 매우 광범위하고 구조적으로 단순한 문제(약간 모호함)와 결합되어 있음을 분명히 합니다. 그리고 RNA 구조예측이 간단하다는 문장에서가 아니라 20개의 다른 염기를 가진 바이오폴리머라는 점에서 구조적으로 단순하다. 우리는 XNUMX개 이상의 아미노산에 대해 말하는 것이 아닙니다. 상당히 효과적으로 생산할 수 있는 것입니다.

거기에는 몇 가지 문제가 있지만 합성은 확장할 수 있고 빠르게 확장하는 것입니다. 이러한 것들이 실제로 결합되어 종종 암시되는 빠른 피드백 루프를 가능하게 합니다. 그러나 아주 드물게, 적어도 제가 아는 바로는 실제로 구현됩니다. 하루가 끝날 때 구현 가능합니다.

비제이 판데: 예, 아마도 더 빠른 피드백 루프일 것입니다. 특히 당신이 그것을 추구하는 방식에 있어서요.

야콥 우슈코레이트(Jakob Uszkoreit): 예. 그리고 우리가 훈련하고 있는 모델을 훈련하기 위해 가장 많은 양의 데이터를 생성해야 한다고 생각한다는 점을 감안할 때 우리는 이러한 데이터를 대규모로 생성하는 데 실제로 Inceptive에 투자하고 있습니다. RNA가 구조적 단순성뿐만 아니라 합성 및 이 실험의 확장성 측면에서 단연 최고의 조합으로 보인다는 점을 감안할 때 비교적 상당히 방대한 규모라고 말하고 싶습니다. 여기에는 지금까지 개발되지 않은 엄청난 잠재력이 있습니다.

비제이 판데: 네, 저는 특히 잠재적으로 이러한 빠른 주기를 가질 수 있는 능력이 있다고 생각합니다. 전임상과 따라서 더 빨리 병원에 도착하고 [더 짧은 기간 동안] 병원에 있는 것입니다.

야콥 우슈코레이트(Jakob Uszkoreit): 전적으로. 그것이 우리가 정말로 바라는 것입니다. 우리는 또한 그것이 사실일 수 있고 우리가 물론, 정말로, 정말로 흥분하고 있음을 나타내는 초기 힌트를 보고 있습니다.

비제이 판데: 10년부터 지금까지 지난 2012년을 생각하면 정말 놀랍습니다. 앞으로의 10년은 어떨 것 같나요? AI와 함께 지금으로부터 10년 후 우리는 어디에 있다고 생각하십니까? 광범위하게 또는 특히 바이오에 대해?

야콥 우슈코레이트(Jakob Uszkoreit): 우리가 이 변곡점 영역에 진입하고 있는 것이 정말 사실이라면 지금으로부터 10년 후를 되돌아보면 적어도 10세기에 우리가 보았던 것만큼 크고 광범위한 혁명처럼 보일 것입니다. 지난 10년. 아주 최소한. 이제 저는 결정적인 차이가 있을 것이라고 생각합니다. 지난 10년 동안 우리가 목격해 온 혁명이 모든 사람의 삶에 얼마나 광범위하게 영향을 미치는지 명확하지 않다는 것입니다. 특정 영역, 검색 엔진 또는 보조 작성 등이 분명하지만 이 혁명이 얼마나 광범위하게 적용될 수 있는지는 명확하지 않습니다. 나는 그것이 매우 그렇다고 생각하지만 아직 보지 못했습니다. 향후 10년 동안 특히 바이오와 관련하여 보게 될 혁명, 또는 지금부터 XNUMX년을 되돌아보게 될 혁명은 우리 삶 전체에 미치는 심오한 영향 측면에서 정말 다를 것이라고 생각합니다. .

약물 설계 및 발견 응용 프로그램은 차치하더라도 웹 인터페이스를 통해 기본적으로 특정 유기체에서 매우 높은 확률로 분자를 설계할 수 있다고 상상할 수 있는 과학적 발견과 관련된 놀라운 응용 프로그램이 있습니다. 특정 질문에 답하여 이전에 얻을 수 있었던 것보다 더 신뢰할 수 있는 판독값을 생성합니다. 따라서 이것이 궁극적으로 환자와 모든 사람에게 어떤 영향을 미칠지에 대한 모든 종류의 복잡성을 제외하더라도 이러한 도구가 생물학과 같은 분야를 빠르게 가속화할 것이라는 것은 매우 분명합니다.

비제이 판데: 마무리하기에 딱 좋은 곳인 것 같습니다. Bio Eats World에 참여해 주셔서 대단히 감사합니다.

야콥 우슈코레이트(Jakob Uszkoreit): 저를 주셔서 대단히 감사합니다.

올리비아 웹: Bio Eats World에 가입해주셔서 감사합니다. Bio Eats World는 Olivia Webb이 a16z의 Bio + Health 팀의 도움을 받아 호스팅 및 제작하고 Phil Hegseth가 편집합니다. Bio Eats World는 a16z 팟캐스트 네트워크의 일부입니다.

에피소드에 대한 질문이 있거나 향후 에피소드에 대한 주제를 제안하려면 이메일을 보내주십시오. 마지막으로 Bio Eats World를 즐기고 계시다면 팟캐스트를 들을 때마다 평점과 리뷰를 남겨주세요.

여기에 있는 내용은 정보 제공용으로만 제공되며 법률, 비즈니스, 세금 또는 투자 조언으로 간주되거나 투자 또는 보안을 평가하는 데 사용되어서는 안 되며 a16z 펀드의 투자자 또는 잠재적 투자자를 대상으로 하지 않습니다. . 자세한 내용은 a16z.com/disclosures를 참조하십시오.

***

여기에 표현된 견해는 인용된 개별 AH Capital Management, LLC("a16z") 직원의 견해이며 16z 또는 그 계열사의 견해가 아닙니다. 여기에 포함된 특정 정보는 16z가 관리하는 펀드의 포트폴리오 회사를 포함하여 제16자 출처에서 얻은 것입니다. 신뢰할 수 있다고 여겨지는 출처에서 가져왔지만 16z는 그러한 정보를 독립적으로 검증하지 않았으며 정보의 지속적인 정확성이나 주어진 상황에 대한 적절성에 대해 어떠한 진술도 하지 않습니다. 또한 이 콘텐츠에는 타사 광고가 포함될 수 있습니다. XNUMXz는 그러한 광고를 검토하지 않았으며 여기에 포함된 광고 콘텐츠를 보증하지 않습니다.

이 콘텐츠는 정보 제공의 목적으로만 제공되며 법률, 비즈니스, 투자 또는 세금 관련 조언에 의존해서는 안 됩니다. 그러한 문제에 관해서는 자신의 고문과 상의해야 합니다. 증권 또는 디지털 자산에 대한 언급은 설명을 위한 것일 뿐이며 투자 추천이나 투자 자문 서비스 제공을 의미하지 않습니다. 또한, 이 콘텐츠는 투자자 또는 예비 투자자를 대상으로 하거나 사용하도록 의도되지 않았으며, 어떤 상황에서도 a16z가 관리하는 펀드에 투자하기로 결정할 때 의존할 수 없습니다. (16z 펀드에 대한 투자 제안은 사모 투자 각서, 청약 계약서 및 해당 펀드의 기타 관련 문서에 의해서만 이루어지며 전체 내용을 읽어야 합니다.) 언급되거나 언급된 모든 투자 또는 포트폴리오 회사 설명된 내용은 16z가 관리하는 차량에 대한 모든 투자를 대표하는 것은 아니며 투자가 수익성이 있거나 미래에 수행되는 다른 투자가 유사한 특성 또는 결과를 가질 것이라는 보장이 없습니다. Andreessen Horowitz가 관리하는 펀드의 투자 목록(발행자가 16z가 공개적으로 공개하도록 허가하지 않은 투자 및 공개적으로 거래되는 디지털 자산에 대한 미고지 투자 제외)은 https://a16z.com/investments에서 볼 수 있습니다. /.

내부에 제공된 차트와 그래프는 정보 제공의 목적으로만 사용되며 투자 결정을 내릴 때 의존해서는 안 됩니다. 과거의 성과는 미래의 결과를 나타내지 않습니다. 내용은 표시된 날짜 현재만 말합니다. 이 자료에 표현된 모든 예측, 추정, 예측, 목표, 전망 및/또는 의견은 예고 없이 변경될 수 있으며 다른 사람이 표현한 의견과 다르거나 반대될 수 있습니다. 추가 중요 정보는 https://a16z.com/disclosures를 참조하십시오.