Bio Eats World: Använd AI för att ta bio längre

Bio Eats World: Använd AI för att ta bio längre

Källnod: 1896777

I det här avsnittet pratar Vijay Pande med Jakob Uszkoreit, medgrundare och VD för Inceptive. Tillsammans diskuterar de allt som rör AI.

Vi publicerar utskriften i sin helhet nedan, om du vill läsa med.

***

Olivia Webb: Hej och välkommen till Bio Eats World, en podcast i skärningspunkten mellan bio, sjukvård och teknik. Jag är Olivia Webb, redaktionsledaren för Bio + Health på a16z. I det här avsnittet pratade vi med Jakob Uszkoreit, tidigare från Google Brain, och medgrundaren av Inceptive. Jakob är också en av författarna till det framstående AI-forskningsdokumentet Attention is All You Need, som vi länkar till i programanteckningarna. Jakob satte sig ner med Vijay Pande, grundare av a16z Bio + Health för att prata om allt som är AI: från sin tid på Google Brain, till hur människor och datorer bearbetar språk, till Inceptives tro på löftet om RNA och hur Jakob tror att vi går in i vändpunktsområdet med AI.

Det är ett avsnitt du inte vill missa – men det är också en diskussion om AI på forskarnivå, så vi kommer att publicera en utskrift vid sidan av avsnittet. Låt oss börja.

Tillämpliga algoritmer

Vijay Pande: Så Jakob, tack så mycket för att du är med på Bio Eats World. Det är fantastiskt att ha dig.

Jakob Uszkoreit: Härligt att vara här. Tack för att jag fick komma.

Vijay Pande: Speciellt eftersom du har en så fascinerande historia som datavetare och entreprenör och grundare, skulle jag älska att du skulle leda oss genom din karriärresa, börja var du vill, men det som fick dig till Google Brain är förmodligen ett bra ställe att börja .

Jakob Uszkoreit: Jag minns i viss mån att jag stötte på det här problemet med maskininlärning, kanske i vid bemärkelse, [och] språkförståelse, något mer specifikt, som en fråga som finns i familjen. Så min pappa är datavetare och beräkningslingvist och, du vet, att växa upp saker som Turing-maskiner var inte nödvändigtvis helt främmande begrepp ganska tidigt.

Vijay Pande: Ja, det låter som att det kan ha varit ett middagsbordssamtal, faktiskt.

Jakob Uszkoreit: De var middagsbordssamtal. Och så speciellt finita automater, och hur de faktiskt relaterar till varuautomater, var, ni vet, vanliga ämnen. Ju äldre jag blev, desto mer ville jag försäkra mig om att det slutade med att jag gjorde något annorlunda. Och det slutade med att jag tittade ganska mycket på ren matematik och relaterade områden där. [Jag] fokuserade verkligen en hel del på optimering, på optimeringsalgoritmer, algoritmer överlag, mer allmänt komplexitetsteori, innan jag insåg att det kanske inte var det mest praktiska och det mest tillämpliga, vilket du vet, typ har blivit lite av en röd tråd genom hela min karriär. Och sedan bokstavligen snubbla över en Google-praktik 2005.

Jag fick några olika alternativ [om] vilken typ av forskningsprojekt jag skulle gå med i, [och] bland dem var olika datorvisionsinsatser, men också maskinöversättningsprojektet som i princip blev Google Translate. Precis vid den tiden, eller bara lite innan dess, lanserade [Translate] sin första produkt som verkligen drevs av Googles interna system som utvecklades och i viss mening, till min bestörtning, visar det sig att Google Translate på tiden hade de överlägset mest intressanta storskaliga algoritmproblemen.

På den tiden var det verkligen intressant att se, för det som övertygade mig att sedan avbryta min doktorsexamen och faktiskt komma tillbaka till Google efter den praktikperioden, var verkligen att det blev uppenbart under min tid där att om man ville jobba med något i maskininlärning som inte bara var intressant och låt oss säga intellektuellt och vetenskapligt, spännande, utmanande och stimulerande, utan som också hade riktigt stora förhoppningar om att flytta nålen direkt inom industrin och i produkter. Det fanns egentligen, runt den tiden, inte särskilt många platser i världen. Och de var verkligen inte akademiska labb på den tiden, utan mycket platser som Google. Och Google där och då var faktiskt väldigt mycket i framkant av detta. Och så, du vet, vid den tiden tyckte jag att det var fantastiskt att köra mina första storskaliga klustringsalgoritmer på tusen maskiner, och det var helt enkelt, absolut omöjligt att göra det någon annanstans.

Vijay Pande: När du pratar med våra seniora kollegor finns det mycket romantik från Bell Labs storhetstid, och jag har alltid undrat om Google Brain kan vara en av de närmare varianterna idag. Hur var miljön?

Jakob Uszkoreit: Så jag känner faktiskt mellan den tiden och när Google Brain verkligen kom igång, vilket är ungefär fem år senare, det skedde en betydande förändring. Innan Brain and Translate började drevs det mycket mer av produkter som verkligen gjorde skillnad än vad jag tror att Bell Labs var. Och vi hade ett stort antal Bell Labs-alumner, naturligtvis, bland oss, men det var mycket mer motiverat av direkt tillämplighet.

Vilket för mig faktiskt var fantastiskt att bevittna, hur maskinöversättning vände [från något som] var bra för skratt på en fest, bokstavligen. Om de frågade dig, var jobbar du? Och du sa, Google. Och då sa de, vad gör du där? Och de var först imponerade. Och då sa du, åh, jag jobbar på Google Translate. Och sedan skrattade de och frågade, kommer det här någonsin att fungera? Jag tror inte det. Men samtidigt skulle jag säga att vågen av maskininlärning, renässansvågen för djupinlärning av maskininlärning, började platå. Du vet, djupinlärning var något jag hade gjort tidigare i skolan, och jag gillade det, men det var inget som man verkligen kunde tillämpa på den tiden.

Vijay Pande: Ja, speciellt för att du inte hade skalan i akademin för att göra de beräkningar du skulle behöva göra.

Jakob Uszkoreit: Absolut inte inom akademin, utan även på Google. Även om den mest intressanta utmärkande egenskapen vid den tiden, i Translate, faktiskt var, skulle jag säga, vi verkligen trodde på den absoluta kraften i data i slutet av dagen.

Så vi försökte inte göra mer komplicerade, mer sofistikerade algoritmer, utan istället förenkla och skala dem så mycket som möjligt och sedan göra det möjligt för dem att träna på mer och mer data. Men vi slog precis i taket där. De förenklingar du var tvungen att göra för att skala dem till vad som vid den tiden var Googles skala, det var verkligen vårt mål. Men sedan, och det var typ en av dessa pendelrörelser, som svängde tillbaka, ut ur den akademiska världen, ett gäng folk med en massa GPU:er – djupinlärning kom tillbaka i en viss mening med en hämnd. Och plötsligt anpassade sig miljön, eftersom det var oklart vad den direkta vägen skulle vara i skala in i produktionen.

Och så skiftade hela miljön från att vara mer applikations- och produktorienterad, till något som åtminstone kändes under ganska många år, mycket mer akademiskt. Det är fortfarande lite annorlunda än akademiska labb eftersom vi hade råd med mycket fler GPU:er, men mycket mer i linje, i en viss mening, med denna idé om att [drivas] av publikationer, driven av språng snarare än steg. [Det] blev en väldigt, väldigt produktiv – och verkligen fantastisk – men mycket mer öppen [miljö].

Uppmärksamhet är allt du behöver

Vijay Pande: Tja, du vet, på tal om publikationer, en naturlig plats att tänka på är när du och teamet publicerade Attention is All You Need. Och, du vet, det har varit en så avgörande tidning för så mycket av generativ AI sedan det var när transformatoralgoritmen först lades ut.

Jakob Uszkoreit: Två år innan vi publicerade den tidningen insåg vi [att] vad som då var toppmodernt för problem som maskinöversättning, eller [vad] som växte fram som toppmodernt, nämligen LSTM- eller RNN-baserat , Seq2Seq överlag som ett träningsparadigm och som en setup, men också som en nätverksarkitektur – hade otroliga problem även på de modernaste GPU:erna vid den tiden, när det kom till skalning vad gäller data.

Till exempel, det allra första neurala maskinöversättningssystemet som Google lanserade, GNMT, var faktiskt, såvitt jag vet, aldrig riktigt tränat på all träningsdata som vi hade tillgänglig, som vi tidigare hade utvunnit för de frasbaserade statistiska systemen. Och det berodde på att algoritmerna helt enkelt inte skalade bra när det gäller mängden data. Så, en lång historia kort, vi tittade på den tiden inte på maskinöversättning, utan på problem där vi internt på Google hade ännu större mängder utbildningsdata tillgänglig. Så det här var problem som kom ur sök, där man i princip har ytterligare tre eller fyra storleksordningar. Du vet, det finns nu inte miljarder ord längre, utan lätt biljoner, och plötsligt mötte vi detta mönster där enkla feedforward-nätverk, även om de gjorde löjliga förenklade antaganden som, det är bara en påse med ord, eller så är det bara en påse med bigram , och du typ genomsnittet dem och du skickar dem genom en stor MNLP, de överträffade faktiskt RNNs och LSTMs, åtminstone när de tränades på mer data.

[Och de var] n gånger snabbare, lätt 10, 20 gånger snabbare, att träna. Och så kan du träna dem på mycket mer data. I vissa fall var [de] hundra gånger snabbare att träna. Och så fortsatte vi konsekvent faktiskt att sluta med modeller som var enklare och som inte kunde uttrycka eller fånga vissa fenomen som vi vet är definitivt vanliga i språket.
Och ändå, du vet, slutsatsen, de var billigare att träna och [de] presterade bättre.

Vijay Pande: Låt oss bara ge ett exempel för människor som inte är bekanta. Så, för en påse med ord, om jag sa, visa mig alla restauranger i närheten utom italienska, det visar dig alla italienska restauranger, eller hur?

Jakob Uszkoreit: Exakt. Faktum är att det du sa förmodligen kan ordnas om, för att visa mig alla italienska restauranger utom i närheten. Det är bara en soppa av ord och du kan ordna om det till något som definitivt betyder något annat.

Vijay Pande: Ja.

Jakob Uszkoreit: Och sedan uppskattar du att komma till strukturen och komma till de mer globala fenomenen genom att lägga in bigram. Så i princip grupper av två på varandra följande ord och sånt. Men det är klart att, absolut på språk som tyska, där du i princip kan sätta verbet i slutet av en mening...

Vijay Pande: Och det förändrar hela innebörden, eller hur?

Jakob Uszkoreit: Ändrar all betydelse, precis, ja. Oavsett storleken på dina n-gram – eller dina små ordgrupper – kommer du i slutändan inte att lyckas. Och det blev tydligt för oss att det måste finnas ett annat sätt som inte kräver att RNN:n återkommer i längd, eller upprepning i sekvens av, säg ord eller pixlar, utan som faktiskt bearbetar ingångar och utdata på ett mer parallellt sätt och verkligen slutligen tillgodose styrkorna hos modern acceleratorhårdvara.

Vijay Pande: Tänk på det, som en påse med ord är ord i slumpmässig ordning. LSTM, eller det långa korttidsminnet, kanske ger dig någon form av [förmåga att] se [in i] det förflutna lite, eller hur? Men transformatorer gör något radikalt annorlunda. Hur tar transformatorer det till nästa nivå?

Jakob Uszkoreit: Det finns alltid två sätt att se på detta. Det ena är genom effektivitetens lins, men det andra sättet som kanske är lite mer intuitivt är att titta på det i termer av, du vet, hur mycket sammanhang du kan behålla. Och som du sa, LSTM, eller återkommande neurala nätverk i allmänhet, rör de sig genom sina ingångar steg-för-steg, i stort sett, och medan de i teorin kan upprätthålla godtyckligt långa sammanhangsfönster till ingångar – det förflutna – vad händer i praktiken är att det faktiskt är väldigt svårt för dem att identifiera händelser, säga ord eller pixlar, som är mycket avlägsna i det förflutna som verkligen påverkar innebörden i slutet av dagen. De tenderar att fokusera på saker som finns i närheten.

Transformatorn, å andra sidan, vänder i princip bara på det och säger, nej, i varje steg rör sig det vi gör inte genom ingången. Vid varje steg tittar vi på hela inmatningen eller utdata, och vi reviderar i princip stegvis representationerna av varje ord eller varje pixel eller varje patch eller varje bildruta i en video, när vi i princip rör oss, inte i inmatningsutrymmet , men i representationsutrymme.

Vijay Pande: Ja.

Jakob Uszkoreit: Och den idén hade några nackdelar när det gällde hur du skulle passa in den på modern hårdvara, men jämfört med återkommande neurala nätverk hade den främst fördelar eftersom du nu faktiskt inte var bunden till att sekventiellt beräkna representationer, säg, ord för ord. Det du var bunden av är, egentligen, hur bra ska de vara? Hur många lager av denna typ av parallell bearbetning av alla positioner där allt, där alla par av ord eller alla par av bildlappar kan interagera direkt? Hur många revideringar av dessa representationer har jag egentligen "råd med"?

Vijay Pande: Det som också är riktigt intressant är att inspirationen uppenbarligen är naturligt språk, men att det finns många strukturer som du skulle vilja mata in där du inte bara vill studera det sekventiellt, som en DNA-sekvens – så kommer vi in ​​på biologi snart nog — att du vill ha en modell av det hela.

Det är lite roligt med språk. När jag talar eller när jag lyssnar på dig, bearbetar jag varje ord, men så småningom måste jag inte bara tokenisera orden till individuella betydelser, utan jag måste liksom utveckla denna representation. Ja? Jag önskar att vi kunde göra det som transformatorer gör. Och det kanske är tricket är att LSTM:er är närmare hur vi människor gör det, och transformatorer är kanske precis så vi borde göra det, eller jag önskar att vi kunde göra det.

Jakob Uszkoreit: Ytligt sett tror jag att det är sant, även om det i slutet av dagen är introspektiva argument som dessa subtila och knepiga.

Så jag antar att många av oss känner till det här fenomenet där du skriker eller skriker med någon som försöker kommunicera något över en livlig gata. Och så hör du något de säger, och det är inte en kort sekvens av ord, och du förstod i princip ingenting. Men en halv sekund senare förstod du plötsligt hela meningen. Det antyder faktiskt det faktum att även om vi tvingas skriva och uttala språk på ett sekventiellt sätt - bara på grund av tidens pil - är det inte så tydligt att vår djupare förståelse verkligen går på det sekventiella sättet.

Bygga ett team

Vijay Pande: Om någon studerar ens bara Attention is All You Need-pappret eller hur en transformator fungerar, finns det många delar i det. Och det verkar som att det antagligen nu har gått förbi den punkt där en person effektivt skulle kunna utföra det arbetet själv under en kort tidsperiod.

Jakob Uszkoreit: Absolut.

Vijay Pande: Så nu behöver du verkligen ett team av människor för att göra den här typen av saker. Vad är sociologin i det? Hur kommer något sådant till?

Jakob Uszkoreit: Det här specifika fallet, tycker jag personligen, är ett riktigt underbart exempel på något som passar ett mer, låt oss säga, industriellt förhållningssätt till vetenskaplig forskning, exceptionellt bra. För du har helt rätt. Det här var inte den enda stora gnistan av fantasi och kreativitet som satte igång det hela.

Det var verkligen en hel massa bidrag som alla var nödvändiga i slutändan. Att ha en miljö, ett bibliotek – som senare också var öppen källkod, vid namnet Tensor2Tensor – som faktiskt inkluderade implementeringar. Och inte vilka implementeringar som helst, utan exceptionellt bra implementeringar, snabba implementeringar av alla möjliga djupinlärningstrick.
Men sedan också hela vägen till dessa uppmärksamhetsmekanismer som kom ur tidigare publikationer – som den nedbrytbara uppmärksamhetsmodellen [som publicerades tidigare – men som sedan faktiskt kombinerades med förbättringar och innovationer, uppfinningar kring optimerare. Du kommer inte att hitta människor, tror jag, som verkligen är bland världens ledande experter på alla dessa samtidigt och som verkligen också brinner för alla dessa aspekter.

Vijay Pande: Och speciellt det är den första idén, det är implementeringen av den, det är skalningen av den. Att nå den typen av skala någon annanstans än i ett stort företag, just nu, är förmodligen inte genomförbart bara på grund av kostnaden.

Jakob Uszkoreit: Jag skulle tro att den stora företagsaspekten kanske inte är så avgörande.

Vijay Pande: Ja?

Jakob Uszkoreit: Företagsaspekten är en som jag skulle värdera högre. Det stora företaget skadar verkligen inte om du behöver tusentals och åter tusentals TPU:er eller GPU:er eller vad har du. Djupa fickor skadar aldrig för den här typen av saker. Men samtidigt tror jag att incitamentstrukturen kring den här typen av explorativ forskning inom industrin bara är mycket bättre lämpad för den här typen av projekt. Och jag tror att det faktiskt är något vi ser när vi tittar på generativa AI-projekt över hela linjen.

Vijay Pande: Ja. Och till din punkt kan det vara en startup.

Jakob Uszkoreit: Det kan definitivt vara en startup. Och jag tror att vi ser nu att det blir åtminstone billigare att använda acceleratorhårdvara. Och det finns startups som konkurrerar väldigt mycket när det kommer till generativ AI som är inriktad på bildgenerering eller textgenerering.

Hoppa till biovetenskap

Vijay Pande: Jag skulle gärna gå över till det du gör nu. Du är VD för Inceptive, ett företag som tillämpar AI på RNA-biologi för RNA-terapi. Hur gick du över till biovetenskap? Ytligt talat om språkmodeller runt middagen [bordet] och sedan runt Googles cafeterian...det verkar som om det kan vara ett hopp till nästa generations terapi. Hur kom det hela till?

Jakob Uszkoreit: Jag kunde inte hålla med mer. Det är en fantastisk lärorik upplevelse, från min sida. Sedan ett tag har biologin slagit mig som ett sådant problem där det inte verkar otänkbart att det finns gränser för hur långt vi kan gå när det gäller till exempel läkemedelsutveckling och direktdesign med traditionell biologi som ryggraden i hur vi gå om att designa – eller upptäcka metoder för att designa – framtidens droger.

Det verkar som om djupinlärning, i synnerhet i skala, av en massa anledningar potentiellt är ett riktigt lämpligt verktyg här. Och en av de anledningarna är faktiskt något som ofta inte nödvändigtvis faktureras som en fördel, vilket är det faktum att det är den här stora svarta lådan som du bara kan kasta på något. Och det är inte sant att man bara kan kasta det. Det är något du måste veta hur man kastar det.

Vijay Pande: Och det är inte direkt svart heller. Vi kan argumentera om det senare.

Jakob Uszkoreit: Ja exakt. Exakt. Men när allt kommer omkring, när vi kommer tillbaka till analogin med språk, har vi aldrig lyckats helt, i den meningen, förstå och begreppsliggöra språk i den utsträckning som du kan hävda, åh, nu ska jag gå och berätta för dig denna teori bakom språket, och sedan kommer du efteråt att kunna implementera en algoritm som "förstår" det. Vi har aldrig kommit till den punkten. Istället var vi tvungna att avbryta och gå ett steg tillbaka och, enligt min mening, till viss del erkänna för oss själva att det kanske inte var det mest pragmatiska tillvägagångssättet. Istället bör vi prova metoder som inte kräver den nivån av begreppsförståelse. Och jag tror att detsamma kan vara sant för delar av biologin.

Använder AI för att ta bio längre

Vijay Pande: Det är intressant, vi har pratat om sådant här förut. Du tänker på förra århundradet, [som var] mycket fysikens och kalkylens århundrade. Det finns en viss mentalitet där där det finns ett sätt som du kan ha en mycket elegant förenkling av saker som du kan ha en enda ekvation som Einsteins fältekvationer som beskriver så mycket, och det är en väldigt enkel ekvation i ett mycket komplext språk. Du har pratat om hur det där Feynman-förhållningssättet, nästan som fysikens sociologi, kanske inte gäller här inom biologin, eller hur?

Jakob Uszkoreit: Det kanske inte gäller, åtminstone av två skäl som jag kan se vid det här laget. Nummer ett är att det är för många spelare inblandade. Och även om det är sant att vi kanske bara kan reducera det hela till Schrodingers ekvation och bara lösa det, så råkar det bara vara, inte bara svårberäkningsmässigt, utan vi skulle också behöva veta om alla dessa olika spelare, och det gör vi för närvarande inte . Inte ens i närheten. Så det är en aspekt.

Och sedan är den andra i grunden svårberäkningsbarheten, där minskningen, i en viss mening, har gått så långt att, även om den för det hela tillbaka till en enda sak, så hjälper den oss inte eftersom våra beräkningsmetoder för att i princip använda dessa grunder för att göra förutsägelser är alldeles för långsamma för att göra de förutsägelserna för system som är tillräckligt stora för att verkligen ha betydelse för livet.

Vijay Pande: Ja. Så det är inte en n-kroppsekvation, men ändå finns det fortfarande en känsla av formalism - kanske är det en mer datadriven formalism eller mer Bayesiansk formalism. Hur påverkar det det du skulle vilja göra? Hur bidrar det till att tillämpa AI och andra typer av nya algoritmer?

Jakob Uszkoreit: Jag tror att det finns ett par olika aspekter. I slutändan är en av de stora fördelarna enligt min mening från vad vi för närvarande ser inom generativ AI att vi inte längre behöver träna på data som inte bara är helt ren, utan också exakt från domänen och från den typ av uppgifter som du senare skulle vilja ta dig an. Men istället kan det faktiskt vara mer fördelaktigt eller till och med det enda sättet som vi hittills har funnit att faktiskt försöka träna på allt du hittar som till och med är distansrelaterat. Och använd sedan informationen som effektivt hämtats från dessa data för att sluta med så kallade grundmodeller, som du sedan kan finjustera till alla möjliga specifika uppgifter med mycket mindre, mycket mer lätthanterliga mängder renare data.

Jag tror att vi något underskattar vad vi behöver veta om fenomenen i stort. För att kunna bygga en väldigt bra stor språkmodell måste man förstå att det finns det här som kallas internet och har mycket text i sig. Du måste förstå ganska mycket, faktiskt, om hur du hittar den här texten, vad som inte är text, och så vidare, för att sedan i princip destillera från den träningsdata som du sedan använder.

Jag tror att det kommer att finnas mycket direkt analoga utmaningar kring biologi. Den stora frågan är: vad är experiment som vi kan skala så att vi kan observera livet i tillräcklig skala med ungefär tillräckligt trohet – men mycket mindre specificitet samtidigt som vi tänker på de problem som du försöker lösa så småningom – så att vi kan ta i princip den data som vi behöver för att börja bygga dessa grundmodeller, som vi sedan kan använda, finjusterade och specifikt konstruerade, för att verkligen närma oss de problem vi vill ta itu med.

Datagenereringsdelen är verkligen en av dem. Arkitekturer och att effektivt ha modeller och nätverksarkitekturer som efterliknar det vi vet, om, säg, fysiken under, kommer fortfarande att förbli ett otroligt kraftfullt sätt att faktiskt spara beräkningar och även minska den fortfarande enorma aptiten på data som dessa modeller måste ha , till en genomförbar nivå. Och så en sak som jag faktiskt tror är intressant att notera är att många av de nuvarande tillämpningarna av modeller, säg transformatorer, som har [visats] skala ganska bra i andra modaliteter, andra domäner, språk, vision, bildgenerering, etc., etc., och att tillämpa dem på biologi ignorerar i princip det faktum att vi vet att det finns något sådant som tid, och att fysikens lagar, åtminstone såvitt vi vet, inte bara verkar förändras. över tid.

Processen med en proteinveckning, att ignorera det faktum att det finns massor av spelare – chaperones och vad inte – är faktiskt, i en viss mening, ett ganska godtyckligt skilt problem från resten av proteinkinetiken. Det är lika mycket kinetik som resten av kinetiken, eller resten av proteinets livslängd, för den molekylen. Och så varför försöker vi träna modeller specifikt för den ena och, potentiellt åtminstone, ignorera data som vi kan ha om den andra? I det här fallet, kanske mer specifikt, är några av de proteinstrukturförutsägelsemodeller som vi har idag, lär de sig redan något om kinetik implicit på grund av det faktum att de sakta börjar omfamna, du vet, existensen av tid?

Utveckla nya arkitekturer

Vijay Pande: En av de intressanta sakerna jag tänker på där du står just nu är att, med några få sällsynta undantag, de flesta djupa neurala nätverk eller andra typer av AI inom biologin känns som att det tar något som uppfunnits någon annanstans och bär det över. Som att vi kommer att använda konvolutionella neurala nät för bilder. Kanske för små molekyler...i mitt labb på Stanford använde vi grafiska neurala nätverk och flera konvolutionella neurala nätverk. Men att verkligen utveckla en algoritm explicit för det biologiska problemet är ganska sällsynt. Och jag har alltid antagit att det var för att det bara är svårt att ha kompetensen hos ett team som är starkt inom biologidomänen och inom datavetenskapsdomänen. Men jag är nyfiken på att få din uppfattning. Eller är det bara ovanligt att man utvecklar nya arkitekturer i första hand?

Jakob Uszkoreit: Tja, jag tror att i slutändan, vad vi ser är att de nya arkitekturerna, även om de är motiverade av specifika problem, om de verkligen gör skillnad, tenderar de att också vara tillämpliga på andra ställen. Det betyder å andra sidan inte att det på vägen dit inte skulle göra någon stor skillnad att noggrant välja vad de motiverande applikationerna och domänerna är. Och det tror jag verkligen att det gör.

Jag känner att en av de viktigaste utmaningarna här är att vi ännu inte är i en regim inom biologi där vi har massor av data, även om det är fantastiskt jämfört med vad vi brukade ha för ett tag sedan. Men vi är inte i den regimen än där det bara sitter på motsvarande webben, och vi kan filtrera det lite, ladda ner det och bli färdiga med det. Men istället tror jag att vi måste skapa det i lagom stor utsträckning. Och det kommer inte att göras av experter på djupinlärning, åtminstone inte av de flesta av dem.

Och jag tror att det måste ske i lås med att man verkligen förstår särdragen hos nämnda data, eller hur? De typer av ljud som du stöter på där. Det faktum att dessa faktiskt skapas i mycket storskaliga pooler, experiment med hög genomströmning, men ändå, experiment som körs på olika dagar av olika experimentörer och så vidare och så vidare. Och där personer med mer djup inlärningsbakgrund arbetar tillräckligt nära med personer med biologibakgrund, lär sig tillräckligt om vad vi vet om de underliggande fenomenen, [kommer de] i grunden att bli inspirerade att prova intressanta nya tillvägagångssätt.

Vijay Pande: Tja, jag älskade när du bara pratade om exemplet med Attention is All You Need-tidningen, om hur du ville få denna mångsidiga grupp människor vars passioner, du vet, var ganska ortogonala från varandra. Och på sätt och vis, när du gör det här inom biologi och speciellt för det du gör på Inceptive, måste du också lägga allt detta arbete på att generera data. Och att generera data innebär verkligen, för att vara mycket tydlig, att köra biologiska experiment i stor skala. Själva ingångsdelen är väldigt dyr och väldigt teknisk, och har som du sa så många sätt att gå fel. Men det låter som att du bygger vidare på den kultur som du har gjort tidigare och nu är det bara fler experter med olika passioner som samordnar på ett analogt sätt.

Jakob Uszkoreit: Jag behöver verkligen, [och] folk behöver det. Detta är, så vitt jag kan säga, den mest lovande vägen. [Det är att] inte sikta på, i en viss mening, en pipeline-modell, där viss data i labbet där de skapades, givet den bästa av vår kunskap, om de underliggande aspekterna av livet. Och sedan börja köra befintliga metoder för djupinlärning på det och sedan justera dem. Men istället verkligen att faktiskt ha folk som i en viss mening kan vara bland de första som verkligen arbetar inom en disciplin som för närvarande inte riktigt har ett bra namn än.

Den minsta gemensamma nämnaren kanske är nyfikenhet som sträcker sig bortom det du vet, det du har lärt dig tidigare och det du kanske har ägnat större delen av din tid åt. Vi upptäcker att precis som inom väldigt många andra områden, är det vi verkligen är ute efter en uppsättning människor med väldigt olika bakgrund, men som delar nyfikenhet.

Vart är AI på väg?

Vijay Pande: Var tror du att AI är just nu för de svårare problemen, för läkemedelsdesign, sjukvård och så vidare? Vad måste göras? När kommer den dit?

Jakob Uszkoreit: Jag skulle förvänta mig – och det är alltid mycket farligt att göra förutsägelser om framtiden – jag skulle bli mycket förvånad om vi inom de närmaste tre åren inte faktiskt skulle börja se en [böjnings]punkt hända när det kommer till verklighetens effekter av maskininlärning, storskalig djupinlärning i läkemedelsutveckling, läkemedelsdesign. Var exakt de kommer att vara först, naturligtvis tror jag att många av dem kommer att hända kring RNA, RNA-terapi och vacciner. Det kommer säkerligen inte att vara det enda området som påverkas av detta, men jag tror definitivt att vi är på väg in i böjningspunktens territorium.

Vijay Pande: Du gjorde en intressant poäng. Vad är annorlunda med RNA? För jag tycker att det är särskilt intressant, inte bara att du gick från Google Brain till biologi, utan du gick in på RNA specifikt. Vad lockar dig till RNA, speciellt kanske ur AI- eller ML-synpunkt?

Jakob Uszkoreit: En sak som är intressant med RNA är kombinationen mellan, som vi har sett, mycket bred tillämpbarhet – även om den fortfarande är snäv i betydelsen av en enda indikation – men att bara titta på den här vågen av godkännandeprocesser som startar och har startat, är det ganska klart att tillämpbarheten är väldigt, väldigt bred, tillsammans med – det här är lite tvetydigt – ett strukturellt enkelt problem. Och det är strukturellt enkelt inte i meningen att RNA-strukturförutsägelse är enkel, utan det är strukturellt enkelt i den meningen att det är en biopolymer med fyra olika baser. Vi pratar inte om över 20 aminosyror. Det är något som kan produceras ganska effektivt.

Det finns vissa utmaningar där, men syntes är något som kan skalas och skalas snabbt, och dessa saker samlas verkligen för att möjliggöra denna snabba återkopplingsslinga som jag antar att det ofta anspelas på, men som väldigt sällan, åtminstone vad jag vet, faktiskt implementeras och kan implementeras i slutet av dagen.

Vijay Pande: Ja, förmodligen är det förmodligen en snabbare återkopplingsslinga, speciellt för hur du går efter den.

Jakob Uszkoreit: Ja. Och med tanke på att jag tror att vi måste skapa lejonparten av data för att träna de modeller som vi tränar, satsar vi verkligen Inceptive på att skapa sådan data i stor skala. Och jag skulle säga en relativt stor skala, med tanke på att RNA verkar vara den överlägset bästa kombinationen när det gäller den strukturella enkelheten, men också skalbarheten av syntes och detta experiment. Det finns en enorm potential här som hittills har varit outnyttjad.

Vijay Pande: Ja, och jag tror särskilt potentiellt förmågan att ha dessa snabba cykler, både slags prekliniska och därför att komma till kliniken snabbare och vara på kliniken [under en kortare tid].

Jakob Uszkoreit: Absolut. Det är verkligen vad vi hoppas på. Vi ser också kanske tidiga ledtrådar som tyder på att så kan vara fallet och som vi naturligtvis är riktigt, riktigt exalterade över.

Vijay Pande: Att tänka på de senaste 10 åren har varit fantastiskt, du vet, 2012 till nu. Hur tror du att de kommande 10 åren ser ut? Var tror du att vi är om 10 år med AI? Antingen brett eller speciellt för bio?

Jakob Uszkoreit: Jag tror att om det verkligen är sant att vi går in i detta böjningspunkts territorium, när vi ser tillbaka 10 år från nu, kommer det att verka som en revolution som är minst lika stor och lika expansiv som den vi tror att vi har sett i senaste 10 åren. Åtminstonde. Nu tror jag att det kommer att bli en avgörande skillnad, och det är att det inte är så tydligt exakt hur brett den revolution som vi har sett under de senaste 10 åren påverkar allas liv. Det finns vissa områden, sökmotorer eller assisterad skrivning, etc., där det är uppenbart, men det är inte klart hur brett tillämplig denna revolution är. Jag tror att det är så mycket, men vi ser det inte än. Jag tror att revolutionen som vi kommer att se specifikt kring bio under de kommande 10 åren, eller som vi kommer att se tillbaka på 10 år från nu, verkligen kommer att skilja sig åt när det gäller dess djupgående inverkan på alla våra liv .

Även om man släpper applikationer för läkemedelsdesign och upptäckt, så finns det så fantastiska applikationer i och kring vetenskapliga upptäckter där man nu skulle kunna föreställa sig att man med ett webbgränssnitt i princip kan ha molekyler designade som i vissa organismer med mycket stor sannolikhet kommer att svara på vissa frågor och producera mer tillförlitliga avläsningar än, du vet, vad du tidigare kunde komma åt. Så även om man utelämnar hela komplexiteten i hur detta i slutändan kommer att påverka patienter och alla, är det ganska tydligt, tror jag, att dessa verktyg bara snabbt kommer att accelerera områden som biologi.

Vijay Pande: Det verkar vara ett bra ställe att avsluta det på. Tack så mycket, Jakob, för att du gick med i Bio Eats World.

Jakob Uszkoreit: Tack så mycket för att du hade mig.

Olivia Webb: Tack för att du går med i Bio Eats World. Bio Eats World är värd och produceras av mig, Olivia Webb, med hjälp av Bio + Health-teamet på a16z och redigerat av Phil Hegseth. Bio Eats World är en del av podcastnätverket a16z.

Om du har frågor om avsnittet eller vill föreslå ämnen för ett framtida avsnitt, vänligen maila Sist men inte minst, om du gillar Bio Eats World, vänligen lämna oss ett betyg och recensera var du än lyssnar på poddar.

Observera att innehållet här endast i informationssyfte, inte ska ses som juridiskt, affärs-, skatte- eller investeringsråd, eller användas för att utvärdera någon investering eller säkerhet, och inte riktar sig till några investerare eller potentiella investerare i någon a16z-fond . För mer information, se a16z.com/disclosures.

***

De åsikter som uttrycks här är de från den individuella AH Capital Management, LLC (“a16z”) personal som citeras och är inte åsikterna från a16z eller dess dotterbolag. Viss information som finns här har erhållits från tredjepartskällor, inklusive från portföljbolag av fonder som förvaltas av a16z. Även om den är hämtad från källor som anses vara tillförlitliga, har a16z inte självständigt verifierat sådan information och gör inga utfästelser om informationens varaktiga riktighet eller dess lämplighet för en given situation. Dessutom kan detta innehåll innehålla tredjepartsannonser; a16z har inte granskat sådana annonser och stöder inte något reklaminnehåll i dem.

Detta innehåll tillhandahålls endast i informationssyfte och bör inte litas på som juridisk rådgivning, affärs-, investerings- eller skatterådgivning. Du bör rådfråga dina egna rådgivare i dessa frågor. Hänvisningar till värdepapper eller digitala tillgångar är endast i illustrativt syfte och utgör inte en investeringsrekommendation eller erbjudande om att tillhandahålla investeringsrådgivningstjänster. Dessutom är detta innehåll inte riktat till eller avsett att användas av några investerare eller potentiella investerare, och får inte under några omständigheter lita på när man fattar ett beslut om att investera i någon fond som förvaltas av a16z. (Ett erbjudande om att investera i en a16z-fond kommer endast att göras av det privata emissionsmemorandumet, teckningsavtalet och annan relevant dokumentation för en sådan fond och bör läsas i sin helhet.) Alla investeringar eller portföljbolag som nämns, hänvisas till, eller beskrivna är inte representativa för alla investeringar i fordon som förvaltas av a16z, och det finns ingen garanti för att investeringarna kommer att vara lönsamma eller att andra investeringar som görs i framtiden kommer att ha liknande egenskaper eller resultat. En lista över investeringar gjorda av fonder som förvaltas av Andreessen Horowitz (exklusive investeringar för vilka emittenten inte har gett tillstånd för a16z att offentliggöra såväl som oanmälda investeringar i börsnoterade digitala tillgångar) finns tillgänglig på https://a16z.com/investments /.

Diagram och grafer som tillhandahålls i är endast i informationssyfte och bör inte litas på när man fattar investeringsbeslut. Tidigare resultat är inte en indikation på framtida resultat. Innehållet talar endast från det angivna datumet. Alla prognoser, uppskattningar, prognoser, mål, framtidsutsikter och/eller åsikter som uttrycks i detta material kan ändras utan föregående meddelande och kan skilja sig åt eller strida mot åsikter som uttrycks av andra. Se https://a16z.com/disclosures för ytterligare viktig information.

Tidsstämpel:

Mer från Andreessen Horowitz