Bio Eats World: Bruke AI for å ta bio videre

Bio Eats World: Bruke AI for å ta bio videre

Kilde node: 1896777

I denne episoden snakker Vijay Pande med Jakob Uszkoreit, medgründer og administrerende direktør i Inceptive. Sammen diskuterer de alt som har med AI å gjøre.

Vi publiserer transkripsjonen i sin helhet nedenfor, i tilfelle du vil lese med.

***

Olivia Webb: Hei, og velkommen til Bio Eats World, en podcast i skjæringspunktet mellom bio, helsevesen og teknologi. Jeg er Olivia Webb, redaksjonen for Bio + Health på a16z. I denne episoden snakket vi med Jakob Uszkoreit, tidligere fra Google Brain, og medgründeren av Inceptive. Jakob er også en av forfatterne på den banebrytende AI-forskningsartikkelen Attention is All You Need, som vi vil koble til i shownotatene. Jakob satte seg ned med Vijay Pande, grunnlegger av a16z Bio + Health for å snakke om alt AI: fra tiden hans hos Google Brain, til hvordan mennesker og datamaskiner behandler språk, til Inceptives tro på løftet om RNA, og hvordan Jakob tror vi går inn i vendepunkts territorium med AI.

Det er en episode du ikke vil gå glipp av – men det er også en diskusjon på høyere nivå om AI, så vi vil publisere en transkripsjon ved siden av episoden. La oss komme i gang.

Gjeldende algoritmer

Vijay Pande: Så Jakob, tusen takk for at du er på Bio Eats World. Det er flott å ha deg.

Jakob Uszkoreit: Flott å være her. Takk for at jeg fikk komme.

Vijay Pande: Spesielt siden du har en så fascinerende historie som informatiker og gründer og grunnlegger, vil jeg gjerne at du leder oss gjennom karrierereisen din, og starter hvor du vil, men det som fikk deg til Google Brain er sannsynligvis et fint sted å starte .

Jakob Uszkoreit: Jeg husker til en viss grad at jeg møtte dette problemet med maskinlæring, kanskje i vid forstand, [og] språkforståelse, noe mer spesifikt, som et problem som går i familien. Så faren min er informatiker og datalingvist, og du vet, det å vokse opp ting som Turing-maskiner var ikke nødvendigvis helt fremmede konsepter ganske tidlig.

Vijay Pande: Ja, det høres ut som det kan ha vært samtale ved middagsbordet, faktisk.

Jakob Uszkoreit: De var middagsbordsamtaler. Og så spesielt endelige automater, og hvordan de faktisk forholder seg til salgsautomater, var, du vet, vanlige temaer. Jo eldre jeg ble, jo mer ønsket jeg å sikre at jeg faktisk endte opp med å gjøre noe annerledes. Og så endte jeg opp med å se ganske mye på ren matematikk og relaterte områder der. [Jeg] fokuserte egentlig ganske mye på optimalisering, på optimaliseringsalgoritmer, algoritmer generelt, mer bredt kompleksitetsteori, før jeg innså at det kanskje ikke var den mest praktiske tingen og den mest anvendelige tingen, som du vet, på en måte har blitt litt av en rød tråd gjennom min karriere. Og så bokstavelig talt snuble over en Google-praksisplass tilbake i 2005.

Jeg fikk noen forskjellige alternativer [med hensyn til] hva slags forskningsprosjekter jeg skulle bli med i, [og] blant dem var forskjellige datasynsarbeid, men også maskinoversettelsesprosjektet som i utgangspunktet ble Google Translate. Rett rundt den tiden, eller bare litt før det, lanserte [Translate] sitt første produkt som virkelig ble drevet av Googles interne systemer som ble utviklet, og på en viss måte, til min forferdelse, viser det seg at Google Translate på tiden hadde de desidert mest interessante storskalaalgoritmeproblemene.

På den tiden var det veldig interessant å se, for det som overbeviste meg om å avbryte doktorgraden min og faktisk komme tilbake til Google etter det praksisoppholdet, var egentlig at det ble tydelig i min tid der at hvis du ville jobbe med noe i maskinlæring som ikke bare var interessant og la oss si intellektuelt og vitenskapelig, spennende, utfordrende og stimulerende, men som også hadde store forhåpninger om å flytte nålen med en gang i industrien og i produkter. Det var egentlig ikke så mange steder i verden rundt den tiden. Og de var absolutt ikke akademiske laboratorier på den tiden, men veldig mye steder som Google. Og Google der og da var faktisk veldig i forkant av dette. Og så, du vet, på den tiden syntes jeg det var fantastisk å kjøre mine første storskala klyngealgoritmer på tusen maskiner, og det var rett og slett umulig å gjøre det andre steder.

Vijay Pande: Når du snakker med våre seniorkolleger, er det mye romantikk fra Bell Labs storhetstid, og jeg har alltid lurt på om Google Brain kan være en av de nærmere variantene i dag. Hvordan var miljøet?

Jakob Uszkoreit: Så jeg føler faktisk at mellom den tiden og da Google Brain virkelig kom i gang, som er omtrent fem år senere, var det et betydelig skifte. Før Brain and Translate startet, var det mye mer drevet av produkter som virkelig gjorde en forskjell enn jeg tror Bell Labs var. Og vi hadde en god del Bell Labs-alumner, selvfølgelig, blant oss, men det var mye mer motivert av direkte anvendbarhet.

Som for meg faktisk var utrolig å være vitne til, hvordan maskinoversettelse vendte [fra noe som] var bra for latter på en fest, bokstavelig talt. Hvis de spurte deg, hvor jobber du? Og du sa, Google. Og så sa de, hva gjør du der? Og de ble først imponert. Og så sa du, åh, jeg jobber med Google Translate. Og så lo de og spurte, vil dette noen gang fungere? Jeg tror ikke det. Men samtidig vil jeg si at bølgen av maskinlæring, renessansebølgen av maskinlæring før dyp læring, begynte å platå. Du vet, dyp læring var noe jeg hadde gjort tidligere på skolen, og jeg likte det, men det var ikke noe du virkelig kunne bruke på den tiden.

Vijay Pande: Ja, spesielt fordi du ikke hadde skalaen i akademia til å gjøre beregningene du måtte gjøre.

Jakob Uszkoreit: Absolutt ikke i akademia, men til og med hos Google. Selv om på den tiden, i Translate, faktisk det mest interessante kjennetegnet var, vil jeg si, vi virkelig trodde på den absolutte kraften til data på slutten av dagen.

Så vi prøvde å ikke lage mer kompliserte, mer sofistikerte algoritmer, men i stedet forenkle og skalere dem så mye som mulig og deretter sette dem i stand til å trene på mer og mer data. Men vi traff akkurat et tak der. Forenklingene du måtte gjøre for å skalere dem til det som på den tiden var Googles skala, det var egentlig målet vårt. Men så, og det var på en måte en av disse pendelbevegelsene, som svingte tilbake, ut av akademia, en haug med folk med en haug med GPUer – dyp læring kom tilbake på en viss måte med hevn. Og plutselig tilpasset miljøet seg, fordi det var uklart hva den direkte veien ville være i skala inn i produksjonen.

Og slik gikk hele miljøet fra å være mer applikasjons- og produktorientert, til noe som i det minste føltes i ganske mange år, mye mer akademisk. Det er fortsatt litt annerledes enn akademiske laboratorier fordi vi hadde råd til langt flere GPUer, men mye mer i tråd, på en viss måte, med denne ideen om å [bli] drevet av publikasjoner, drevet av sprang i stedet for trinn. [Det] ble til et veldig, veldig produktivt – og virkelig fantastisk – men mye mer åpent [miljø].

Oppmerksomhet er alt du trenger

Vijay Pande: Vel, du vet, når vi snakker om publikasjoner, et naturlig sted å tenke på er når du og teamet publiserte Attention is All You Need. Og, du vet, det har vært en banebrytende artikkel for så mye av generativ AI siden det var da transformatoralgoritmen først ble lagt ut.

Jakob Uszkoreit: To år før vi publiserte den artikkelen, innså vi [at] det som den gang var toppmoderne for problemer som maskinoversettelse, eller [hva] dukket opp som toppmoderne, nemlig LSTM- eller RNN-basert , Seq2Seq totalt sett som et treningsparadigme og som et oppsett, men også som en nettverksarkitektur – hadde utrolige problemer selv på de mest moderne GPUene på den tiden, når det gjaldt skalering når det gjelder data.

For eksempel var det aller første nevrale maskinoversettelsessystemet som Google lanserte, GNMT, faktisk, så vidt jeg vet, aldri virkelig trent på all treningsdata vi hadde tilgjengelig, som vi tidligere hadde utvunnet for de frasebaserte statistiske systemene. Og det var fordi algoritmene bare ikke skalerte godt med tanke på mengden data. Så, lang historie kort, vi så på den tiden ikke på maskinoversettelse, men på problemer der vi internt hos Google hadde enda større mengder opplæringsdata tilgjengelig. Så dette var problemer som kom ut av søk, hvor du i bunn og grunn har ytterligere tre eller fire størrelsesordener. Du vet, det er nå ikke milliarder av ord lenger, men trillioner lett, og plutselig møtte vi dette mønsteret der enkle feedforward-nettverk, selv om de kom med latterlige forenklede antagelser som, det er bare en pose med ord, eller det er bare en pose med bigrammer , og du på en måte gjennomsnittet dem og sender dem gjennom en stor MNLP, de overgikk faktisk RNN-er og LSTM-er, i det minste når de ble trent på mer data.

[Og de var] n ganger raskere, lett 10, 20 ganger raskere, å trene. Og slik at du kan lære dem mer data. I noen tilfeller var [de] hundre ganger raskere å trene. Og så fortsatte vi konsekvent faktisk å ende opp med modeller som var enklere og som ikke kunne uttrykke eller fange opp visse fenomener som vi vet er definitivt vanlige i språket.
Og likevel, du vet, bunnlinjen, de var billigere å trene og [de] presterte bedre.

Vijay Pande: La oss bare gi et eksempel for folk som ikke er kjent. Så, for en pose med ord, hvis jeg sa, vis meg alle restaurantene i nærheten bortsett fra italiensk, det vil vise deg alle de italienske restaurantene, ikke sant?

Jakob Uszkoreit: Nøyaktig. Faktisk kan det du sa sannsynligvis omorganiseres, for å vise meg alle italienske restauranter unntatt i nærheten. Det er bare en suppe av ord, og du kan omorganisere den til noe som definitivt betyr noe annet.

Vijay Pande: Ja.

Jakob Uszkoreit: Og så anslår du å komme til strukturen og komme til de mer globale fenomenene ved å sette inn bigrammer. Så i utgangspunktet grupper av to påfølgende ord og slike ting. Men det er klart at, absolutt på språk som tysk, hvor du i utgangspunktet kan sette verbet helt til slutt i en setning...

Vijay Pande: Og det endrer hele betydningen, ikke sant?

Jakob Uszkoreit: Endrer all mening, akkurat, ja. Uansett hva størrelsen på n-grammene dine – eller de små ordgruppene dine – er, vil du til slutt ikke lykkes. Og det ble klart for oss at det må være en annen måte som ikke krever at RNN gjentas i lengde, eller gjentakelse i rekkefølge av, si ord eller piksler, men som faktisk behandler innganger og utganger på en mer parallell måte og egentlig til syvende og sist imøtekomme styrkene til moderne akseleratormaskinvare.

Vijay Pande: Tenk på det, som om en pose med ord er ord i tilfeldig rekkefølge. LSTM, eller langtidsminne, gir deg kanskje en slags [evne] til å se litt [inn i] fortiden, ikke sant? Men transformatorer gjør noe radikalt annerledes. Hvordan tar transformatorer det til neste nivå?

Jakob Uszkoreit: Det er alltid to måter å se dette på. Den ene er gjennom linsen av effektivitet, men den andre måten som kanskje er litt mer intuitiv er å se på det i form av, du vet, hvor mye kontekst du kan opprettholde. Og som du sa, LSTM-er, eller tilbakevendende nevrale nettverk generelt, beveger de seg gjennom inngangene trinn-for-trinn, stort sett, og mens de i teorien er i stand til å opprettholde vilkårlig lange kontekstvinduer til innganger – fortiden – hva som skjer i praksis er at det faktisk er veldig vanskelig for dem å identifisere hendelser, si ord eller piksler, som er svært fjerne i fortiden som virkelig påvirker meningen på slutten av dagen. De har en tendens til å fokusere på ting som er i nærheten.

Transformatoren, derimot, snur i grunnen bare det på hodet og sier, nei, på hvert trinn er det vi gjør ikke å bevege seg gjennom inngangen. Ved hvert trinn ser vi på helheten av inndata eller utdata, og vi reviderer i bunn og grunn gradvis representasjoner av hvert ord eller hver piksel eller hver patch eller hvert bilde i en video, mens vi i utgangspunktet beveger oss, ikke i inndataområdet , men i representasjonsrom.

Vijay Pande: Ja.

Jakob Uszkoreit: Og den ideen hadde noen ulemper med tanke på hvordan du ville passe den inn på moderne maskinvare, men sammenlignet med tilbakevendende nevrale nettverk, hadde den først og fremst fordeler fordi nå var du faktisk ikke bundet til å sekvensielt beregne representasjoner, si ord for ord. Det du var bundet av er, egentlig, hvor gode skal de være? Hvor mange lag av denne typen parallell prosessering av alle posisjoner der alt, hvor alle par med ord eller alle par med bildelapper kan samhandle med en gang? Hvor mange revisjoner av disse representasjonene har jeg egentlig "råd til"?

Vijay Pande: Det som er veldig interessant også er at inspirasjonen åpenbart er naturlig språk, men at det er mange strukturer du ønsker å legge inn der du ikke vil bare studere det sekvensielt, som en DNA-sekvens – og vi kommer inn på biologi snart nok - at du vil ha en modell av det hele.

Det er litt morsomt med språk. Når jeg snakker eller når jeg lytter til deg, behandler jeg hvert ord, men til slutt må jeg ikke bare tokenisere ordene til individuelle betydninger, men jeg må liksom utvikle denne representasjonen. Ja? Jeg skulle ønske vi kunne gjøre det slik transformatorer gjør. Og kanskje det er trikset er at LSTM-er er nærmere måten vi mennesker gjør det på, og transformatorer er kanskje akkurat slik vi burde gjøre det, eller jeg skulle ønske vi kunne gjøre det.

Jakob Uszkoreit: Overfladisk sett tror jeg det er sant, selv om det på slutten av dagen er introspektive argumenter som disse er subtile og vanskelige.

Så jeg antar at mange av oss kjenner til dette fenomenet der du roper eller roper med noen som prøver å kommunisere noe over en travel gate. Og så hører du noe de sier, og det er ikke en kort rekkefølge av ord, og du forsto i grunnen ingenting. Men et halvt sekund senere forsto du plutselig hele setningen. Det antyder faktisk at selv om vi er tvunget til å skrive og ytre språk på en sekvensiell måte - bare på grunn av tidens pil - er det ikke så klart at vår dypere forståelse virkelig går på den sekvensielle måten.

Bygge et team

Vijay Pande: Hvis noen studerer selv bare Attention is All You Need-papiret eller hvordan en transformator fungerer, er det mange deler til det. Og det ser ut til at det sannsynligvis nå har gått forbi punktet hvor én person effektivt kunne gjøre det arbeidet selv i løpet av kort tid.

Jakob Uszkoreit: Absolutt.

Vijay Pande: Så nå trenger du virkelig et team med mennesker til å gjøre denne typen ting. Hva er sosiologien i det? Hvordan oppstår noe sånt?

Jakob Uszkoreit: Denne spesielle saken, føler jeg personlig, er et virkelig fantastisk eksempel på noe som passer en mer, la oss si, industriell tilnærming til vitenskapelig forskning, eksepsjonelt godt. For du har helt rett. Dette var ikke den eneste store gnisten av fantasi og kreativitet som satte det hele i gang.

Det var egentlig en hel haug med bidrag som til syvende og sist alle var nødvendige. Å ha et miljø, et bibliotek - som senere også var åpen kildekode, ved navn Tensor2Tensor - som faktisk inkluderte implementeringer. Og ikke hvilke som helst implementeringer, men eksepsjonelt gode implementeringer, raske implementeringer av alle slags dyplæringstriks.
Men så også helt til disse oppmerksomhetsmekanismene som kom ut av tidligere publikasjoner – som den dekomponerbare oppmerksomhetsmodellen [som ble] publisert før – men som faktisk ble kombinert med forbedringer og innovasjoner, oppfinnelser rundt optimizere. Du vil ikke finne folk, tror jeg, som virkelig er blant verdens ledende eksperter på alle disse samtidig, og som virkelig også er like lidenskapelige for alle disse aspektene.

Vijay Pande: Og spesielt er det den første ideen, det er implementeringen av den, det er skaleringen av den. Å nå den typen skala noe annet sted enn i et stort selskap, akkurat nå, er sannsynligvis ikke mulig bare på grunn av kostnadene.

Jakob Uszkoreit: Jeg vil tro at det store selskapsaspektet kanskje ikke er så avgjørende.

Vijay Pande: Yeah?

Jakob Uszkoreit: Bedriftsaspektet er et jeg vil verdsette høyere. Det store selskapet skader absolutt ikke hvis du trenger tusenvis og tusenvis av TPUer eller GPUer eller hva har du. Dype lommer skader aldri for denne typen ting. Men samtidig tror jeg at insentivstrukturen rundt denne typen eksplorativ forskning i industrien bare er mye bedre egnet for denne typen prosjekter. Og jeg tror det faktisk er noe vi ser, når vi ser på generative AI-prosjekter over hele linja.

Vijay Pande: Ja. Og til poenget ditt, det kan være en oppstart.

Jakob Uszkoreit: Det kan definitivt være en oppstart. Og jeg tror vi ser nå at bruk av akseleratormaskinvare blir i det minste rimeligere. Og det er startups som konkurrerer veldig når det kommer til generativ AI rettet mot bildegenerering eller tekstgenerering.

Hopper til livsvitenskap

Vijay Pande: Jeg vil gjerne gå over til det du gjør nå. Du er administrerende direktør i Inceptive, et selskap som bruker AI til RNA-biologi for RNA-terapi. Hvordan gikk du over til biovitenskap? Overfladisk, å snakke om språkmodeller rundt middagen [bordet] og deretter rundt i Googles kafeteria... det virker som det kan være et hopp til neste generasjons terapi. Hvordan kom det hele til?

Jakob Uszkoreit: Jeg kunne ikke vært mer enig. Det er en utrolig lærerik opplevelse, fra min side. For en god stund nå har biologi sett meg som et problem der det ikke virker utenkelig at det er grenser for hvor langt vi kan gå når det gjelder for eksempel legemiddelutvikling og direkte design med tradisjonell biologi som ryggraden i hvordan vi gå om å designe – eller oppdage metoder for å designe – fremtidens medisiner.

Det ser ut til at dyp læring, spesielt på skala, av en rekke grunner potensielt er et veldig passende verktøy her. Og en av disse grunnene er faktisk noe som ofte ikke nødvendigvis regnes som en fordel, som er det faktum at det er denne store svarte boksen du bare kan kaste på noe. Og det er ikke sant at du bare kan kaste det. Det er noe du må vite hvordan du kaster det.

Vijay Pande: Og den er ikke akkurat svart heller. Det kan vi krangle om senere.

Jakob Uszkoreit: Ja nøyaktig. Nøyaktig. Men på slutten av dagen, når vi kommer tilbake til analogien til språk, har vi aldri klart å fullt ut, i den forstand, forstå og konseptualisere språk i den grad du kan hevde, å, nå skal jeg gå og fortelle deg denne teorien bak språket, og så etterpå vil du kunne implementere en algoritme som "forstår" det. Vi har aldri kommet til det punktet. I stedet måtte vi abortere og gå et skritt tilbake og, etter min mening, til en viss grad innrømme for oss selv at det kanskje ikke var den mest pragmatiske tilnærmingen. I stedet bør vi prøve tilnærminger som ikke krever det nivået av konseptuell forståelse. Og jeg tror det samme kan være tilfelle for deler av biologien.

Bruker AI for å ta bio lenger

Vijay Pande: Det er interessant, vi har snakket om ting som dette før. Du tenker på forrige århundre, [som i stor grad var århundret for fysikk og kalkulus. Det er en viss mentalitet der hvor det er en måte du kan ha en veldig elegant forenkling av ting som du kan ha en enkelt ligning som Einsteins feltligninger som beskriver så mye, og det er en veldig enkel ligning i et veldig komplekst språk. Du har snakket om hvordan den Feynman-tilnærmingen, nesten som fysikkens sosiologi, kanskje ikke gjelder her i biologien, ikke sant?

Jakob Uszkoreit: Det gjelder kanskje ikke, i det minste av to grunner jeg kan se på dette tidspunktet. Nummer én er at det er for mange spillere involvert. Og selv om det er sant at vi kanskje bare kan redusere det hele til Schrodingers ligning og bare løse det, så er det tilfeldigvis ikke bare uoverkommelig beregningsmessig, men vi må også vite om alle disse forskjellige aktørene, og det gjør vi for øyeblikket ikke . Ikke engang i nærheten. Så det er ett aspekt.

Og så er den andre i bunn og grunn intraktabiliteten beregningsmessig, hvor reduksjonen, i en viss forstand, har gått så langt at selv om den bringer det hele tilbake til én enkelt ting, hjelper det oss ikke fordi våre beregningsmessige tilnærminger til i utgangspunktet bruk disse grunnleggende for å lage spådommer er bare for trege til å gjøre disse spådommene for systemer som er store nok til å virkelig ha betydning for livet.

Vijay Pande: Ja. Så det er ikke en n-kroppsligning, men likevel er det fortsatt en følelse av formalisme – kanskje det er en mer datadrevet formalisme eller mer Bayesiansk formalisme. Hvordan spiller det inn i det du ønsker å gjøre? Hvordan bidrar det til å bruke AI og andre typer nye algoritmer?

Jakob Uszkoreit: Jeg tror det er et par forskjellige aspekter. På slutten av dagen er en av de store takeawayene etter min mening fra det vi for øyeblikket ser i generativ AI at vi ikke lenger trenger å trene på data som ikke bare er helt rene, men også nøyaktig fra domenet og fra hva slags oppgaver du senere ønsker å ta fatt på. Men i stedet kan det faktisk være mer fordelaktig eller til og med den eneste måten vi så langt har funnet ut for å faktisk prøve å trene på alt du finner som til og med er eksternt relatert. Og bruk deretter informasjonen effektivt hentet fra disse dataene for å ende opp med såkalte grunnlagsmodeller, som du deretter kan finjustere til alle slags spesifikke oppgaver ved å bruke mye mindre, mye mer håndterbare mengder renere data.

Jeg tror vi undervurderer litt hva vi må vite om fenomenene for øvrig. For å bygge en veldig god stor språkmodell, må du forstå at det er denne tingen som heter internett og har mye tekst i seg. Du må faktisk forstå ganske mye om hvordan du finner denne teksten, hva som ikke er tekst, og så videre, for så i bunn og grunn å destillere treningsdataene du bruker fra den.

Jeg tror det vil være veldig direkte analoge utfordringer rundt biologi. Det store spørsmålet er: hva er eksperimenter som vi kan skalere slik at vi kan observere livet i tilstrekkelig skala med omtrent nok troskap – men mye mindre spesifisitet mens vi husker på problemene du prøver å løse til slutt – slik at vi kan i utgangspunktet ta fra det dataene vi trenger for å begynne å bygge disse grunnmodellene, som vi deretter kan bruke, finjustert og spesifikt konstruert, for å virkelig nærme oss problemene vi ønsker å takle.

Datagenereringsdelen er absolutt en av dem. Arkitekturer og effektivt å ha modeller og nettverksarkitekturer som etterligner det vi vet, om for eksempel fysikken under, vil fortsatt være en utrolig kraftig måte å faktisk spare beregninger på og også redusere den fortsatt enorme appetitten på data som disse modellene må ha. , til et gjennomførbart nivå. Og så en ting som jeg tror faktisk er interessant å merke seg er at mange av de nåværende bruksområdene for modeller, for eksempel transformatorer, som har [vist] å skalere ganske bra i andre modaliteter, andre domener, språk, visjon, bildegenerering, osv., etc., og å bruke dem på biologi ignorerer i utgangspunktet det faktum at vi vet at det finnes noe som heter tid, og at fysikkens lover, i det minste etter det vi vet, ikke ser ut til å bare endre seg. over tid.

Prosessen med en proteinfolding, og ignorerer det faktum at det er tonnevis av spillere – chaperones og hva ikke – er faktisk, på en viss måte, et ganske vilkårlig adskilt problem fra resten av proteinkinetikken. Det er like mye kinetikk som resten av kinetikken, eller resten av levetiden til det proteinet, til det molekylet. Og så hvorfor prøver vi å trene modeller spesifikt for den ene og, potensielt i det minste, ignorere data vi kan ha om den andre? I dette tilfellet, kanskje mer spesifikt, er noen av prediksjonsmodellene for proteinstruktur som vi har i dag, lærer de allerede noe om kinetikk implisitt på grunn av det faktum at de sakte begynner å omfavne, du vet, eksistensen av tid?

Utvikle nye arkitekturer

Vijay Pande: En av de interessante tingene jeg tenker på der du står akkurat nå, er at, med noen få sjeldne unntak, føles de fleste dype nevrale nettverk eller andre typer AI i biologien som om de tar noe oppfunnet et annet sted og bærer det over. Som om vi bruker konvolusjonelle nevrale nett for bilder. Kanskje for små molekyler ... i laboratoriet mitt på Stanford brukte vi grafiske nevrale nettverk og flere konvolusjonelle nevrale nettverk. Men å virkelig utvikle en algoritme eksplisitt for det biologiske problemet er ganske sjelden. Og jeg har alltid antatt at det var fordi det bare er vanskelig å ha ferdighetene til et team som er sterkt innen biologidomenet og informatikkdomenet. Men jeg er nysgjerrig på å høre fra deg. Eller er det bare sjelden å utvikle nye arkitekturer i utgangspunktet?

Jakob Uszkoreit: Vel, jeg tror, ​​på slutten av dagen, det vi ser er at de nye arkitekturene, selv om de er motivert av spesifikke problemer, hvis de virkelig utgjør en forskjell, så har de en tendens til å også være anvendelige andre steder. Det betyr derimot ikke at det på veien dit ikke vil utgjøre en stor forskjell å velge nøye hva de motiverende applikasjonene og domenene er. Og det tror jeg absolutt gjør.

Jeg føler at en av hovedutfordringene her egentlig er at vi ennå ikke er i et regime innen biologi hvor vi har mengder av data, selv om det er utrolig, sammenlignet med det vi pleide å ha for en stund siden. Men vi er ikke i det regimet ennå hvor det bare sitter rundt på tilsvarende nettet, og vi kan filtrere det litt, laste det ned og bli ferdig med det. Men i stedet tror jeg vi må lage det i rimelig stor grad. Og det vil ikke bli gjort av dyplæringseksperter, i hvert fall ikke av de fleste av dem.

Og jeg tror at det må skje i låst takt med å virkelig forstå særegenhetene ved nevnte data, ikke sant? Den typen støy du møter der. Det faktum at disse faktisk lages i veldig store bassenger, eksperimenter med høy gjennomstrømning, men likevel eksperimenter som kjøres på forskjellige dager av forskjellige eksperimenter og så videre og så videre. Og der folk med mer dyp læringsbakgrunn jobber tett nok med folk med biologibakgrunn, lærer nok om det vi vet om de underliggende fenomenene, [vil de] i utgangspunktet bli inspirert til å prøve nye interessante tilnærminger.

Vijay Pande: Vel, jeg elsket når du snakket om eksemplet med Attention is All You Need-papiret, om hvordan du ønsket å få denne mangfoldige gruppen mennesker hvis lidenskaper, du vet, var ganske ortogonale fra hverandre. Og på en måte, når du gjør dette i biologi og spesielt for det du gjør på Inceptive, må du også bruke alt dette arbeidet på å generere dataene. Og å generere data betyr virkelig, for å være veldig eksplisitt, å kjøre biologiske eksperimenter i skala. Selve inngangsdelen er veldig dyr og veldig teknisk, og har som du sa så mange måter å gå galt på. Men det høres ut som du bygger videre på kulturen du har gjort før, og nå er det bare flere eksperter med forskjellige lidenskaper som koordinerer på en analog måte.

Jakob Uszkoreit: Jeg trenger virkelig, [og] folk trenger det. Dette er, så vidt jeg kan se, den mest lovende veien. [Det er å] ikke sikte på, i en viss forstand, en pipeline-modell, der visse data i laboratoriet de ble opprettet i, gitt det beste vi vet, om de underliggende aspektene ved livet. Og så begynne å kjøre eksisterende dyplæringstilnærminger på det og deretter justere dem. Men i stedet for å faktisk ha folk som i en viss forstand kan være blant de første som virkelig jobber i en disiplin som for øyeblikket ikke har noe særlig navn ennå.

Kanskje den minste fellesnevneren er nysgjerrighet som strekker seg utover det du vet, det du har lært før og det du kanskje har brukt mesteparten av tiden din til. Vi opplever at akkurat som på veldig mange andre områder, er det vi egentlig er ute etter et sett med mennesker med svært variert bakgrunn, men som deler nysgjerrighet.

Hvor går AI?

Vijay Pande: Hvor tror du AI er akkurat nå for de vanskeligere problemene, for legemiddeldesign, helsetjenester og så videre? Hva må gjøres? Når kommer den dit?

Jakob Uszkoreit: Jeg ville forvente – og det er alltid veldig farlig å komme med spådommer om fremtiden – jeg ville bli veldig overrasket om vi i løpet av de neste tre årene faktisk ikke ville begynne å se et [bøynings]punkt skje når det kommer til virkningene av den virkelige verden. maskinlæring, dyp læring i stor skala i legemiddelutvikling, legemiddeldesign. Hvor nøyaktig de vil være først, tror jeg selvfølgelig at mange av dem vil skje rundt RNA, RNA-terapi og vaksiner. Det vil absolutt ikke være det eneste området som er berørt av dette, men jeg tror definitivt vi er på vei inn i bøyningspunktets territorium.

Vijay Pande: Du kom med et interessant poeng. Hva er annerledes med RNA? For jeg synes det er spesielt interessant, ikke bare at du gikk fra Google Brain til biologi, men at du spesifikt gikk inn på RNA. Hva tiltrekker deg til RNA, spesielt kanskje fra et AI- eller ML-synspunkt?

Jakob Uszkoreit: En ting som er interessant med RNA er kombinasjonen mellom, som vi har sett, veldig bred anvendelighet – selv om den fortsatt er smal i betydningen en enkelt indikasjon – men bare å se på denne bølgen av godkjenningsprosesser som starter og har startet, er det ganske klart at anvendeligheten er veldig, veldig bred, kombinert med – dette er litt tvetydig – et strukturelt enkelt problem. Og det er strukturelt enkelt, ikke i setningen at RNA-strukturprediksjon er enkel, men det er strukturelt enkelt i den forstand at det er en biopolymer med fire forskjellige baser. Vi snakker ikke om over 20 aminosyrer. Det er noe som kan produseres ganske effektivt.

Det er noen utfordringer der, men syntese er noe som kan skaleres og skaleres raskt, og disse tingene kommer virkelig sammen for å muliggjøre denne raske tilbakemeldingssløyfen som jeg antar at det ofte refereres til, men som svært sjelden, i det minste fra det jeg vet, faktisk implementeres og implementerbar på slutten av dagen.

Vijay Pande: Ja, sannsynligvis er det en raskere tilbakemeldingssløyfe, spesielt for måten du går etter den.

Jakob Uszkoreit: Ja. Og gitt at jeg tror vi trenger å lage brorparten av data for å trene modellene vi trener, investerer vi virkelig Inceptive i å lage slike data i stor skala. Og jeg vil si relativt stor skala, gitt at RNA ser ut til å være den desidert beste kombinasjonen når det kommer til den strukturelle enkelheten, men også skalerbarheten til syntese og denne eksperimenteringen. Det er et stort potensial her som så langt har vært uutnyttet.

Vijay Pande: Ja, og jeg tror spesielt potensielt muligheten til å ha disse raske syklusene, både prekliniske og derfor komme raskere til klinikken og være på klinikken [for en kortere periode].

Jakob Uszkoreit: Absolutt. Det er egentlig det vi håper på. Vi ser også kanskje tidlige hint som indikerer at det kan være tilfelle, og som vi selvfølgelig er veldig, veldig spente på.

Vijay Pande: Å tenke på de siste 10 årene har vært fantastisk, vet du, 2012 til nå. Hvordan tror du de neste 10 årene ser ut? Hvor tror du vi er om 10 år med AI? Enten bredt eller spesielt for bio?

Jakob Uszkoreit: Jeg tror at hvis det virkelig er sant at vi går inn i dette bøyningspunktets territorium, når vi ser tilbake 10 år fra nå, vil det virke som en revolusjon minst like stor og like vidstrakt som den vi tror vi har sett i siste 10 år. I det minste. Nå tror jeg det vil være en avgjørende forskjell, og det er at det ikke er så klart nøyaktig hvor bredt revolusjonen vi har vært vitne til de siste 10 årene påvirker alles liv. Det er visse områder, søkemotorer eller assistert skriving, etc., der det er tydelig, men det er ikke klart hvor bredt anvendelig denne revolusjonen er. Jeg tror det er veldig slik, men vi ser det ikke ennå. Jeg tror revolusjonen som vi kommer til å se spesifikt rundt bio i løpet av de neste 10 årene, eller som vi kommer til å se tilbake på 10 år fra nå, virkelig vil variere når det gjelder dens dype innvirkning på alle våre liv .

Selv om man ser bort fra applikasjoner for medikamentdesign og oppdagelse, er det slike fantastiske applikasjoner i og rundt vitenskapelige oppdagelser der du nå kan forestille deg at du med et nettgrensesnitt i utgangspunktet kan få utformet molekyler som i visse organismer med svært høy sannsynlighet vil svare på visse spørsmål, og produsere mer pålitelige avlesninger enn, du vet, det du tidligere kunne komme til. Så selv om man utelater hele kompleksiteten av hvordan dette til syvende og sist vil påvirke pasienter og alle, er det ganske klart, tror jeg, at disse verktøyene bare raskt vil akselerere felt som biologi.

Vijay Pande: Det virker som et flott sted å avslutte det. Tusen takk, Jakob, for at du ble med i Bio Eats World.

Jakob Uszkoreit: Tusen takk for at jeg fikk komme.

Olivia Webb: Takk for at du ble med i Bio Eats World. Bio Eats World er vert og produsert av meg, Olivia Webb, med hjelp av Bio + Health-teamet på a16z og redigert av Phil Hegseth. Bio Eats World er en del av podcast-nettverket a16z.

Hvis du har spørsmål om episoden eller ønsker å foreslå emner for en fremtidig episode, vennligst send en e-post Sist men ikke minst, hvis du liker Bio Eats World, vennligst gi oss en vurdering og anmeldelse uansett hvor du hører på podcaster.

Vær oppmerksom på at innholdet her kun for informasjonsformål, ikke skal tas som juridisk, forretningsmessig, skattemessig eller investeringsråd, eller brukes til å evaluere investeringer eller sikkerhet, og er ikke rettet mot noen investorer eller potensielle investorer i noen a16z-fond. . For mer informasjon, se a16z.com/disclosures.

***

Synspunktene som uttrykkes her er de fra individuelle AH Capital Management, LLC (“a16z”) personell som er sitert og er ikke synspunktene til a16z eller dets tilknyttede selskaper. Visse opplysninger her er innhentet fra tredjepartskilder, inkludert fra porteføljeselskaper av fond forvaltet av a16z. Selv om a16z er hentet fra kilder som antas å være pålitelige, har ikke a16z uavhengig verifisert slik informasjon og gir ingen representasjoner om den varige nøyaktigheten til informasjonen eller dens hensiktsmessighet for en gitt situasjon. I tillegg kan dette innholdet inkludere tredjepartsannonser; aXNUMXz har ikke vurdert slike annonser og støtter ikke noe reklameinnhold som finnes deri.

Dette innholdet er kun gitt for informasjonsformål, og bør ikke stoles på som juridisk, forretningsmessig, investerings- eller skatterådgivning. Du bør rådføre deg med dine egne rådgivere om disse sakene. Referanser til verdipapirer eller digitale eiendeler er kun for illustrasjonsformål, og utgjør ikke en investeringsanbefaling eller tilbud om å tilby investeringsrådgivningstjenester. Videre er dette innholdet ikke rettet mot eller ment for bruk av noen investorer eller potensielle investorer, og kan ikke under noen omstendigheter stoles på når du tar en beslutning om å investere i et fond som forvaltes av a16z. (Et tilbud om å investere i et a16z-fond vil kun gis av det private emisjonsmemorandumet, tegningsavtalen og annen relevant dokumentasjon for et slikt fond og bør leses i sin helhet.) Eventuelle investeringer eller porteføljeselskaper nevnt, referert til, eller beskrevet er ikke representative for alle investeringer i kjøretøy forvaltet av a16z, og det kan ikke gis noen garanti for at investeringene vil være lønnsomme eller at andre investeringer som gjøres i fremtiden vil ha lignende egenskaper eller resultater. En liste over investeringer foretatt av fond forvaltet av Andreessen Horowitz (unntatt investeringer som utstederen ikke har gitt tillatelse til at a16z kan offentliggjøre så vel som uanmeldte investeringer i børsnoterte digitale eiendeler) er tilgjengelig på https://a16z.com/investments /.

Diagrammer og grafer gitt i er kun for informasjonsformål og bør ikke stoles på når du tar investeringsbeslutninger. Tidligere resultater er ikke en indikasjon på fremtidige resultater. Innholdet taler kun fra den angitte datoen. Eventuelle anslag, estimater, prognoser, mål, prospekter og/eller meninger uttrykt i dette materialet kan endres uten varsel og kan avvike eller være i strid med meninger uttrykt av andre. Vennligst se https://a16z.com/disclosures for ytterligere viktig informasjon.

Tidstempel:

Mer fra Andreessen Horowitz