Bio Eats World: Brug AI til at tage bio længere

Bio Eats World: Brug AI til at tage bio længere

Kildeknude: 1896777

I denne episode taler Vijay Pande med Jakob Uszkoreit, medstifter og administrerende direktør for Inceptive. Sammen diskuterer de alt om AI.

Vi offentliggør udskriften i sin helhed nedenfor, hvis du vil læse med.

***

Olivia Webb: Hej og velkommen til Bio Eats World, en podcast i krydsfeltet mellem bio, sundhedspleje og teknologi. Jeg er Olivia Webb, den redaktionelle leder for Bio + Health på a16z. I denne episode talte vi med Jakob Uszkoreit, tidligere Google Brain, og medstifteren af ​​Inceptive. Jakob er også en af ​​forfatterne på det banebrydende AI-forskningspapir Attention is All You Need, som vi linker i shownoterne. Jakob satte sig sammen med Vijay Pande, stiftende partner af a16z Bio + Health for at tale om alt, hvad AI har: fra sin tid hos Google Brain, til hvordan mennesker og computere behandler sprog, til Inceptives tro på løftet om RNA, og hvordan Jakob tror på, at vi er på vej ind i bøjningspunkts territorium med AI.

Det er en episode, du ikke vil gå glip af – men det er også en diskussion om AI på kandidatniveau, så vi udgiver et udskrift sammen med episoden. Lad os komme igang.

Anvendelige algoritmer

Vijay Pande: Så Jakob, mange tak fordi du er på Bio Eats World. Det er dejligt at have dig.

Jakob Uszkoreit: Fantastisk at være her. Tak fordi jeg måtte komme.

Vijay Pande: Især da du har en så fascinerende historie som datamatiker og iværksætter og grundlægger, ville jeg elske, at du guidede os gennem din karriererejse, hvor du starter, hvor du vil, men det, der fik dig til Google Brain, er nok et godt sted at starte .

Jakob Uszkoreit: Jeg husker til en vis grad virkelig, øh, at jeg stødte på dette problem med maskinlæring, måske i bredeste forstand, [og] sprogforståelse, noget mere specifikt, som et problem, der kører i familien. Så min far er datalog og computerlingvist, og du ved, at vokse op med ting som Turing-maskiner var ikke nødvendigvis helt fremmede begreber ret tidligt.

Vijay Pande: Ja, det lyder faktisk som om det kunne have været samtale ved middagsbordet.

Jakob Uszkoreit: De var middagsbordssamtaler. Og så især finite automater, og hvordan de faktisk forholder sig til automater, var, du ved, almindelige emner. Jo ældre jeg blev, jo mere ville jeg sikre mig, at jeg faktisk endte med at gøre noget anderledes. Og så endte jeg med at kigge en del på ren matematik og relaterede områder der. [Jeg] fokuserede virkelig en del på optimering, på optimeringsalgoritmer, algoritmer generelt, mere bredt kompleksitetsteori, før jeg indså, at det måske ikke var den mest praktiske ting og den mest anvendelige ting, som du ved, sådan set er blevet lidt af en rød tråd gennem min karriere. Og så bogstaveligt talt snuble over en Google-praktikplads tilbage i 2005.

Jeg fik et par forskellige muligheder [med hensyn til] hvilken slags forskningsprojekter jeg skulle deltage i, [og] blandt dem var forskellige computervisionsindsatser, men også maskinoversættelsesprojektet, der dybest set blev til Google Translate. Lige omkring det tidspunkt, eller bare lidt før det, lancerede [Translate] sit første produkt, der virkelig blev drevet af Googles interne systemer, der var udviklet, og i en vis forstand, til min forfærdelse, viser det sig, at Google Translate kl. tiden havde langt de mest interessante algoritmeproblemer i stor skala.

På det tidspunkt var det virkelig interessant at se, for det, der overbeviste mig om derefter at afbryde min ph.d. og faktisk vende tilbage til Google efter det praktikophold, var virkelig, at det blev tydeligt i min tid der, at hvis man ville arbejde med noget i maskinlæring, der ikke kun var interessant og lad os sige intellektuelt og videnskabeligt, spændende, udfordrende og stimulerende, men som også havde virkelig store forhåbninger om at flytte nålen med det samme i industrien og i produkter. Der var virkelig omkring den tid ikke ret mange steder i verden. Og de var bestemt ikke akademiske laboratorier på det tidspunkt, men meget steder som Google. Og Google der og da var faktisk meget på forkant med dette. Og så, du ved, på det tidspunkt syntes jeg, det var fantastisk at køre mine første storskala klyngealgoritmer på tusinde maskiner, og det var bare, absolut umuligt at gøre det andre steder.

Vijay Pande: Når du taler med vores seniorkolleger, er der meget romantik fra Bell Labs storhedstid, og jeg har altid spekuleret på, om Google Brain kan være en af ​​de tættere varianter i dag. Hvordan var miljøet?

Jakob Uszkoreit: Så jeg føler faktisk mellem det tidspunkt og da Google Brain for alvor kom i gang, hvilket er omkring fem år senere, var der et markant skift. Før Brain and Translate startede, var det meget mere drevet af produkter, der virkelig gjorde en forskel, end jeg tror, ​​Bell Labs var. Og vi havde selvfølgelig en god del Bell Labs-alumner iblandt os, men det var meget mere motiveret af direkte anvendelighed.

Hvilket for mig faktisk var virkelig fantastisk at være vidne til, hvordan maskinoversættelse vendte [fra noget, der] var godt til grin til en fest, bogstaveligt talt. Hvis de spurgte dig, hvor arbejder du så? Og du sagde, Google. Og så sagde de, hvad laver du der? Og de var først imponerede. Og så sagde du, åh, jeg arbejder på Google Translate. Og så grinede de og spurgte, vil det her nogensinde fungere? Det tror jeg ikke. Men på samme tid vil jeg sige, at bølgen af ​​maskinlæring, renæssancebølgen af ​​maskinlæring før dyb læring, begyndte at plateau. Du ved, deep learning var noget, jeg havde gjort tidligere i skolen, og jeg kunne godt lide det, men det var ikke noget, man virkelig kunne anvende dengang.

Vijay Pande: Ja, især fordi du ikke havde skalaen i den akademiske verden til at lave de beregninger, du skulle gøre.

Jakob Uszkoreit: Bestemt ikke i den akademiske verden, men endda hos Google. Selvom det på det tidspunkt, i Translate, faktisk var det mest interessante kendetegn, jeg vil sige, at vi virkelig troede på den absolutte kraft af data i slutningen af ​​dagen.

Så vi forsøgte ikke at lave mere komplicerede, mere sofistikerede algoritmer, men i stedet for at forenkle og skalere dem så meget som muligt og så sætte dem i stand til at træne på mere og mere data. Men vi ramte lige et loft der. De forenklinger, du skulle lave for at skalere dem til, hvad der på det tidspunkt var Googles skala, det var virkelig vores mål. Men så, og det var sådan en af ​​disse pendulbevægelser, der svingede tilbage, ud af den akademiske verden, en flok mennesker med en flok GPU'er - deep learning kom tilbage i en vis forstand med en hævn. Og pludselig tilpassede miljøet sig, fordi det var uklart, hvad den direkte vej ville være i skala ind i produktionen.

Og så hele miljøet skiftede fra at være mere applikations- og produktorienteret til noget, der i det mindste føltes i en del år, meget mere akademisk. Det er stadig lidt anderledes end akademiske laboratorier, fordi vi havde råd til langt flere GPU'er, men meget mere i tråd, i en vis forstand, med denne idé om, [at være] drevet af publikationer, drevet af spring frem for skridt. [Det] blev til et meget, meget produktivt – og virkelig fantastisk – men meget mere åbent [miljø].

Opmærksomhed er alt hvad du behøver

Vijay Pande: Nå, du ved, når vi taler om publikationer, så er et naturligt sted at tænke på, når du og holdet udgav Attention is All You Need. Og, du ved, det har været sådan et banebrydende papir for så meget af generativ AI, siden det var, da transformatoralgoritmen først blev lagt ud.

Jakob Uszkoreit: To år før udgivelsen af ​​det papir, indså vi, at det, der dengang var state-of-the-art for problemer som maskinoversættelse, eller [hvad] dukkede op som state-of-the-art, nemlig LSTM eller RNN-baseret , Seq2Seq overordnet som et træningsparadigme og som et setup, men også som en netværksarkitektur – havde utrolige problemer selv på de mest moderne GPU'er på det tidspunkt, når det kom til skalering i form af data.

For eksempel var det allerførste neurale maskinoversættelsessystem, som Google lancerede, GNMT, faktisk, så vidt jeg ved, aldrig rigtig trænet i al træningsdata, som vi havde til rådighed, som vi tidligere havde udvundet til de sætningsbaserede statistiske systemer. Og det skyldtes, at algoritmerne bare ikke skalerede godt i forhold til mængden af ​​data. Så, lang historie kort, så kiggede vi på det tidspunkt ikke på maskinoversættelse, men på problemer, hvor vi internt hos Google havde endnu større mængder træningsdata til rådighed. Så det var problemer, der kom ud af eftersøgningen, hvor man stort set har yderligere tre eller fire størrelsesordener. Du ved, der er nu ikke milliarder af ord længere, men nemt trillioner, og pludselig stødte vi på dette mønster, hvor simple feedforward-netværk, selvom de lavede latterlige simplificerende antagelser som, det er bare en pose ord, eller det er bare en pose bigrammer , og du sætter et gennemsnit på dem, og du sender dem gennem en stor MNLP, de klarede sig faktisk bedre end RNN'er og LSTM'er, i det mindste når de blev trænet på mere data.

[Og de var] n gange hurtigere, let 10, 20 gange hurtigere, at træne. Og så du kan træne dem i meget mere data. I nogle tilfælde var [de] hundrede gange hurtigere til at træne. Og så blev vi ved med at ende med modeller, der var enklere, og som ikke kunne udtrykke eller fange visse fænomener, som vi ved, er helt almindelige i sproget.
Og alligevel, du ved, bundlinjen var de billigere at træne, og [de] præsterede bedre.

Vijay Pande: Lad os bare give et eksempel for folk, der ikke er bekendte. Så for en pose ord, hvis jeg sagde, vis mig alle restauranter i nærheden undtagen italiensk, så viser det dig alle de italienske restauranter, ikke?

Jakob Uszkoreit: Nemlig. Faktisk kan det, du sagde, sandsynligvis omarrangeres, for at vise mig alle italienske restauranter undtagen i nærheden. Det er bare en suppe af ord, og du kan omarrangere den til noget, der helt sikkert betyder noget andet.

Vijay Pande: Ja.

Jakob Uszkoreit: Og så anslår du at komme til strukturen og komme til de mere globale fænomener ved at indsætte bigrammer. Så grundlæggende grupper af to på hinanden følgende ord og sådan noget. Men det er klart, at bestemt på sprog som tysk, hvor du dybest set kan sætte verbet ind i slutningen af ​​en sætning...

Vijay Pande: Og det ændrer hele betydningen, ikke?

Jakob Uszkoreit: Ændrer al betydning, præcis, ja. Lige meget hvad størrelsen af ​​dine n-grams – eller dine små ordgrupper – er, vil du i sidste ende ikke lykkes. Og det blev klart for os, at der skal være en anden måde, der ikke kræver, at RNN'et gentager sig i længden eller gentagelse i rækkefølge af f.eks. ord eller pixels, men som faktisk behandler input og output på en mere parallel måde og virkelig i sidste ende tage højde for styrkerne ved moderne acceleratorhardware.

Vijay Pande: Tænk over det, ligesom en pose ord er ord i tilfældig rækkefølge. LSTM, eller lang-korttidshukommelse, giver dig måske en form for [evne] til at se lidt [ind i] fortiden, ikke? Men transformere gør noget radikalt anderledes. Hvordan tager transformatorer det til næste niveau?

Jakob Uszkoreit: Der er altid to måder at se dette på. Den ene er gennem linsen af ​​effektivitet, men den anden måde, der måske er lidt mere intuitiv, er at se på det i forhold til, du ved, hvor meget kontekst du kan bevare. Og som du sagde, LSTM'er, eller tilbagevendende neurale netværk generelt, bevæger de sig gennem deres input trin for trin, stort set, og mens de i teorien er i stand til at opretholde vilkårligt lange kontekstvinduer til input - fortiden - hvad sker i praksis er, at det faktisk er meget svært for dem at identificere begivenheder, sige ord eller pixels, der ligger meget fjernt i fortiden, og som virkelig påvirker betydningen i slutningen af ​​dagen. De har en tendens til at fokusere på ting, der er i nærheden.

Transformatoren, på den anden side, vender i bund og grund bare det på hovedet og siger, nej, ved hvert trin bevæger vi os ikke gennem inputtet. Ved hvert trin ser vi på helheden af ​​input eller output, og vi reviderer dybest set trinvist repræsentationer af hvert ord eller hver pixel eller hver patch eller hvert billede af en video, mens vi dybest set bevæger os, ikke i inputrummet , men i repræsentationsrum.

Vijay Pande: Ja.

Jakob Uszkoreit: Og den idé havde nogle ulemper med hensyn til, hvordan du ville passe den ind på moderne hardware, men sammenlignet med tilbagevendende neurale netværk havde den primært fordele, fordi du nu faktisk ikke var bundet til sekventielt at beregne repræsentationer, f.eks. ord for ord. Det, du var bundet af, er egentlig, hvor gode skulle de være? Hvor mange lag af denne form for parallel bearbejdning af alle positioner, hvor alt, hvor alle par af ord eller alle par af billedplastre kan interagere med det samme? Hvor mange revisioner af disse repræsentationer har jeg egentlig "råd til"?

Vijay Pande: Det, der også virkelig er interessant er, at inspirationen naturligvis er naturligt sprog, men at der er mange strukturer, som du gerne vil indtaste, hvor du ikke bare vil studere det sekventielt, som en DNA-sekvens – og vi kommer ind på biologi snart nok - at du vil have en model af det hele.

Det er lidt sjovt med sprog. Når jeg taler, eller når jeg lytter til dig, behandler jeg hvert ord, men til sidst skal jeg ikke bare tokenisere ordene til individuelle betydninger, men jeg skal på en måde udvikle denne repræsentation. Ja? Jeg ville ønske, vi kunne gøre det, som transformere gør. Og måske er det tricket, at LSTM'er er tættere på den måde, vi mennesker gør det på, og transformatorer er måske lige den måde, vi skal gøre det på, eller jeg ville ønske, vi kunne gøre det.

Jakob Uszkoreit: Overfladisk tror jeg, at det er sandt, selv om det i sidste ende er - introspektive argumenter som disse er subtile og vanskelige.

Så jeg gætter på, at mange af os kender dette fænomen, hvor du råber eller råber med nogen, der prøver at kommunikere noget på tværs af en travl gade. Og så hører man noget, de siger, og det er ikke en kort rækkefølge af ord, og man forstod stort set ingenting. Men et halvt sekund senere forstod du pludselig hele sætningen. Det antyder faktisk, at selvom vi er tvunget til at skrive og udtale sprog på en sekventiel måde - bare på grund af tidens pil - er det ikke så klart, at vores dybere forståelse virkelig løber på den sekventielle måde.

Opbygning af et hold

Vijay Pande: Hvis nogen studerer selv blot Attention is All You Need-papiret, eller hvordan en transformer fungerer, er der mange dele til det. Og det ser ud til, at det formentlig nu er gået forbi det punkt, hvor én person effektivt kunne udføre det arbejde alene på kort tid.

Jakob Uszkoreit: Absolut.

Vijay Pande: Så nu har du virkelig brug for et team af mennesker til at gøre den slags ting. Hvad er sociologien i det? Hvordan opstår sådan noget?

Jakob Uszkoreit: Denne særlige sag, føler jeg personligt, er et virkelig vidunderligt eksempel på noget, der passer usædvanligt godt til en mere, lad os sige, industriel tilgang til videnskabelig forskning. For du har helt ret. Dette var ikke den eneste store gnist af fantasi og kreativitet, der satte det hele i gang.

Det var virkelig en hel masse bidrag, der i sidste ende alle var nødvendige. At have et miljø, et bibliotek – som senere også var open source, ved navn Tensor2Tensor – som faktisk omfattede implementeringer. Og ikke hvilke som helst implementeringer, men exceptionelt gode implementeringer, hurtige implementeringer af alle mulige deep learning tricks.
Men så også hele vejen til disse opmærksomhedsmekanismer, der kom ud af tidligere udgivelser – som den nedbrydelige opmærksomhedsmodel [der blev] publiceret før – men så faktisk blev kombineret med forbedringer og innovationer, opfindelser omkring optimizere. Du vil ikke finde folk, tror jeg, som virkelig er blandt verdens førende eksperter i alle disse på samme tid, og som virkelig også brænder på samme måde for alle disse aspekter.

Vijay Pande: Og især er der den første idé, der er implementeringen af ​​den, der er skaleringen af ​​den. At nå den type skala andre steder end i en stor virksomhed, lige nu, er sandsynligvis ikke gennemførligt kun på grund af omkostningerne.

Jakob Uszkoreit: Jeg vil tro, at det store virksomhedsaspekt måske ikke er helt så afgørende.

Vijay Pande: Ja?

Jakob Uszkoreit: Virksomhedsaspektet er et, som jeg ville værdsætte højere. Den store virksomhed skader bestemt ikke, hvis du har brug for tusinder og atter tusinder af TPU'er eller GPU'er eller hvad har du. Dybe lommer skader aldrig for denne slags ting. Men samtidig mener jeg, at incitamentsstrukturen omkring denne form for eksplorativ forskning i industrien bare er meget bedre egnet til den slags projekter. Og jeg tror, ​​at det faktisk er noget, vi ser, når vi ser på generative AI-projekter over hele linjen.

Vijay Pande: Ja. Og til din pointe kunne det være en startup.

Jakob Uszkoreit: Det kunne helt sikkert være en startup. Og jeg tror, ​​vi ser nu, at det bliver i det mindste mere overkommeligt at bruge acceleratorhardware. Og der er startups, der er meget konkurrerende, når det kommer til generativ AI rettet mod billedgenerering eller tekstgenerering.

Springer til biovidenskab

Vijay Pande: Jeg ville elske at gå over til det, du laver nu. Du er administrerende direktør for Inceptive, en virksomhed, der anvender AI til RNA-biologi til RNA-terapi. Hvordan gik du over i biovidenskaberne? Overfladisk talt om sprogmodeller omkring middagen [bordet] og derefter rundt i Googles cafeteria...det ser ud til, at det kan være et spring til den næste generation af terapier. Hvordan opstod det hele?

Jakob Uszkoreit: Jeg kunne ikke være mere enig. Det er en fantastisk lærerig oplevelse fra min side. I et stykke tid har biologien slået mig som et problem, hvor det ikke virker utænkeligt, at der er grænser for, hvor langt vi kan gå med hensyn til f.eks. lægemiddeludvikling og direkte design med traditionel biologi som rygraden i, hvordan vi gå om at designe - eller opdage metoder til at designe - fremtidens lægemidler.

Det ser ud til, at dyb læring, især på skala, af en række årsager potentielt er et rigtigt passende værktøj her. Og en af ​​de grunde er faktisk noget, der ofte ikke nødvendigvis bliver faktureret som en fordel, som er det faktum, at det er denne store sorte boks, man bare kan smide efter noget. Og det er ikke rigtigt, at man bare kan smide det. Det er noget, du skal vide, hvordan du kaster.

Vijay Pande: Og den er heller ikke helt sort. Det kan vi diskutere senere.

Jakob Uszkoreit: Ja præcis. Nemlig. Men i sidste ende, når vi vender tilbage til analogien til sprog, har vi aldrig formået fuldt ud, i den forstand, at forstå og begrebsliggøre sproget i det omfang, du kunne påstå, åh, jeg vil nu gå og fortælle dig denne teori bag sproget, og så vil du bagefter kunne implementere en algoritme, der "forstår" det. Vi er aldrig nået dertil. I stedet måtte vi abortere og gå et skridt tilbage og efter min mening til en vis grad indrømme over for os selv, at det måske ikke var den mest pragmatiske tilgang. I stedet bør vi prøve tilgange, der ikke kræver det niveau af begrebsforståelse. Og jeg tror, ​​det samme kan være tilfældet for dele af biologien.

Bruger AI til at tage bio længere

Vijay Pande: Det er interessant, vi har talt om ting som dette før. Du tænker på det sidste århundrede, [som var] i høj grad fysikkens og calculus århundrede. Der er en vis mentalitet der, hvor der er en måde, hvorpå du kan have en meget elegant forenkling af tingene, som du kan have en enkelt ligning som Einsteins feltligninger, der beskriver så meget, og det er en meget simpel ligning i et meget komplekst sprog. Du har talt om, hvordan den Feynman-tilgang, næsten ligesom fysikkens sociologi, måske ikke gælder her i biologien, ikke?

Jakob Uszkoreit: Det gælder muligvis ikke, i det mindste af to grunde, som jeg kan se på dette tidspunkt. Nummer et er, at der er for mange spillere involveret. Og selvom det er rigtigt, at vi måske bare kan reducere det hele til Schrodingers ligning og bare løse det, så er det tilfældigvis ikke kun uoverskueligt beregningsmæssigt, men vi skal også vide om alle disse forskellige spillere, og det gør vi i øjeblikket ikke . Ikke engang tæt på. Så det er et aspekt.

Og så er den anden dybest set den uoverskuelige beregningsmæssigt, hvor reduktionen i en vis forstand er gået så langt, at selvom den bringer det hele tilbage til én enkelt ting, så hjælper det os ikke, fordi vores beregningsmæssige tilgange til grundlæggende brug disse grundlæggende forudsigelser er bare for langsomme til at lave disse forudsigelser for systemer, der er store nok til virkelig at have betydning for livet.

Vijay Pande: Ja. Så det er ikke en n-kropsligning, men alligevel er der stadig en følelse af formalisme – måske er det en mere datadrevet formalisme eller mere Bayesiansk formalisme. Hvordan spiller det ind i det, du gerne vil gøre? Hvordan bidrager det til at anvende AI og andre typer nye algoritmer?

Jakob Uszkoreit: Jeg tror, ​​der er et par forskellige aspekter. I slutningen af ​​dagen er en af ​​de store takeaways efter min mening fra det, vi i øjeblikket ser i generativ AI, at vi ikke længere behøver at træne på data, der ikke kun er helt rene, men også præcist fra domænet og fra den slags opgaver, som du senere gerne vil tage fat på. Men i stedet kan det faktisk være mere fordelagtigt eller endda den eneste måde, som vi hidtil har fundet ud af, for rent faktisk at prøve at træne på alt, hvad du finder, som endda er fjernrelateret. Og brug så informationen, der er hentet fra disse data, for at ende op med såkaldte fundamentmodeller, som du så kan finjustere til alle mulige specifikke opgaver ved hjælp af meget mindre, meget mere håndterbare mængder af renere data.

Jeg tror, ​​at vi lidt undervurderer, hvad vi har at vide om fænomenerne som helhed. For at opbygge en meget god stor sprogmodel, skal du forstå, at der er denne ting, der hedder internettet og har en masse tekst i sig. Du skal faktisk forstå en hel del om, hvordan du finder denne tekst, hvad der ikke er tekst, og så videre, for så grundlæggende at destillere de træningsdata, du så bruger, fra den.

Jeg tror, ​​der vil være meget direkte analoge udfordringer omkring biologi. Det store spørgsmål er: hvad er eksperimenter, som vi kan skalere, så vi kan observere livet i tilstrækkelig skala med omtrent nok troskab – men meget mindre specificitet, mens vi husker på de problemer, du forsøger at løse til sidst – sådan at vi kan grundlæggende tage fra det de data, vi har brug for for at begynde at bygge disse fundamentmodeller, som vi derefter kan bruge, finjusteret og specifikt konstrueret, til virkelig at nærme os de problemer, vi ønsker at tackle.

Datagenereringsdelen er bestemt en af ​​dem. Arkitekturer og effektivt at have modeller og netværksarkitekturer, der efterligner det, vi ved, om f.eks. fysikken nedenunder, vil stadig forblive en utrolig kraftfuld måde at spare beregninger på og også reducere den stadig enorme appetit på data, som disse modeller bliver nødt til at have. , til et muligt niveau. Og så en ting, som jeg synes faktisk er interessant at bemærke, er, at mange af de nuværende anvendelser af modeller, f.eks. transformatorer, der har [vist sig] at skalere ret godt i andre modaliteter, andre domæner, sprog, vision, billedgenerering, osv. osv., og ved at anvende dem på biologi ignorerer vi grundlæggende det faktum, at vi ved, at der er sådan noget som tid, og at fysikkens love, i det mindste efter vores bedste viden, ikke ser ud til bare at ændre sig. over tid.

Processen med en proteinfoldning, der ignorerer det faktum, at der er tonsvis af spillere - chaperones og hvad der ikke er - er faktisk i en vis forstand et ret vilkårligt adskilt problem fra resten af ​​proteinkinetikken. Det er lige så meget kinetik som resten af ​​kinetikken, eller resten af ​​det proteins levetid, af det molekyle. Og hvorfor forsøger vi så at træne modeller specifikt til den ene og potentielt i det mindste ignorere data, vi måtte have om den anden? I dette tilfælde, måske mere specifikt, er nogle af de proteinstruktur-forudsigelsesmodeller, som vi har i dag, lærer de allerede noget om kinetik implicit på grund af det faktum, at de langsomt begynder at omfavne, du ved, eksistensen af ​​tid?

Udvikling af nye arkitekturer

Vijay Pande: En af de interessante ting, jeg tænker på, hvor du står lige nu, er, at med nogle få sjældne undtagelser, føles de fleste dybe neurale netværk eller andre typer AI i biologien, som om de tager noget opfundet et andet sted hen og overfører det. Ligesom vi vil bruge konvolutionelle neurale net til billeder. Måske til små molekyler...i mit laboratorium i Stanford brugte vi grafiske neurale netværk og adskillige konvolutionelle neurale netværk. Men at virkelig udvikle en algoritme eksplicit for det biologiske problem er ret sjældent. Og jeg har altid antaget, at det var, fordi det bare er svært at have kompetencerne fra et hold, der er stærkt inden for biologi-domænet og i datalogi-domænet. Men jeg er nysgerrig efter at få dit bud. Eller er det bare sjældent at udvikle nye arkitekturer i første omgang?

Jakob Uszkoreit: Nå, jeg tror, ​​i sidste ende, hvad vi ser er, at de nye arkitekturer, selvom de er motiveret af specifikke problemer, hvis de virkelig gør en forskel, så har de en tendens til også at være anvendelige andre steder. Det betyder på den anden side ikke, at det på vejen dertil ikke ville gøre en kæmpe forskel at vælge omhyggeligt, hvad de motiverende applikationer og domæner er. Og det tror jeg bestemt, det gør.

Jeg føler, at en af ​​hovedudfordringerne her i virkeligheden er, at vi endnu ikke er i et regime inden for biologi, hvor vi har masser af data, selvom det, sammenlignet med, hvad vi plejede at have for et stykke tid siden, er fantastisk. Men vi er ikke i det regime endnu, hvor det bare sidder på det, der svarer til nettet, og vi kan filtrere det lidt, downloade det og være færdigt med det. Men i stedet synes jeg, vi skal skabe det i rimeligt stort omfang. Og det vil ikke blive gjort af deep learning-eksperter, i hvert fald ikke af de fleste af dem.

Og jeg mener, at det skal ske i låsetrin med så også virkelig at forstå de særlige forhold ved nævnte data, ikke? Den slags støj, du møder der. Det faktum, at disse faktisk er skabt i meget store puljer, eksperimenter med høj kapacitet, men stadig, eksperimenter, der køres på forskellige dage af forskellige forsøgsledere og så videre og så videre. Og hvor folk med mere dyb læringsbaggrund arbejder tæt nok sammen med folk med biologisk baggrund, lærer nok om, hvad vi ved om de underliggende fænomener, [vil de] dybest set blive inspireret til at prøve interessante nye tilgange.

Vijay Pande: Nå, jeg elskede, når du talte om eksemplet med Opmærksomhed er alt hvad du behøver, om hvordan du ønskede at få denne mangfoldige gruppe af mennesker, hvis lidenskaber, du ved, var ret retvinklede i forhold til hinanden. Og i en vis forstand, når du gør dette i biologi og især for det, du laver hos Inceptive, skal du også bruge alt dette arbejde på at generere data. Og at generere dataene betyder virkelig, for at være meget eksplicit, at køre biologiske eksperimenter i skala. Selve inputdelen er meget dyr og meget teknisk, og har som du sagde så mange måder at gå galt på. Men det lyder som om, du bygger videre på den kultur, du har gjort før, og nu er det bare flere eksperter med forskellige passioner, der koordinerer på en analog måde.

Jakob Uszkoreit: Jeg har virkelig brug for det, [og] folk har brug for det. Dette er, så vidt jeg kan se, den mest lovende vej. [Det er] ikke at sigte efter, i en vis forstand, en pipeline-model, hvor visse data i laboratoriet, hvor de blev skabt, givet vores bedste viden, om de underliggende aspekter af livet. Og så begynde at køre eksisterende deep learning-tilgange på det og derefter justere dem. Men i stedet for rent faktisk at have folk, som i en vis forstand måske er blandt de første, der virkelig arbejder i en disciplin, der i øjeblikket ikke rigtig har et godt navn endnu.

Måske er den mindste fællesnævner nysgerrighed, der rækker ud over, hvad du ved, hvad du har lært før, og hvad du måske har brugt det meste af din tid på. Vi oplever, at lige som på rigtig mange andre områder, er det, vi i virkeligheden leder efter et sæt mennesker med meget forskellig baggrund, men som deler nysgerrighed.

Hvor er AI på vej hen?

Vijay Pande: Hvor tror du, at AI er lige nu til de sværere problemer, for lægemiddeldesign, sundhedspleje og så videre? Hvad skal der gøres? Hvornår kommer den dertil?

Jakob Uszkoreit: Jeg ville forvente – og det er altid meget farligt at komme med forudsigelser om fremtiden – jeg ville blive meget overrasket, hvis vi inden for de næste tre år faktisk ikke ville begynde at se et [bøjnings]punkt ske, når det kommer til virkningerne af den virkelige verden. maskinlæring, dyb læring i stor skala i lægemiddeludvikling, lægemiddeldesign. Hvor præcis de vil være først, tror jeg selvfølgelig på, at mange af dem vil ske omkring RNA, RNA-terapi og vacciner. Det vil bestemt ikke være det eneste område, der er berørt af dette, men jeg tror bestemt, at vi er på vej ind i bøjningspunktets territorium.

Vijay Pande: Du kom med en interessant pointe. Hvad er anderledes ved RNA? For jeg synes, det er særligt interessant, ikke bare at du gik fra Google Brain til biologi, men du gik specifikt ind i RNA. Hvad tiltrækker dig ved RNA, især måske fra et AI- eller ML-synspunkt?

Jakob Uszkoreit: En ting, der er interessant ved RNA, er kombinationen mellem, som vi har set, meget bred anvendelighed – selvom den stadig er snæver i betydningen en enkelt indikation – men bare at se på denne bølge af godkendelsesprocesser, der starter og er startet, er det smukt. klart, at anvendeligheden er meget, meget bred, kombineret med - dette er lidt tvetydigt - et strukturelt simpelt problem. Og det er strukturelt simpelt ikke i sætningen, at RNA-strukturel forudsigelse er enkel, men det er strukturelt simpelt i den forstand, at det er en biopolymer med fire forskellige baser. Vi taler ikke om over 20 aminosyrer. Det er noget, der kan produceres ret effektivt.

Der er nogle udfordringer der, men syntese er noget, der kan skaleres og skaleres hurtigt, og disse ting samles virkelig for at muliggøre denne hurtige feedback-loop, som jeg formoder ofte hentydes til, men meget sjældent, i det mindste ud fra hvad jeg ved, faktisk implementeres og kan implementeres i slutningen af ​​dagen.

Vijay Pande: Ja, det er nok en hurtigere feedback-loop, især for den måde, du går efter det.

Jakob Uszkoreit: Ja. Og i betragtning af at jeg mener, at vi er nødt til at skabe størstedelen af ​​data for at træne de modeller, vi træner, investerer vi virkelig Inceptive i at skabe sådanne data i stor skala. Og jeg vil sige forholdsvis massiv skala, i betragtning af at RNA synes at være langt den bedste kombination, når det kommer til den strukturelle enkelhed, men også skalerbarheden af ​​syntese og denne eksperimentering. Der er et kæmpe potentiale her, som hidtil har været uudnyttet.

Vijay Pande: Ja, og jeg tror især potentielt evnen til at have disse hurtige cyklusser, både en slags præklinisk og derfor komme hurtigere til klinikken og være i klinikken [i en kortere periode].

Jakob Uszkoreit: Absolut. Det er virkelig, hvad vi håber på. Vi ser også måske tidlige hints, der indikerer, at det kan være tilfældet, og som vi selvfølgelig er rigtig, virkelig begejstrede for.

Vijay Pande: At tænke på de sidste 10 år har været fantastisk, du ved, 2012 til nu. Hvordan tror du, de næste 10 år ser ud? Hvor tror du, vi er 10 år fra nu med kunstig intelligens? Enten bredt eller især for bio?

Jakob Uszkoreit: Jeg tror, ​​at hvis det virkelig er sandt, at vi går ind i dette bøjningspunkts territorium, når vi ser tilbage 10 år fra nu, vil det virke som en revolution, der er mindst lige så stor og så ekspansiv som den, vi tror, ​​vi har set i sidste 10 år. I det mindste. Nu tror jeg, at der vil være en afgørende forskel, og det er, at det ikke er så klart, præcis hvor bredt den revolution, som vi har været vidne til i de sidste 10 år, påvirker alles liv. Der er visse områder, søgemaskiner eller assisteret skrivning osv., hvor det er tydeligt, men det er ikke klart, hvor bredt anvendelig denne revolution er. Det tror jeg i høj grad er, men vi kan ikke se det endnu. Jeg tror, ​​at den revolution, som vi kommer til at se specifikt omkring bio i løbet af de næste 10 år, eller som vi kommer til at se tilbage på 10 år fra nu, vil virkelig adskille sig med hensyn til dens dybe indvirkning på alle vores liv .

Selv hvis man ser bort fra applikationer til lægemiddeldesign og opdagelse, er der så fantastiske applikationer i og omkring videnskabelig opdagelse, hvor man nu kunne forestille sig, at man med en webgrænseflade dybest set kan få designet molekyler, som i visse organismer med meget høj sandsynlighed vil besvare visse spørgsmål og producere mere pålidelige udlæsninger end, du ved, hvad du tidligere kunne nå. Så selv om man udelader hele kompleksiteten af, hvordan dette i sidste ende vil påvirke patienter og alle, er det ret klart, tror jeg, at disse værktøjer bare hurtigt vil accelerere områder som biologi.

Vijay Pande: Det virker som et godt sted at afslutte det. Tusind tak, Jakob, fordi du er med i Bio Eats World.

Jakob Uszkoreit: Tusind tak for at have mig.

Olivia Webb: Tak, fordi du sluttede dig til Bio Eats World. Bio Eats World er vært og produceret af mig, Olivia Webb, med hjælp fra Bio + Health-teamet på a16z og redigeret af Phil Hegseth. Bio Eats World er en del af a16z podcast-netværket.

Hvis du har spørgsmål til episoden eller vil foreslå emner til en fremtidig episode, bedes du sende en e-mail Sidst men ikke mindst, hvis du nyder Bio Eats World, bedes du give os en vurdering og anmeldelse, uanset hvor du lytter til podcasts.

Bemærk venligst, at indholdet her kun til informationsformål ikke bør opfattes som juridisk, forretningsmæssigt, skattemæssigt eller investeringsrådgivning, eller bruges til at evaluere enhver investering eller sikkerhed, og det er ikke rettet mod nogen investorer eller potentielle investorer i nogen a16z-fond. . For flere detaljer, se venligst a16z.com/disclosures.

***

De synspunkter, der er udtrykt her, er dem fra det enkelte AH Capital Management, LLC ("a16z") personale, der er citeret, og er ikke synspunkter fra a16z eller dets tilknyttede selskaber. Visse oplysninger indeholdt heri er indhentet fra tredjepartskilder, herunder fra porteføljeselskaber af fonde forvaltet af a16z. Selvom det er taget fra kilder, der menes at være pålidelige, har a16z ikke uafhængigt verificeret sådanne oplysninger og fremsætter ingen erklæringer om informationernes vedvarende nøjagtighed eller deres passende for en given situation. Derudover kan dette indhold omfatte tredjepartsreklamer; a16z har ikke gennemgået sådanne annoncer og støtter ikke noget reklameindhold indeholdt deri.

Dette indhold er kun givet til informationsformål og bør ikke påberåbes som juridisk, forretningsmæssig, investerings- eller skatterådgivning. Du bør rådføre dig med dine egne rådgivere om disse spørgsmål. Henvisninger til værdipapirer eller digitale aktiver er kun til illustrationsformål og udgør ikke en investeringsanbefaling eller tilbud om at levere investeringsrådgivningstjenester. Ydermere er dette indhold ikke rettet mod eller beregnet til brug af nogen investorer eller potentielle investorer og kan under ingen omstændigheder stoles på, når der træffes en beslutning om at investere i en fond, der administreres af a16z. (Et tilbud om at investere i en a16z-fond vil kun blive givet af private placement-memorandummet, tegningsaftalen og anden relevant dokumentation for en sådan fond og bør læses i deres helhed.) Eventuelle investeringer eller porteføljeselskaber nævnt, refereret til eller beskrevne er ikke repræsentative for alle investeringer i køretøjer, der administreres af a16z, og der kan ikke gives sikkerhed for, at investeringerne vil være rentable, eller at andre investeringer foretaget i fremtiden vil have lignende karakteristika eller resultater. En liste over investeringer foretaget af fonde forvaltet af Andreessen Horowitz (undtagen investeringer, hvortil udstederen ikke har givet tilladelse til, at a16z offentliggør såvel som uanmeldte investeringer i offentligt handlede digitale aktiver) er tilgængelig på https://a16z.com/investments /.

Diagrammer og grafer, der er angivet i, er udelukkende til informationsformål og bør ikke stoles på, når der træffes nogen investeringsbeslutning. Tidligere resultater er ikke vejledende for fremtidige resultater. Indholdet taler kun fra den angivne dato. Alle fremskrivninger, estimater, prognoser, mål, udsigter og/eller meninger udtrykt i disse materialer kan ændres uden varsel og kan afvige fra eller være i modstrid med andres meninger. Se venligst https://a16z.com/disclosures for yderligere vigtige oplysninger.

Tidsstempel:

Mere fra Andreessen Horowitz