Bio Eats World: AI gebruiken om bio verder te brengen

Bio Eats World: AI gebruiken om bio verder te brengen

Bronknooppunt: 1896777

In deze aflevering spreekt Vijay Pande met Jakob Uszkoreit, de medeoprichter en CEO van Inceptive. Samen bespreken ze alles wat met AI te maken heeft.

We publiceren het volledige transcript hieronder, voor het geval je mee wilt lezen.

***

Olivia Webb: Hallo, en welkom bij Bio Eats World, een podcast op het snijvlak van bio, gezondheidszorg en technologie. Ik ben Olivia Webb, de hoofdredactie voor Bio + Health bij a16z. In deze aflevering spraken we met Jakob Uszkoreit, voorheen van Google Brain, en medeoprichter van Inceptive. Jakob is ook een van de auteurs van het baanbrekende AI-onderzoeksdocument Aandacht is alles wat je nodig hebt, waarnaar we in de shownotities zullen linken. Jakob sprak met Vijay Pande, oprichter van a16z Bio + Health, om te praten over alles wat met AI te maken heeft: van zijn tijd bij Google Brain tot hoe mensen en computers taal verwerken, tot het geloof van Inceptive in de belofte van RNA, en hoe Jakob gelooft dat we betreedt het gebied van het buigpunt met AI.

Het is een aflevering die je niet wilt missen, maar het is ook een discussie op academisch niveau over AI, dus we zullen een transcript naast de aflevering publiceren. Laten we beginnen.

Toepasselijke algoritmen

Vijay Pande: Dus Jakob, heel erg bedankt dat je op Bio Eats World bent. Het is geweldig om jou te hebben.

Jakob Uszkoreit: Geweldig om hier te zijn. Bedankt dat ik hier mocht zijn.

Vijay Pande: Vooral omdat je zo'n fascinerend verhaal hebt als computerwetenschapper en ondernemer en oprichter, zou ik graag willen dat je ons door je loopbaantraject leidt, beginnend waar je maar wilt, maar wat je bij Google Brain heeft gebracht, is waarschijnlijk een goede plek om te beginnen .

Jakob Uszkoreit: Ik herinner me dat ik tot op zekere hoogte dit probleem van machinaal leren tegenkwam, misschien in de breedste zin, [en] taalbegrip, iets specifieker, als een familieprobleem. Dus mijn vader is een computerwetenschapper en computerlinguïst en, weet je, toen ik opgroeide, waren dingen als Turing-machines niet noodzakelijkerwijs volledig vreemde concepten in het begin.

Vijay Pande: Ja, het klinkt alsof het misschien een gesprek aan tafel was.

Jakob Uszkoreit: Het waren tafelgesprekken. En dus waren vooral eindige automaten, en hoe ze zich eigenlijk verhouden tot verkoopautomaten, veelvoorkomende onderwerpen. Hoe ouder ik werd, hoe meer ik ervoor wilde zorgen dat ik uiteindelijk iets anders ging doen. En dus heb ik me daar behoorlijk wat verdiept in pure wiskunde en aanverwante gebieden. [Ik] heb me echt behoorlijk gefocust op optimalisatie, op optimalisatie-algoritmen, algoritmen in het algemeen, meer in het algemeen complexiteitstheorie, voordat ik besefte dat dat misschien niet het meest praktische en het meest toepasselijke was, wat, weet je, een beetje is geworden een beetje een rode draad door mijn carrière. En dan letterlijk struikelen over een Google-stage in 2005.

Ik kreeg een paar verschillende opties [met betrekking tot] wat voor soort onderzoeksprojecten om mee te doen, [en] waaronder verschillende computervisie-inspanningen, maar ook het machinevertalingsproject dat in feite Google Translate werd. Precies rond die tijd, of net iets daarvoor, lanceerde [Translate] zijn eerste product dat echt werd aangedreven door interne systemen van Google die waren ontwikkeld en in zekere zin, tot mijn ontsteltenis, blijkt dat Google Translate op de tijd had verreweg de meest interessante problemen met grootschalige algoritmen.

Destijds was het eigenlijk heel interessant om te zien, want wat me ervan overtuigde om mijn doctoraat af te breken en na die stage terug te keren naar Google, was eigenlijk dat het in mijn tijd daar duidelijk werd dat als je aan iets wilde werken in machinaal leren dat niet alleen interessant was, laten we zeggen intellectueel en wetenschappelijk, opwindend, uitdagend en stimulerend, maar dat ook echt hoge verwachtingen had om meteen de naald in de industrie en in producten te verplaatsen. Er waren rond die tijd echt niet veel plaatsen op de wereld. En het waren destijds zeker geen academische laboratoria, maar heel veel plaatsen zoals Google. En Google liep daar en toen eigenlijk heel erg voorop. En dus, weet je, destijds vond ik het geweldig om mijn eerste grootschalige clusteralgoritmen op duizend machines uit te voeren, en het was gewoon absoluut onmogelijk om dat ergens anders te doen.

Vijay Pande: Als je met onze senior collega's praat, is er veel romantiek van de hoogtijdagen van Bell Labs, en ik heb me altijd afgevraagd of Google Brain tegenwoordig een van de nauwere varianten is. Hoe was de omgeving?

Jakob Uszkoreit: Dus ik heb het gevoel dat er tussen die tijd en toen Google Brain echt van start ging, wat ongeveer vijf jaar later is, een aanzienlijke verschuiving was. Voordat Brain and Translate van start ging, werd het veel meer gedreven door producten die echt een verschil maakten dan ik geloof dat Bell Labs dat was. En we hadden natuurlijk een groot aantal Bell Labs-alumni onder ons, maar het was veel meer gemotiveerd door directe toepasbaarheid.

Wat voor mij eigenlijk heel verbazingwekkend was om te zien, hoe machinevertaling veranderde [van iets dat] goed was om te lachen op een feestje, vrij letterlijk. Als ze je zouden vragen, waar werk je dan? En je zei, Google. En toen zeiden ze, wat doe je daar? En ze waren in eerste instantie onder de indruk. En toen zei je, oh, ik werk aan Google Translate. En toen lachten ze en vroegen: zal dit ooit werken? Ik denk het niet. Maar tegelijkertijd zou ik zeggen dat de golf van machine learning, de pre-deep learning renaissancegolf van machine learning, begon af te vlakken. Weet je, diep leren was iets wat ik eerder op school had gedaan, en ik vond het leuk, maar het was niet iets dat je in die tijd echt kon toepassen.

Vijay Pande: Ja, vooral omdat je in de academische wereld niet de schaal had om de berekeningen te maken die je zou moeten doen.

Jakob Uszkoreit: Zeker niet in de academische wereld, maar zelfs bij Google. Ook al was toentertijd, in Translate, het meest interessante onderscheidende kenmerk, zou ik zeggen, dat we uiteindelijk echt geloofden in de absolute kracht van data.

We probeerden dus geen ingewikkeldere, meer geavanceerde algoritmen te maken, maar ze in plaats daarvan zoveel mogelijk te vereenvoudigen en te schalen en ze vervolgens in staat te stellen op steeds meer gegevens te trainen. Maar daar hebben we net een plafond bereikt. De vereenvoudigingen die je moest maken om ze te schalen naar de toenmalige schaal van Google, dat was echt ons doel. Maar toen, en dat was een soort van slingerbewegingen, terugzwaaiend, uit de academische wereld, een stel mensen met een stel GPU's - diep leren kwam in zekere zin met wraak terug. En plotseling paste de omgeving zich aan, omdat het onduidelijk was wat de directe weg naar productie op grote schaal zou zijn.

En zo veranderde de hele omgeving van meer toepassings- en productgericht naar iets dat in ieder geval een aantal jaren aanvoelde als veel academischer. Het is nog steeds een beetje anders dan academische laboratoria, omdat we ons veel meer GPU's kunnen veroorloven, maar in zekere zin veel meer in lijn met dit idee van, gedreven worden door publicaties, gedreven door sprongen in plaats van stappen. [Het] veranderde in een heel, heel productieve - en echt verbazingwekkende - maar veel meer open [omgeving].

Aandacht is alles wat je nodig hebt

Vijay Pande: Nou, weet je, over publicaties gesproken, een natuurlijke plek om over na te denken is wanneer jij en het team Attention is All You Need hebben gepubliceerd. En weet je, dat is zo'n baanbrekend artikel geweest voor zoveel generatieve AI sinds dat was toen het transformatoralgoritme voor het eerst werd opgesteld.

Jakob Uszkoreit: Twee jaar voordat we dat artikel publiceerden, realiseerden we ons [dat] wat toen state-of-the-art was voor problemen als automatische vertaling, of [wat] in opkomst was als state-of-the-art, namelijk op LSTM of RNN gebaseerde , Seq2Seq in het algemeen als trainingsparadigma en als opstelling, maar ook als netwerkarchitectuur - had ongelooflijke problemen, zelfs op de modernste GPU's van die tijd, als het ging om schaalvergroting in termen van gegevens.

Het allereerste neurale machinevertalingssysteem dat Google lanceerde, GNMT, was bijvoorbeeld, voor zover ik weet, eigenlijk nooit echt getraind op alle trainingsgegevens die we beschikbaar hadden, die we eerder hadden gedolven voor de op zinnen gebaseerde statistische systemen. En dat kwam omdat de algoritmen gewoon niet goed schaalden in termen van de hoeveelheid gegevens. Dus om een ​​lang verhaal kort te maken, we keken destijds niet naar machinevertaling, maar naar problemen waarbij we intern bij Google nog grotere hoeveelheden trainingsgegevens tot onze beschikking hadden. Dus dit waren problemen die voortkwamen uit het zoeken, waar je eigenlijk nog drie of vier ordes van grootte hebt. Weet je, er zijn nu geen miljarden woorden meer, maar gemakkelijk biljoenen, en plotseling kwamen we dit patroon tegen waar eenvoudige feedforward-netwerken, ook al maakten ze belachelijke vereenvoudigende veronderstellingen zoals, het is maar een zak met woorden, of het is gewoon een zak met bigrams , en je neemt het gemiddelde en je stuurt ze door een groot MNLP, ze presteerden zelfs beter dan RNN's en LSTM's, tenminste als ze op meer gegevens waren getraind.

[En ze waren] n keer sneller, gemakkelijk 10, 20 keer sneller om te trainen. En dus zou je ze kunnen trainen op veel meer gegevens. In sommige gevallen waren [ze] honderd keer sneller om te trainen. En dus kwamen we consequent uit op modellen die eenvoudiger waren en die bepaalde fenomenen waarvan we weten dat ze zeker in taal voorkomen, niet konden uitdrukken of vastleggen.
En toch, weet je, uiteindelijk waren ze goedkoper om te trainen en [ze] presteerden beter.

Vijay Pande: Laten we gewoon een voorbeeld geven voor mensen die niet bekend zijn. Dus, voor een zak met woorden, als ik zou zeggen, laat me alle restaurants in de buurt zien, behalve Italiaans, dan laat het je alle Italiaanse restaurants zien, toch?

Jakob Uszkoreit: Precies. In feite kan wat je zei waarschijnlijk opnieuw worden besteld, om me alle Italiaanse restaurants te laten zien, behalve in de buurt. Het is gewoon een soep van woorden en je kunt het herschikken tot iets dat beslist iets anders betekent.

Vijay Pande: Ja.

Jakob Uszkoreit: En dan benader je het krijgen van de structuur en het krijgen van de meer globale fenomenen door bigrammen in te voeren. Dus eigenlijk groepen van twee opeenvolgende woorden en dat soort dingen. Maar het is duidelijk dat, zeker in talen als het Duits, waar je het werkwoord eigenlijk helemaal aan het einde van een zin kunt zetten...

Vijay Pande: En het verandert de hele betekenis, toch?

Jakob Uszkoreit: Verandert alle betekenis, precies, ja. Het maakt niet uit hoe groot je n-grammen - of je kleine woordgroepen - ook zijn, je zult uiteindelijk niet slagen. En het werd ons duidelijk dat er een andere manier moest zijn die de herhaling van de RNN in lengte niet vereist, of herhaling in volgorde van bijvoorbeeld woorden of pixels, maar die in feite input en output op een meer parallelle manier verwerkt en echt komen uiteindelijk tegemoet aan de sterke punten van moderne versnellerhardware.

Vijay Pande: Denk er eens over na, zoals een zak met woorden woorden in willekeurige volgorde zijn. LSTM, of lang kortetermijngeheugen, geeft je misschien een soort [mogelijkheid om] een beetje [in het] verleden te kijken, toch? Maar Transformers doet iets radicaal anders. Hoe brengen transformatoren dat naar een hoger niveau?

Jakob Uszkoreit: Er zijn altijd twee manieren om hiernaar te kijken. De ene is door de lens van efficiëntie, maar de andere manier die misschien wat intuïtiever is, is door ernaar te kijken in termen van, weet je, hoeveel context je kunt behouden. En zoals je al zei, LSTM's, of terugkerende neurale netwerken in het algemeen, doorlopen hun invoer stap voor stap, in grote lijnen, en hoewel ze in theorie in staat zijn om willekeurig lange contextvensters te behouden in invoer - het verleden - wat wat in de praktijk gebeurt, is dat het eigenlijk heel moeilijk voor ze is om gebeurtenissen te identificeren, bijvoorbeeld woorden of pixels, die heel ver in het verleden liggen en die aan het einde van de dag de betekenis echt beïnvloeden. Ze hebben de neiging zich te concentreren op dingen die in de buurt zijn.

De transformator daarentegen draait dat in feite gewoon op zijn kop en zegt: nee, bij elke stap bewegen we niet door de invoer. Bij elke stap kijken we naar het geheel van de invoer of uitvoer, en we herzien in feite stapsgewijs de representaties van elk woord of elke pixel of elke patch of elk frame van een video, terwijl we eigenlijk bewegen, niet in invoerruimte , maar in representatieruimte.

Vijay Pande: Ja.

Jakob Uszkoreit: En dat idee had enkele nadelen wat betreft hoe je het op moderne hardware zou passen, maar vergeleken met terugkerende neurale netwerken had het vooral voordelen omdat je nu niet echt verplicht was om representaties achtereenvolgens te berekenen, laten we zeggen, woord voor woord. Waar je aan gebonden was, is eigenlijk hoe goed ze zouden moeten zijn? Hoeveel lagen van dit soort parallelle verwerking van alle posities waar alles, waar alle paren woorden of alle paren beeldvlakken direct kunnen interageren? Hoeveel revisies van deze voorstellingen kan ik me eigenlijk "veroorloven"?

Vijay Pande: Wat ook echt interessant is, is dat de inspiratie natuurlijk natuurlijke taal is, maar dat er veel structuren zijn die je zou willen invoeren waar je het niet gewoon opeenvolgend wilt bestuderen, zoals een DNA-sequentie - en we zullen in de biologie komen. snel genoeg - dat je een model van het hele ding wilt hebben.

Het is een beetje grappig met taal. Als ik spreek of als ik naar je luister, verwerk ik elk woord, maar uiteindelijk moet ik de woorden niet alleen tokeniseren in individuele betekenissen, maar moet ik deze representatie min of meer ontwikkelen. Ja? Ik wou dat we het konden doen zoals transformatoren dat doen. En misschien is dat de truc dat LSTM's dichter bij de manier staan ​​waarop wij mensen het doen, en transformatoren zijn misschien precies de manier waarop we het zouden moeten doen, of ik wou dat we het konden doen.

Jakob Uszkoreit: Oppervlakkig gezien denk ik dat dat waar is, hoewel aan het eind van de dag - introspectieve argumenten als deze subtiel en lastig zijn.

Dus ik denk dat velen van ons dit fenomeen kennen waarbij je schreeuwt of schreeuwt met iemand die iets probeert over te brengen in een drukke straat. En dus hoor je iets wat ze zeggen, en het is geen korte reeks woorden, en je begreep eigenlijk niets. Maar een halve seconde later begreep je ineens de hele zin. Het verwijst eigenlijk naar het feit dat hoewel we gedwongen zijn om taal op een sequentiële manier te schrijven en uit te spreken - alleen vanwege de pijl van de tijd - het niet zo duidelijk is dat ons diepere begrip echt op die sequentiële manier verloopt.

Team opbouwen

Vijay Pande: Als iemand zelfs maar het aandacht is alles wat je nodig hebt-papier bestudeert of hoe een transformator werkt, zijn er veel onderdelen. En het lijkt erop dat het nu waarschijnlijk voorbij het punt is waarop één persoon dat werk in korte tijd effectief zelf zou kunnen doen.

Jakob Uszkoreit: Absoluut.

Vijay Pande: Dus nu heb je echt een team van mensen nodig om dit soort dingen te doen. Wat is de sociologie daarvan? Hoe komt zoiets tot stand?

Jakob Uszkoreit: Dit specifieke geval, vind ik persoonlijk, is echt een prachtig voorbeeld van iets dat uitzonderlijk goed past bij een, laten we zeggen, industriële benadering van wetenschappelijk onderzoek. Want je hebt helemaal gelijk. Dit was niet de enige grote vonk van verbeeldingskracht en creativiteit die het allemaal op gang bracht.

Het waren echt een heleboel bijdragen die uiteindelijk allemaal nodig waren. Een omgeving hebben, een bibliotheek - die later ook open source was, genaamd Tensor2Tensor - die daadwerkelijk implementaties omvatte. En niet zomaar implementaties, maar uitzonderlijk goede implementaties, snelle implementaties van allerlei deep learning-trucs.
Maar dan ook helemaal naar deze aandachtsmechanismen die voortkwamen uit eerdere publicaties - zoals het eerder gepubliceerde decomposable attention model - maar vervolgens werden gecombineerd met verbeteringen en innovaties, uitvindingen rond optimizers. Je zult geen mensen vinden, denk ik, die echt tot 's werelds toonaangevende experts in al deze aspecten tegelijkertijd behoren en die ook echt even gepassioneerd zijn over al deze aspecten.

Vijay Pande: En vooral is er het eerste idee, er is de implementatie ervan, er is de schaal ervan. Om dat type schaal ergens anders dan in een groot bedrijf te bereiken, is op dit moment waarschijnlijk niet haalbaar alleen vanwege de kosten.

Jakob Uszkoreit: Ik zou denken dat het aspect van het grote bedrijf misschien niet zo cruciaal is.

Vijay Pande: Ja?

Jakob Uszkoreit: Het bedrijfsaspect is er een die ik hoger zou waarderen. Het grote bedrijf kan zeker geen kwaad als je duizenden en duizenden TPU's of GPU's of wat dan ook nodig hebt. Diepe zakken kunnen nooit kwaad voor dit soort dingen. Maar tegelijkertijd denk ik dat de stimuleringsstructuur rond dit soort verkennend onderzoek in de industrie gewoon veel beter geschikt is voor dit soort projecten. En ik denk dat dat eigenlijk iets is dat we zien, kijkend naar generatieve AI-projecten over de hele linie.

Vijay Pande: Ja. En op jouw punt, het zou een startup kunnen zijn.

Jakob Uszkoreit: Het zou zeker een start-up kunnen zijn. En ik denk dat we nu zien dat het gebruik van versnellingshardware op zijn minst betaalbaarder wordt. En er zijn startups die erg concurreren als het gaat om generatieve AI gericht op het genereren van afbeeldingen of tekst.

Springen naar levenswetenschappen

Vijay Pande: Ik zou graag overstappen naar wat je nu doet. Je bent de CEO van Inceptive, een bedrijf dat AI toepast op RNA-biologie voor RNA-therapeutica. Hoe ben je overgestapt naar de levenswetenschappen? Oppervlakkig gezien, praten over taalmodellen aan de eettafel [tafel] en vervolgens in de Google-cafetaria... lijkt het alsof dat een sprong naar de volgende generatie therapieën zou kunnen zijn. Hoe is dat allemaal tot stand gekomen?

Jakob Uszkoreit: Ik ben het daar helemaal mee eens. Het is een geweldige leerervaring, van mijn kant. Biologie kwam me al geruime tijd voor als zo'n probleem waarbij het niet ondenkbaar lijkt dat er grenzen zijn aan hoe ver we kunnen gaan in termen van, laten we zeggen, medicijnontwikkeling en direct ontwerp met traditionele biologie als de ruggengraat van hoe we ga aan de slag met het ontwerpen of ontdekken van methoden om de medicijnen van de toekomst te ontwerpen.

Het lijkt erop dat diep leren, in het bijzonder op schaal, hier om een ​​aantal redenen een heel geschikte tool is. En een van die redenen is eigenlijk iets dat vaak niet noodzakelijkerwijs als een voordeel wordt gefactureerd, namelijk het feit dat het deze grote zwarte doos is die je zomaar ergens tegenaan kunt gooien. En het is niet zo dat je het zomaar kunt gooien. Het is iets wat je wel moet weten hoe je ermee moet gooien.

Vijay Pande: En het is ook niet bepaald zwart. Daar kunnen we later over discussiëren.

Jakob Uszkoreit: Ja precies. Precies. Maar aan het eind van de dag, terugkomend op de analogie met taal, zijn we er nooit in geslaagd om taal in die zin volledig te begrijpen en te conceptualiseren in de mate dat je zou kunnen beweren, oh, ik zal het je nu gaan vertellen deze theorie achter taal, en daarna kun je een algoritme implementeren dat het "begrijpt". Op dat punt zijn we nooit gekomen. In plaats daarvan moesten we afbreken en een stap terug doen en naar mijn mening tot op zekere hoogte voor onszelf toegeven dat dat misschien niet de meest pragmatische benadering was. In plaats daarvan zouden we benaderingen moeten proberen die dat niveau van conceptueel begrip niet vereisen. En ik denk dat hetzelfde zou kunnen gelden voor delen van de biologie.

AI gebruiken om bio verder te brengen

Vijay Pande: Het is interessant, we hebben het al eerder over dit soort dingen gehad. Je denkt aan de vorige eeuw, [die was] in hoge mate de eeuw van natuurkunde en calculus. Er is daar een bepaalde mentaliteit waarbij je een heel elegante vereenvoudiging van dingen kunt hebben door een enkele vergelijking te hebben, zoals de veldvergelijkingen van Einstein die zoveel beschrijven, en dat is een heel eenvoudige vergelijking in een heel complexe taal. Je hebt het gehad over hoe die Feynman-benadering, bijna zoals de sociologie van de natuurkunde, hier misschien niet van toepassing is in de biologie, toch?

Jakob Uszkoreit: Het is misschien niet van toepassing, althans om twee redenen die ik op dit moment kan zien. Nummer één is dat er te veel spelers bij betrokken zijn. En hoewel het waar is dat we het misschien allemaal kunnen herleiden tot de vergelijking van Schrödinger en het gewoon oplossen, is het nu eenmaal zo, niet alleen onhandelbaar rekenkundig, maar we zouden ook al deze verschillende spelers moeten kennen, en dat weten we momenteel niet . Niet eens in de buurt. Dat is dus één aspect.

En dan is de tweede eigenlijk de onhandelbaarheid van computers, waar de reductie, in zekere zin, zo ver is gegaan dat, hoewel het alles terugbrengt tot één ding, het ons niet helpt omdat onze computationele benaderingen in wezen gebruiken die fundamenten om voorspellingen te doen zijn gewoon te traag om die voorspellingen te doen voor systemen die groot genoeg zijn om er echt toe te doen voor het leven.

Vijay Pande: Ja. Het is dus geen n-lichaamsvergelijking, maar toch is er nog steeds een gevoel van formalisme - misschien is het een meer datagestuurd formalisme of meer Bayesiaans formalisme. Hoe draagt ​​dat bij aan wat je zou willen doen? Hoe wordt dat meegenomen in het toepassen van AI en andere soorten nieuwe algoritmen?

Jakob Uszkoreit: Ik denk dat er een aantal verschillende aspecten zijn. Aan het eind van de dag is een van de grote afhaalrestaurants naar mijn mening van wat we momenteel zien in generatieve AI, dat we niet meer hoeven te trainen op gegevens die niet alleen perfect schoon zijn, maar ook precies uit het domein en van het soort taken dat u later zou willen aanpakken. Maar in plaats daarvan is het misschien voordeliger of zelfs de enige manier die we tot nu toe hebben gevonden om daadwerkelijk te proberen te trainen op alles wat je vindt dat zelfs maar enigszins gerelateerd is. En gebruik vervolgens de informatie die effectief uit die gegevens is gehaald om te eindigen met zogenaamde basismodellen, die u vervolgens kunt verfijnen voor allerlei specifieke taken met veel kleinere, veel beter hanteerbare hoeveelheden schonere gegevens.

Ik denk dat we enigszins onderschatten wat we moeten weten over de verschijnselen in het algemeen. Om een ​​heel goed groot taalmodel te bouwen, moet je begrijpen dat er iets is dat internet wordt genoemd en dat er veel tekst in zit. Je moet eigenlijk heel wat begrijpen over hoe je deze tekst kunt vinden, wat geen tekst is, enzovoort, om er vervolgens de trainingsgegevens uit te destilleren die je vervolgens gebruikt.

Ik geloof dat er heel direct analoge uitdagingen rond de biologie zullen zijn. De grote vraag is: wat zijn experimenten die we zo kunnen opschalen dat we het leven op voldoende schaal kunnen observeren met net genoeg getrouwheid - maar veel minder specifiek, terwijl we rekening houden met de problemen die je uiteindelijk probeert op te lossen - zodat we kunnen haal daar in feite de gegevens uit die we nodig hebben om te beginnen met het bouwen van deze funderingsmodellen, die we vervolgens kunnen gebruiken, verfijnd en specifiek ontworpen, om de problemen die we willen aanpakken echt te benaderen.

Het gedeelte voor het genereren van gegevens is er zeker een van. Architecturen en het effectief hebben van modellen en netwerkarchitecturen die nabootsen wat we weten, bijvoorbeeld over de fysica eronder, zullen nog steeds een ongelooflijk krachtige manier blijven om daadwerkelijk berekeningen te besparen en ook de nog steeds enorme honger naar gegevens die deze modellen zullen moeten hebben, te verminderen , tot een haalbaar niveau. En dus is één ding dat volgens mij interessant is om op te merken, dat veel van de huidige toepassingen van modellen, bijvoorbeeld transformatoren, die redelijk goed blijken te schalen in andere modaliteiten, andere domeinen, taal, visie, beeldgeneratie, enz., enz., en door ze toe te passen op de biologie wordt in feite voorbijgegaan aan het feit dat we weten dat er zoiets als tijd bestaat, en dat de wetten van de natuurkunde, althans voor zover wij weten, niet zomaar lijken te veranderen na verloop van tijd.

Het proces van het vouwen van eiwitten, waarbij het feit wordt genegeerd dat er heel veel spelers zijn - chaperonnes en wat dan ook - is eigenlijk in zekere zin een tamelijk willekeurig gescheiden probleem van de rest van de eiwitkinetiek. Het is net zoveel kinetiek als de rest van de kinetiek, of de rest van de levensduur van dat eiwit, van dat molecuul. En waarom proberen we dan modellen specifiek voor het ene te trainen en, in ieder geval mogelijk, de gegevens die we over het andere hebben te negeren? In dit geval, misschien meer specifiek, zijn enkele van de voorspellingsmodellen voor de eiwitstructuur die we vandaag hebben, leren ze impliciet al iets over kinetiek vanwege het feit dat ze langzaam beginnen te omarmen, weet je, het bestaan ​​van tijd?

Ontwikkelen van nieuwe architecturen

Vijay Pande: Een van de interessante dingen waar ik aan denk waar je nu staat, is dat, op een paar zeldzame uitzonderingen na, de meeste diepe neurale netwerken of andere soorten AI in de biologie het gevoel hebben dat iets dat is uitgevonden ergens anders naartoe wordt gebracht en overgedragen. Alsof we convolutionele neurale netwerken gebruiken voor afbeeldingen. Misschien voor kleine moleculen... in mijn laboratorium in Stanford gebruikten we neurale netwerken van grafieken en verschillende convolutionele neurale netwerken. Maar om echt een algoritme te ontwikkelen, expliciet voor het biologische probleem, is vrij zeldzaam. En ik heb altijd aangenomen dat het kwam omdat het gewoon moeilijk is om de vaardigheden van een sterk team te hebben in het domein van de biologie en informatica. Maar ik ben benieuwd naar jouw mening. Of is het gewoon zeldzaam om in de eerste plaats nieuwe architecturen te ontwikkelen?

Jakob Uszkoreit: Welnu, ik denk dat wat we uiteindelijk zien, is dat de nieuwe architecturen, hoewel gemotiveerd door specifieke problemen, als ze echt een verschil maken, ze meestal ook elders toepasbaar zijn. Dat betekent aan de andere kant niet dat het op de weg ernaar toe niet zo'n groot verschil zou maken om zorgvuldig te kiezen wat de motiverende toepassingen en domeinen zijn. En ik denk dat dat zeker zo is.

Ik denk dat een van de belangrijkste uitdagingen hier is dat we nog niet in een regime in de biologie zitten waar we massa's gegevens hebben, ook al is het, vergeleken met wat we een tijdje geleden hadden, verbazingwekkend. Maar we zitten nog niet in dat regime waar dat gewoon rondhangt op het equivalent van het web, en we kunnen het een beetje filteren, downloaden en ermee klaar zijn. Maar in plaats daarvan denk ik dat we het in redelijk grote mate moeten creëren. En dat zal niet worden gedaan door deep learning-experts, althans niet door de meesten van hen.

En ik geloof dat dat in de pas moet lopen met dan ook echt inzicht in de eigenaardigheden van die gegevens, toch? Het soort geluid dat je daar tegenkomt. Het feit dat deze eigenlijk zijn gemaakt in zeer grootschalige pools, experimenten met hoge doorvoer, maar toch experimenten die op verschillende dagen worden uitgevoerd door verschillende onderzoekers, enzovoort, enzovoort. En waar de mensen met een meer diepgaande leerachtergrond nauw genoeg samenwerken met mensen met een biologische achtergrond, genoeg leren over wat we weten over de onderliggende verschijnselen, [zullen] ze in feite worden geïnspireerd om interessante nieuwe benaderingen te proberen.

Vijay Pande: Nou, ik vond het geweldig toen je het alleen maar had over het voorbeeld van het document Aandacht is alles wat je nodig hebt, over hoe je deze diverse groep mensen wilde krijgen wiens passies, weet je, redelijk haaks op elkaar stonden. En in zekere zin, als je dit doet in de biologie en vooral voor wat je doet bij Inceptive, moet je ook al dit werk stoppen in het genereren van de gegevens. En het genereren van de gegevens betekent echt, om heel expliciet te zijn, het uitvoeren van biologische experimenten op schaal. Het invoergedeelte zelf is erg duur en erg technisch, en zoals je zei, kan het op zoveel manieren fout gaan. Maar het klinkt alsof je voortbouwt op de cultuur die je eerder hebt gedaan en nu zijn het gewoon meer experts met verschillende passies die op een analoge manier coördineren.

Jakob Uszkoreit: Ik heb het echt nodig, [en] mensen hebben dat nodig. Dit is, voor zover ik weet, de meest veelbelovende weg. [Het is om] in zekere zin niet te streven naar een pijplijnmodel, waarbij bepaalde gegevens in het laboratorium waarin ze zijn gemaakt, naar ons beste weten, over de onderliggende aspecten van het leven. En dan beginnen met het uitvoeren van bestaande deep learning-benaderingen en deze vervolgens aanpassen. Maar in plaats daarvan echt om mensen te hebben die, in zekere zin, een van de eersten zouden kunnen zijn die echt werken in een discipline die momenteel nog niet echt een grote naam heeft.

Misschien is de kleinste gemene deler nieuwsgierigheid die verder gaat dan wat je weet, wat je eerder hebt geleerd en waar je misschien het grootste deel van je tijd aan hebt besteed. We merken dat we, net als op heel veel andere gebieden, echt op zoek zijn naar een groep mensen met zeer diverse achtergronden, maar die nieuwsgierigheid delen.

Waar gaat AI heen?

Vijay Pande: Waar denk je dat AI op dit moment staat voor die moeilijkere problemen, voor het ontwerpen van medicijnen, gezondheidszorg, enzovoort? Wat moet er gebeuren? Wanneer komt het daar?

Jakob Uszkoreit: Ik zou verwachten - en het is altijd erg gevaarlijk om voorspellingen te doen over de toekomst - dat het me zeer zou verbazen als we binnen de komende drie jaar niet echt een [buigings] punt zouden zien gebeuren als het gaat om de echte wereldeffecten van machine learning, grootschalig deep learning in medicijnontwikkeling, medicijnontwerp. Waar ze precies het eerst zullen zijn, natuurlijk, geloof ik dat veel van hen zullen gebeuren rond RNA, RNA-therapeutica en vaccins. Dat zal zeker niet het enige gebied zijn dat hierdoor wordt beïnvloed, maar ik denk zeker dat we op weg zijn naar het buigpuntgebied.

Vijay Pande: Je hebt een interessant punt gemaakt. Wat is er anders aan RNA? Omdat ik het bijzonder interessant vind, niet alleen dat je van Google Brain naar biologie ging, maar specifiek naar RNA. Wat trekt je aan in RNA, vooral misschien vanuit een AI- of ML-standpunt?

Jakob Uszkoreit: Een ding dat interessant is aan RNA is de combinatie tussen, zoals we hebben gezien, een zeer brede toepasbaarheid - hoewel het nog steeds smal is in de zin van een enkele indicatie - maar als we kijken naar deze golf van goedkeuringsprocessen die begint en is begonnen, is het behoorlijk duidelijk dat de toepasbaarheid heel, heel breed is, gekoppeld aan - dit is een beetje dubbelzinnig - een structureel eenvoudig probleem. En het is structureel eenvoudig, niet in de zin dat RNA structurele voorspelling eenvoudig is, maar het is structureel eenvoudig in de zin dat het een biopolymeer is met vier verschillende basen. We hebben het niet over meer dan 20 aminozuren. Het is iets dat redelijk effectief geproduceerd kan worden.

Er zijn daar enkele uitdagingen, maar synthese is iets dat schaalbaar is en snel schaalt, en deze dingen komen echt samen om deze snelle feedbacklus mogelijk te maken waarop, naar ik vermoed, vaak wordt gezinspeeld, maar zeer zelden, althans voor zover ik weet, daadwerkelijk geïmplementeerd en uitvoerbaar aan het eind van de dag.

Vijay Pande: Ja, waarschijnlijk is het waarschijnlijk een snellere feedbacklus, vooral voor de manier waarop je er achteraan gaat.

Jakob Uszkoreit: Ja. En gezien het feit dat ik geloof dat we het leeuwendeel van de gegevens moeten creëren voor het trainen van de modellen die we trainen, investeren we Inceptive echt in het creëren van dergelijke gegevens op schaal. En ik zou zeggen relatief vrij grote schaal, aangezien RNA verreweg de beste combinatie lijkt te zijn als het gaat om de structurele eenvoud, maar ook de schaalbaarheid van synthese en deze experimenten. Er is hier een enorm potentieel dat tot nu toe onbenut is gebleven.

Vijay Pande: Ja, en ik denk vooral aan de mogelijkheid om deze snelle cycli te hebben, zowel een soort van preklinische en dus sneller naar de kliniek gaan als in de kliniek zijn [voor een kortere periode].

Jakob Uszkoreit: Absoluut. Dat is echt waar we op hopen. We zien misschien ook vroege hints die aangeven dat dat het geval zou kunnen zijn en waar we natuurlijk heel erg enthousiast over zijn.

Vijay Pande: Nadenken over de afgelopen 10 jaar was geweldig, weet je, 2012 tot nu. Hoe ziet de komende 10 jaar er volgens jou uit? Waar denk je dat we over 10 jaar staan ​​met AI? Ofwel in het algemeen of vooral voor bio?

Jakob Uszkoreit: Ik denk dat als het echt waar is dat we dit keerpuntgebied betreden, als we over 10 jaar terugkijken, het een revolutie lijkt die minstens zo groot en zo uitgebreid is als die we denken te hebben gezien in de laatste 10 jaar. Op z'n minst. Nu denk ik dat er een cruciaal verschil zal zijn, en dat is dat het niet zo duidelijk is hoe breed de revolutie waar we de afgelopen 10 jaar getuige van zijn geweest ieders leven beïnvloedt. Er zijn bepaalde gebieden, zoekmachines of ondersteund schrijven, enz., waar het duidelijk is, maar het is niet duidelijk hoe breed deze revolutie toepasbaar is. Ik geloof dat het heel erg zo is, maar we zien het nog niet. Ik denk dat de revolutie die we de komende 10 jaar specifiek rond bio gaan zien, of die we over 10 jaar terugkijken, echt zal verschillen in termen van de diepgaande impact op ons hele leven. .

Zelfs als we de toepassingen voor het ontwerpen en ontdekken van geneesmiddelen buiten beschouwing laten, zijn er zulke verbazingwekkende toepassingen in en rond wetenschappelijke ontdekkingen dat je je nu zou kunnen voorstellen dat je met een webinterface in feite moleculen kunt laten ontwerpen die in bepaalde organismen met een zeer hoge waarschijnlijkheid zullen verdwijnen. beantwoord bepaalde vragen, waardoor betrouwbaardere uitlezingen worden verkregen dan, weet je, waar je voorheen toe in staat was. Dus zelfs als we het hele soort complexiteit weglaten van hoe dit uiteindelijk patiënten en iedereen zal beïnvloeden, is het vrij duidelijk, denk ik, dat deze hulpmiddelen gebieden als biologie alleen maar snel zullen versnellen.

Vijay Pande: Dat lijkt me een geweldige plek om het te beëindigen. Heel erg bedankt, Jakob, voor je deelname aan Bio Eats World.

Jakob Uszkoreit: Heel erg bedankt voor het hebben van mij.

Olivia Webb: Bedankt voor je deelname aan Bio Eats World. Bio Eats World wordt gehost en geproduceerd door mij, Olivia Webb, met de hulp van het Bio + Health-team van a16z en bewerkt door Phil Hegseth. Bio Eats World maakt deel uit van het a16z podcastnetwerk.

Als je vragen hebt over de aflevering of onderwerpen voor een toekomstige aflevering wilt voorstellen, stuur dan een e-mail Last but not least, als je geniet van Bio Eats World, laat ons dan een beoordeling en recensie achter, waar je ook naar podcasts luistert.

Houd er rekening mee dat de inhoud hier alleen voor informatieve doeleinden is, niet mag worden opgevat als juridisch, zakelijk, belasting- of investeringsadvies, of moet worden gebruikt om een ​​investering of beveiliging te evalueren, en niet is gericht op investeerders of potentiële investeerders in een a16z-fonds . Zie a16z.com/disclosures voor meer informatie.

***

De standpunten die hier naar voren worden gebracht, zijn die van het individuele personeel van AH Capital Management, LLC (“a16z”) dat wordt geciteerd en zijn niet de standpunten van a16z of haar gelieerde ondernemingen. Bepaalde informatie in dit document is verkregen uit externe bronnen, waaronder van portefeuillebedrijven van fondsen die worden beheerd door a16z. Hoewel ontleend aan bronnen die betrouwbaar worden geacht, heeft a16z dergelijke informatie niet onafhankelijk geverifieerd en doet het geen uitspraken over de blijvende nauwkeurigheid van de informatie of de geschiktheid ervan voor een bepaalde situatie. Bovendien kan deze inhoud advertenties van derden bevatten; a16z heeft dergelijke advertenties niet beoordeeld en keurt de daarin opgenomen advertentie-inhoud niet goed.

Deze inhoud is uitsluitend bedoeld voor informatieve doeleinden en mag niet worden beschouwd als juridisch, zakelijk, investerings- of belastingadvies. U dient hierover uw eigen adviseurs te raadplegen. Verwijzingen naar effecten of digitale activa zijn alleen voor illustratieve doeleinden en vormen geen beleggingsaanbeveling of aanbod om beleggingsadviesdiensten te verlenen. Bovendien is deze inhoud niet gericht op of bedoeld voor gebruik door beleggers of potentiële beleggers, en mag er in geen geval op worden vertrouwd bij het nemen van een beslissing om te beleggen in een fonds dat wordt beheerd door a16z. (Een aanbod om te beleggen in een a16z-fonds wordt alleen gedaan door middel van het onderhandse plaatsingsmemorandum, de inschrijvingsovereenkomst en andere relevante documentatie van een dergelijk fonds en moet in hun geheel worden gelezen.) Alle genoemde beleggingen of portefeuillebedrijven waarnaar wordt verwezen, of beschreven zijn niet representatief voor alle investeringen in voertuigen die door a16z worden beheerd, en er kan geen garantie worden gegeven dat de investeringen winstgevend zullen zijn of dat andere investeringen die in de toekomst worden gedaan vergelijkbare kenmerken of resultaten zullen hebben. Een lijst van investeringen die zijn gedaan door fondsen die worden beheerd door Andreessen Horowitz (met uitzondering van investeringen waarvoor de uitgevende instelling geen toestemming heeft gegeven aan a16z om openbaar te maken, evenals onaangekondigde investeringen in openbaar verhandelde digitale activa) is beschikbaar op https://a16z.com/investments /.

De grafieken en grafieken die hierin worden verstrekt, zijn uitsluitend bedoeld voor informatieve doeleinden en er mag niet op worden vertrouwd bij het nemen van een investeringsbeslissing. In het verleden behaalde resultaten zijn geen indicatie voor toekomstige resultaten. De inhoud spreekt alleen vanaf de aangegeven datum. Alle projecties, schattingen, voorspellingen, doelstellingen, vooruitzichten en/of meningen die in deze materialen worden uitgedrukt, kunnen zonder voorafgaande kennisgeving worden gewijzigd en kunnen verschillen of in strijd zijn met meningen van anderen. Zie https://a16z.com/disclosures voor aanvullende belangrijke informatie.

Tijdstempel:

Meer van Andreessen Horowitz