NeurIPS 2023: Key Takeaways Fra Invited Talks

Genudgivet af Platon

Abonnenter: 0

NeurIPS 2023 Talks

Genereret med Midjourney

NeurIPS 2023-konferencen, der blev afholdt i den pulserende by New Orleans fra den 10. til den 16. december, havde en særlig vægt på generativ kunstig intelligens og store sprogmodeller (LLM'er). I lyset af de seneste banebrydende fremskridt på dette område var det ingen overraskelse, at disse emner dominerede diskussionerne.

Et af kernetemaerne for dette års konference var søgen efter mere effektive AI-systemer. Forskere og udviklere søger aktivt måder at konstruere AI, der ikke kun lærer hurtigere end nuværende LLM'er, men som også besidder forbedrede ræsonnementer, mens de bruger færre computerressourcer. Denne forfølgelse er afgørende i kapløbet mod at nå Artificial General Intelligence (AGI), et mål, der synes mere og mere opnåeligt i en overskuelig fremtid.

De inviterede samtaler på NeurIPS 2023 var en afspejling af disse dynamiske og hurtigt udviklende interesser. Oplægsholdere fra forskellige sfærer af AI-forskning delte deres seneste resultater og gav et vindue til banebrydende AI-udviklinger. I denne artikel dykker vi ned i disse foredrag, uddrager og diskuterer de vigtigste takeaways og erfaringer, som er afgørende for at forstå de nuværende og fremtidige landskaber for AI-innovation.

NextGenAI: Vrangforestillingen om skalering og fremtiden for generativ AI

In hans snak, Björn Ommer, leder af Computer Vision & Learning Group ved Ludwig Maximilian Universitetet i München, delte, hvordan hans laboratorium kom til at udvikle stabil diffusion, nogle få erfaringer, de lærte af denne proces, og den seneste udvikling, herunder hvordan vi kan blande diffusionsmodeller med flowmatching, retrieval augmentation og LoRA approksimationer, blandt andre.

Nøgleaftagelser:

I en alder af Generativ AI flyttede vi fra fokus på perception i synsmodeller (dvs. objektgenkendelse) til at forudsige de manglende dele (f.eks. billed- og videogenerering med diffusionsmodeller).
I 20 år var computersyn fokuseret på benchmarkforskning, som var med til at sætte fokus på de mest fremtrædende problemer. I Generative AI har vi ingen benchmarks at optimere efter, hvilket åbnede feltet for alle til at gå i deres egen retning.
Diffusionsmodeller kombinerer fordelene ved tidligere generative modeller ved at være scorebaserede med en stabil træningsprocedure og effektiv prøveredigering, men de er dyre på grund af deres lange Markov-kæde.
Udfordringen med stærke sandsynlighedsmodeller er, at de fleste af bits går ind i detaljer, der næppe kan opfattes af det menneskelige øje, mens kodning af semantik, som betyder mest, kun tager nogle få bits. Skalering alene ville ikke løse dette problem, fordi efterspørgslen efter computerressourcer vokser 9x hurtigere end GPU-udbuddet.
Den foreslåede løsning er at kombinere styrkerne ved diffusionsmodeller og ConvNets, især effektiviteten af foldninger til at repræsentere lokale detaljer og diffusionsmodellernes udtryksevne til lang rækkevidde kontekst.
Björn Ommer foreslår også at bruge en flow-matching-tilgang til at muliggøre billedsyntese i høj opløsning fra små latente diffusionsmodeller.
En anden tilgang til at øge effektiviteten af billedsyntese er at fokusere på scenekomposition, mens du bruger genfindingsforøgelse til at udfylde detaljerne.
Til sidst introducerede han iPoke-tilgangen til kontrolleret stokastisk videosyntese.

Hvis dette dybdegående indhold er nyttigt for dig, abonner på vores AI-mailingliste for at blive advaret, når vi udgiver nyt materiale.

De mange ansigter af ansvarlig AI

In hendes oplæg, Lora Aroyo, en forsker ved Google Research, fremhævede en vigtig begrænsning i traditionelle maskinlæringstilgange: deres afhængighed af binære kategoriseringer af data som positive eller negative eksempler. Denne oversimplificering, hævdede hun, overser den komplekse subjektivitet, der er iboende i virkelige scenarier og indhold. Gennem forskellige use cases demonstrerede Aroyo, hvordan indholdets tvetydighed og den naturlige varians i menneskelige synspunkter ofte fører til uundgåelige uenigheder. Hun understregede vigtigheden af at behandle disse uenigheder som meningsfulde signaler frem for blot støj.

Her er de vigtigste ting fra foredraget:

Uenighed mellem menneskelige laboratorier kan være produktive. I stedet for at behandle alle svar som enten korrekte eller forkerte, introducerede Lora Aroyo "sandhed ved uenighed", en tilgang til fordelingssandhed til at vurdere pålideligheden af data ved at udnytte vurderingernes uenighed.
Datakvalitet er vanskelig, selv med eksperter, fordi eksperter er lige så uenige som crowd Labers. Disse uenigheder kan være meget mere informative end svar fra en enkelt ekspert.
- I sikkerhedsevalueringsopgaver er eksperter uenige i 40 % af eksemplerne. I stedet for at prøve at løse disse uenigheder, er vi nødt til at indsamle flere sådanne eksempler og bruge dem til at forbedre modellerne og evalueringsmetrikkene.
Lora Aroyo præsenterede også deres Sikkerhed med mangfoldighed metode til at granske dataene i forhold til, hvad der er i dem, og hvem der har kommenteret dem.
- Denne metode producerede et benchmark-datasæt med variabilitet i LLM-sikkerhedsvurderinger på tværs af forskellige demografiske grupper af bedømmere (2.5 millioner vurderinger i alt).
- For 20 % af samtalerne var det svært at afgøre, om chatbot-svaret var sikkert eller usikkert, da der var nogenlunde lige mange respondenter, der betegnede dem som enten sikre eller usikre.
Mangfoldigheden af bedømmere og data spiller en afgørende rolle i evalueringen af modeller. Hvis man undlader at anerkende den brede vifte af menneskelige perspektiver og tvetydigheden i indholdet, kan det hindre afstemningen af maskinlæringspræstationer med virkelighedens forventninger.
80 % af AI-sikkerhedsindsatsen er allerede ret god, men de resterende 20 % kræver en fordobling af indsatsen for at adressere kanttilfælde og alle varianterne i mangfoldighedens uendelige rum.

Kohærensstatistikker, selvgenereret erfaring og hvorfor unge mennesker er meget klogere end nuværende AI

In hendes snak, Linda Smith, en fremtrædende professor ved Indiana University Bloomington, udforskede emnet datasparhed i spædbørns og småbørns læreprocesser. Hun fokuserede specifikt på genkendelse af objekter og navneindlæring, og dykkede ned i, hvordan statistikken over selvgenererede oplevelser af spædbørn tilbyder potentielle løsninger på udfordringen med datasparhed.

Nøgleaftagelser:

I en alder af tre har børn udviklet evnen til at være one-shot-elever på forskellige områder. På mindre end 16,000 vågne timer op til deres fjerde fødselsdag formår de at lære over 1,000 objektkategorier, mestre syntaksen i deres modersmål og absorbere de kulturelle og sociale nuancer i deres miljø.
Dr. Linda Smith og hendes team opdagede tre principper for menneskelig læring, der gør det muligt for børn at fange så meget fra så sparsomme data:
- Eleverne kontrollerer input, fra øjeblik til øjeblik former og strukturerer de input. For eksempel har babyer i de første par måneder af deres liv en tendens til at se mere på genstande med enkle kanter.
- Da babyer konstant udvikler sig i deres viden og evner, følger de en meget begrænset læseplan. De data, de udsættes for, er organiseret på dybt betydningsfulde måder. For eksempel bruger babyer under 4 måneder mest tid på at se på ansigter, cirka 15 minutter i timen, mens de ældre end 12 måneder primært fokuserer på hænder og observerer dem i omkring 20 minutter i timen.
- Læringsepisoder består af en række indbyrdes forbundne oplevelser. Rumlige og tidsmæssige sammenhænge skaber sammenhæng, som igen letter dannelsen af varige minder fra engangsbegivenheder. For eksempel, når børn præsenteres for et tilfældigt udvalg af legetøj, fokuserer børn ofte på nogle få "favorit" legetøj. De engagerer sig i dette legetøj ved hjælp af gentagne mønstre, som hjælper med hurtigere indlæring af objekterne.
Forbigående (arbejds)hukommelser varer længere end det sensoriske input. Egenskaber, der forbedrer læringsprocessen, omfatter multimodalitet, associationer, forudsigende relationer og aktivering af tidligere minder.
For hurtig læring har du brug for en alliance mellem de mekanismer, der genererer dataene, og de mekanismer, der lærer.

Skitsering: kerneværktøjer, læringsforøgelse og adaptiv robusthed

Jelani Nelson, professor i elektroteknik og datalogi ved UC Berkeley, introducerede begrebet data 'skitser' – en hukommelseskomprimeret repræsentation af et datasæt, der stadig muliggør besvarelse af nyttige forespørgsler. Selvom foredraget var ret teknisk, gav det et fremragende overblik over nogle grundlæggende skitseværktøjer, inklusive de seneste fremskridt.

Vigtige takeaways:

CountSketch, kerneskitseværktøjet, blev første gang introduceret i 2002 for at løse problemet med "heavy hitters" og rapporterede en lille liste over de mest hyppige elementer fra den givne strøm af varer. CountSketch var den første kendte sublineære algoritme, der blev brugt til dette formål.
To ikke-streaming applikationer af heavy hitters inkluderer:
- Interiør punktbaseret metode (IPM), der giver en asymptotisk hurtigste kendte algoritme til lineær programmering.
- HyperAttention-metode, der adresserer den beregningsmæssige udfordring, som den voksende kompleksitet af lange kontekster, der bruges i LLM'er.
Meget nyligt arbejde har været fokuseret på at designe skitser, der er robuste over for adaptiv interaktion. Hovedideen er at bruge indsigt fra adaptiv dataanalyse.

Beyond Scaling Panel

Denne fantastisk panel om store sprogmodeller blev modereret af Alexander Rush, lektor ved Cornell Tech og forsker ved Hugging Face. Blandt de øvrige deltagere var:

Aakanksha Chowdhery – Forsker hos Google DeepMind med forskningsinteresser i systemer, LLM-fortræning og multimodalitet. Hun var en del af teamet, der udviklede PaLM, Gemini og Pathways.
Angela Fan – Forsker hos Meta Generative AI med forskningsinteresser i tilpasning, datacentre og flersprogethed. Hun deltog i udviklingen af Llama-2 og Meta AI Assistant.
Percy Liang – Professor ved Stanford, der forsker i skabere, open source og generative agenter. Han er direktør for Center for Research on Foundation Models (CRFM) i Stanford og grundlæggeren af Together AI.

Diskussionen fokuserede på fire nøgleemner: (1) arkitektur og teknik, (2) data og tilpasning, (3) evaluering og gennemsigtighed og (4) skabere og bidragydere.

Her er nogle af takeaways fra dette panel:

At træne nuværende sprogmodeller er ikke i sig selv svært. Den største udfordring ved at træne en model som Llama-2-7b ligger i infrastrukturkravene og behovet for at koordinere mellem flere GPU'er, datacentre osv. Men hvis antallet af parametre er lille nok til at tillade træning på en enkelt GPU, selv en bachelor kan klare det.
Mens autoregressive modeller normalt bruges til tekstgenerering og diffusionsmodeller til generering af billeder og videoer, har der været eksperimenter med at vende disse tilgange. Specifikt i Gemini-projektet bruges en autoregressiv model til billedgenerering. Der har også været undersøgelser i brug af diffusionsmodeller til tekstgenerering, men disse har endnu ikke vist sig at være tilstrækkeligt effektive.
I betragtning af den begrænsede tilgængelighed af engelsksprogede data til træningsmodeller, undersøger forskere alternative tilgange. En mulighed er at træne multimodale modeller på en kombination af tekst, video, billeder og lyd med forventning om, at færdigheder lært fra disse alternative modaliteter kan overføres til tekst. En anden mulighed er brugen af syntetiske data. Det er vigtigt at bemærke, at syntetiske data ofte blander sig i rigtige data, men denne integration er ikke tilfældig. Tekst offentliggjort online gennemgår typisk menneskelig kuration og redigering, hvilket kan tilføje yderligere værdi til modeltræning.
Åbne fundamentmodeller ses ofte som gavnlige for innovation, men potentielt skadelige for AI-sikkerhed, da de kan udnyttes af ondsindede aktører. Dr. Percy Liang argumenterer dog for, at åbne modeller også bidrager positivt til sikkerheden. Han argumenterer for, at de ved at være tilgængelige giver flere forskere muligheder for at udføre AI-sikkerhedsforskning og gennemgå modellerne for potentielle sårbarheder.
I dag kræver annoteringsdata markant mere ekspertise inden for annotationsdomænet sammenlignet med for fem år siden. Men hvis AI-assistenter udfører som forventet i fremtiden, vil vi modtage mere værdifulde feedbackdata fra brugere, hvilket reducerer afhængigheden af omfattende data fra annotatorer.

Systemer til fundamentmodeller og fundamentmodeller til systemer

In denne snak, Christopher Ré, lektor ved Institut for Datalogi ved Stanford University, viser, hvordan fundamentmodeller ændrede de systemer, vi bygger. Han udforsker også, hvordan man effektivt bygger fundamentmodeller, låner indsigt fra databasesystemforskning og diskuterer potentielt mere effektive arkitekturer for fundamentmodeller end Transformeren.

Her er de vigtigste ting fra denne snak:

Fundamentmodeller er effektive til at løse problemer med 'død ved 1000 nedskæringer', hvor hver enkelt opgave kan være relativt enkel, men den store bredde og mangfoldighed af opgaver udgør en betydelig udfordring. Et godt eksempel på dette er datarensningsproblemet, som LLM'er nu kan hjælpe med at løse meget mere effektivt.
Efterhånden som acceleratorerne bliver hurtigere, opstår hukommelsen ofte som en flaskehals. Dette er et problem, som databaseforskere har behandlet i årtier, og vi kan vedtage nogle af deres strategier. For eksempel minimerer Flash Attention-tilgangen input-output-flow gennem blokering og aggressiv fusion: hver gang vi får adgang til et stykke information, udfører vi så mange operationer på det som muligt.
Der er en ny klasse af arkitekturer, forankret i signalbehandling, der kunne være mere effektiv end Transformer-modellen, især til at håndtere lange sekvenser. Signalbehandling giver stabilitet og effektivitet, hvilket lægger grundlaget for innovative modeller som S4.

Online forstærkende læring i digitale sundhedsinterventioner

In hendes snak, Susan Murphy, professor i statistik og datalogi ved Harvard University, delte de første løsninger på nogle af de udfordringer, de står over for i udviklingen af online RL-algoritmer til brug i digitale sundhedsinterventioner.

Her er et par ting fra præsentationen:

Dr. Susan Murphy diskuterede to projekter, som hun har arbejdet på:
- HeartStep, hvor aktiviteter er blevet foreslået baseret på data fra smartphones og bærbare trackere, og
- Oralytics for oral sundhed coaching, hvor interventioner var baseret på engagement data modtaget fra en elektronisk tandbørste.
Når forskerne udvikler en adfærdspolitik for en AI-agent, skal forskerne sikre, at den er selvstændig og praktisk implementeret i det bredere sundhedssystem. Dette indebærer at sikre, at den tid, der kræves for en persons engagement, er rimelig, og at de anbefalede handlinger er både etisk forsvarlige og videnskabeligt plausible.
De primære udfordringer ved at udvikle en RL-agent til digitale sundhedsinterventioner omfatter håndtering af høje støjniveauer, da mennesker lever deres liv og måske ikke altid er i stand til at reagere på beskeder, selvom de ønsker det, samt at håndtere stærke, forsinkede negative effekter .

Som du kan se, har NeurIPS 2023 givet et lysende indblik i fremtiden for kunstig intelligens. De inviterede samtaler fremhævede en tendens til mere effektive, ressourcebevidste modeller og udforskningen af nye arkitekturer ud over traditionelle paradigmer.

Vi giver dig besked, når vi udgiver flere oversigtsartikler som denne.

#gform_wrapper_11[data-form-index=”0″].gform-theme,[data-parent-form=”11_0″]{–gform-theme-color-primary: #204ce5;–gform-theme-color-primary-rgb: 32, 76, 229;–gform-theme-color-primary-contrast: #fff;–gform-theme-color-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-primary-darker: #001AB3;–gform-theme-color-primary-lighter: #527EFF;–gform-theme-color-secondary: #fff;–gform-theme-color-secondary-rgb: 255, 255, 255;–gform-theme-color-secondary-contrast: #112337;–gform-theme-color-secondary-contrast-rgb: 17, 35, 55;–gform-theme-color-secondary-darker: #F5F5F5;–gform-theme-color-secondary-lighter: #FFFFFF;–gform-theme-color-outside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-outside-control-light-rgb: 17, 35, 55;–gform-theme-color-outside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-outside-control-light-lighter: #F5F5F5;–gform-theme-color-outside-control-dark: #585e6a;–gform-theme-color-outside-control-dark-rgb: 88, 94, 106;–gform-theme-color-outside-control-dark-darker: #112337;–gform-theme-color-outside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-color-inside-control: #fff;–gform-theme-color-inside-control-rgb: 255, 255, 255;–gform-theme-color-inside-control-contrast: #112337;–gform-theme-color-inside-control-contrast-rgb: 17, 35, 55;–gform-theme-color-inside-control-darker: #F5F5F5;–gform-theme-color-inside-control-lighter: #FFFFFF;–gform-theme-color-inside-control-primary: #204ce5;–gform-theme-color-inside-control-primary-rgb: 32, 76, 229;–gform-theme-color-inside-control-primary-contrast: #fff;–gform-theme-color-inside-control-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-inside-control-primary-darker: #001AB3;–gform-theme-color-inside-control-primary-lighter: #527EFF;–gform-theme-color-inside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-inside-control-light-rgb: 17, 35, 55;–gform-theme-color-inside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-inside-control-light-lighter: #F5F5F5;–gform-theme-color-inside-control-dark: #585e6a;–gform-theme-color-inside-control-dark-rgb: 88, 94, 106;–gform-theme-color-inside-control-dark-darker: #112337;–gform-theme-color-inside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-border-radius: 3px;–gform-theme-font-size-secondary: 14px;–gform-theme-font-size-tertiary: 13px;–gform-theme-icon-control-number: url(“data:image/svg+xml,%3Csvg width=’8′ height=’14’ viewBox=’0 0 8 14′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M4 0C4.26522 5.96046e-08 4.51957 0.105357 4.70711 0.292893L7.70711 3.29289C8.09763 3.68342 8.09763 4.31658 7.70711 4.70711C7.31658 5.09763 6.68342 5.09763 6.29289 4.70711L4 2.41421L1.70711 4.70711C1.31658 5.09763 0.683417 5.09763 0.292893 4.70711C-0.0976311 4.31658 -0.097631 3.68342 0.292893 3.29289L3.29289 0.292893C3.48043 0.105357 3.73478 0 4 0ZM0.292893 9.29289C0.683417 8.90237 1.31658 8.90237 1.70711 9.29289L4 11.5858L6.29289 9.29289C6.68342 8.90237 7.31658 8.90237 7.70711 9.29289C8.09763 9.68342 8.09763 10.3166 7.70711 10.7071L4.70711 13.7071C4.31658 14.0976 3.68342 14.0976 3.29289 13.7071L0.292893 10.7071C-0.0976311 10.3166 -0.0976311 9.68342 0.292893 9.29289Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-select: url(“data:image/svg+xml,%3Csvg width=’10’ height=’6′ viewBox=’0 0 10 6′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M0.292893 0.292893C0.683417 -0.097631 1.31658 -0.097631 1.70711 0.292893L5 3.58579L8.29289 0.292893C8.68342 -0.0976311 9.31658 -0.0976311 9.70711 0.292893C10.0976 0.683417 10.0976 1.31658 9.70711 1.70711L5.70711 5.70711C5.31658 6.09763 4.68342 6.09763 4.29289 5.70711L0.292893 1.70711C-0.0976311 1.31658 -0.0976311 0.683418 0.292893 0.292893Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-search: url(“data:image/svg+xml,%3Csvg version=’1.1′ xmlns=’http://www.w3.org/2000/svg’ width=’640′ height=’640’%3E%3Cpath d=’M256 128c-70.692 0-128 57.308-128 128 0 70.691 57.308 128 128 128 70.691 0 128-57.309 128-128 0-70.692-57.309-128-128-128zM64 256c0-106.039 85.961-192 192-192s192 85.961 192 192c0 41.466-13.146 79.863-35.498 111.248l154.125 154.125c12.496 12.496 12.496 32.758 0 45.254s-32.758 12.496-45.254 0L367.248 412.502C335.862 434.854 297.467 448 256 448c-106.039 0-192-85.962-192-192z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-control-border-color: #686e77;–gform-theme-control-size: var(–gform-theme-control-size-md);–gform-theme-control-label-color-primary: #112337;–gform-theme-control-label-color-secondary: #112337;–gform-theme-control-choice-size: var(–gform-theme-control-choice-size-md);–gform-theme-control-checkbox-check-size: var(–gform-theme-control-checkbox-check-size-md);–gform-theme-control-radio-check-size: var(–gform-theme-control-radio-check-size-md);–gform-theme-control-button-font-size: var(–gform-theme-control-button-font-size-md);–gform-theme-control-button-padding-inline: var(–gform-theme-control-button-padding-inline-md);–gform-theme-control-button-size: var(–gform-theme-control-button-size-md);–gform-theme-control-button-border-color-secondary: #686e77;–gform-theme-control-file-button-background-color-hover: #EBEBEB;–gform-theme-field-page-steps-number-color: rgba(17, 35, 55, 0.8);}