NeurIPS 2023: concluzii cheie din discuțiile invitate

NeurIPS 2023: concluzii cheie din discuțiile invitate

Nodul sursă: 3028418

Discuții NeurIPS 2023

Generat cu Midjourney

Conferința NeurIPS 2023, desfășurată în vibrantul oraș New Orleans între 10 și 16 decembrie, a pus un accent deosebit pe IA generativă și pe modelele de limbaj mari (LLM). În lumina recentelor progrese inovatoare în acest domeniu, nu a fost surprinzător faptul că aceste subiecte au dominat discuțiile.

Una dintre temele de bază ale conferinței din acest an a fost căutarea unor sisteme AI mai eficiente. Cercetătorii și dezvoltatorii caută în mod activ modalități de a construi IA care nu numai că învață mai repede decât LLM-urile actuale, ci și posedă capacități de raționament îmbunătățite, consumând în același timp mai puține resurse de calcul. Această urmărire este crucială în cursa către atingerea Inteligenței Generale Artificiale (AGI), un obiectiv care pare din ce în ce mai atins în viitorul apropiat.

Discuțiile invitate la NeurIPS 2023 au fost o reflectare a acestor interese dinamice și în evoluție rapidă. Prezentatori din diverse sfere de cercetare AI și-au împărtășit cele mai recente realizări, oferind o fereastră către evoluțiile de ultimă oră în IA. În acest articol, ne aprofundăm în aceste discuții, extragând și discutând principalele concluzii și învățăminte, care sunt esențiale pentru înțelegerea peisajului actual și viitor al inovației AI.

NextGenAI: Iluzia scalarii și viitorul IA generativă 

In vorbirea lui, Björn Ommer, șeful grupului de viziune și învățare computerizată la Universitatea Ludwig Maximilian din München, a împărtășit cum a ajuns laboratorul său să dezvolte Stable Diffusion, câteva lecții pe care le-au învățat din acest proces și evoluțiile recente, inclusiv modul în care putem combina modelele de difuzie cu potrivirea fluxului, creșterea recuperării și aproximările LoRA, printre altele.

modele de difuzie

Purtări cheie:

  • În era IA generativă, am trecut de la concentrarea asupra percepției în modelele de viziune (adică recunoașterea obiectelor) la prezicerea părților lipsă (de exemplu, generarea de imagini și videoclipuri cu modele de difuzie).
  • Timp de 20 de ani, viziunea computerizată s-a concentrat pe cercetarea de referință, care a ajutat să se concentreze asupra celor mai proeminente probleme. În IA generativă, nu avem puncte de referință pentru care să optimizăm, ceea ce a deschis câmpul pentru ca fiecare să meargă în propria direcție.
  • Modelele de difuzie combină avantajele modelelor generative anterioare, fiind bazate pe scor cu o procedură de antrenament stabilă și o editare eficientă a mostrelor, dar sunt costisitoare datorită lanțului lor lung Markov.
  • Provocarea cu modelele de probabilitate puternică este că majoritatea biților intră în detalii care sunt greu perceptibile de ochiul uman, în timp ce codificarea semantică, care contează cel mai mult, durează doar câțiva biți. Scalarea singură nu ar rezolva această problemă, deoarece cererea de resurse de calcul crește de 9 ori mai rapid decât oferta GPU.
  • Soluția sugerată este de a combina punctele forte ale modelelor de difuzie și ale rețelelor ConvNet, în special eficiența convoluțiilor pentru reprezentarea detaliilor locale și expresivitatea modelelor de difuzie pentru contextul pe distanță lungă.
  • Björn Ommer sugerează, de asemenea, utilizarea unei abordări de potrivire a fluxului pentru a permite sinteza imaginilor de înaltă rezoluție din modele mici de difuzie latentă.
  • O altă abordare pentru creșterea eficienței sintezei imaginii este să se concentreze pe compoziția scenei în timp ce se folosește creșterea de recuperare pentru a completa detaliile.
  • În cele din urmă, el a introdus abordarea iPoke pentru sinteza video stocastică controlată.

Dacă acest conținut aprofundat vă este util, abonați-vă la lista noastră de corespondență AI pentru a fi avertizați atunci când lansăm material nou. 

Multe fețe ale IA responsabilă 

In prezentarea ei, Lora Aroyo, cercetător la Google Research, a evidențiat o limitare cheie în abordările tradiționale de învățare automată: dependența lor de categorizările binare ale datelor ca exemple pozitive sau negative. Această simplificare excesivă, a susținut ea, trece cu vederea subiectivitatea complexă inerentă scenariilor și conținutului din lumea reală. Prin diverse cazuri de utilizare, Aroyo a demonstrat cum ambiguitatea conținutului și variația naturală a punctelor de vedere umane duc adesea la dezacorduri inevitabile. Ea a subliniat importanța de a trata aceste dezacorduri ca semnale semnificative, mai degrabă decât ca un simplu zgomot.

AI responsabil

Iată principalele concluzii din discuție:

  • Dezacordul dintre laboratorii umani poate fi productiv. În loc să trateze toate răspunsurile ca fiind corecte sau greșite, Lora Aroyo a introdus „adevărul prin dezacord”, o abordare a adevărului distribuțional pentru a evalua fiabilitatea datelor prin valorificarea dezacordului evaluatorului.
  • Calitatea datelor este dificilă chiar și în cazul experților, deoarece experții nu sunt la fel de mult de acord ca laboratorii de mulțime. Aceste dezacorduri pot fi mult mai informative decât răspunsurile unui singur expert.
    • În sarcinile de evaluare a siguranței, experții nu sunt de acord cu 40% dintre exemple. În loc să încercăm să rezolvăm aceste dezacorduri, trebuie să colectăm mai multe astfel de exemple și să le folosim pentru a îmbunătăți modelele și valorile de evaluare.
  • Lora Aroyo le-a prezentat și ea Siguranță cu diversitate metodă de examinare a datelor în ceea ce privește ceea ce se află în ele și cine le-a adnotat.
    • Această metodă a produs un set de date de referință cu variabilitatea judecăților de siguranță LLM în diferite grupuri demografice de evaluatori (2.5 milioane de evaluări în total).
    • Pentru 20% dintre conversații, a fost dificil de decis dacă răspunsul chatbot a fost sigur sau nesigur, deoarece a existat un număr aproximativ egal de respondenți care le etichetau ca fiind sigure sau nesigure.
  • Diversitatea evaluatorilor și a datelor joacă un rol crucial în evaluarea modelelor. Eșecul de a recunoaște gama largă de perspective umane și ambiguitatea prezentă în conținut poate împiedica alinierea performanței învățării automate cu așteptările din lumea reală.
  • 80% din eforturile de siguranță AI sunt deja destul de bune, dar restul de 20% necesită dublarea efortului de a aborda cazurile marginale și toate variantele din spațiul infinit al diversității.

Statistici de coerență, experiență autogenerată și de ce oamenii tineri sunt mult mai inteligenți decât AI actuală 

In vorbirea ei, Linda Smith, profesor distins la Universitatea din Indiana Bloomington, a explorat subiectul lipsei de date în procesele de învățare ale sugarilor și copiilor mici. Ea s-a concentrat în mod special pe recunoașterea obiectelor și învățarea numelor, aprofundând în modul în care statisticile experiențelor auto-generate de către sugari oferă soluții potențiale la provocarea lipsei de date.

Purtări cheie:

  • Până la vârsta de trei ani, copiii și-au dezvoltat capacitatea de a învăța în mod unic în diferite domenii. În mai puțin de 16,000 de ore de trezire până la a patra aniversare, ei reușesc să învețe peste 1,000 de categorii de obiecte, să stăpânească sintaxa limbii lor materne și să absoarbă nuanțele culturale și sociale ale mediului lor.
  • Dr. Linda Smith și echipa ei au descoperit trei principii ale învățării umane care le permit copiilor să capteze atât de multe din date atât de rare:
    • Cursanții controlează intrarea, moment în moment ei modelează și structurează intrarea. De exemplu, în primele luni de viață, bebelușii tind să se uite mai mult la obiecte cu margini simple.
    • Deoarece bebelușii evoluează continuu în cunoștințele și capacitățile lor, ei urmează un curriculum foarte restrâns. Datele la care sunt expuși sunt organizate în moduri profund semnificative. De exemplu, bebelușii sub 4 luni petrec cel mai mult timp privind fețele, aproximativ 15 minute pe oră, în timp ce cei mai mari de 12 luni se concentrează în primul rând pe mâini, observându-le aproximativ 20 de minute pe oră.
    • Episoadele de învățare constau dintr-o serie de experiențe interconectate. Corelațiile spațiale și temporale creează coerență, care, la rândul său, facilitează formarea de amintiri durabile din evenimente unice. De exemplu, atunci când li se prezintă un sortiment aleatoriu de jucării, copiii se concentrează adesea pe câteva jucării „preferate”. Ei se angajează cu aceste jucării folosind modele repetitive, ceea ce ajută la o învățare mai rapidă a obiectelor.
  • Amintirile tranzitorii (de lucru) persistă mai mult decât intrarea senzorială. Proprietățile care îmbunătățesc procesul de învățare includ multimodalitate, asocieri, relații predictive și activarea amintirilor din trecut.
  • Pentru o învățare rapidă, aveți nevoie de o alianță între mecanismele care generează datele și mecanismele care învață.
sugarii invata

Schițare: instrumente de bază, creșterea învățării și robustețe adaptivă 

Jelani Nelson, profesor de inginerie electrică și științe informatice la UC Berkeley, a introdus conceptul de „schițe” de date – o reprezentare comprimată în memorie a unui set de date care permite încă răspunsul la întrebări utile. Deși discuția a fost destul de tehnică, a oferit o imagine de ansamblu excelentă a unor instrumente fundamentale de schiță, inclusiv progrese recente.

Elemente cheie:

  • CountSketch, instrumentul de bază de schiță, a fost introdus pentru prima dată în 2002 pentru a aborda problema „lovitorilor grei”, raportând o listă mică a articolelor cele mai frecvente din fluxul de articole dat. CountSketch a fost primul algoritm subliniar cunoscut folosit în acest scop.
  • Două aplicații non-streaming ale lovitorilor grei includ:
    • Metodă bazată pe puncte interioare (IPM) care oferă un algoritm asimptotic cel mai rapid cunoscut pentru programarea liniară.
    • Metoda HyperAttention care abordează provocarea de calcul reprezentată de complexitatea tot mai mare a contextelor lungi utilizate în LLM.
  • Multe lucrări recente s-au concentrat pe proiectarea de schițe care sunt robuste pentru interacțiunea adaptivă. Ideea principală este să folosiți informații din analiza adaptivă a datelor.

Dincolo de Panoul de scalare 

Acest panou grozav despre modele mari de limbaj a fost moderată de Alexander Rush, profesor asociat la Cornell Tech și cercetător la Hugging Face. Ceilalți participanți au inclus:

  • Aakanksha Chowdhery – cercetător de știință la Google DeepMind cu interese de cercetare în sisteme, preformare LLM și multimodalitate. Ea a făcut parte din echipa care a dezvoltat PaLM, Gemeni și Pathways.
  • Angela Fan – cercetător la Meta Generative AI cu interese de cercetare în aliniere, centre de date și multilingvitate. Ea a participat la dezvoltarea Llama-2 și Meta AI Assistant.
  • Percy Liang – Profesor la Stanford care cercetează creatori, sursă deschisă și agenți generativi. El este directorul Centrului de Cercetare a Modelelor Fundației (CRFM) la Stanford și fondatorul Together AI.

Discuția sa concentrat pe patru subiecte cheie: (1) arhitecturi și inginerie, (2) date și aliniere, (3) evaluare și transparență și (4) creatori și colaboratori.

Iată câteva dintre concluziile din acest panou:

  • Formarea modelelor lingvistice actuale nu este în mod inerent dificilă. Principala provocare în antrenarea unui model precum Llama-2-7b constă în cerințele de infrastructură și necesitatea coordonării între mai multe GPU-uri, centre de date etc. Cu toate acestea, dacă numărul de parametri este suficient de mic pentru a permite antrenamentul pe un singur GPU, chiar și un student de licență o poate gestiona.
  • În timp ce modelele autoregresive sunt de obicei utilizate pentru generarea de text și modelele de difuzare pentru generarea de imagini și videoclipuri, au existat experimente cu inversarea acestor abordări. Mai exact, în proiectul Gemini, este utilizat un model autoregresiv pentru generarea de imagini. Au existat, de asemenea, explorări în utilizarea modelelor de difuzie pentru generarea de text, dar acestea nu s-au dovedit încă suficient de eficiente.
  • Având în vedere disponibilitatea limitată a datelor în limba engleză pentru modelele de formare, cercetătorii explorează abordări alternative. O posibilitate este formarea modelelor multimodale pe o combinație de text, video, imagini și audio, cu așteptarea ca abilitățile învățate din aceste modalități alternative să se transfere în text. O altă opțiune este utilizarea datelor sintetice. Este important de reținut că datele sintetice se îmbină adesea cu date reale, dar această integrare nu este întâmplătoare. Textele publicate online sunt supuse de obicei procesării și editării umane, ceea ce ar putea adăuga valoare suplimentară pentru formarea modelelor.
  • Modelele de fundație deschisă sunt adesea văzute ca fiind benefice pentru inovare, dar potențial dăunătoare pentru siguranța AI, deoarece pot fi exploatate de actori rău intenționați. Cu toate acestea, dr. Percy Liang susține că modelele deschise contribuie, de asemenea, în mod pozitiv la siguranță. El susține că, fiind accesibile, oferă mai multor cercetători oportunități de a efectua cercetări privind siguranța AI și de a revizui modelele pentru potențiale vulnerabilități.
  • Astăzi, adnotarea datelor necesită mult mai multă experiență în domeniul adnotărilor, comparativ cu acum cinci ani. Cu toate acestea, dacă asistenții AI performează conform așteptărilor în viitor, vom primi date de feedback mai valoroase de la utilizatori, reducând dependența de date extinse de la adnotatori.

​Sisteme pentru modele de fundație și modele de fundație pentru sisteme 

In această discuție, Christopher Ré, profesor asociat la Departamentul de Informatică de la Universitatea Stanford, arată cum modelele de fundație au schimbat sistemele pe care le construim. El explorează, de asemenea, cum să construiți eficient modele de fundație, împrumutând informații din cercetarea sistemelor de baze de date și discută despre arhitecturi potențial mai eficiente pentru modelele de fundație decât Transformer.

modele de fundație pentru curățarea datelor

Iată principalele concluzii din această discuție:

  • Modelele de fundație sunt eficiente în abordarea problemelor „moarte la 1000 de tăieturi”, în care fiecare sarcină individuală ar putea fi relativ simplă, dar amploarea și varietatea sarcinilor reprezintă o provocare semnificativă. Un bun exemplu în acest sens este problema curățării datelor, pe care LLM-urile o pot ajuta acum să o rezolve mult mai eficient.
  • Pe măsură ce acceleratoarele devin mai rapide, memoria apare adesea ca un blocaj. Aceasta este o problemă pe care cercetătorii bazelor de date o abordează de zeci de ani și putem adopta unele dintre strategiile lor. De exemplu, abordarea Flash Attention minimizează fluxurile de intrare-ieșire prin blocare și fuziune agresivă: ori de câte ori accesăm o informație, efectuăm cât mai multe operațiuni asupra acesteia.
  • Există o nouă clasă de arhitecturi, înrădăcinate în procesarea semnalului, care ar putea fi mai eficientă decât modelul Transformer, în special la manipularea secvențelor lungi. Procesarea semnalului oferă stabilitate și eficiență, punând bazele modelelor inovatoare precum S4.

Învățare de consolidare online în intervenții în sănătate digitală 

In vorbirea ei, Susan Murphy, profesor de statistică și știință informatică la Universitatea Harvard, a împărtășit primele soluții la unele dintre provocările cu care se confruntă în dezvoltarea algoritmilor RL online pentru utilizare în intervenții digitale în sănătate.

Iată câteva concluzii din prezentare:

  • Dr. Susan Murphy a discutat despre două proiecte la care a lucrat:
    • HeartStep, unde activitățile au fost sugerate pe baza datelor de pe smartphone-uri și trackere portabile și
    • Oralitice pentru coaching pentru sănătatea orală, în care intervențiile s-au bazat pe datele de implicare primite de la o periuță de dinți electronică.
  • În dezvoltarea unei politici de comportament pentru un agent AI, cercetătorii trebuie să se asigure că este autonomă și poate fi implementată în mod fezabil în sistemul de sănătate mai larg. Aceasta presupune asigurarea faptului că timpul necesar pentru angajamentul unei persoane este rezonabil și că acțiunile recomandate sunt atât solide din punct de vedere etic, cât și plauzibile din punct de vedere științific.
  • Principalele provocări în dezvoltarea unui agent RL pentru intervențiile digitale în sănătate includ abordarea nivelurilor ridicate de zgomot, deoarece oamenii își duc viața și este posibil să nu fie întotdeauna capabili să răspundă la mesaje, chiar dacă doresc, precum și gestionarea efectelor negative puternice și întârziate. .

După cum puteți vedea, NeurIPS 2023 a oferit o privire iluminatoare asupra viitorului AI. Discuțiile invitate au evidențiat o tendință către modele mai eficiente, conștiente de resurse și explorarea unor arhitecturi noi dincolo de paradigmele tradiționale.

Bucurați-vă de acest articol? Înscrieți-vă pentru mai multe actualizări ale cercetării AI.

Vă vom anunța când vom lansa mai multe articole sumare ca acesta.

#gform_wrapper_11[data-form-index=”0″].gform-theme,[data-parent-form=”11_0″]{–gform-theme-color-primary: #204ce5;–gform-theme-color-primary-rgb: 32, 76, 229;–gform-theme-color-primary-contrast: #fff;–gform-theme-color-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-primary-darker: #001AB3;–gform-theme-color-primary-lighter: #527EFF;–gform-theme-color-secondary: #fff;–gform-theme-color-secondary-rgb: 255, 255, 255;–gform-theme-color-secondary-contrast: #112337;–gform-theme-color-secondary-contrast-rgb: 17, 35, 55;–gform-theme-color-secondary-darker: #F5F5F5;–gform-theme-color-secondary-lighter: #FFFFFF;–gform-theme-color-outside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-outside-control-light-rgb: 17, 35, 55;–gform-theme-color-outside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-outside-control-light-lighter: #F5F5F5;–gform-theme-color-outside-control-dark: #585e6a;–gform-theme-color-outside-control-dark-rgb: 88, 94, 106;–gform-theme-color-outside-control-dark-darker: #112337;–gform-theme-color-outside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-color-inside-control: #fff;–gform-theme-color-inside-control-rgb: 255, 255, 255;–gform-theme-color-inside-control-contrast: #112337;–gform-theme-color-inside-control-contrast-rgb: 17, 35, 55;–gform-theme-color-inside-control-darker: #F5F5F5;–gform-theme-color-inside-control-lighter: #FFFFFF;–gform-theme-color-inside-control-primary: #204ce5;–gform-theme-color-inside-control-primary-rgb: 32, 76, 229;–gform-theme-color-inside-control-primary-contrast: #fff;–gform-theme-color-inside-control-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-inside-control-primary-darker: #001AB3;–gform-theme-color-inside-control-primary-lighter: #527EFF;–gform-theme-color-inside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-inside-control-light-rgb: 17, 35, 55;–gform-theme-color-inside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-inside-control-light-lighter: #F5F5F5;–gform-theme-color-inside-control-dark: #585e6a;–gform-theme-color-inside-control-dark-rgb: 88, 94, 106;–gform-theme-color-inside-control-dark-darker: #112337;–gform-theme-color-inside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-border-radius: 3px;–gform-theme-font-size-secondary: 14px;–gform-theme-font-size-tertiary: 13px;–gform-theme-icon-control-number: url(“data:image/svg+xml,%3Csvg width=’8′ height=’14’ viewBox=’0 0 8 14′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M4 0C4.26522 5.96046e-08 4.51957 0.105357 4.70711 0.292893L7.70711 3.29289C8.09763 3.68342 8.09763 4.31658 7.70711 4.70711C7.31658 5.09763 6.68342 5.09763 6.29289 4.70711L4 2.41421L1.70711 4.70711C1.31658 5.09763 0.683417 5.09763 0.292893 4.70711C-0.0976311 4.31658 -0.097631 3.68342 0.292893 3.29289L3.29289 0.292893C3.48043 0.105357 3.73478 0 4 0ZM0.292893 9.29289C0.683417 8.90237 1.31658 8.90237 1.70711 9.29289L4 11.5858L6.29289 9.29289C6.68342 8.90237 7.31658 8.90237 7.70711 9.29289C8.09763 9.68342 8.09763 10.3166 7.70711 10.7071L4.70711 13.7071C4.31658 14.0976 3.68342 14.0976 3.29289 13.7071L0.292893 10.7071C-0.0976311 10.3166 -0.0976311 9.68342 0.292893 9.29289Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-select: url(“data:image/svg+xml,%3Csvg width=’10’ height=’6′ viewBox=’0 0 10 6′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M0.292893 0.292893C0.683417 -0.097631 1.31658 -0.097631 1.70711 0.292893L5 3.58579L8.29289 0.292893C8.68342 -0.0976311 9.31658 -0.0976311 9.70711 0.292893C10.0976 0.683417 10.0976 1.31658 9.70711 1.70711L5.70711 5.70711C5.31658 6.09763 4.68342 6.09763 4.29289 5.70711L0.292893 1.70711C-0.0976311 1.31658 -0.0976311 0.683418 0.292893 0.292893Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-search: url(“data:image/svg+xml,%3Csvg version=’1.1′ xmlns=’http://www.w3.org/2000/svg’ width=’640′ height=’640’%3E%3Cpath d=’M256 128c-70.692 0-128 57.308-128 128 0 70.691 57.308 128 128 128 70.691 0 128-57.309 128-128 0-70.692-57.309-128-128-128zM64 256c0-106.039 85.961-192 192-192s192 85.961 192 192c0 41.466-13.146 79.863-35.498 111.248l154.125 154.125c12.496 12.496 12.496 32.758 0 45.254s-32.758 12.496-45.254 0L367.248 412.502C335.862 434.854 297.467 448 256 448c-106.039 0-192-85.962-192-192z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-control-border-color: #686e77;–gform-theme-control-size: var(–gform-theme-control-size-md);–gform-theme-control-label-color-primary: #112337;–gform-theme-control-label-color-secondary: #112337;–gform-theme-control-choice-size: var(–gform-theme-control-choice-size-md);–gform-theme-control-checkbox-check-size: var(–gform-theme-control-checkbox-check-size-md);–gform-theme-control-radio-check-size: var(–gform-theme-control-radio-check-size-md);–gform-theme-control-button-font-size: var(–gform-theme-control-button-font-size-md);–gform-theme-control-button-padding-inline: var(–gform-theme-control-button-padding-inline-md);–gform-theme-control-button-size: var(–gform-theme-control-button-size-md);–gform-theme-control-button-border-color-secondary: #686e77;–gform-theme-control-file-button-background-color-hover: #EBEBEB;–gform-theme-field-page-steps-number-color: rgba(17, 35, 55, 0.8);}

Timestamp-ul:

Mai mult de la TOPBOTS