OpenAI Codexi taga: 5 põnevat väljakutset Building Codexi kohta, millest te ei teadnud

Allikasõlm: 1068192

OpenAI Codexi taga: 5 põnevat väljakutset Building Codexi kohta, millest te ei teadnud

Sildid: , ,

Mõned ML-i inseneri- ja modelleerimisprobleemid, millega Codexi ehitamisel kokku puututakse.




OpenAI Codex
Allikas: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

 

Paar nädalat tagasi hämmastas OpenAI tehisintellekti (AI) maailma, avaldades Codexi, tohutu mudeli, mis suudab tõlkida loomuliku keele koodiks. Codex suudab tõhusalt genereerida põhikeelejuhiseid. Kui te mind ei usu, peaksite vaatama seda videot, mida võib pidada kõigi aegade üheks parimaks AI demoks 😉



Video krediit: OpenAI

 

Codexi võimalustest on alates selle esmasest käivitamisest palju kirjutatud.

Mind on aga rohkem huvitanud väikesed nõuded, mis muutuvad sellise ulatusega mudeli ehitamiseks uskumatult oluliseks. Sügavalt Codexisse sukeldudes leidsin paar huvitavat asja, mida oleks hea esile tõsta:

1. Codex valdab umbes tosinat keelt, kuid see on Pythoni jaoks koolitatud

 
Minu arvates oli see uskumatult läbinägelik. OpenAI algne eesmärk oli muuta Codex Pythoni valdajaks, kuid selgub, et mudel omandas eelkoolitusprotsessi käigus ka teisi keeli. See räägib keele eelkoolitatud mudelite ainulaadsetest võimalustest.

2. Codexi testimine oli rohkem kui keeruline

 
AI kogukond on Codexi taga tehtud uuringutest hämmastunud, kuid ma arvan, et inseneri pool on olnud sama muljetavaldav. Üks aspekt, mis mind eriti huvitas, oli testimise osa. Kuidas saab reaalajas koodi testida ilma suuri riske võtmata. Selgub, et OpenAI meeskond tegi palju tööd väga keerukate liivakastide ehitamisel, et testida Codexi väljundeid eraldi.

3. Semantika sobitamine koodiga pole kaugeltki triviaalne

 
Mudeli koolitamine kogu maailma lähtekoodiga kõlab lahedalt, kuid see pole kaugeltki triviaalne. Lõppude lõpuks ei ole kõik koodid võrdsed. Githubi kood võib olla halvasti dokumenteeritud, samas kui sülearvutitel võib olla rikkalik semantiline teave. Samamoodi on Stack Overflow koodilõikudel rikkalikum semantilise teabe tase. Koodiosade kaardistamine keele semantikaga oli Codexi ehitamise üks väljakutseid.

4. Codex võitleb endiselt ülesannete lagunemisega

 
Kui arvate, kuidas programmeerijad töötavad, kipume probleemi jaotama väiksemateks ülesanneteks ja koostama nende jaoks koodi. Selgub, et Codex on viimases suurepärane, kuid näeb endiselt vaeva probleemide lahendamise ülesannetega. See ei tohiks olla üllatav, kui arvame, et probleemide lagunemine nõuab väga keerulisi kognitiivseid oskusi.

5. Järelevalve peenhäälestus oli Codexi ehitamise suur osa

 
Kood Internetis ilmub kõikvõimalike täielikkuse, dokumentatsiooni, süntaktilise rikkuse jne tasemel. Mudeli koolitamine sellistes erinevates koodikomplektides võib anda ebausaldusväärseid tulemusi. Selles mõttes pidi OpenAI läbima tohutu kontrollitud peenhäälestustöö.

 
Need on mõned Codexi aspektid, mis pole eriti tuntud, kuid mis on mudeli esimese versiooni edule oluliselt kaasa aidanud. Codexi edu taga oli nii arenenud ML-uuringud kui ulatuslikud ML-inseneri- ja infrastruktuurialased jõupingutused.

 
Bio: Jeesus Rodriguez on praegu Intotheblocki tehnoloogiadirektor. Ta on tehnoloogiaekspert, tegevinvestor ja idufirmade nõustaja. Jeesus asutas Tellago, auhinnatud tarkvaraarendusettevõtte, mille eesmärk on aidata ettevõtetel saada suurepäraseks tarkvaraorganisatsiooniks, kasutades selleks uusi ettevõttetarkvara suundi.

Originaal. Loaga uuesti postitatud.

Seotud:

Allikas: https://www.kdnuggets.com/2021/09/openai-codex-challenges.html

Ajatempel:

Veel alates KDnuggets