Újra kiadta Platón

Követő: 0

Az OpenAI Codex mögött: 5 lenyűgöző kihívás a Building Codexszel kapcsolatban, amelyekről nem tudtál

= Előző üzenet

Címkék: Kódex, NLP, OpenAI

Néhány ML mérnöki és modellezési kihívás, amelyek a Codex felépítése során szembesülnek.

By Jézus Rodriguez, A blokkba.

Hozzászólások

Forrás: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

Néhány héttel ezelőtt az OpenAI lenyűgözte a mesterséges intelligencia (AI) világát a Codex megjelenésével, egy hatalmas modellel, amely képes a természetes nyelvet kódra fordítani. A Codex hatékonyan képes végpontokig generálni az alapvető nyelvi utasításokból. Ha nem hiszed, nézd meg ezt a videót, ami minden idők egyik legjobb mesterséges intelligencia demójának tekinthető 😉

Videó forrása: OpenAI

Sokat írtak a Codex képességeiről a kezdeti indulás óta.

Engem azonban jobban érdekeltek azok az apró követelmények, amelyek hihetetlenül fontosakká válnak egy ilyen nagyságrendű modell elkészítéséhez. Mélyen belemerülve a Codexbe, néhány érdekes dolgot találtam, amelyeket jó lenne kiemelni:

1. A Codex körülbelül egy tucat nyelvben jártas, de Pythonra képezték ki

Ezt hihetetlenül éleslátónak találtam. Az OpenAI eredeti célja az volt, hogy a Codexet járatossá tegye a Python nyelvben, de kiderült, hogy a modell más nyelveket is felvett az előképzés során. Ez a nyelvi előképzett modellek egyedi képességeiről beszél.

2. A Codex tesztelése több mint trükkös volt

Az AI közösséget lenyűgözte a Codex mögötti kutatás, de úgy gondolom, hogy a mérnöki oldal is ugyanolyan lenyűgöző volt. Az egyik szempont, amely különösen érdekelt, a tesztelési rész volt. Hogy a fenébe tesztelhetsz élő kódot anélkül, hogy komoly kockázatokat vállalnál. Kiderült, hogy az OpenAI csapata rengeteg munkát végzett nagyon kifinomult homokozók felépítésével, hogy a Codex kimeneteit elkülönítve tesztelje.

3. A szemantika és a kód egyeztetése korántsem triviális

A modell betanítása a világ összes forráskódjára jól hangzik, de korántsem triviális. Végül is nem minden kód egyenlő. A Githubban található kód rosszul dokumentálható, míg a notebookok gazdag szemantikai információkkal rendelkezhetnek. Hasonlóképpen, a Stack Overflow kódrészletei gazdagabb szemantikai információval rendelkeznek. A kódrészletek nyelvi szemantikához való hozzárendelése a Codex felépítésének egyik kihívása volt.

4. A Codex továbbra is a feladatfelbontással küszködik

Ha arra gondol, hogyan dolgoznak a programozók, hajlamosak vagyunk egy problémát kisebb feladatokra bontani, és kódot készíteni ezekhez. Kiderült, hogy a Codex ez utóbbiban nagyszerű, de még mindig küzd a problémabontási feladatokban. Ez nem lehet meglepő, ha azt gondoljuk, hogy a probléma lebontásához nagyon összetett kognitív készségekre van szükség.

5. A felügyelt finomhangolás nagy része volt a Codex felépítésének

Az interneten található kódok a teljesség, a dokumentáció, a szintaktikai gazdagság stb. minden szintjén megjelennek. Egy modell ilyen változatos kódkészletére való betanítása megbízhatatlan eredményeket hozhat. Ebben az értelemben az OpenAI-nak hatalmas, felügyelt finomhangolási erőfeszítésen kellett keresztülmennie.

Ezek a Codex néhány olyan vonatkozásai, amelyek nem túl jól ismertek, de jelentős mértékben hozzájárultak a modell első verziójának sikeréhez. A Codex sikere egyrészt a fejlett ML-kutatásnak köszönhető, mint hatalmas ML-mérnöki és infrastrukturális erőfeszítéseknek.

Bio: Jézus Rodriguez jelenleg az Intotheblock műszaki igazgatója. Technológiai szakértő, vezető befektető és startup tanácsadó. Jézus megalapította a Tellagót, egy díjnyertes szoftverfejlesztő céget, amelynek célja, hogy az új vállalati szoftvertrendek kiaknázásával segítse a vállalatokat abban, hogy nagyszerű szoftverszervezetekké váljanak.

eredeti. Engedéllyel újra közzétéve.

Kapcsolódó:

= Előző üzenet

Legnépszerűbb történetek az elmúlt 30 napból

Legnepszerubb
A különbség az adattudósok és az ML mérnökök között 3 ok, amiért érdemes lineáris regressziós modelleket használni a neurális hálózatok helyett A leggyakoribb adattudományi interjúkérdések és válaszok GitHub másodpilóta nyílt forráskódú alternatívák Tanácsok az adattudomány tanulásához a Google kutatási igazgatójától

Leginkább megosztott
A különbség az adattudósok és az ML mérnökök között Hogyan kérdezze le a Pandas adatkeretét Miért és hogyan érdemes megtanulni a „termelő adattudományt”? Nem csak a mély tanuláshoz: Hogyan gyorsítják fel a GPU-k az adattudományt és az adatelemzést Az első elosztott Python-alkalmazás megírása Ray segítségével

Forrás: https://www.kdnuggets.com/2021/09/openai-codex-challenges.html

Időbélyeg: 3. szeptember 2021.

Még több KDnuggets

Hogyan végeztem az automatikus képcímkézést földelési DINO segítségével - KDnuggets

Hogyan végeztem az automatikus képcímkézést a földelés DINO segítségével – KDnuggets

KDnuggets

Forrás csomópont: 1981981

Időbélyeg: 27. február 2023.

Tanuljon gépi tanulást ezekből a GitHub-tárolókból

Forrás klaszter:

KDnuggets

Forrás csomópont: 1932118

Időbélyeg: 31. január 2023.

Az OpenAI Codex mögött: 5 lenyűgöző kihívás a Building Codexszel kapcsolatban, amelyekről nem tudtál

Újra kiadta Platón

Az OpenAI Codex mögött: 5 lenyűgöző kihívás a Building Codexszel kapcsolatban, amelyekről nem tudtál

1. A Codex körülbelül egy tucat nyelvben jártas, de Pythonra képezték ki

2. A Codex tesztelése több mint trükkös volt

3. A szemantika és a kód egyeztetése korántsem triviális

4. A Codex továbbra is a feladatfelbontással küszködik

5. A felügyelt finomhangolás nagy része volt a Codex felépítésének

Még több KDnuggets

Hogyan végeztem az automatikus képcímkézést a földelés DINO segítségével – KDnuggets

Interaktív irányítópult létrehozása három lépésben a KNIME Analytics platformmal

Neurális mágia leleplezése: Merülés az aktiválási funkciókba – KDnuggets

Super Bard: A mesterséges intelligencia, amely mindenre és még jobban képes – KDnuggets

A Mixtral 8x7b futtatása a Google Colabban ingyen – KDnuggets

Konvolúciós neurális hálózat építése PyTorch segítségével – KDnuggets

Legnépszerűbb bejegyzések február 20-26.: 5 SQL vizualizációs eszköz adatmérnökök számára

Tanuljon gépi tanulást ezekből a GitHub-tárolókból

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók