Za kodeksom OpenAI: 5 fascinantnih izzivov o gradnji kodeksa, o katerem niste vedeli

Izvorno vozlišče: 1068192

Za kodeksom OpenAI: 5 fascinantnih izzivov o gradnji kodeksa, o katerem niste vedeli

Tags: , ,

Nekateri izzivi pri inženiringu in modeliranju ML, s katerimi se srečujete med gradnjo Codexa.




Kodeks OpenAI
vir: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

 

Pred nekaj tedni je OpenAI presenetil svet umetne inteligence (AI) z izdajo Codexa, ogromnega modela, ki lahko naravni jezik prevede v kodo. Codex lahko učinkovito ustvari od konca do konca iz osnovnih jezikovnih navodil. Če mi ne verjamete, si oglejte ta videoposnetek, ki se lahko šteje za enega najboljših predstavitev umetne inteligence vseh časov 😉



Avtorstvo videoposnetka: OpenAI

 

O zmožnostih Codexa je bilo veliko napisanega že od njegovega začetka.

Vendar pa so me bolj zanimale majhne zahteve, ki postanejo neverjetno pomembne za izdelavo modela takšnega obsega. Ko sem se poglobil v Codex, sem našel nekaj zanimivih stvari, ki bi jih bilo dobro izpostaviti:

1. Codex obvlada približno ducat jezikov, vendar je bil usposobljen za Python

 
To se mi je zdelo neverjetno pronicljivo. Prvotni cilj OpenAI je bil, da bi Codex obvladal Python, vendar se je izkazalo, da je model med postopkom predusposabljanja izbral druge jezike. To govori o edinstvenih zmožnostih jezikovno vnaprej usposobljenih modelov.

2. Testiranje Codexa je bilo več kot težavno

 
Skupnost umetne inteligence je presenetila raziskava, ki stoji za Codexom, vendar menim, da je bila inženirska stran prav tako impresivna. Eden od vidikov, ki me je še posebej zanimal, je bil del testiranja. Kako za vraga testirate kodo v živo, ne da bi pri tem tvegali. Izkazalo se je, da je ekipa OpenAI vložila ogromno dela v izdelavo zelo sofisticiranih peskovnikov, da bi izolirano preizkusila rezultate Codexa.

3. Ujemanje semantike s kodo še zdaleč ni trivialno

 
Usposabljanje modela v vsej izvorni kodi na svetu se sliši kul, vendar še zdaleč ni trivialno. Navsezadnje ni vsa koda ustvarjena enaka. Koda v Githubu je lahko slabo dokumentirana, medtem ko imajo zvezki lahko bogate semantične informacije. Podobno imajo izrezki kode v Stack Overflow bogatejše ravni semantičnih informacij. Preslikava delov kode v jezikovno semantiko je bil eden od izzivov gradnje Codexa.

4. Codex se še vedno bori z dekompozicijo nalog

 
Če pomislite, kako delujejo programerji, ponavadi problem razdelimo na manjše naloge in zanje izdelamo kodo. Izkazalo se je, da je Codex odličen pri slednjem, vendar ima še vedno težave pri nalogah razgradnje problema. To ne bi smelo biti presenetljivo, če mislimo, da razgradnja problema zahteva zelo kompleksne kognitivne sposobnosti.

5. Nadzorovano fino uravnavanje je bilo velik del izgradnje Codexa

 
Koda v internetu se pojavlja na najrazličnejših stopnjah popolnosti, dokumentacije, skladenjskega bogastva itd. Usposabljanje modela v tako raznolikih kodnih nizih lahko povzroči nezanesljive rezultate. V tem smislu je moral OpenAI prestati obsežno nadzorovano natančno prilagajanje.

 
To je nekaj vidikov o Codexu, ki niso zelo znani, vendar so veliko prispevali k uspehu prve različice modela. Uspeh Codexa je bil tako posledica naprednih raziskav ML kot velikega inženiringa ML in infrastrukturnih prizadevanj.

 
Bio: Jezus Rodriguez je trenutno CTO pri Intotheblock. Je tehnološki strokovnjak, izvršni vlagatelj in svetovalec pri zagonu. Jezus je ustanovil Tellago, nagrajeno podjetje za razvoj programske opreme, ki se osredotoča na pomoč podjetjem, da z uporabo novih trendov programske opreme za podjetja postanejo odlične programske organizacije.

prvotni. Poročeno z dovoljenjem.

Povezano:

Vir: https://www.kdnuggets.com/2021/09/openai-codex-challenges.html

Časovni žig:

Več od KDnuggets