Za OpenAI Codex: 5 fascynujących wyzwań związanych z budowaniem kodeksu, o którym nie wiedziałeś

Węzeł źródłowy: 1068192

Za OpenAI Codex: 5 fascynujących wyzwań związanych z budowaniem kodeksu, o którym nie wiedziałeś

tagi: , ,

Niektóre wyzwania związane z inżynierią i modelowaniem ML napotkane podczas konstruowania Codexu.




Kodeks OpenAI
Źródło: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

 

Kilka tygodni temu OpenAI zaskoczyło świat sztucznej inteligencji (AI) wydaniem Codex, ogromnego modelu, który może tłumaczyć język naturalny na kod. Codex może skutecznie generować od końca do końca podstawowe instrukcje językowe. Jeśli mi nie wierzysz, powinieneś obejrzeć ten film, który można uznać za jeden z najlepszych pokazów AI wszechczasów 😉



Kredyt wideo: OpenAI

 

Wiele napisano o możliwościach Codexu od czasu jego pierwszego uruchomienia.

Jednak bardziej zaintrygowały mnie małe wymagania, które stają się niezwykle istotne przy budowaniu modelu tej wielkości. Głęboko zagłębiając się w Codex, znalazłem kilka interesujących rzeczy, które dobrze byłoby podkreślić:

1. Codex jest biegły w kilkunastu językach, ale został przeszkolony dla Pythona

 
Uznałem to za niezwykle odkrywcze. Pierwotnym celem OpenAI było sprawienie, by Codex był biegły w Pythonie, ale okazuje się, że model wybrał inne języki podczas procesu wstępnego szkolenia. Świadczy to o wyjątkowych możliwościach wstępnie wyszkolonych modeli językowych.

2. Testowanie Codexu było więcej niż trudne

 
Społeczność sztucznej inteligencji była zdumiona badaniami stojącymi za Codexem, ale myślę, że strona inżynierska była równie imponująca. Jednym z aspektów, który mnie szczególnie zaintrygował, była część testowa. Jak, u licha, testować kod na żywo bez podejmowania ogromnego ryzyka. Okazuje się, że zespół OpenAI włożył mnóstwo pracy, budując bardzo wyrafinowane piaskownice, aby przetestować wyjścia z Codex w izolacji.

3. Dopasowanie semantyki do kodu nie jest trywialne

 
Szkolenie modelu w całym kodzie źródłowym na świecie brzmi fajnie, ale nie jest trywialne. W końcu nie każdy kod jest sobie równy. Kod w Github może być słabo udokumentowany, podczas gdy notatniki mogą zawierać bogate informacje semantyczne. Podobnie fragmenty kodu w Stack Overflow mają bogatszy poziom informacji semantycznych. Odwzorowanie sekcji kodu na semantykę języka było jednym z wyzwań związanych z tworzeniem Codexu.

4. Codex wciąż boryka się z dekompozycją zadań

 
Jeśli myślisz, jak działają programiści, zwykle rozkładamy problem na mniejsze zadania i tworzymy dla nich kod. Okazuje się, że Codex jest świetny w tym drugim przypadku, ale wciąż ma problemy z zadaniami dekompozycji problemów. Nie powinno to dziwić, jeśli uznamy, że dekompozycja problemu wymaga bardzo złożonych umiejętności poznawczych.

5. Nadzorowane dostrajanie było ogromną częścią tworzenia Kodeksu

 
Kod w Internecie pojawia się na różnych poziomach kompletności, dokumentacji, bogactwa składniowego itp. Szkolenie modelu w tak zróżnicowanych zestawach kodów może dać niewiarygodne wyniki. W tym sensie OpenAI musiał przejść ogromny, nadzorowany wysiłek dostrajający.

 
Oto niektóre aspekty Codexu, które nie są zbyt dobrze znane, ale które w dużej mierze przyczyniły się do sukcesu pierwszej wersji modelu. Sukces Codex był spowodowany zarówno zaawansowanymi badaniami ML, jak i ogromnymi wysiłkami inżynieryjnymi ML i infrastrukturą.

 
Bio: Jezus Rodriguez jest obecnie CTO w Intotheblock. Jest ekspertem technologicznym, inwestorem wykonawczym i doradcą startupowym. Jesus założył Tellago, wielokrotnie nagradzaną firmę programistyczną, która pomaga firmom stać się wspaniałymi organizacjami programistycznymi, wykorzystując nowe trendy w oprogramowaniu dla przedsiębiorstw.

Oryginalny. Przesłane za zgodą.

Związane z:

Źródło: https://www.kdnuggets.com/2021/09/openai-codex-challenges.html

Znak czasu:

Więcej z Knuggety