Taasavaldanud Platon

järgijaid: 0

OpenAI Codexi taga: 5 põnevat väljakutset Building Codexi kohta, millest te ei teadnud

= Eelmine post

Sildid: Koodeks, NLP, OpenAI

Mõned ML-i inseneri- ja modelleerimisprobleemid, millega Codexi ehitamisel kokku puututakse.

By Jeesus Rodriguez, Bloki sisse.

kommentaarid

Allikas: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

Paar nädalat tagasi hämmastas OpenAI tehisintellekti (AI) maailma, avaldades Codexi, tohutu mudeli, mis suudab tõlkida loomuliku keele koodiks. Codex suudab tõhusalt genereerida põhikeelejuhiseid. Kui te mind ei usu, peaksite vaatama seda videot, mida võib pidada kõigi aegade üheks parimaks AI demoks 😉

Video krediit: OpenAI

Codexi võimalustest on alates selle esmasest käivitamisest palju kirjutatud.

Mind on aga rohkem huvitanud väikesed nõuded, mis muutuvad sellise ulatusega mudeli ehitamiseks uskumatult oluliseks. Sügavalt Codexisse sukeldudes leidsin paar huvitavat asja, mida oleks hea esile tõsta:

1. Codex valdab umbes tosinat keelt, kuid see on Pythoni jaoks koolitatud

Minu arvates oli see uskumatult läbinägelik. OpenAI algne eesmärk oli muuta Codex Pythoni valdajaks, kuid selgub, et mudel omandas eelkoolitusprotsessi käigus ka teisi keeli. See räägib keele eelkoolitatud mudelite ainulaadsetest võimalustest.

2. Codexi testimine oli rohkem kui keeruline

AI kogukond on Codexi taga tehtud uuringutest hämmastunud, kuid ma arvan, et inseneri pool on olnud sama muljetavaldav. Üks aspekt, mis mind eriti huvitas, oli testimise osa. Kuidas saab reaalajas koodi testida ilma suuri riske võtmata. Selgub, et OpenAI meeskond tegi palju tööd väga keerukate liivakastide ehitamisel, et testida Codexi väljundeid eraldi.

3. Semantika sobitamine koodiga pole kaugeltki triviaalne

Mudeli koolitamine kogu maailma lähtekoodiga kõlab lahedalt, kuid see pole kaugeltki triviaalne. Lõppude lõpuks ei ole kõik koodid võrdsed. Githubi kood võib olla halvasti dokumenteeritud, samas kui sülearvutitel võib olla rikkalik semantiline teave. Samamoodi on Stack Overflow koodilõikudel rikkalikum semantilise teabe tase. Koodiosade kaardistamine keele semantikaga oli Codexi ehitamise üks väljakutseid.

4. Codex võitleb endiselt ülesannete lagunemisega

Kui arvate, kuidas programmeerijad töötavad, kipume probleemi jaotama väiksemateks ülesanneteks ja koostama nende jaoks koodi. Selgub, et Codex on viimases suurepärane, kuid näeb endiselt vaeva probleemide lahendamise ülesannetega. See ei tohiks olla üllatav, kui arvame, et probleemide lagunemine nõuab väga keerulisi kognitiivseid oskusi.

5. Järelevalve peenhäälestus oli Codexi ehitamise suur osa

Kood Internetis ilmub kõikvõimalike täielikkuse, dokumentatsiooni, süntaktilise rikkuse jne tasemel. Mudeli koolitamine sellistes erinevates koodikomplektides võib anda ebausaldusväärseid tulemusi. Selles mõttes pidi OpenAI läbima tohutu kontrollitud peenhäälestustöö.

Need on mõned Codexi aspektid, mis pole eriti tuntud, kuid mis on mudeli esimese versiooni edule oluliselt kaasa aidanud. Codexi edu taga oli nii arenenud ML-uuringud kui ulatuslikud ML-inseneri- ja infrastruktuurialased jõupingutused.

Bio: Jeesus Rodriguez on praegu Intotheblocki tehnoloogiadirektor. Ta on tehnoloogiaekspert, tegevinvestor ja idufirmade nõustaja. Jeesus asutas Tellago, auhinnatud tarkvaraarendusettevõtte, mille eesmärk on aidata ettevõtetel saada suurepäraseks tarkvaraorganisatsiooniks, kasutades selleks uusi ettevõttetarkvara suundi.

Originaal. Loaga uuesti postitatud.

Seotud:

= Eelmine post

Viimase 30 päeva populaarseimad lood

Populaarseim
Andmeteadlaste ja ML-i inseneride erinevus 3 põhjust, miks peaksite närvivõrkude asemel kasutama lineaarset regressioonimudeleid Levinumad andmeteaduse intervjuu küsimused ja vastused GitHubi kopiloodi avatud lähtekoodiga alternatiivid Google'i uurimisdirektori nõuanded andmeteaduse õppimiseks

Kõige rohkem jagatud
Andmeteadlaste ja ML-i inseneride erinevus Kuidas oma Panda andmeraami päringuid teha Miks ja kuidas peaksite õppima "produktiivset andmeteadust"? Mitte ainult süvaõppeks: kuidas GPU-d andmeteadust ja andmeanalüüsi kiirendavad Oma esimese levitatava Pythoni rakenduse kirjutamine Rayga

Allikas: https://www.kdnuggets.com/2021/09/openai-codex-challenges.html

Ajatempel: September 3, 2021

Veel alates KDnuggets

Kuidas ma tegin automaatset kujutise märgistamist maandus-DINO abil – KDnuggets

KDnuggets

Allikasõlm: 1981981

Ajatempel: Veebruar 27, 2023

Õppige masinõpet nendest GitHubi hoidlatest

Allikaklaster:

KDnuggets

Allikasõlm: 1932118

Ajatempel: Jan 31, 2023

OpenAI Codexi taga: 5 põnevat väljakutset Building Codexi kohta, millest te ei teadnud

Taasavaldanud Platon

OpenAI Codexi taga: 5 põnevat väljakutset Building Codexi kohta, millest te ei teadnud

1. Codex valdab umbes tosinat keelt, kuid see on Pythoni jaoks koolitatud

2. Codexi testimine oli rohkem kui keeruline

3. Semantika sobitamine koodiga pole kaugeltki triviaalne

4. Codex võitleb endiselt ülesannete lagunemisega

5. Järelevalve peenhäälestus oli Codexi ehitamise suur osa

Veel alates KDnuggets

Kuidas ma tegin automaatset kujutise märgistamist maandus-DINO abil – KDnuggets

Kuidas luua interaktiivset armatuurlauda kolme sammuga KNIME Analyticsi platvormiga

Närvimaagia paljastamine: sukeldumine aktiveerimisfunktsioonidesse – KDnuggets

Super Bard: AI, mis suudab kõike ja paremini – KDnuggets

Mixtral 8x7b käivitamine Google Colabis tasuta – KDnuggets

Konvolutsioonilise närvivõrgu loomine PyTorchiga – KDnuggets

Populaarseimad postitused 20.–26. veebruar: 5 SQL-i visualiseerimistööriista andmeinseneridele

Õppige masinõpet nendest GitHubi hoidlatest

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto