AlphaCode 2, egy kódgeneráló mesterséges intelligencia, amelyet a Gemini Kittel frissítettek

Újra kiadta Platón

Követő: 0

A Google legújabb kódgeneráló modellje – az AlphaCode 2, amely a Gemini Pro rendszerrel működik, és szerdán debütál a nyilvánosság számára – állítólag az online programozási versenyeken résztvevők 99.5 százalékos arányát meghaladó pontszámot ért el.

A Google DeepMind kutatói finomhangolták GeminiPro egy adatkészleten, hogy javítsa problémamegoldó készségeit az AlphaCode 2 létrehozásához. Az adatkészlet körülbelül 15,000 30 problémát tartalmazott, amelyeket a CodeForces-ről – egy versenyképes programozási oldalról – vettek át, és XNUMX millió ember által írt kódmintát.

A modellt egy további, „jobb minőségű” adathalmazon finomították tovább, de nem igazán világos, hogy milyen adatokat használtak fel, vagy mennyit pontosan, a hiányos részletek szerint. technikai jelentés [PDF]. Amikor az AlphaCode 2-t 77 problémán tesztelték 12 CodeForces versenyen – ahol összesen több mint 8,000 programozóval versenyzett –, ezek 43 százalékát sikerült megoldania. Az AlphaCode 2 C++ nyelven küldte be a válaszait.

Összehasonlításképpen az előző AlphaCode rendszer megoldotta a CodeForces által szintén felállított különböző problémák 25 százalékát.

„Ezt a versenyrangsorokhoz leképezve úgy becsüljük, hogy az AlphaCode 2 átlagosan a 85. percentilisnél helyezkedik el – azaz jobban teljesít, mint a 85 [a jelentkezők százaléka], és csak a „Expert” és a „Candidate Master” kategóriák között helyezkedik el a Codeforce-okon” - állították a kutatók.

Az Ön állása biztonságban van… egyelőre

A tizenkettőből két versenyen, amelyben részt vett, az AlphaCode 2 a résztvevők 99.5 százalékát felülmúlta. Bár lenyűgözőek, a versenykörülmények eltérőek voltak a gép és az ember számára.

Az AlphaCode 2 minden problémára akár tíz különböző megoldást is beküldhet, és pontokat szerezhet, ha az egyik helyes – ellentétben az emberjelöltekkel, akiknek csak egy esélyük van a kihívás megoldására.

Az AlphaCode 2 is nagyon eltérően működik, mint a biológiai programozók. Adott egy probléma, körülbelül egymillió különböző kódmintát generál, amelyeket azután kiszűr. Azok a véletlenszerű szkriptek, amelyek irrelevánsak és nem egyeznek a probléma leírásával – vagy amelyek rossz minta tesztválaszokat generálnak, vagy egyáltalán nem fordítanak le – el lesznek távolítva.

„Minden versengő programozási probléma tartalmaz legalább egy nyilvános bemeneti/kimeneti tesztet, amely jelzi, hogyan viselkedjenek a kódminták. Minden kódmintát a megfelelő tesztbemeneten hajtunk végre, és kiszűrjük azokat, amelyek nem a várt kimenetet produkálják, és ezért nem lehettek helyesek” – magyarázták a kutatók.

A szűrés megszabadítja az AlphaCode 95 által generált kódminták 2 százalékától. Ezután egy fürtözési algoritmus összegyűjti a hasonlóság alapján rangsorolt 50,000 XNUMX fennmaradó programot, és különböző csoportokba rendezi őket. A tíz legnagyobb klasztert ezután egy külön Gemini Pro modell értékeli, amelyet arra képeztek ki, hogy megjósolja a pontosságukat. A tíz különböző klaszter mintáit ezután a legjobbtól az utolsóig rangsorolják, és minden csoportból a legjobbat küldik be.

Az emberi kódolók általában különféle stratégiákat gondolnak ki egy probléma megoldására, majd a legígéretesebb ötletet veszik alapul, és felírják, ahelyett, hogy több millió különböző megoldást próbálnának ki. A siker azon múlik, hogy megértsük a problémákat, és okos matematikai trükköket találjunk ki a megoldásukra.

Az AlphaCode 2 brute force megközelítése – az összes kód kiszűrése, és a különböző modellek futtatása a legjobbak pontozása és rangsorolása érdekében – nagy számításigényű, ezért valószínűleg túl drága kiadni, amíg nem lesz hatékonyabb.

„Az AlphaCode 2 lenyűgöző eredményei ellenére még sok a tennivaló, mielőtt olyan rendszereket látnánk, amelyek megbízhatóan elérik a legjobb emberi kódolók teljesítményét. Rendszerünk sok próbálkozást és hibázást igényel, és továbbra is túl költséges ahhoz, hogy nagy méretben működjön. Ezen túlmenően nagyban függ attól, hogy ki tudja szűrni a nyilvánvalóan rossz kódmintákat” – vallották be a kutatók.

Ennek ellenére az AlphaCode 2 nagy előrelépés a régi AlphaCode-hoz képest, és több mint 10,000 100-szer hatékonyabb mintavételezéssel, állítja a Google. Csak XNUMX generált mintára van szükség ahhoz, hogy elérje ugyanazt a teljesítményt, mint az AlphaCode, amelyhez egy millióra volt szükség.

A Google DeepMind úgy véli, hogy a Gemini Ultra segítségével még jobb kódíró modellt tud építeni – egy nagyobb és erősebb nagynyelvi modellt, mint a Gemini Pro –, és azt mondta, hogy azon dolgozik, hogy a képességeit a fejlesztők számára elérhetővé tegye.

"Reméljük, hogy ez a fajta interaktív kódolás lesz a programozás jövője, ahol a programozók nagy képességű AI-modelleket használnak fel együttműködési eszközként, amelyek segíthetnek nekik a problémák megfejtésében, kódtervezési javaslatokban és a megvalósításban" – zárta a csapat. .

„Azon dolgozunk, hogy az AlphaCode 2 egyedülálló képességeit bemutassuk alapítványi Gemini modelljeinkbe, első lépésként annak érdekében, hogy ez az új programozási paradigma mindenki számára elérhető legyen.” ®