Hinter OpenAI Codex: 5 faszinierende Herausforderungen beim Erstellen von Codex, von denen Sie nichts wussten

Quellknoten: 1068192

Hinter OpenAI Codex: 5 faszinierende Herausforderungen beim Erstellen von Codex, von denen Sie nichts wussten

Stichworte: , ,

Einige ML-Engineering- und Modellierungsherausforderungen, die bei der Erstellung von Codex auftreten.




OpenAI-Codex
Quelle: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

 

Vor ein paar Wochen überraschte OpenAI die Welt der künstlichen Intelligenz (KI) mit der Veröffentlichung von Codex, einem riesigen Modell, das natürliche Sprache in Code übersetzen kann. Codex kann effektiv End-to-End-Anweisungen aus grundlegenden Sprachanweisungen generieren. Wenn Sie mir nicht glauben, sollten Sie sich dieses Video ansehen, das als eine der besten KI-Demos aller Zeiten angesehen werden kann 😉



Videonachweis: OpenAI

 

Seit seiner Einführung wurde viel über die Fähigkeiten von Codex geschrieben.

Mich haben jedoch mehr die kleinen Anforderungen fasziniert, die für den Bau eines Modells dieser Größenordnung unglaublich relevant werden. Beim tieferen Einblick in den Codex habe ich ein paar interessante Dinge gefunden, die ich gerne hervorheben möchte:

1. Codex beherrscht etwa ein Dutzend Sprachen, wurde jedoch für Python trainiert

 
Ich fand das unglaublich aufschlussreich. Das ursprüngliche Ziel von OpenAI bestand darin, Codex Python-fähig zu machen, aber es stellte sich heraus, dass das Modell während des Vortrainingsprozesses andere Sprachen aufnahm. Dies spricht für die einzigartigen Fähigkeiten vorab trainierter Sprachmodelle.

2. Codex zu testen war mehr als schwierig

 
Die KI-Community war von der Forschung hinter Codex begeistert, aber ich denke, die technische Seite war ebenso beeindruckend. Ein Aspekt, der mich besonders faszinierte, war der Testteil. Wie um alles in der Welt kann man Live-Code testen, ohne große Risiken einzugehen? Es stellt sich heraus, dass das OpenAI-Team eine Menge Arbeit in die Erstellung sehr ausgefeilter Sandboxen gesteckt hat, um die Ausgaben von Codex isoliert zu testen.

3. Die Zuordnung von Semantik zu Code ist alles andere als trivial

 
Ein Modell im gesamten Quellcode der Welt zu trainieren klingt cool, ist aber alles andere als trivial. Schließlich ist nicht jeder Code gleich. Code in Github kann schlecht dokumentiert sein, während Notebooks umfangreiche semantische Informationen enthalten können. In ähnlicher Weise verfügen Codefragmente in Stack Overflow über umfassendere semantische Informationen. Die Zuordnung von Codeabschnitten zur Sprachsemantik war eine der Herausforderungen bei der Entwicklung von Codex.

4. Codex hat immer noch Probleme mit der Aufgabenzerlegung

 
Wenn man bedenkt, wie Programmierer arbeiten, neigen wir dazu, ein Problem in kleinere Aufgaben zu zerlegen und für diese Code zu erstellen. Es stellt sich heraus, dass Codex bei Letzterem hervorragend ist, bei problematischen Zerlegungsaufgaben jedoch immer noch Probleme hat. Dies sollte nicht überraschen, wenn wir glauben, dass die Problemzerlegung sehr komplexe kognitive Fähigkeiten erfordert.

5. Die überwachte Feinabstimmung war ein großer Teil der Codex-Entwicklung

 
Code im Internet erscheint in allen möglichen Graden an Vollständigkeit, Dokumentation, syntaktischem Reichtum usw. Das Training eines Modells mit so unterschiedlichen Codesätzen kann zu unzuverlässigen Ergebnissen führen. In diesem Sinne musste sich OpenAI einem massiven überwachten Feinabstimmungsaufwand unterziehen.

 
Dies sind einige der Aspekte von Codex, die nicht besonders bekannt sind, aber wesentlich zum Erfolg der ersten Version des Modells beigetragen haben. Der Erfolg von Codex war sowohl auf die fortgeschrittene ML-Forschung als auch auf massive ML-Entwicklungs- und Infrastrukturanstrengungen zurückzuführen.

 
Bio: Jesus Rodríguez ist derzeit CTO bei Intotheblock. Er ist Technologieexperte, Executive Investor und Startup-Berater. Jesus gründete Tellago, ein preisgekröntes Softwareentwicklungsunternehmen, das sich darauf konzentriert, Unternehmen dabei zu unterstützen, großartige Software-Organisationen zu werden, indem sie neue Trends in der Unternehmenssoftware nutzen.

Original. Mit Genehmigung erneut veröffentlicht.

Related:

Quelle: https://www.kdnuggets.com/2021/09/openai-codex-challenges.html

Zeitstempel:

Mehr von KDnuggets