OpenAIコーデックスの裏側:あなたが知らなかったコーデックスの構築に関する5つの魅力的な課題

ソースノード: 1068192

OpenAIコーデックスの裏側:あなたが知らなかったコーデックスの構築に関する5つの魅力的な課題

タグ: , ,

コーデックスの構築中に遭遇するいくつかのMLエンジニアリングおよびモデリングの課題。




OpenAIコーデックス
情報源: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

 

数週間前、OpenAIは、自然言語をコードに変換できる大規模なモデルであるCodexのリリースで、人工知能(AI)の世界を驚かせました。 Codexは、基本的な言語命令からエンドツーエンドを効果的に生成できます。 私を信じていない場合は、このビデオをご覧ください。これは、史上最高のAIデモのXNUMXつと見なすことができます😉



ビデオクレジット:OpenAI

 

Codexの機能については、最初のリリース以来、多くのことが書かれています。

しかし、私はこの規模のモデルを構築するために非常に関連するようになる小さな要件にもっと興味をそそられました。 コーデックスを深く掘り下げてみると、強調したほうがよいと思う興味深いことがいくつかあります。

1. コーデックスは約XNUMXの言語に堪能ですが、Python用にトレーニングされています

 
私はこれが信じられないほど洞察に満ちていることに気づきました。 OpenAIの当初の目標は、CodexをPythonに習熟させることでしたが、モデルは事前トレーニングプロセス中に他の言語を採用したことが判明しました。 これは、言語の事前トレーニング済みモデルの独自の機能を物語っています。

2. Codexのテストはトリッキー以上のものでした

 
AIコミュニティは、コーデックスの背後にある研究に驚いていますが、エンジニアリングの側面も同様に印象的だったと思います。 私が特に興味を持ったのは、テストの部分でした。 大きなリスクを冒さずに、世界でどのようにライブコードをテストしますか。 OpenAIチームは、Codexからの出力を個別にテストするために、非常に洗練されたサンドボックスを構築するために大量の作業を行ったことが判明しました。

3. セマンティクスをコードに一致させることは簡単ではありません

 
世界中のすべてのソースコードでモデルをトレーニングすることはクールに聞こえますが、些細なことではありません。 結局のところ、すべてのコードが同じように作成されるわけではありません。 Githubのコードは十分に文書化されていない可能性がありますが、ノートブックには豊富なセマンティック情報が含まれている可能性があります。 同様に、Stack Overflowのコードスニペットには、より豊富なレベルのセマンティック情報があります。 コードセクションを言語セマンティクスにマッピングすることは、Codexを構築する際の課題のXNUMXつでした。

4. コーデックスはまだタスクの分解に苦労しています

 
プログラマーがどのように機能するかを考えると、問題をより小さなタスクに分解し、それらのコードを生成する傾向があります。 コーデックスは後者で優れているが、それでも問題分解タスクで苦労していることが判明しました。 問題の分解には非常に複雑な認知スキルが必要であると考えれば、これは驚くべきことではありません。

5. 監視された微調整はコーデックスの構築の大きな部分でした

 
インターネットのコードは、あらゆるレベルの完全性、ドキュメント、構文の豊富さなどで表示されます。このような多様なコードセットでモデルをトレーニングすると、信頼性の低い結果が生じる可能性があります。 その意味で、OpenAIは大規模な監視付きの微調整作業を行う必要がありました。

 
これらは、あまり知られていないが、モデルの最初のバージョンの成功に大きく貢献しているコーデックスに関するいくつかの側面です。 コーデックスの成功は、大規模なMLエンジニアリングとインフラストラクチャの取り組みとしての高度なML研究によるものです。

 
バイオ: ジーザス・ロドリゲス 現在、IntotheblockのCTOです。 彼はテクノロジーの専門家であり、エグゼクティブ投資家であり、スタートアップアドバイザーです。 イエスは、新しいエンタープライズソフトウェアのトレンドを活用して、企業が優れたソフトウェア組織になるのを支援することに焦点を当てた、受賞歴のあるソフトウェア開発会社であるTellagoを設立しました。

元の。 許可を得て転載。

関連する

出典:https://www.kdnuggets.com/2021/09/openai-codex-challenges.html

タイムスタンプ:

より多くの KDナゲット