За кодексом OpenAI: 5 захоплюючих викликів щодо побудови кодексу, про які ви не знали

= Попереднє повідомлення

Ключові слова: Кодекс, НЛП, OpenAI

Деякі проблеми інженерії та моделювання ML, які виникають під час створення Codex.

By Ісус Родрігес, Intotheblock.

коментарі

джерело: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

Пару тижнів тому OpenAI вразив світ штучного інтелекту (ШІ) випуском Codex, масивної моделі, яка може перетворювати природну мову на код. Codex може ефективно генерувати наскрізні базові мовні інструкції. Якщо ви мені не вірите, вам варто переглянути це відео, яке можна вважати одним із найкращих демонстрацій ШІ всіх часів 😉

Авторство відео: OpenAI

Про можливості Codex було написано багато з моменту його запуску.

Однак мене більше заінтригували маленькі вимоги, які стають неймовірно актуальними для створення моделі такого масштабу. Глибоко занурюючись у Codex, я знайшов кілька цікавих речей, які було б добре висвітлити:

1. Codex добре володіє приблизно десятком мов, але його було навчено для Python

Я знайшов це неймовірно проникливим. Початкова мета OpenAI полягала в тому, щоб Codex добре володів Python, але виявилося, що модель підібрала інші мови під час процесу попереднього навчання. Це говорить про унікальні можливості попередньо підготовлених моделей.

2. Тестування Codex було більш ніж складним

Спільнота штучного інтелекту була вражена дослідженнями Codex, але я думаю, що інженерна сторона була настільки ж вражаючою. Одним з аспектів, який мене особливо зацікавив, була частина тестування. Як у світі тестувати живий код, не приймаючи великих ризиків. Виявилося, що команда OpenAI виклала масу роботи над створенням дуже складних пісочниць, щоб ізольовано перевірити результати Codex.

3. Відповідність семантики коду далеко не тривіальна

Навчання моделі всьому вихідному коду світу звучить круто, але далеко не тривіально. Зрештою, не весь код однаково створений. Код у Github може бути погано задокументований, тоді як блокноти можуть мати багату семантичну інформацію. Подібним чином фрагменти коду в Stack Overflow мають багатші рівні семантичної інформації. Зіставлення розділів коду на семантику мови було одним із завдань створення Codex.

4. Codex все ще бореться з декомпозицією завдань

Якщо ви думаєте, як працюють програмісти, ми схильні розбивати проблему на менші завдання та створювати для них код. Виявилося, що Codex чудово справляється з останнім, але все ще має проблеми з декомпозицією задач. Це не повинно дивувати, якщо ми думаємо, що декомпозиція проблеми вимагає дуже складних когнітивних навичок.

5. Контрольоване тонке налаштування було важливою частиною створення Кодексу

Код в Інтернеті з’являється на різних рівнях повноти, документації, синтаксичного багатства тощо. Навчання моделі таким різноманітним наборам коду може дати ненадійні результати. У цьому сенсі OpenAI довелося пройти масштабну контрольовану роботу з тонкого налаштування.

Це деякі аспекти Codex, які не надто відомі, але вони зробили значний внесок в успіх першої версії моделі. Успіх Codex був зумовлений як передовими дослідженнями МЛ, так і масштабними зусиллями з розробки МЛ та інфраструктури.

Біо: Ісус Родрігес в даний час є технічним директором в Intotheblock. Він технологічний експерт, виконавчий інвестор та консультант із стартапів. Ісус заснував Tellago, нагороджену фірму з розробки програмного забезпечення, спрямовану на допомогу компаніям стати великими програмними організаціями, використовуючи нові тенденції корпоративного програмного забезпечення.

Оригінал. Повідомлено з дозволу.

За темою: