За кодексом OpenAI: 5 увлекательных задач по созданию кодекса, о которых вы не знали

= Предыдущее сообщение

Теги: Кодекс, НЛП, OpenAI

Некоторые проблемы проектирования и моделирования машинного обучения, возникающие при создании Кодекса.

By Хесус РодригесВ блоке.

Комментарии

Источник: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

Пару недель назад OpenAI поразил мир искусственного интеллекта (ИИ), выпустив Codex, массивную модель, которая может переводить естественный язык в код. Codex может эффективно генерировать сквозные инструкции на базовом языке. Если вы мне не верите, вам стоит посмотреть это видео, которое можно считать одной из лучших демонстраций ИИ всех времен 😉

Видео Кредит: OpenAI

Много было написано о возможностях Кодекса с момента его первого запуска.

Однако меня больше заинтриговали небольшие требования, которые становятся невероятно актуальными для создания модели такого масштаба. Глубоко погрузившись в Кодекс, я обнаружил несколько интересных вещей, которые было бы неплохо выделить:

1. Кодекс знает около дюжины языков, но он был обучен для Python.

Я нашел это невероятно проницательным. Первоначальная цель OpenAI состояла в том, чтобы научить Codex владеть Python, но оказалось, что модель подобрала другие языки в процессе предварительного обучения. Это говорит об уникальных возможностях языковых предварительно обученных моделей.

2. Тестирование Кодекса было более чем сложным

Сообщество ИИ было поражено исследованиями Кодекса, но я думаю, что инженерная сторона была не менее впечатляющей. Одним из аспектов, который меня особенно заинтриговал, была часть тестирования. Как вы тестируете живой код, не подвергая себя огромным рискам. Оказывается, команда OpenAI проделала огромную работу по созданию очень сложных песочниц для изолированного тестирования выходных данных Кодекса.

3. Сопоставление семантики с кодом далеко не тривиально

Обучение модели во всем исходном коде в мире звучит круто, но это далеко не тривиально. В конце концов, не весь код одинаков. Код в Github может быть плохо документирован, в то время как записные книжки могут содержать богатую семантическую информацию. Точно так же фрагменты кода в Stack Overflow содержат более богатые уровни семантической информации. Сопоставление разделов кода с языковой семантикой было одной из проблем при создании Кодекса.

4. Codex все еще борется с декомпозицией задач

Если подумать, как работают программисты, мы склонны разбивать проблему на более мелкие задачи и создавать для них код. Выяснилось, что Codex хорош в последнем, но все еще испытывает трудности в задачах декомпозиции задач. Это не должно удивлять, если мы считаем, что декомпозиция проблемы требует очень сложных когнитивных навыков.

5. Контролируемая тонкая настройка была важной частью создания Кодекса.

Код в Интернете представлен на всевозможных уровнях полноты, документации, синтаксического богатства и т. д. Обучение модели таким разнообразным наборам кодов может привести к ненадежным результатам. В этом смысле OpenAI пришлось пройти масштабную контролируемую тонкую настройку.

Вот некоторые из аспектов Кодекса, которые не очень хорошо известны, но которые внесли основной вклад в успех первой версии модели. Успех Codex был обусловлен как передовыми исследованиями в области машинного обучения, так и масштабными усилиями по проектированию и инфраструктуре машинного обучения.

Bio: Хесус Родригес в настоящее время является техническим директором Intotheblock. Он эксперт по технологиям, исполнительный инвестор и советник по стартапам. Иисус основал Tellago, отмеченную наградами фирму по разработке программного обеспечения, которая помогает компаниям стать крупными организациями по разработке программного обеспечения за счет использования новых тенденций в области корпоративного программного обеспечения.

Оригинал, Перемещено с разрешения.

Связанный: