Por trás do OpenAI Codex: 5 desafios fascinantes sobre a construção do Codex que você não conhecia

Nó Fonte: 1068192

Por trás do OpenAI Codex: 5 desafios fascinantes sobre a construção do Codex que você não conhecia


Alguns desafios de engenharia e modelagem de ML encontrados durante a construção do Codex.




Código OpenAI
Fonte: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

 

Algumas semanas atrás, a OpenAI surpreendeu o mundo da inteligência artificial (IA) com o lançamento do Codex, um modelo massivo que pode traduzir a linguagem natural em código. O Codex pode efetivamente gerar de ponta a ponta a partir de instruções básicas de linguagem. Se você não acredita em mim, deveria assistir a este vídeo que pode ser considerado uma das melhores demos de IA de todos os tempos 😉



Crédito do vídeo: OpenAI

 

Muito já foi escrito sobre os recursos do Codex desde seu lançamento inicial.

No entanto, tenho ficado mais intrigado com os pequenos requisitos que se tornam incrivelmente relevantes para construir um modelo dessa magnitude. Mergulhando profundamente no Codex, há algumas coisas interessantes que achei que seria bom destacar:

1. O Codex é proficiente em cerca de uma dúzia de idiomas, mas foi treinado para Python

 
Achei isso incrivelmente perspicaz. O objetivo original do OpenAI era tornar o Codex proficiente em Python, mas o modelo aprendeu outras linguagens durante o processo de pré-treinamento. Isso fala sobre os recursos exclusivos dos modelos pré-treinados por idioma.

2. Testar o Codex foi mais do que complicado

 
A comunidade de IA ficou impressionada com a pesquisa por trás do Codex, mas acho que o lado da engenharia também foi impressionante. Um aspecto que me deixou particularmente intrigado foi a parte do teste. Como no mundo você testa código ao vivo sem correr riscos enormes. Acontece que a equipe da OpenAI trabalhou muito para construir sandboxes muito sofisticados para testar os resultados do Codex isoladamente.

3. A correspondência da semântica ao código está longe de ser trivial

 
Treinar um modelo em todo o código-fonte do mundo parece legal, mas está longe de ser trivial. Afinal, nem todo código é criado igual. O código no Github pode ser mal documentado, enquanto os notebooks podem ter informações semânticas ricas. Da mesma forma, os trechos de código no Stack Overflow têm níveis mais ricos de informações semânticas. Mapear seções de código para a semântica da linguagem foi um dos desafios da construção do Codex.

4. O Codex ainda luta com a decomposição de tarefas

 
Se você pensar como os programadores trabalham, tendemos a decompor um problema em tarefas menores e produzir código para elas. Acontece que o Codex é ótimo no último, mas ainda tem dificuldades em tarefas de decomposição de problemas. Isso não deveria ser surpreendente se pensarmos que a decomposição do problema requer habilidades cognitivas muito complexas.

5. O ajuste fino supervisionado foi uma grande parte da construção do Codex

 
O código na Internet aparece em todos os níveis de integridade, documentação, riqueza sintática, etc. Treinar um modelo em conjuntos de códigos tão diversos pode produzir resultados não confiáveis. Nesse sentido, o OpenAI teve que passar por um enorme esforço supervisionado de ajuste fino.

 
Estes são alguns dos aspectos do Codex que não são muito conhecidos, mas que contribuíram muito para o sucesso da primeira versão do modelo. O sucesso do Codex deveu-se tanto à pesquisa avançada de ML quanto a esforços maciços de engenharia e infraestrutura de ML.

 
Bio: Jesus rodriguez atualmente é CTO da Intotheblock. Ele é um especialista em tecnologia, investidor executivo e consultor de startups. Jesus fundou a Tellago, uma premiada empresa de desenvolvimento de software focada em ajudar as empresas a se tornarem grandes organizações de software, alavancando novas tendências de software corporativo.

Óptimo estado. Original. Republicado com permissão.

Relacionado:

Fonte: https://www.kdnuggets.com/2021/09/openai-codex-challenges.html

Carimbo de hora:

Mais de KDnuggetsGenericName