Grandes modelos de linguagem na empresa: é hora de encontrar um meio termo - DATAVERSITY

Grandes modelos de linguagem na empresa: é hora de encontrar um meio-termo – DATAVERSITY

Nó Fonte: 2738155

ChatGPT, o chatbot de conversação lançado pela OpenAI em novembro, conquistou 100 milhões de usuários em apenas dois meses, tornando-se o aplicativo de consumo que mais cresce na história da Internet. Mas a tecnologia que sustenta o ChatGPT também é relevante e atraente para as empresas. Como você já deve saber, GPT significa transformador pré-treinado generativo, que é a tecnologia subjacente à criação do modelo de linguagem grande (LLM). Como grandes modelos de linguagem são treinados em grandes quantidades de dados, eles podem executar uma variedade de tarefas de processamento de linguagem natural (NLP).

O hype em torno de grandes modelos de linguagem ecoa o hype inicial em torno da inteligência artificial (IA) ampliada, pois muitas pessoas estão falando sobre o que é possível com a tecnologia, mas menos pessoas estão discutindo publicamente os detalhes práticos de colocá-la em prática, especialmente em um contexto empresarial. Muitas pesquisas e tentativas práticas de fazer essa tecnologia funcionar para empresas estão acontecendo nos bastidores, e muitos dos que estão trabalhando nisso concordam que acaba sendo muito mais difícil do que se poderia pensar, dado o extraordinário sucesso e popularidade de ChatGPT entre pessoas comuns (não técnicas ou não diretamente envolvidas em IA ou TI).

Duas escolas de pensamento de IA

Uma coisa importante a entender sobre a IA em geral é que existem duas grandes escolas de pensamento ou abordagens com relação à construção e implementação de sistemas de IA.

De um lado, temos a IA tradicional, em que os pesquisadores estão tentando construir algo tijolo por tijolo, aproveitando algoritmos sofisticados baseados em regras, métodos formais, lógica e raciocínio. Esses pesquisadores são muito rigorosos na compreensão e reprodução dos princípios subjacentes de como as pessoas pensam e processam informações. Por exemplo, eles traçam uma linha clara entre a semântica (o significado) e a sintaxe (a expressão, a forma superficial) da linguagem e acreditam que a modelagem puramente probabilística da linguagem não representa a semântica subjacente, portanto não pode resultar em soluções verdadeiramente “inteligentes”. Um grande problema com essa abordagem é que ela resulta em aplicativos de IA muito complexos, difíceis de manter e de dimensionar; aprendizado de máquina paradigma, onde deixamos o modelo aprender com os dados em vez de implementar regras manualmente.

Por outro lado, temos uma comunidade de aprendizado profundo que conquistou o campo da IA ​​como uma tempestade. Em essência, em vez de construir um sistema inteligente tijolo por tijolo desde o início, estamos lançando uma enorme quantidade de dados nele e pedindo que aprenda com esses dados usando o método GPT, mas não sabemos exatamente o que eles acabam aprendendo além das probabilidades de palavras se seguirem umas às outras e quão bem elas “entendem” os conceitos subjacentes. Por fim, estamos tentando sondar esses modelos em busca de conhecimento para entendê-los melhor e ajustá-los em conjuntos de dados mais controlados que mudam suas distribuições em direção ao resultado desejado. Porque não sabemos e não entendemos exatamente a profundidade do conhecimento desses modelos e não sabemos como controlá-los ou corrigi-los de forma confiável, é difícil garantir a qualidade dos resultados que eles produzem, portanto, é difícil para construir aplicativos confiáveis ​​sobre esses modelos. Esses modelos, de fato, são muito bons em imitar respostas significativas no nível sintático, mas são uma grande aposta no nível semântico. Por mais que gostássemos de ter uma solução de ponta a ponta em que você treina um modelo e tudo funciona magicamente, o que acabamos fazendo é uma solução de engenharia bastante complexa, na qual tentamos inserir regras criadas à mão no aprendizado de máquina aplicativos baseados em LLMs ou combine LLMs com modelos menores e mais determinísticos que ajudam a mitigar a natureza desenfreada dos LLMs. Isso envolve muitos processos humanos no loop, nos quais um humano corrige manualmente as saídas ou seleciona a melhor resposta em uma lista de opções que o LLM produziu. 

Por muito tempo, “end-to-end” foi uma linha de pesquisa com poucos resultados, especialmente na área de IA conversacional na qual trabalho há mais de 15 anos. Foi difícil avaliar os modelos de diálogo generativo e ver o progresso, então recorremos a métodos de blocos de construção mais tradicionais, onde cada modelo de aprendizado de máquina é responsável por uma tarefa muito específica e pode executá-la razoavelmente bem. Com avanços significativos no hardware necessário para treinar modelos de IA e a descoberta da tecnologia GPT, mais pessoas se afastaram da abordagem de blocos de construção e se aproximaram da escola de pensamento “ponta a ponta”, e agora estamos vendo um progresso impressionante e sem precedentes nessas soluções “end-to-end”, no entanto, ainda há um longo caminho a percorrer antes que possamos obter resultados confiáveis ​​dessa tecnologia em si. 

Encontrando um meio termo

Embora o paradigma de ponta a ponta seja atraente por vários motivos, há muitos casos em que a adoção em toda a empresa é simplesmente rápida demais. Como modelos grandes podem ser caixas pretas, o processo de ajuste da arquitetura do modelo pode ser extremamente difícil. Para obter o controle de grandes modelos de linguagem, as pessoas geralmente são forçadas a recorrer a métodos tradicionais, como conectar alguns algoritmos leves baseados em regras. Embora o pêndulo tenha oscilado de modelos menores para um grande modelo, a abordagem mais eficaz provavelmente está em algum lugar intermediário. 

Esta tendência é evidente no que diz respeito para IA generativa, por exemplo. Sam Altman, CEO da OpenAI, disse que os modelos da próxima geração não serão maiores. Em vez disso, eles serão menores e mais direcionados. Embora modelos de linguagem grandes sejam melhores para gerar texto natural ou fluente, qualquer coisa factual é melhor vinda de diferentes subsistemas. No futuro, as responsabilidades desses subsistemas provavelmente serão transferidas de volta para o modelo de linguagem grande. Mas, enquanto isso, estamos vendo uma leve reversão aos métodos mais tradicionais. 

O futuro dos grandes modelos de linguagem na empresa

Antes de pular direto para um paradigma de ponta a ponta, é recomendável que as empresas avaliem sua própria prontidão para usar essa tecnologia, pois qualquer novo aplicativo vem com uma curva de aprendizado e problemas imprevistos. Embora o ChatGPT seja considerado o ápice dessa tecnologia, ainda há muito trabalho a ser feito para ser eficaz em um contexto empresarial. 

À medida que as empresas procuram implementar LLMs, muitas questões permanecem. A maioria das empresas ainda está na fase de simplesmente descobrir o que querem dela. Perguntas comuns incluem:

  • Como posso aproveitar os LLMs?
  • Preciso contratar novas pessoas?
  • Preciso trabalhar com um fornecedor terceirizado? 
  • O que os LLMs realmente podem fazer?

Essas questões devem ser consideradas cuidadosamente antes de você mergulhar de cabeça. Do jeito que as coisas estão atualmente, grandes modelos de linguagem não podem resolver todos os problemas que as pessoas esperavam que resolvessem imediatamente. Mas, eles provavelmente serão capazes de fazê-lo nos próximos cinco anos ou mais. Enquanto isso, a implantação de aplicativos prontos para produção requer encontrar um meio termo entre a abordagem de bloco de construção tradicional e a abordagem de ponta a ponta. 

Carimbo de hora:

Mais de DATAVERSIDADE