Os 7 idiomas mais poderosos (LLM) e os modelos de linguagem de visão (VLM) transformando a IA em 2023

Os 7 idiomas mais poderosos (LLM) e os modelos de linguagem de visão (VLM) transformando a IA em 2023

Nó Fonte: 2757531

BLIP-2, modelos de linguagem de visão

No campo de rápida evolução da inteligência artificial, o processamento de linguagem natural tornou-se um ponto focal para pesquisadores e desenvolvedores. Construindo sobre os alicerces de Arquitetura do transformador e Atualização bidirecional do BERT, vários modelos de linguagem inovadores surgiram nos últimos anos, ultrapassando os limites do que as máquinas podem entender e gerar.

Neste artigo, vamos nos aprofundar nos últimos avanços no mundo dos modelos de linguagem em grande escala, explorando os aprimoramentos introduzidos por cada modelo, suas capacidades e possíveis aplicações. Também examinaremos os modelos de linguagem visual (VLMs) que são treinados para processar dados não apenas textuais, mas também visuais.

Se você quiser pular, aqui estão os modelos de idioma que apresentamos:

  1. GPT-3 da OpenAI
  2. LaMDA do Google
  3. PaLM do Google
  4. Flamingo por DeepMind
  5. BLIP-2 da Salesforce
  6. LLaMA por Meta AI
  7. GPT-4 da OpenAI

Se este conteúdo educacional aprofundado for útil para você, você pode assine nossa lista de discussão sobre pesquisa em IA para ser alertado quando lançarmos novo material. 

Os modelos de linguagem grande (LLMs) e modelos de linguagem visual (VLMs) mais importantes em 2023

1. GPT-3 da OpenAI

Resumo 

A equipe da OpenAI introduziu o GPT-3 como uma alternativa para ter um conjunto de dados rotulado para cada nova tarefa de idioma. Eles sugeriram que a ampliação dos modelos de linguagem pode melhorar o desempenho de poucos tiros independente da tarefa. Para testar essa sugestão, eles treinaram um modelo de linguagem autorregressiva de 175B parâmetros, chamado GPT-3, e avaliou seu desempenho em mais de duas dúzias de tarefas de PNL. A avaliação sob aprendizado de poucos tiros, aprendizado de tiro único e aprendizado de tiro zero demonstrou que o GPT-3 alcançou resultados promissores e até mesmo ocasionalmente superou os resultados de ponta alcançados por modelos ajustados. 

Qual é o objetivo? 

  • Sugerir uma solução alternativa para o problema existente, quando um conjunto de dados rotulado é necessário para cada nova tarefa de linguagem.

Como o problema é abordado?

  • Os pesquisadores sugeriram ampliar os modelos de linguagem para melhorar o desempenho de poucos disparos independente da tarefa. 
  • A GPT-3 model usa o mesmo modelo e arquitetura do GPT-2, incluindo inicialização modificada, pré-normalização e tokenização reversível.
  • No entanto, em contraste com o GPT-2, ele usa padrões alternados de atenção esparsa densos e localmente bandados nas camadas do transformador, como no Transformador Esparso.
GPT-3

Quais são os resultados?

  • O modelo GPT-3 sem ajuste fino alcança resultados promissores em uma série de tarefas de PNL e até mesmo ocasionalmente supera os modelos de última geração que foram ajustados para essa tarefa específica:
    • No CoQA benchmark, 81.5 F1 no ajuste de tiro zero, 84.0 F1 no ajuste de um tiro e 85.0 F1 no ajuste de poucos toques, em comparação com a pontuação de 90.7 F1 alcançada pelo SOTA ajustado.
    • No Trivia QA benchmark, 64.3% de precisão na configuração zero-shot, 68.0% na configuração one-shot e 71.2% na configuração few-shot, superando o estado da arte (68%) em 3.2%.
    • No LAMBADA conjunto de dados, 76.2% de precisão na configuração zero-shot, 72.5% na configuração one-shot e 86.4% na configuração few-shot, superando o estado da arte (68%) em 18%.
  • Os artigos de notícias gerados pelo modelo GPT-175 de parâmetro 3B são difíceis de distinguir dos reais, de acordo com avaliações humanas (com precisão pouco acima do nível de chance em ~ 52%). 
  • Apesar do desempenho notável do GPT-3, ele recebeu críticas mistas da comunidade de IA:
    • “O hype do GPT-3 é demais. É impressionante (obrigado pelos elogios simpáticos!), Mas ainda tem sérias fraquezas e às vezes comete erros muito bobos. IA vai mudar o mundo, mas GPT-3 é apenas um vislumbre muito inicial. Ainda temos muito que descobrir. ” - Sam Altman, CEO e cofundador da OpenAI.
    • “Estou chocado com a dificuldade de gerar um texto sobre muçulmanos do GPT-3 que não tenha nada a ver com violência ... ou ser morto ...” - Abubakar Abid, CEO e fundador da Gradio.
    • "Não. O GPT-3 fundamentalmente não entende o mundo de que fala. Aumentar ainda mais o corpus permitirá que ele gere um pastiche mais confiável, mas não consertará sua falta fundamental de compreensão do mundo. Demonstrações do GPT-4 ainda exigirão colheita humana. ” - Gary Marcus, CEO e fundador da Robust.ai.
    • “Extrapolar o desempenho espetacular do GPT3 para o futuro sugere que a resposta para a vida, o universo e tudo mais é de apenas 4.398 trilhões de parâmetros.” - Geoffrey Hinton, vencedor do Prêmio Turing.

Onde saber mais sobre esta pesquisa?

Onde você pode obter o código de implementação?

  • O código em si não está disponível, mas algumas estatísticas de conjunto de dados junto com amostras de tokens de 2048 não filtradas e incondicionais do GPT-3 foram lançadas em GitHub.

2. LaMDA do Google

Resumo 

Lalíngua Mmodelos para Ddiálogo Aaplicações (TheMDA) foram criados por meio do processo de ajuste fino de um grupo de modelos de linguagem neural baseados no Transformer que são projetados especificamente para diálogos. Esses modelos têm no máximo 137B de parâmetros e foram treinados para usar fontes externas de conhecimento. Os desenvolvedores do LaMDA tinham três objetivos principais em mente: qualidade, segurança e fundamentação. Os resultados demonstraram que o ajuste fino permite estreitar a lacuna de qualidade para níveis humanos, mas o desempenho do modelo permaneceu abaixo dos níveis humanos com relação à segurança e fundamentação. 

Bardo do Google, liberado recentemente como uma alternativa ao ChatGPT, é alimentado por LaMDA. Apesar de Bard ser frequentemente rotulado como chato, pode ser visto como evidência do compromisso do Google em priorizar a segurança, mesmo em meio à intensa rivalidade entre o Google e a Microsoft para estabelecer o domínio no campo da IA ​​generativa.

Qual é o objetivo? 

  • Construir um modelo para aplicações de diálogo de domínio aberto, onde um agente de diálogo seja capaz de conversar sobre qualquer assunto com respostas sensatas, específicas ao contexto, fundamentadas em fontes confiáveis ​​e éticas.

Como o problema é abordado?

  • O LaMDA é construído sobre transformador, uma arquitetura de rede neural que o Google Research inventou e abriu o código em 2017.
    • Como outros grandes modelos de linguagem, incluindo BERT e GPT-3, o LaMDA é treinado em terabytes de dados de texto para aprender como as palavras se relacionam umas com as outras e, em seguida, prever quais palavras provavelmente virão a seguir. 
    • No entanto, ao contrário da maioria dos modelos de linguagem, o LaMDA foi treinado no diálogo para captar as nuances que distinguem a conversa aberta de outras formas de linguagem.
  • O modelo também é ajustado para melhorar a sensibilidade, segurança e especificidade de suas respostas. Embora frases como “isso é legal” e “não sei” possam ser significativas em muitos cenários de diálogo, elas provavelmente não levarão a conversas interessantes e envolventes.
    • O gerador LaMDA primeiro gera várias respostas candidatas, todas pontuadas com base em quão seguras, sensatas, específicas e interessantes elas são. As respostas com pontuações de segurança baixas são filtradas e, em seguida, o resultado mais bem classificado é selecionado como resposta.
Exemplo de caixa de diálogo LaMDA

Quais são os resultados?

  • Numerosos experimentos mostram que o LaMDA pode participar de conversas abertas sobre uma variedade de tópicos.
  • Uma série de avaliações qualitativas confirmou que as respostas do modelo tendem a ser sensatas, específicas, interessantes e fundamentadas em fontes externas confiáveis, mas ainda há espaço para melhorias.
  • Apesar de todo o progresso obtido até o momento, os autores reconhecem que o modelo ainda apresenta muitas limitações que podem resultar na geração de respostas inadequadas ou até prejudiciais.

Onde saber mais sobre esta pesquisa?

Onde você pode obter o código de implementação?

  • Uma implementação PyTorch de código aberto para a arquitetura de pré-treinamento do LaMDA está disponível em GitHub.

3. PaLM do Google

Resumo 

Paassim Langústia Modelo (Palma) é um modelo de linguagem baseado no Transformer de 540 bilhões de parâmetros. O PaLM foi treinado em chips 6144 TPU v4 usando Pathways, um novo sistema ML para treinamento eficiente em vários TPU Pods. O modelo demonstra os benefícios do escalonamento no aprendizado de poucos tiros, alcançando resultados de ponta em centenas de benchmarks de geração e compreensão de linguagem. O PaLM supera os modelos de última geração em tarefas de raciocínio de várias etapas e supera o desempenho humano médio no benchmark BIG-bench.

Qual é o objetivo? 

  • Para melhorar a compreensão de como o dimensionamento de grandes modelos de linguagem afeta o aprendizado de poucos tiros.

Como o problema é abordado?

  • A ideia principal é dimensionar o treinamento de um modelo de linguagem de 540 bilhões de parâmetros com o sistema Pathways:
    • A equipe estava usando paralelismo de dados no nível do pod em dois pods do Cloud TPU v4 enquanto usava dados padrão e paralelismo de modelo em cada pod.
    • Eles conseguiram escalar o treinamento para 6144 chips TPU v4, a maior configuração de sistema baseada em TPU usada para treinamento até o momento.
    • O modelo alcançou uma eficiência de treinamento de 57.8% de utilização de FLOPs de hardware, que, como afirmam os autores, é a maior eficiência de treinamento já alcançada para grandes modelos de linguagem nessa escala. 
  • Os dados de treinamento para o modelo PaLM incluíram uma combinação de conjuntos de dados em inglês e multilíngue contendo documentos da Web de alta qualidade, livros, Wikipedia, conversas e código GitHub.
Modelo PaLM do Google

Quais são os resultados?

  • Numerosos experimentos demonstram que o desempenho do modelo aumentou acentuadamente à medida que a equipe escalou para seu maior modelo.
  • O PaLM 540B alcançou um desempenho inovador em várias tarefas muito difíceis:
    • Compreensão e geração de linguagem. O modelo introduzido superou o desempenho de poucos tiros de modelos grandes anteriores em 28 de 29 tarefas que incluem tarefas de resposta a perguntas, tarefas de fechamento e conclusão de frases, tarefas de compreensão de leitura no contexto, tarefas de raciocínio de senso comum, tarefas SuperGLUE e mais. O desempenho do PaLM em tarefas do BIG-bench mostrou que ele pode distinguir causa e efeito, bem como entender combinações conceituais em contextos apropriados.
    • Raciocínio. Com prompt de 8 tiros, o PaLM resolve 58% dos problemas no GSM8K, uma referência de milhares de questões desafiadoras de matemática em nível de ensino fundamental, superando a pontuação máxima anterior de 55% alcançada pelo ajuste fino do modelo GPT-3 175B. O PaLM também demonstra a capacidade de gerar explicações explícitas em situações que exigem uma combinação complexa de inferência lógica de várias etapas, conhecimento do mundo e compreensão profunda da linguagem.
    • Geração de código. O PaLM funciona no mesmo nível do Codex 12B ajustado ao usar 50 vezes menos código Python para treinamento, confirmando que grandes modelos de linguagem transferem o aprendizado de outras linguagens de programação e dados de linguagem natural com mais eficiência.

Onde saber mais sobre esta pesquisa?

Onde você pode obter o código de implementação?

  • Uma implementação não oficial do PyTorch da arquitetura Transformer específica do trabalho de pesquisa PaLM está disponível em GitHub. Ele não será dimensionado e é publicado apenas para fins educacionais. 

4. Flamingo por DeepMind

Resumo 

Flamingo é uma família de ponta de Modelos de Linguagem Visual (VLMs), treinados em corpora web multimodais de grande escala com texto e imagens misturados. Com esse treinamento, os modelos podem se adaptar a novas tarefas usando exemplos anotados mínimos, fornecidos como um prompt. O Flamingo incorpora os principais avanços arquitetônicos projetados para mesclar os pontos fortes de modelos pré-treinados somente de visão e somente de linguagem, processar sequências de dados visuais e textuais intercalados de forma variável e acomodar imagens ou vídeos como entradas de forma contínua. Os modelos demonstram capacidade de adaptação impressionante a uma variedade de tarefas de imagem e vídeo, como respostas a perguntas visuais, tarefas de legendas e respostas a perguntas visuais de múltipla escolha, estabelecendo novos padrões de desempenho usando prompts específicos de tarefas no aprendizado de poucas fotos.

Qual é o objetivo? 

  • Para progredir no sentido de permitir que modelos multimodais aprendam rapidamente e executem novas tarefas com base em instruções curtas:
    • O paradigma amplamente usado de pré-treinamento de um modelo em uma grande quantidade de dados supervisionados e, em seguida, ajustá-lo para a tarefa específica, consome muitos recursos e requer milhares de pontos de dados anotados, juntamente com o ajuste cuidadoso de hiperparâmetros por tarefa. 
    • Os modelos atuais que usam um objetivo contrastivo permitem a adaptação instantânea a novas tarefas, mas ficam aquém de tarefas mais abertas, como legendas ou respostas visuais a perguntas, porque não possuem recursos de geração de linguagem. 
    • Esta pesquisa visa apresentar um novo modelo que aborda efetivamente essas questões e demonstra desempenho superior em regimes de dados baixos.

Como o problema é abordado?

  • O DeepMind introduziu o Flamingo, VLMs projetados para aprendizado de poucos tiros em várias tarefas de visão e linguagem abertas, usando apenas alguns exemplos de entrada/saída.
  • Os modelos Flamingo são modelos de geração de texto autorregressivos visualmente condicionados que podem processar tokens de texto misturados com imagens e/ou vídeos e gerar texto como saída.
  • A arquitetura do Flamingo incorpora dois modelos pré-treinados e congelados complementares:
    • Um modelo de visão capaz de “perceber” cenas visuais.
    • Um grande modelo de linguagem encarregado de executar o raciocínio básico.
  • Novos componentes de arquitetura integram esses modelos de uma forma que retém o conhecimento adquirido durante seu pré-treinamento computacionalmente intensivo.
  • Além disso, os modelos Flamingo apresentam uma arquitetura baseada no Perceiver, permitindo que eles absorvam imagens ou vídeos de alta resolução. Essa arquitetura pode gerar um número fixo de tokens visuais por imagem/vídeo a partir de uma ampla e variável matriz de recursos de entrada visual.

Quais são os resultados?

  • A pesquisa mostra que, da mesma forma que os LLMs, que são bons aprendizes de poucas fotos, os VLMs podem aprender com alguns exemplos de entrada/saída para tarefas de compreensão de imagem e vídeo, como classificação, legendagem ou resposta a perguntas.
  • O Flamingo estabelece uma nova referência em aprendizado de poucos disparos, demonstrando desempenho superior em uma ampla gama de 16 tarefas multimodais de linguagem e compreensão de imagem/vídeo.
  • Para 6 dessas 16 tarefas, o Flamingo supera o desempenho do estado da arte aprimorado, embora utilize apenas 32 exemplos específicos de tarefas - aproximadamente 1000 vezes menos dados de treinamento específicos de tarefas do que os modelos atuais de melhor desempenho.
Modelo de linguagem de visão Flamingo

Onde saber mais sobre esta pesquisa?

Onde você pode obter o código de implementação?

5. BLIP-2 da Salesforce

Resumo 

O BLIP-2 é uma estrutura de pré-treinamento eficiente e genérica para modelos de visão e linguagem, projetada para contornar o custo cada vez mais proibitivo de modelos de grande escala de pré-treinamento. O BLIP-2 utiliza codificadores de imagem pré-treinados congelados prontos para uso e modelos de linguagem grandes congelados para inicializar o pré-treinamento de linguagem de visão, incorporando um Transformer de consulta leve pré-treinado em dois estágios. O primeiro estágio inicia o aprendizado de representação de linguagem de visão a partir de um codificador de imagem congelada, e o segundo estágio impulsiona o aprendizado generativo de visão para linguagem a partir de um modelo de idioma congelado. Apesar de ter significativamente menos parâmetros treináveis, o BLIP-2 supera os métodos de ponta, superando o Flamingo80B da DeepMind em 8.7% no VQAv2 zero-shot com 54x menos parâmetros treináveis. O modelo também exibe recursos promissores de geração de imagem para texto com zero-shot seguindo instruções de linguagem natural.

estrutura BLIP-2
Visão geral da estrutura do BLIP-2

Qual é o objetivo? 

  • Para obter desempenho de ponta em tarefas de linguagem de visão, reduzindo os custos de computação.

Como o problema é abordado?

  • A equipe do Salesforce apresentou uma nova estrutura de pré-treinamento de linguagem de visão chamada BLIP-2, Bootstrapping Lidioma-Imago Pretreinamento com modelos unimodais congelados:
    • Os modelos unimodais pré-treinados permanecem congelados durante o pré-treinamento para reduzir o custo de computação e evitar o esquecimento catastrófico.
    • Para facilitar o alinhamento entre modais e preencher a lacuna de modalidade entre modelos de visão pré-treinados e modelos de linguagem pré-treinados, a equipe propõe um transformador de consulta leve (Q-Former) que atua como um gargalo de informações entre o codificador de imagem congelada e o LLM.
    • O Q-former é pré-treinado com uma nova estratégia de dois estágios:
      • A primeira etapa do pré-treinamento realiza o aprendizado da representação visual-linguagem. Isso obriga o Q-Former a aprender a representação visual mais relevante para o texto.
      • O segundo estágio de pré-treinamento realiza aprendizado generativo de visão para linguagem conectando a saída do Q-Former a um LLM congelado. O Q-Former é treinado de forma que sua representação visual de saída possa ser interpretada pelo LLM.

Quais são os resultados?

  • O BLIP-2 oferece resultados excepcionais e de última geração em uma variedade de tarefas de linguagem de visão, abrangendo respostas a perguntas visuais, legendas de imagens e recuperação de texto de imagem.
    • Por exemplo, supera o Flamingo em 8.7% no VQAv2 zero-shot.
  • Além disso, esse excelente desempenho é alcançado com uma eficiência significativamente maior do computador:
    • O BLIP-2 supera o Flamingo-80B enquanto usa 54 vezes menos parâmetros treináveis. 
  • O BLIP-2 tem a capacidade de realizar geração zero-shot de imagem para texto em resposta a instruções de linguagem natural, abrindo caminho para o desenvolvimento de habilidades como raciocínio de conhecimento visual e conversação visual, entre outras.
  • Por fim, é importante observar que o BLIP-2 é uma abordagem versátil que pode alavancar modelos unimodais mais sofisticados para aprimorar ainda mais o desempenho do pré-treinamento visão-linguagem.
Resultados do BLIP-2
Resultados do BLIP-2

Onde saber mais sobre esta pesquisa?

Onde você pode obter o código de implementação?

A implementação oficial do BLIP-2 está disponível em GitHub.

6. LLaMA por Meta AI

Resumo 

A equipe Meta AI afirma que modelos menores treinados em mais tokens são mais fáceis de treinar e ajustar para aplicativos de produtos específicos. Portanto, eles apresentam chamadas (Large Lalíngua Modelo Meta AI), uma coleção de modelos de linguagem fundamentais com parâmetros 7B a 65B. LLaMA 33B e 65B foram treinados em 1.4 trilhão de tokens, enquanto o menor modelo, LLaMA 7B, foi treinado em um trilhão de tokens. Eles usaram exclusivamente conjuntos de dados disponíveis publicamente, sem depender de dados proprietários ou restritos. A equipe também implementou melhorias arquitetônicas importantes e técnicas de otimização de velocidade de treinamento. Consequentemente, o LLaMA-13B superou o GPT-3, sendo 10 vezes menor, e o LLaMA-65B exibiu desempenho competitivo com o PaLM-540B.

Qual é o objetivo? 

  • Demonstrar a viabilidade de treinar modelos de alto desempenho apenas em conjuntos de dados acessíveis publicamente, sem depender de fontes de dados proprietárias ou restritas.
  • Fornecer à comunidade de pesquisa modelos menores e com melhor desempenho e, assim, permitir que aqueles que não têm acesso a grandes quantidades de infraestrutura estudem grandes modelos de linguagem.

Como o problema é abordado?

  • Para treinar o modelo LLaMA, os pesquisadores usaram apenas dados disponíveis publicamente e compatíveis com código aberto.
  • Eles também introduziram algumas melhorias na arquitetura padrão do Transformer:
    • Adotando a metodologia GPT-3, a estabilidade do treinamento foi aprimorada normalizando a entrada para cada subcamada do transformador, em vez de normalizar a saída.
    • Inspirados nos modelos PaLM, os pesquisadores substituíram a não linearidade ReLU pela função de ativação SwiGLU, para melhorar o desempenho.
    • Inspirado por Su e outros (2021) See More, eles eliminaram as incorporações posicionais absolutas e, em vez disso, incorporaram incorporações posicionais rotativas (RoPE) em todas as camadas da rede.
  • Finalmente, a equipe Meta AI melhorou a velocidade de treinamento de seu modelo:
    • Usando a implementação de atenção multicabeça causal eficiente, não armazenando pesos de atenção ou calculando pontuações de chave/consulta mascaradas.
    • Usando o ponto de verificação para minimizar as ativações recalculadas durante a passagem para trás.
    • Sobrepondo o cálculo de ativações e a comunicação entre GPUs na rede (devido a operações all_reduce).

Quais são os resultados?

  • O LLaMA-13B supera o GPT-3, apesar de ser 10 vezes menor, enquanto o LLaMA-65B se mantém contra o PaLM-540B.

Onde saber mais sobre esta pesquisa?

Onde você pode obter o código de implementação?

  • A Meta AI fornece acesso ao LLaMA para pesquisadores acadêmicos, indivíduos associados ao governo, sociedade civil, instituições acadêmicas e laboratórios de pesquisa da indústria global com base na avaliação de casos individuais. Para se candidatar, vá para o seguinte Repositório GitHub.

7. GPT-4 da OpenAI

Resumo 

GPT-4 é um modelo multimodal de grande escala que aceita entradas de imagem e texto e gera saídas de texto. Devido a preocupações competitivas e de segurança, detalhes específicos sobre a arquitetura e o treinamento do modelo são omitidos. Em termos de desempenho, o GPT-4 supera os modelos de linguagem anteriores em benchmarks tradicionais e mostra melhorias significativas na compreensão da intenção do usuário e nas propriedades de segurança. O modelo também alcança desempenho de nível humano em vários exames, incluindo uma pontuação máxima de 10% em um exame de barra uniforme simulado.

Qual é o objetivo? 

  • Desenvolver um modelo multimodal em larga escala que possa aceitar entradas de imagem e texto e produzir saídas de texto. 
  • Desenvolver métodos de infraestrutura e otimização que se comportem de maneira previsível em uma ampla gama de escalas.

Como o problema é abordado?

  • Devido ao cenário competitivo e às implicações de segurança, a OpenAI decidiu reter detalhes sobre arquitetura, tamanho do modelo, hardware, computação de treinamento, construção de conjunto de dados e métodos de treinamento.
  • Eles divulgam que:
    • GPT-4 é um modelo baseado em Transformer, pré-treinado para prever o próximo token em um documento.
    • Ele utiliza dados publicamente disponíveis e dados licenciados de terceiros.
    • O modelo foi ajustado usando o Reinforcement Learning from Human Feedback (RLHF).
  • Informações não confirmadas sugerem que o GPT-4 não é um modelo denso singular como seus predecessores, mas uma poderosa coalizão de oito modelos separados, cada um com impressionantes 220 bilhões de parâmetros.
Desempenho GPT-4

Quais são os resultados?

  • O GPT-4 atinge desempenho de nível humano na maioria dos exames profissionais e acadêmicos, marcando notavelmente entre os 10% melhores em um Exame de Ordem Uniforme simulado.
  • O modelo GPT-4 básico pré-treinado supera os modelos de linguagem existentes e os sistemas de última geração em benchmarks tradicionais de NLP, sem elaboração específica de benchmark ou protocolos de treinamento adicionais.
  • O GPT-4 demonstra uma melhoria substancial em seguir a intenção do usuário, com suas respostas preferidas às respostas do GPT-3.5 em 70.2% dos 5,214 prompts do ChatGPT e da API OpenAI.
  • As propriedades de segurança do GPT-4 melhoraram significativamente em comparação com o GPT-3.5, com uma redução de 82% na resposta a solicitações de conteúdo não permitido e um aumento de 29% na conformidade com políticas para solicitações confidenciais (por exemplo, aconselhamento médico e automutilação).

Onde saber mais sobre esta pesquisa?

Onde você pode obter o código de implementação?

  • A implementação de código de GPT-4 não está disponível.

Aplicações do mundo real de modelos de linguagem grandes (visão)

Os avanços de pesquisa de IA mais significativos dos últimos anos vêm de grandes modelos de IA treinados em enormes conjuntos de dados. Esses modelos demonstram desempenho impressionante e é fascinante pensar como a IA pode revolucionar setores inteiros, como atendimento ao cliente, marketing, comércio eletrônico, saúde, desenvolvimento de software, jornalismo e muitos outros.

Grandes modelos de linguagem têm inúmeras aplicações no mundo real. GPT-4 lista o seguinte:

  • Compreensão e geração de linguagem natural para chatbots e assistentes virtuais.
  • Tradução automática entre idiomas.
  • Resumo de artigos, relatórios ou outros documentos de texto.
  • Análise de sentimento para pesquisa de mercado ou monitoramento de mídia social.
  • Geração de conteúdo para marketing, mídia social ou redação criativa.
  • Sistemas de resposta a perguntas para suporte ao cliente ou bases de conhecimento.
  • Classificação de texto para filtragem de spam, categorização de tópicos ou organização de documentos.
  • Ferramentas personalizadas de aprendizado e tutoria de idiomas.
  • Geração de código e assistência no desenvolvimento de software.
  • Análise e assistência médica, jurídica e técnica de documentos.
  • Ferramentas de acessibilidade para pessoas com deficiência, como conversão de texto em fala e fala em texto.
  • Serviços de reconhecimento de fala e transcrição.

Se adicionarmos uma parte visual, as áreas de possíveis aplicações se expandem ainda mais:

É muito empolgante acompanhar os recentes avanços da IA ​​e pensar sobre suas possíveis aplicações no mundo real. No entanto, antes de implantar esses modelos na vida real, precisamos abordar os riscos e limitações correspondentes, que infelizmente são bastante significativos.

Riscos e Limitações

Se você perguntar ao GPT-4 sobre seus riscos e limitações, ele provavelmente fornecerá uma longa lista de preocupações relevantes. Depois de filtrar esta lista e adicionar algumas considerações adicionais, acabei com o seguinte conjunto de principais riscos e limitações possuídos por modelos de linguagem grandes modernos:

  1. Preconceito e discriminação: esses modelos aprendem com grandes quantidades de dados de texto, que geralmente contêm tendências e conteúdo discriminatório. Como resultado, os resultados gerados podem inadvertidamente perpetuar estereótipos, linguagem ofensiva e discriminação com base em fatores como gênero, raça ou religião.
  2. Desinformação: modelos de linguagem grandes podem gerar conteúdo factualmente incorreto, enganoso ou desatualizado. Embora os modelos sejam treinados em diversas fontes, eles nem sempre fornecem as informações mais precisas ou atualizadas. Muitas vezes isso acontece porque o modelo prioriza a geração de saídas que são gramaticalmente corretas ou parecem coerentes, mesmo que sejam enganosas.
  3. Falta de entendimento: embora esses modelos pareçam entender a linguagem humana, eles operam principalmente identificando padrões e associações estatísticas nos dados de treinamento. Eles não têm uma compreensão profunda do conteúdo que geram, o que às vezes pode resultar em resultados sem sentido ou irrelevantes.
  4. Conteúdo inadequado : os modelos de linguagem às vezes podem gerar conteúdo ofensivo, prejudicial ou inapropriado. Embora sejam feitos esforços para minimizar esse conteúdo, ele ainda pode ocorrer devido à natureza dos dados de treinamento e à incapacidade dos modelos de discernir o contexto ou a intenção do usuário.

Conclusão

Grandes modelos de linguagem sem dúvida revolucionaram o campo do processamento de linguagem natural e demonstraram imenso potencial para aumentar a produtividade em várias funções e setores. Sua capacidade de gerar texto semelhante ao humano, automatizar tarefas mundanas e fornecer assistência em processos criativos e analíticos os tornou ferramentas indispensáveis ​​no mundo acelerado e impulsionado pela tecnologia de hoje.

No entanto, é crucial reconhecer e compreender as limitações e os riscos associados a esses modelos poderosos. Questões como preconceito, desinformação e o potencial de uso malicioso não podem ser ignorados. À medida que continuamos a integrar essas tecnologias baseadas em IA em nossas vidas diárias, é essencial encontrar um equilíbrio entre alavancar suas capacidades e garantir a supervisão humana, principalmente em situações delicadas e de alto risco.

Se conseguirmos adotar tecnologias de IA generativas com responsabilidade, abriremos o caminho para um futuro em que a inteligência artificial e a experiência humana trabalhem juntas para impulsionar a inovação e criar um mundo melhor para todos.

Gostou deste artigo? Inscreva-se para mais atualizações de pesquisa de IA.

Avisaremos quando lançarmos mais artigos de resumo como este.

Carimbo de hora:

Mais de TOPBOTS