7년 AI를 혁신하는 가장 강력한 2023개 언어(LLM) 및 비전 언어 모델(VLM)

7년 AI를 혁신하는 가장 강력한 2023개 언어(LLM) 및 비전 언어 모델(VLM)

소스 노드 : 2757531

BLIP-2, 비전 언어 모델

빠르게 진화하는 인공 지능 분야에서 자연어 처리는 연구자와 개발자 모두에게 초점이 되었습니다. 의 기초 위에 구축 변압기 아키텍처BERT의 양방향 업그레이드, 최근 몇 년 동안 몇 가지 획기적인 언어 모델이 등장하여 기계가 이해하고 생성할 수 있는 범위를 넓혔습니다.

이 기사에서는 대규모 언어 모델 세계의 최신 발전을 탐구하고 각 모델에 도입된 개선 사항, 해당 기능 및 잠재적 응용 프로그램을 탐색합니다. 또한 텍스트 데이터뿐만 아니라 시각적 데이터도 처리하도록 훈련된 VLM(시각적 언어 모델)을 살펴보겠습니다.

건너뛰고 싶다면 다음과 같은 언어 모델을 살펴보세요.

  1. OpenAI의 GPT-3
  2. Google의 LaMDA
  3. Google의 PaLM
  4. DeepMind의 플라밍고
  5. Salesforce의 BLIP-2
  6. Meta AI의 LLaMA
  7. OpenAI의 GPT-4

이 심층 교육 콘텐츠가 유용하다면 AI 연구 메일 링리스트 구독 새로운 자료를 공개 할 때 경고를받습니다. 

2023년 가장 중요한 LLM(Large Language Model) 및 VLM(Visual Language Model)

1. OpenAI의 GPT-3

요약 

OpenAI 팀은 모든 새로운 언어 작업에 대해 레이블이 지정된 데이터 세트를 사용하는 대신 GPT-3를 도입했습니다. 그들은 언어 모델을 확장하면 작업에 구애받지 않는 소수의 성능을 향상시킬 수 있다고 제안했습니다. 이 제안을 테스트하기 위해 그들은 175B 매개변수 자동회귀 언어 모델을 훈련시켰습니다. GPT-3, 3개 이상의 NLP 작업에 대한 성능을 평가했습니다. 퓨샷 학습, 원샷 학습 및 제로샷 학습에서의 평가는 GPT-XNUMX가 유망한 결과를 달성했으며 때로는 미세 조정 모델이 달성한 최신 결과를 능가하는 것으로 나타났습니다. 

목표는 무엇입니까? 

  • 모든 새로운 언어 작업에 레이블이 지정된 데이터 세트가 필요할 때 기존 문제에 대한 대안 솔루션을 제안합니다.

문제는 어떻게 접근합니까?

  • 연구원들은 작업에 구애받지 않는 몇 번의 샷 성능을 향상시키기 위해 언어 모델을 확장할 것을 제안했습니다. 
  • XNUMXD덴탈의 GPT-3 모델은 수정된 초기화, 사전 정규화 및 가역적 토큰화를 포함하여 GPT-2와 동일한 모델 및 아키텍처를 사용합니다.
  • 그러나 GPT-2와는 달리 변압기의 레이어에서 밀도가 높고 국부적으로 줄무늬가있는 희소주의 패턴을 교대로 사용합니다. 스파 스 트랜스포머.
GPT-3

결과는 무엇입니까?

  • 미세 조정이없는 GPT-3 모델은 여러 NLP 작업에서 유망한 결과를 달성하고 때로는 특정 작업에 대해 미세 조정 된 최신 모델을 능가합니다.
    • 코QA 벤치 마크, 제로 샷 설정에서 81.5 F1, 원샷 설정에서 84.0 F1, 그리고 미세 조정 된 SOTA로 달성 된 85.0 F1 점수와 비교하여 몇 번 설정에서 90.7 F1.
    • 트리 비아 QA 벤치 마크, 제로 샷 설정에서 64.3 % 정확도, 원샷 설정에서 68.0 %, 몇 샷 설정에서 71.2 %로 최신 (68 %)을 3.2 % 능가했습니다.
    • 람바다 데이터 세트, 제로 샷 설정에서 76.2 % 정확도, 원샷 설정에서 72.5 %, 그리고 몇 샷 설정에서 86.4 %로 최첨단 (68 %)을 18 % 능가했습니다.
  • 인간의 평가에 따르면 175B 매개 변수 GPT-3 모델로 생성 된 뉴스 기사는 실제 기사와 구별하기 어렵습니다 (정확도는 ~ 52 %의 확률 수준보다 거의 높음). 
  • GPT-3의 놀라운 성능에도 불구하고 AI 커뮤니티에서는 엇갈린 평가를 받았습니다.
    • “GPT-3 과대 광고는 너무 많습니다. 인상적이지만 (좋은 칭찬에 감사드립니다!) 여전히 심각한 약점이 있고 때로는 매우 어리석은 실수를합니다. AI는 세상을 바꿀 것이지만 GPT-3는 아주 초기 단계에 불과합니다. 우리는 아직 알아낼 ​​것이 많습니다.” – OpenAI의 CEO 겸 공동 설립자 Sam Altman.
    • “폭력이나 살해와는 무관 한 GPT-3에서 무슬림에 대한 텍스트를 생성하는 것이 얼마나 힘든지 놀랐습니다…”– Gradio의 CEO이자 설립자 인 Abubakar Abid.
    • "아니. GPT-3는 근본적으로 그것이 말하는 세상을 이해하지 못합니다. 말뭉치를 더 늘리면 더 신뢰할 수있는 파스 티슈를 생성 할 수 있지만 근본적인 세계 이해 부족을 고칠 수는 없습니다. GPT-4 데모에는 여전히 인간 체리 따기가 필요합니다. " – Robust.ai의 CEO 겸 설립자 Gary Marcus.
    • "GPT3의 놀라운 성능을 미래로 외삽하면 생명, 우주 및 모든 것에 대한 답이 4.398 조 매개 변수에 불과하다는 것을 알 수 있습니다." – Geoffrey Hinton, Turing Award 수상자.

이 연구에 대해 자세히 알아볼 수 있는 곳은 어디입니까?

구현 코드는 어디서 구할 수 있습니까?

  • 코드 자체는 사용할 수 없지만 GPT-2048의 무조건 필터링되지 않은 3 개 토큰 샘플과 함께 일부 데이터 세트 통계는 GitHub의.

2. Google의 LaMDA

요약 

La언어 M에 대한 오델 D대화 A응용 프로그램(람다)은 대화를 위해 특별히 설계된 Transformer 기반 신경 언어 모델 그룹을 미세 조정하는 과정을 통해 만들어졌습니다. 이 모델은 최대 137B 매개변수를 가지며 외부 지식 소스를 사용하도록 훈련되었습니다. LaMDA 개발자는 품질, 안전 및 접지라는 세 가지 주요 목표를 염두에 두었습니다. 결과는 미세 조정을 통해 품질 격차를 인간 수준으로 좁힐 수 있지만 모델의 성능은 안전 및 접지와 관련하여 인간 수준보다 낮은 것으로 나타났습니다. 

구글의 바드, 출시 최근 ChatGPT의 대안으로 LaMDA가 제공합니다. Bard는 종종 지루한, 제너레이티브 AI 분야에서 우위를 점하기 위한 구글과 마이크로소프트의 치열한 경쟁 속에서도 안전을 최우선으로 하겠다는 구글의 의지의 증거로 볼 수 있다.

목표는 무엇입니까? 

  • 개방형 도메인 대화 응용 프로그램을 위한 모델을 구축하기 위해 대화 에이전트는 모든 주제에 대해 대화할 수 있으며 응답은 합리적이고 상황에 따라 다르며 신뢰할 수 있는 소스를 기반으로 하며 윤리적입니다.

문제는 어떻게 접근합니까?

  • LaMDA는 변신 로봇, Google Research가 2017년에 발명하고 오픈 소스로 제공한 신경망 아키텍처입니다.
    • BERT 및 GPT-3을 포함한 다른 대규모 언어 모델과 마찬가지로 LaMDA는 단어가 서로 어떻게 관련되어 있는지 학습한 다음 다음에 나올 단어를 예측하기 위해 테라바이트의 텍스트 데이터에 대해 교육을 받습니다. 
    • 그러나 대부분의 언어 모델과 달리 LaMDA는 개방형 대화를 다른 형태의 언어와 구별하는 뉘앙스를 파악하기 위해 대화에 대해 교육을 받았습니다.
  • 이 모델은 또한 응답의 민감성, 안전성 및 특이성을 개선하기 위해 미세 조정됩니다. "좋네요" 및 "모르겠어요"와 같은 문구는 많은 대화 시나리오에서 의미가 있을 수 있지만 흥미롭고 매력적인 대화로 이어지지는 않습니다.
    • LaMDA 생성기는 먼저 몇 가지 후보 응답을 생성하며, 모두 응답이 얼마나 안전하고, 합리적이며, 구체적이고, 흥미로운지에 따라 점수가 매겨집니다. 안전성 점수가 낮은 응답을 필터링한 다음 순위가 가장 높은 결과를 응답으로 선택합니다.
LaMDA 대화 상자 예

결과는 무엇입니까?

  • 수많은 실험은 LaMDA가 다양한 주제에 대한 개방형 대화에 참여할 수 있음을 보여줍니다.
  • 일련의 정성적 평가를 통해 모델의 응답이 합리적이고 구체적이며 흥미롭고 신뢰할 수 있는 외부 소스에 근거하는 경향이 있지만 여전히 개선의 여지가 있음을 확인했습니다.
  • 지금까지 이루어진 모든 진전에도 불구하고 저자는 모델에 여전히 부적절하거나 유해한 응답을 생성할 수 있는 많은 제한이 있음을 인식합니다.

이 연구에 대해 자세히 알아볼 수 있는 곳은 어디입니까?

구현 코드는 어디서 구할 수 있습니까?

  • LaMDA의 사전 교육 아키텍처를 위한 오픈 소스 PyTorch 구현은 다음에서 사용할 수 있습니다. GitHub의.

3. Google의 PaLM

요약 

Pa버림 L언어 M오델 (손바닥)는 540억 개의 매개변수, Transformer 기반 언어 모델입니다. PaLM은 여러 TPU Pod에서 효율적인 훈련을 위한 새로운 ML 시스템인 Pathways를 사용하여 6144 TPU v4 칩에서 훈련되었습니다. 이 모델은 수백 개의 언어 이해 및 생성 벤치마크에서 최첨단 결과를 달성하여 소수 학습에서 확장의 이점을 보여줍니다. PaLM은 다단계 추론 작업에서 미세 조정된 최첨단 모델을 능가하고 BIG 벤치 벤치마크에서 인간의 평균 성능을 능가합니다.

목표는 무엇입니까? 

  • 대규모 언어 모델의 확장이 퓨샷 학습에 미치는 영향에 대한 이해를 향상시킵니다.

문제는 어떻게 접근합니까?

  • 핵심 아이디어는 Pathways 시스템을 사용하여 540억 매개변수 언어 모델의 교육을 확장하는 것입니다.
    • 팀은 4개의 Cloud TPU vXNUMX Pod에서 Pod 수준의 데이터 병렬 처리를 사용하면서 각 Pod 내에서는 표준 데이터 및 모델 병렬 처리를 사용했습니다.
    • 그들은 훈련을 지금까지 훈련에 사용된 가장 큰 TPU 기반 시스템 구성인 6144 TPU v4 칩으로 확장할 수 있었습니다.
    • 이 모델은 57.8% 하드웨어 FLOP 사용률의 교육 효율성을 달성했으며, 이는 저자가 주장하는 바와 같이 이 규모에서 대규모 언어 모델에 대해 달성한 가장 높은 교육 효율성입니다. 
  • PaLM 모델에 대한 교육 데이터에는 고품질 웹 문서, 책, Wikipedia, 대화 및 GitHub 코드가 포함된 영어 및 다국어 데이터 세트의 조합이 포함되었습니다.
Google의 PaLM 모델

결과는 무엇입니까?

  • 수많은 실험을 통해 팀이 가장 큰 모델로 확장함에 따라 모델 성능이 급격히 증가했음을 보여줍니다.
  • PaLM 540B는 매우 어려운 여러 작업에서 획기적인 성능을 달성했습니다.
    • 언어 이해 및 생성. 도입된 모델은 문답과제, 클로즈와 문장완성과제, 문맥내 독해과제, 상식추리과제, SuperGLUE과제, 더. BIG 벤치 작업에 대한 PaLM의 성능은 원인과 결과를 구별할 수 있을 뿐만 아니라 적절한 맥락에서 개념적 조합을 이해할 수 있음을 보여주었습니다.
    • 추리. PaLM은 8-shot 프롬프팅을 통해 수천 개의 까다로운 초등학교 수준 수학 문제의 벤치마크인 GSM58K 문제의 8%를 해결하여 GPT-55 3B 모델을 미세 조정하여 달성한 이전 최고 점수인 175%를 능가합니다. PaLM은 또한 다단계 논리적 추론, 세계 지식 및 깊은 언어 이해의 복잡한 조합이 필요한 상황에서 명시적인 설명을 생성하는 능력을 보여줍니다.
    • 코드 생성. PaLM은 미세 조정된 Codex 12B와 동등하게 수행하면서 교육에 50배 적은 Python 코드를 사용하여 대규모 언어 모델이 다른 프로그래밍 언어와 자연어 데이터의 학습을 더 효과적으로 전달함을 확인합니다.

이 연구에 대해 자세히 알아볼 수 있는 곳은 어디입니까?

구현 코드는 어디서 구할 수 있습니까?

  • PaLM 연구 논문의 특정 트랜스포머 아키텍처의 비공식 PyTorch 구현은 다음에서 사용할 수 있습니다. GitHub의. 확장되지 않으며 교육 목적으로만 게시됩니다. 

4. DeepMind의 플라밍고

요약 

Flamingo는 텍스트와 이미지가 혼합된 대규모 다중 모달 웹 말뭉치에서 훈련된 최첨단 VLM(시각적 언어 모델) 제품군입니다. 이 교육을 통해 모델은 프롬프트로 제공되는 주석이 달린 최소한의 예를 사용하여 새로운 작업에 적응할 수 있습니다. Flamingo는 사전 훈련된 비전 전용 및 언어 전용 모델의 강점을 병합하고 가변적으로 인터리브된 시각적 및 텍스트 데이터의 시퀀스를 처리하고 이미지 또는 비디오를 입력으로 원활하게 수용하도록 설계된 주요 아키텍처 발전을 통합합니다. 이 모델은 시각적 질문 응답, 캡션 작업, 객관식 시각적 질문 응답과 같은 다양한 이미지 및 비디오 작업에 대한 인상적인 적응성을 보여 주어 퓨샷 학습에서 작업별 프롬프트를 사용하여 새로운 성능 표준을 설정합니다.

목표는 무엇입니까? 

  • 짧은 지침을 기반으로 새로운 작업을 신속하게 학습하고 수행하기 위해 다중 모달 모델을 활성화하려면 다음을 수행하십시오.
    • 많은 양의 감독 데이터에 대해 모델을 사전 교육한 다음 특정 작업에 맞게 미세 조정하는 널리 사용되는 패러다임은 리소스 집약적이며 주의 깊은 작업별 하이퍼파라미터 조정과 함께 수천 개의 주석이 달린 데이터 포인트가 필요합니다. 
    • 대조적인 목표를 사용하는 현재 모델은 새로운 작업에 대한 제로 샷 적응을 허용하지만 언어 생성 기능이 부족하기 때문에 캡션 또는 시각적 질문 답변과 같은 개방형 작업에는 부족합니다. 
    • 이 연구는 이러한 문제를 효과적으로 해결하고 낮은 데이터 체제에서 우수한 성능을 입증하는 새로운 모델을 도입하는 것을 목표로 합니다.

문제는 어떻게 접근합니까?

  • DeepMind는 몇 가지 입력/출력 예제만 사용하여 다양한 개방형 비전 및 언어 작업에 대한 소수 학습을 위해 설계된 VLM인 Flamingo를 도입했습니다.
  • Flamingo 모델은 이미지 및/또는 비디오와 혼합된 텍스트 토큰을 처리하고 출력으로 텍스트를 생성할 수 있는 시각적 조건의 자동 회귀 텍스트 생성 모델입니다.
  • Flamingo의 아키텍처는 두 가지 상호 보완적인 사전 학습 및 고정 모델을 통합합니다.
    • 시각적 장면을 "인식"할 수 있는 비전 모델.
    • 기본 추론을 수행하는 대규모 언어 모델입니다.
  • 새로운 아키텍처 구성 요소는 계산 집약적인 사전 교육 중에 얻은 지식을 유지하는 방식으로 이러한 모델을 통합합니다.
  • 또한 Flamingo 모델에는 Perceiver 기반 아키텍처가 있어 고해상도 이미지 또는 비디오를 수집할 수 있습니다. 이 아키텍처는 시각적 입력 기능의 광범위하고 가변적인 배열에서 이미지/비디오당 고정된 수의 시각적 토큰을 생성할 수 있습니다.

결과는 무엇입니까?

  • 이 연구는 우수한 소수 학습자인 LLM과 유사하게 VLM이 분류, 캡션 또는 질문 답변과 같은 이미지 및 비디오 이해 작업에 대한 몇 가지 입력/출력 예제에서 학습할 수 있음을 보여줍니다.
  • Flamingo는 16개의 다양한 다중 모드 언어 및 이미지/비디오 이해 작업에서 우수한 성능을 보여줌으로써 퓨샷 학습의 새로운 벤치마크를 수립합니다.
  • 이러한 6개 작업 중 16개에서 Flamingo는 32개의 작업별 예제만 활용하더라도 미세 조정된 최첨단 성능을 능가합니다. 즉, 현재 최고 성능 모델보다 작업별 훈련 데이터가 약 1000배 적습니다.
Flamingo 비전 언어 모델

이 연구에 대해 자세히 알아볼 수 있는 곳은 어디입니까?

구현 코드는 어디서 구할 수 있습니까?

5. Salesforce의 BLIP-2

요약 

BLIP-2는 비전 및 언어 모델을 위한 효율적이고 일반적인 사전 교육 프레임워크로, 대규모 모델을 사전 교육하는 데 점점 더 많은 비용이 소요되는 것을 방지하도록 설계되었습니다. BLIP-2는 두 단계로 사전 훈련된 경량 Querying Transformer를 통합하여 비전 언어 사전 훈련을 부트스트랩하기 위해 기성 고정된 사전 훈련된 이미지 인코더 및 고정된 대규모 언어 모델을 활용합니다. 첫 번째 단계는 고정 이미지 인코더에서 시각 언어 표현 학습을 시작하고 두 번째 단계는 고정 언어 모델에서 시각-언어 생성 학습을 추진합니다. 훈련 가능한 매개변수가 상당히 적음에도 불구하고 BLIP-2는 훈련 가능한 매개변수가 80배 적은 제로샷 VQAv8.7에서 DeepMind의 Flamingo2B를 54% 능가하는 최첨단 방법을 능가합니다. 이 모델은 또한 자연어 지침에 따라 유망한 제로 샷 이미지-텍스트 생성 기능을 보여줍니다.

BLIP-2 프레임워크
BLIP-2의 프레임워크 개요

목표는 무엇입니까? 

  • 컴퓨팅 비용을 줄이면서 비전 언어 작업에 대한 최첨단 성능을 얻습니다.

문제는 어떻게 접근합니까?

  • Salesforce 팀은 BLIP-2라는 새로운 비전 언어 사전 교육 프레임워크를 도입했습니다. B오트스트래핑 L언어-I마술사 P동결된 유니모달 모델로 재훈련:
    • 사전 훈련된 유니모달 모델은 계산 비용을 줄이고 치명적인 망각 문제를 피하기 위해 사전 훈련 중에 고정된 상태로 유지됩니다.
    • 교차 모달 정렬을 용이하게 하고 사전 훈련된 비전 모델과 사전 훈련된 언어 모델 사이의 양식 격차를 해소하기 위해 팀은 고정 이미지 인코더와 고정 이미지 인코더 사이의 정보 병목 현상 역할을 하는 경량 쿼리 변환기(Q-Former)를 제안합니다. LLM.
    • Q-former는 새로운 XNUMX단계 전략으로 사전 훈련되었습니다.
      • 첫 번째 사전 훈련 단계는 시각-언어 표상 학습을 수행합니다. 이것은 Q-Former가 텍스트와 가장 관련성이 높은 시각적 표현을 학습하도록 합니다.
      • 두 번째 사전 훈련 단계는 Q-Former의 출력을 고정된 LLM에 연결하여 시각-언어 생성 학습을 수행합니다. Q-Former는 출력 시각적 표현이 LLM에 의해 해석될 수 있도록 훈련됩니다.

결과는 무엇입니까?

  • BLIP-2는 시각적 질문 응답, 이미지 캡션 및 이미지 텍스트 검색을 포함하는 다양한 비전 언어 작업에서 뛰어난 최신 결과를 제공합니다.
    • 예를 들어 제로샷 VQAv8.7에서 Flamingo를 2% 능가합니다.
  • 또한 이 뛰어난 성능은 훨씬 더 높은 컴퓨터 효율성으로 달성됩니다.
    • BLIP-2는 훈련 가능한 매개변수를 80배 적게 사용하면서 Flamingo-54B보다 성능이 뛰어납니다. 
  • BLIP-2는 자연 언어 명령에 대한 응답으로 제로 샷 이미지-텍스트 생성을 수행할 수 있는 능력을 갖추고 있어 시각적 지식 추론 및 시각적 대화와 같은 기술을 개발할 수 있는 길을 열어줍니다.
  • 마지막으로 BLIP-2는 시각 언어 사전 교육의 성능을 더욱 향상시키기 위해 보다 정교한 단일 모드 모델을 활용할 수 있는 다목적 접근 방식이라는 점에 유의해야 합니다.
BLIP-2 결과
BLIP-2 결과

이 연구에 대해 자세히 알아볼 수 있는 곳은 어디입니까?

구현 코드는 어디서 구할 수 있습니까?

공식 BLIP-2 구현은 GitHub의.

6. 메타 AI의 라마

요약 

Meta AI 팀은 더 많은 토큰에 대해 훈련된 더 작은 모델이 특정 제품 응용 프로그램에 대해 재훈련 및 미세 조정하기가 더 쉽다고 주장합니다. 그러므로 그들이 소개하는 야마 (L팔다 La언어 M오델 메타 AI), 7B~65B 매개변수가 있는 기본 언어 모델 모음. LLaMA 33B 및 65B는 1.4조 7천억 개의 토큰으로 훈련되었으며 가장 작은 모델인 LLaMA 13B는 3조 개의 토큰으로 훈련되었습니다. 독점적이거나 제한된 데이터에 의존하지 않고 공개적으로 사용 가능한 데이터 세트를 독점적으로 사용했습니다. 팀은 또한 주요 아키텍처 개선 사항과 교육 속도 최적화 기술을 구현했습니다. 결과적으로 LLaMA-10B는 GPT-65보다 540배 이상 작은 성능을 보였고 LLaMA-XNUMXB는 PaLM-XNUMXB와 경쟁적인 성능을 보였다.

목표는 무엇입니까? 

  • 독점 또는 제한된 데이터 소스에 의존하지 않고 공개적으로 액세스할 수 있는 데이터 세트에서만 최고 성능 모델을 교육할 수 있는 타당성을 입증합니다.
  • 연구 커뮤니티에 더 작고 성능이 뛰어난 모델을 제공하여 많은 양의 인프라에 액세스할 수 없는 사람들이 대규모 언어 모델을 연구할 수 있도록 합니다.

문제는 어떻게 접근합니까?

  • LLaMA 모델을 교육하기 위해 연구자들은 공개적으로 사용 가능하고 오픈 소싱과 호환되는 데이터만 사용했습니다.
  • 또한 표준 Transformer 아키텍처에 몇 가지 개선 사항을 도입했습니다.
    • GPT-3 방법론을 채택하여 출력을 정규화하는 것이 아니라 각 트랜스포머 하위 계층에 대한 입력을 정규화하여 훈련의 안정성을 높였습니다.
    • PaLM 모델에서 영감을 얻은 연구원들은 ReLU 비선형성을 SwiGLU 활성화 기능으로 대체하여 성능을 향상시켰습니다.
    • 에 의해 영감을 수 외(2021), 그들은 절대 위치 임베딩을 제거하고 대신 네트워크의 모든 계층에서 회전 위치 임베딩(RoPE)을 통합했습니다.
  • 마지막으로 Meta AI 팀은 다음을 통해 모델의 훈련 속도를 개선했습니다.
    • 어텐션 가중치를 저장하지 않거나 마스킹된 키/쿼리 점수를 계산하지 않음으로써 효율적인 인과적 다중 헤드 어텐션 구현을 사용합니다.
    • 검사점을 사용하여 역방향 전달 중에 재계산된 활성화를 최소화합니다.
    • 활성화 계산과 네트워크를 통한 GPU 간의 통신(all_reduce 작업으로 인해)이 겹칩니다.

결과는 무엇입니까?

  • LLaMA-13B는 3배 이상 작음에도 불구하고 GPT-10을 능가하는 반면, LLaMA-65B는 PaLM-540B와 경쟁합니다.

이 연구에 대해 자세히 알아볼 수 있는 곳은 어디입니까?

구현 코드는 어디서 구할 수 있습니까?

  • Meta AI는 개별 사례 평가를 기준으로 학술 연구원, 정부, 시민 사회, 학술 기관 및 글로벌 산업 연구소와 관련된 개인에게 LLaMA에 대한 액세스를 제공합니다. 신청하려면 다음으로 이동하십시오. GitHub 저장소.

7. OpenAI의 GPT-4

요약 

GPT-4 이미지 및 텍스트 입력을 수락하고 텍스트 출력을 생성하는 대규모 다중 모드 모델입니다. 경쟁 및 안전 문제로 인해 모델의 아키텍처 및 교육에 대한 구체적인 세부 정보는 공개되지 않습니다. 성능 측면에서 GPT-4는 기존 벤치마크에서 이전 언어 모델을 능가하고 사용자 의도 이해 및 안전 속성에서 상당한 개선을 보여줍니다. 이 모델은 또한 모의 변호사 시험에서 상위 10% 점수를 포함하여 다양한 시험에서 인간 수준의 성능을 달성합니다.

목표는 무엇입니까? 

  • 이미지 및 텍스트 입력을 수용하고 텍스트 출력을 생성할 수 있는 대규모 다중 모드 모델을 개발합니다. 
  • 광범위한 규모에서 예측 가능하게 작동하는 인프라 및 최적화 방법을 개발합니다.

문제는 어떻게 접근합니까?

  • 경쟁 구도 및 안전 영향으로 인해 OpenAI는 아키텍처, 모델 크기, 하드웨어, 교육 컴퓨팅, 데이터 세트 구성 및 교육 방법에 대한 세부 정보를 보류하기로 결정했습니다.
  • 그들은 다음을 공개합니다.
    • GPT-4는 문서에서 다음 토큰을 예측하도록 사전 훈련된 Transformer 기반 모델입니다.
    • 공개적으로 사용 가능한 데이터 및 타사 라이선스 데이터를 활용합니다.
    • 이 모델은 RLHF(Reinforcement Learning from Human Feedback)를 사용하여 미세 조정되었습니다.
  • 확인되지 않은 정보에 따르면 GPT-4는 이전 모델과 같은 단일 밀도 모델이 아니라 각각 220억 개의 매개 변수를 포함하는 XNUMX개의 개별 모델로 구성된 강력한 연합입니다.
GPT-4 성능

결과는 무엇입니까?

  • GPT-4는 대부분의 전문 및 학업 시험에서 인간 수준의 성과를 달성하며 특히 모의 균일 변호사 시험에서 상위 10%의 점수를 받았습니다.
  • 사전 훈련된 기본 GPT-4 모델은 벤치마크별 제작 또는 추가 훈련 프로토콜 없이 기존 NLP 벤치마크에서 기존 언어 모델 및 이전 최첨단 시스템보다 성능이 뛰어납니다.
  • GPT-4는 ChatGPT 및 OpenAI API의 3.5개 프롬프트 중 70.2%에서 GPT-5,214의 응답보다 선호되는 응답으로 사용자 의도를 따르는 데 상당한 개선을 보여줍니다.
  • GPT-4의 안전 속성은 GPT-3.5에 비해 크게 향상되어 허용되지 않는 콘텐츠 요청에 대한 응답이 82% 감소하고 민감한 요청(예: 의학적 조언 및 자해)에 대한 정책 준수가 29% 증가했습니다.

이 연구에 대해 자세히 알아볼 수 있는 곳은 어디입니까?

구현 코드는 어디서 구할 수 있습니까?

  • GPT-4의 코드 구현은 사용할 수 없습니다.

대규모(비전) 언어 모델의 실제 응용 프로그램

최근 몇 년간 가장 중요한 AI 연구 혁신은 방대한 데이터 세트에서 훈련된 대규모 AI 모델에서 비롯되었습니다. 이러한 모델은 인상적인 성능을 보여 주며 AI가 고객 서비스, 마케팅, 전자 상거래, 의료, 소프트웨어 개발, 저널리즘 등과 같은 전체 산업을 혁신할 수 있는 방법을 생각하는 것은 매우 흥미롭습니다.

대규모 언어 모델에는 수많은 실제 응용 프로그램이 있습니다. GPT-4는 다음을 나열합니다.

  • 챗봇 및 가상 도우미를 위한 자연어 이해 및 생성.
  • 언어 간 기계 번역.
  • 기사, 보고서 또는 기타 텍스트 문서의 요약.
  • 시장 조사 또는 소셜 미디어 모니터링을 위한 감정 분석.
  • 마케팅, 소셜 미디어 또는 창작을 위한 콘텐츠 생성.
  • 고객 지원 또는 지식 기반을 위한 질문 응답 시스템.
  • 스팸 필터링, 주제 분류 또는 문서 구성을 위한 텍스트 분류.
  • 개인화된 언어 학습 및 튜터링 도구.
  • 코드 생성 및 소프트웨어 개발 지원.
  • 의료, 법률 및 기술 문서 분석 및 지원.
  • 텍스트 음성 변환 및 음성 텍스트 변환과 같은 장애가 있는 개인을 위한 접근성 도구입니다.
  • 음성 인식 및 필사 서비스.

시각적인 부분을 추가하면 가능한 응용 분야가 더욱 확장됩니다.

최근의 AI 혁신을 따르고 잠재적인 실제 응용 프로그램에 대해 생각하는 것은 매우 흥미진진합니다. 그러나 이러한 모델을 실생활에 배포하기 전에 불행히도 상당히 중요한 해당 위험과 제한 사항을 해결해야 합니다.

위험과 한계

위험과 한계에 대해 GPT-4에 문의하면 관련 우려 사항에 대한 긴 목록을 제공할 가능성이 높습니다. 이 목록을 필터링하고 몇 가지 추가 고려 사항을 추가한 후 현대의 대규모 언어 모델이 보유한 다음과 같은 주요 위험 및 제한 사항을 알게 되었습니다.

  1. 편견과 차별: 이러한 모델은 종종 편견과 차별적인 콘텐츠를 포함하는 방대한 양의 텍스트 데이터에서 학습합니다. 결과적으로 생성된 출력은 성별, 인종 또는 종교와 같은 요인에 기반한 고정관념, 공격적인 언어 및 차별을 의도치 않게 영구화할 수 있습니다.
  2. 오보: 대규모 언어 모델은 사실이 부정확하거나 오해의 소지가 있거나 오래된 콘텐츠를 생성할 수 있습니다. 모델은 다양한 소스에서 학습되지만 항상 가장 정확하거나 최신 정보를 제공하지 않을 수 있습니다. 이는 종종 모델이 오해의 소지가 있더라도 문법적으로 정확하거나 일관되게 보이는 출력을 생성하는 데 우선순위를 두기 때문에 발생합니다.
  3. 이해의 부족: 이러한 모델은 사람의 언어를 이해하는 것처럼 보이지만 주로 훈련 데이터에서 패턴과 통계적 연관성을 식별하여 작동합니다. 그들은 자신이 생성하는 콘텐츠를 깊이 이해하지 못하기 때문에 때때로 무의미하거나 관련 없는 결과가 나올 수 있습니다.
  4. 부적절한 콘텐츠: 언어 모델은 때때로 공격적이거나 유해하거나 부적절한 콘텐츠를 생성할 수 있습니다. 이러한 콘텐츠를 최소화하기 위해 노력하지만 학습 데이터의 특성과 컨텍스트 또는 사용자 의도를 식별할 수 없는 모델로 인해 여전히 발생할 수 있습니다.

결론

대규모 언어 모델은 의심할 여지 없이 자연어 처리 분야를 혁신했으며 다양한 역할과 산업 전반에서 생산성을 향상시키는 엄청난 잠재력을 보여주었습니다. 인간과 유사한 텍스트를 생성하고, 일상적인 작업을 자동화하고, 창의적이고 분석적인 프로세스를 지원하는 능력으로 인해 오늘날의 빠르게 변화하는 기술 중심 세계에서 없어서는 안 될 도구가 되었습니다.

그러나 이러한 강력한 모델과 관련된 한계와 위험을 인정하고 이해하는 것이 중요합니다. 편견, 잘못된 정보, 악의적인 사용 가능성과 같은 문제를 무시할 수 없습니다. 이러한 AI 기반 기술을 일상 생활에 지속적으로 통합함에 따라 특히 민감하고 위험이 높은 상황에서 기능 활용과 인간 감독 보장 사이의 균형을 유지하는 것이 필수적입니다.

제너레이티브 AI 기술을 책임감 있게 채택하는 데 성공한다면 인공 지능과 인간의 전문 지식이 함께 협력하여 혁신을 주도하고 모두를 위한 더 나은 세상을 만드는 미래를 위한 길을 열 것입니다.

이 기사를 즐기십니까? 더 많은 AI 연구 업데이트에 가입하십시오.

이와 같은 더 많은 요약 기사를 발표하면 알려 드리겠습니다.

타임 스탬프 :

더보기 톱봇