7 Ngôn ngữ (LLM) và Mô hình ngôn ngữ hình ảnh (VLM) mạnh mẽ nhất chuyển đổi AI vào năm 2023

7 Ngôn ngữ (LLM) và Mô hình ngôn ngữ hình ảnh (VLM) mạnh mẽ nhất chuyển đổi AI vào năm 2023

Nút nguồn: 2757531

BLIP-2, mô hình ngôn ngữ tầm nhìn

Trong lĩnh vực trí tuệ nhân tạo đang phát triển nhanh chóng, xử lý ngôn ngữ tự nhiên đã trở thành tâm điểm cho các nhà nghiên cứu cũng như nhà phát triển. Xây dựng trên nền tảng của Kiến trúc máy biến ápNâng cấp hai chiều của BERT, một số mô hình ngôn ngữ đột phá đã xuất hiện trong những năm gần đây, mở rộng ranh giới của những gì máy móc có thể hiểu và tạo ra.

Trong bài viết này, chúng ta sẽ đi sâu vào những tiến bộ mới nhất trong thế giới của các mô hình ngôn ngữ quy mô lớn, khám phá các cải tiến được giới thiệu bởi từng mô hình, khả năng của chúng và các ứng dụng tiềm năng. Chúng ta cũng sẽ xem xét các Mô hình ngôn ngữ trực quan (VLM) được đào tạo để xử lý không chỉ dữ liệu văn bản mà cả dữ liệu trực quan.

Nếu bạn muốn bỏ qua, đây là các mô hình ngôn ngữ mà chúng tôi đã giới thiệu:

  1. GPT-3 của OpenAI
  2. LaMDA của Google
  3. PaLM của Google
  4. Chim hồng hạc của DeepMind
  5. BLIP-2 của Salesforce
  6. LLaMA của Meta AI
  7. GPT-4 của OpenAI

Nếu nội dung giáo dục chuyên sâu này hữu ích cho bạn, bạn có thể đăng ký vào danh sách gửi thư nghiên cứu AI của chúng tôi để được cảnh báo khi chúng tôi phát hành tài liệu mới. 

Các Mô hình Ngôn ngữ Lớn (LLM) và Mô hình Ngôn ngữ Trực quan (VLM) quan trọng nhất vào năm 2023

1. GPT-3 của OpenAI

Tổng kết 

Nhóm OpenAI đã giới thiệu GPT-3 như một giải pháp thay thế cho việc có bộ dữ liệu được gắn nhãn cho mọi tác vụ ngôn ngữ mới. Họ gợi ý rằng việc nhân rộng các mô hình ngôn ngữ có thể cải thiện hiệu suất vài lần chụp không phụ thuộc vào tác vụ. Để kiểm tra đề xuất này, họ đã đào tạo một mô hình ngôn ngữ tự hồi quy tham số 175B, được gọi là GPT-3và đánh giá hiệu suất của nó trên hơn hai chục tác vụ NLP. Việc đánh giá theo phương pháp học vài lần, học một lần và học không cần lần nào đã chứng minh rằng GPT-3 đã đạt được những kết quả đầy hứa hẹn và thậm chí đôi khi còn vượt trội so với kết quả hiện đại mà các mô hình tinh chỉnh đạt được. 

Mục tiêu là gì? 

  • Để đề xuất một giải pháp thay thế cho vấn đề hiện tại, khi cần có bộ dữ liệu được gắn nhãn cho mọi tác vụ ngôn ngữ mới.

Vấn đề được tiếp cận như thế nào?

  • Các nhà nghiên cứu đã đề xuất mở rộng quy mô các mô hình ngôn ngữ để cải thiện hiệu suất vài lần chụp không phụ thuộc vào nhiệm vụ. 
  • Sản phẩm GPT-3 model sử dụng cùng một mô hình và kiến ​​trúc như GPT-2, bao gồm quá trình khởi tạo đã sửa đổi, quá trình chuẩn hóa trước và quá trình mã hóa có thể đảo ngược.
  • Tuy nhiên, trái ngược với GPT-2, nó sử dụng các mẫu chú ý thưa thớt xen kẽ dày đặc và dải cục bộ trong các lớp của máy biến áp, như trong Máy biến áp thưa.
GPT-3

Kết quả là gì?

  • Mô hình GPT-3 mà không cần tinh chỉnh đạt được kết quả đầy hứa hẹn trên một số nhiệm vụ NLP và thậm chí đôi khi vượt qua các mô hình hiện đại đã được tinh chỉnh cho nhiệm vụ cụ thể đó:
    • trên CoQA điểm chuẩn, 81.5 F1 trong cài đặt không chụp, 84.0 F1 trong cài đặt một lần chụp và 85.0 F1 trong cài đặt ít ảnh, so với điểm số 90.7 F1 đạt được bởi SOTA tinh chỉnh.
    • trên câu đốQA điểm chuẩn, độ chính xác 64.3% trong cài đặt không chụp, 68.0% trong cài đặt một lần chụp và 71.2% trong cài đặt ít ảnh, vượt qua 68% hiện đại (3.2%).
    • trên LAMBADA bộ dữ liệu, độ chính xác 76.2% trong cài đặt không chụp, 72.5% trong cài đặt một lần chụp và 86.4% trong cài đặt ít ảnh, vượt qua trạng thái kỹ thuật (68%) là 18%.
  • Theo đánh giá của con người, các bài báo được tạo ra bởi mô hình GPT-175 tham số 3B là khó phân biệt với các bài báo thực sự (với độ chính xác gần như trên mức cơ hội ~ 52%). 
  • Bất chấp hiệu suất vượt trội của GPT-3, nó đã nhận được nhiều ý kiến ​​trái chiều từ cộng đồng AI:
    • “Sự cường điệu của GPT-3 là quá nhiều. Thật ấn tượng (cảm ơn vì những lời khen tốt đẹp!) Nhưng nó vẫn có những điểm yếu nghiêm trọng và đôi khi mắc những lỗi rất ngớ ngẩn. AI sẽ thay đổi thế giới, nhưng GPT-3 chỉ là một cái nhìn sơ khai. Chúng tôi vẫn còn rất nhiều điều phải tìm hiểu. " - Sam Altman, CEO và đồng sáng lập OpenAI.
    • “Tôi bị sốc vì thật khó để tạo ra văn bản về người Hồi giáo từ GPT-3 mà không liên quan đến bạo lực… hoặc bị giết…” - Abubakar Abid, Giám đốc điều hành và người sáng lập Gradio.
    • "Không. Về cơ bản, GPT-3 không hiểu thế giới mà nó nói đến. Việc gia tăng ngữ liệu hơn nữa sẽ cho phép nó tạo ra một câu chuyện đáng tin cậy hơn nhưng không khắc phục được sự thiếu hiểu biết cơ bản của nó về thế giới. Các bản demo của GPT-4 sẽ vẫn yêu cầu con người hái anh đào. " - Gary Marcus, Giám đốc điều hành và người sáng lập Robust.ai.
    • “Việc ngoại suy hiệu suất ngoạn mục của GPT3 trong tương lai cho thấy rằng câu trả lời cho sự sống, vũ trụ và mọi thứ chỉ là 4.398 nghìn tỷ tham số”. - Geoffrey Hinton, người đoạt giải Turing.

Tìm hiểu thêm về nghiên cứu này ở đâu?

Bạn có thể lấy mã thực hiện ở đâu?

  • Bản thân mã này không có sẵn, nhưng một số thống kê tập dữ liệu cùng với các mẫu 2048 mã thông báo không được lọc không điều kiện từ GPT-3 được phát hành vào GitHub.

2. LaMDA của Google

Tổng kết 

Langôn ngữ Model cho Dđối thoại Aứng dụng (TheMDA) được tạo ra thông qua quá trình tinh chỉnh một nhóm mô hình ngôn ngữ thần kinh dựa trên Transformer được thiết kế đặc biệt cho các cuộc đối thoại. Các mô hình này có tối đa 137B tham số và được đào tạo để sử dụng các nguồn kiến ​​thức bên ngoài. Các nhà phát triển LaMDA có ba mục tiêu chính trong tâm trí – chất lượng, an toàn và nền tảng. Kết quả đã chứng minh rằng việc tinh chỉnh cho phép thu hẹp khoảng cách về chất lượng so với mức của con người, nhưng hiệu suất của mô hình vẫn thấp hơn mức của con người về mặt an toàn và khả năng tiếp đất. 

Bard của Google, phát hành gần đây như một giải pháp thay thế cho ChatGPT, được cung cấp bởi LaMDA. Mặc dù Bard thường được dán nhãn là nhàm chán, đây có thể được coi là bằng chứng về cam kết ưu tiên an toàn của Google, ngay cả trong bối cảnh cạnh tranh gay gắt giữa Google và Microsoft nhằm thiết lập sự thống trị trong lĩnh vực AI tổng hợp.

Mục tiêu là gì? 

  • Để xây dựng một mô hình cho các ứng dụng hộp thoại miền mở, trong đó một tác nhân hộp thoại có thể trò chuyện về bất kỳ chủ đề nào với các phản hồi hợp lý, cụ thể theo ngữ cảnh, dựa trên các nguồn đáng tin cậy và có đạo đức.

Vấn đề được tiếp cận như thế nào?

  • LaMDA được xây dựng trên Transformer, một kiến ​​trúc mạng nơ-ron mà Google Research đã phát minh và mã nguồn mở vào năm 2017.
    • Giống như các mô hình ngôn ngữ lớn khác, bao gồm BERT và GPT-3, LaMDA được đào tạo trên hàng terabyte dữ liệu văn bản để tìm hiểu cách các từ liên quan với nhau và sau đó dự đoán những từ nào có khả năng xuất hiện tiếp theo. 
    • Tuy nhiên, không giống như hầu hết các mô hình ngôn ngữ, LaMDA được đào tạo về đối thoại để nắm bắt các sắc thái giúp phân biệt cuộc trò chuyện mở với các dạng ngôn ngữ khác.
  • Mô hình cũng được tinh chỉnh để cải thiện tính hợp lý, an toàn và tính đặc hiệu của các phản ứng của nó. Mặc dù các cụm từ như “thật tuyệt” và “Tôi không biết” có thể có ý nghĩa trong nhiều tình huống đối thoại, nhưng chúng không có khả năng dẫn đến các cuộc trò chuyện thú vị và hấp dẫn.
    • Trình tạo LaMDA trước tiên tạo ra một số phản hồi của ứng viên, tất cả đều được tính điểm dựa trên mức độ an toàn, hợp lý, cụ thể và thú vị của chúng. Các câu trả lời có điểm an toàn thấp được lọc ra và sau đó kết quả được xếp hạng cao nhất được chọn làm câu trả lời.
Ví dụ hộp thoại LaMDA

Kết quả là gì?

  • Nhiều thí nghiệm cho thấy LaMDA có thể tham gia vào các cuộc trò chuyện mở hấp dẫn về nhiều chủ đề khác nhau.
  • Một loạt các đánh giá định tính đã xác nhận rằng các phản hồi của mô hình có xu hướng hợp lý, cụ thể, thú vị và dựa trên các nguồn bên ngoài đáng tin cậy nhưng vẫn còn chỗ để cải thiện.
  • Bất chấp tất cả những tiến bộ đã đạt được cho đến nay, các tác giả nhận ra rằng mô hình vẫn còn nhiều hạn chế có thể dẫn đến việc tạo ra các phản ứng không phù hợp hoặc thậm chí có hại.

Tìm hiểu thêm về nghiên cứu này ở đâu?

Bạn có thể lấy mã thực hiện ở đâu?

  • Việc triển khai PyTorch mã nguồn mở cho kiến ​​trúc đào tạo trước của LaMDA có sẵn trên GitHub.

3. PaLM của Google

Tổng kết 

Pađường đi Lđau khổ Mca ngợi (Lòng bàn tay) là một mô hình ngôn ngữ dựa trên Transformer, có 540 tỷ tham số. PaLM đã được đào tạo trên 6144 chip TPU v4 bằng Pathways, một hệ thống ML mới để đào tạo hiệu quả trên nhiều Nhóm TPU. Mô hình này thể hiện những lợi ích của việc mở rộng quy mô trong quá trình học ít lần, đạt được kết quả tiên tiến trên hàng trăm điểm chuẩn tạo và hiểu ngôn ngữ. PaLM vượt trội so với các mô hình hiện đại được tinh chỉnh trong các tác vụ suy luận nhiều bước và vượt quá hiệu suất trung bình của con người trên tiêu chuẩn BIG-bench.

Mục tiêu là gì? 

  • Để nâng cao hiểu biết về mức độ ảnh hưởng của việc mở rộng các mô hình ngôn ngữ lớn đến việc học ít lần.

Vấn đề được tiếp cận như thế nào?

  • Ý tưởng chính là mở rộng quy mô đào tạo mô hình ngôn ngữ 540 tỷ tham số với hệ thống Đường dẫn:
    • Nhóm đã sử dụng song song dữ liệu ở cấp Pod trên hai Cloud TPU v4 Pod trong khi sử dụng dữ liệu chuẩn và song song mô hình trong mỗi Pod.
    • Họ có thể mở rộng quy mô đào tạo lên 6144 chip TPU v4, cấu hình hệ thống dựa trên TPU lớn nhất được sử dụng để đào tạo cho đến nay.
    • Mô hình đạt được hiệu suất đào tạo bằng 57.8% sử dụng FLOP phần cứng, như các tác giả khẳng định, là hiệu quả đào tạo cao nhất chưa đạt được đối với các mô hình ngôn ngữ lớn ở quy mô này. 
  • Dữ liệu đào tạo cho mô hình PaLM bao gồm sự kết hợp của bộ dữ liệu tiếng Anh và đa ngôn ngữ chứa tài liệu web, sách, Wikipedia, hội thoại và mã GitHub chất lượng cao.
Mô hình PaLM của Google

Kết quả là gì?

  • Nhiều thử nghiệm chứng minh rằng hiệu suất của mô hình đã tăng lên đáng kể khi nhóm mở rộng thành mô hình lớn nhất của họ.
  • PaLM 540B đạt được hiệu suất đột phá trong nhiều nhiệm vụ rất khó:
    • Hiểu và tạo ngôn ngữ. Mô hình được giới thiệu đã vượt qua hiệu suất vài lần của các mô hình lớn trước đó ở 28 trong số 29 nhiệm vụ bao gồm các nhiệm vụ trả lời câu hỏi, hoàn thành câu và hoàn thành câu, nhiệm vụ đọc hiểu trong ngữ cảnh, nhiệm vụ suy luận thông thường, nhiệm vụ SuperGLUE và hơn. Hiệu suất của PaLM trên các nhiệm vụ trên băng ghế dự bị LỚN cho thấy rằng nó có thể phân biệt nguyên nhân và kết quả, cũng như hiểu các kết hợp khái niệm trong các ngữ cảnh thích hợp.
    • lý luận. Với tính năng nhắc 8 lần, PaLM giải quyết được 58% các vấn đề trong GSM8K, một điểm chuẩn của hàng nghìn câu hỏi khó về toán cấp trường, vượt trội so với điểm số cao nhất trước đó là 55% đạt được bằng cách tinh chỉnh mô hình GPT-3 175B. PaLM cũng thể hiện khả năng tạo ra lời giải thích rõ ràng trong các tình huống đòi hỏi sự kết hợp phức tạp giữa suy luận logic nhiều bước, kiến ​​thức thế giới và hiểu biết sâu sắc về ngôn ngữ.
    • Tạo mã. PaLM hoạt động ngang bằng với Codex 12B đã được tinh chỉnh trong khi sử dụng mã Python ít hơn 50 lần để đào tạo, xác nhận rằng các mô hình ngôn ngữ lớn truyền việc học từ cả ngôn ngữ lập trình khác và dữ liệu ngôn ngữ tự nhiên hiệu quả hơn.

Tìm hiểu thêm về nghiên cứu này ở đâu?

Bạn có thể lấy mã thực hiện ở đâu?

  • Việc triển khai PyTorch không chính thức của kiến ​​trúc Transformer cụ thể từ tài liệu nghiên cứu của PaLM hiện có trên GitHub. Nó sẽ không mở rộng quy mô và chỉ được xuất bản cho mục đích giáo dục. 

4. Chim hồng hạc của DeepMind

Tổng kết 

Flamingo là một nhóm Mô hình ngôn ngữ hình ảnh (VLM) tiên tiến, được đào tạo trên kho dữ liệu web đa phương thức quy mô lớn với văn bản và hình ảnh hỗn hợp. Với khóa đào tạo này, các mô hình có thể thích ứng với các tác vụ mới bằng cách sử dụng các ví dụ có chú thích tối thiểu, được cung cấp dưới dạng lời nhắc. Flamingo kết hợp các tiến bộ kiến ​​trúc quan trọng được thiết kế để hợp nhất các điểm mạnh của các mô hình chỉ có hình ảnh và chỉ có ngôn ngữ được đào tạo trước, xử lý các chuỗi dữ liệu văn bản và hình ảnh xen kẽ khác nhau, đồng thời cung cấp hình ảnh hoặc video làm đầu vào một cách liền mạch. Các mô hình thể hiện khả năng thích ứng ấn tượng với nhiều tác vụ hình ảnh và video, chẳng hạn như trả lời câu hỏi bằng hình ảnh, tác vụ tạo chú thích và trả lời câu hỏi bằng hình ảnh trắc nghiệm, thiết lập các tiêu chuẩn hiệu suất mới bằng cách sử dụng lời nhắc dành riêng cho tác vụ trong quá trình học vài lần.

Mục tiêu là gì? 

  • Để đạt được tiến bộ trong việc cho phép các mô hình đa phương thức học nhanh và thực hiện các tác vụ mới dựa trên các hướng dẫn ngắn:
    • Mô hình được sử dụng rộng rãi để đào tạo trước một mô hình trên một lượng lớn dữ liệu được giám sát, sau đó tinh chỉnh nó cho nhiệm vụ cụ thể, sử dụng nhiều tài nguyên và yêu cầu hàng nghìn điểm dữ liệu được chú thích cùng với việc điều chỉnh siêu tham số theo từng nhiệm vụ một cách cẩn thận. 
    • Các mô hình hiện tại sử dụng mục tiêu tương phản cho phép thích ứng hoàn toàn với các tác vụ mới nhưng lại thiếu các tác vụ có kết thúc mở hơn như chú thích hoặc trả lời câu hỏi bằng hình ảnh vì chúng thiếu khả năng tạo ngôn ngữ. 
    • Nghiên cứu này nhằm mục đích giới thiệu một mô hình mới giải quyết hiệu quả các vấn đề này và thể hiện hiệu suất vượt trội trong các chế độ dữ liệu thấp.

Vấn đề được tiếp cận như thế nào?

  • DeepMind đã giới thiệu Flamingo, VLM được thiết kế để học vài lần về các nhiệm vụ ngôn ngữ và hình ảnh kết thúc mở khác nhau, chỉ sử dụng một vài ví dụ đầu vào/đầu ra.
  • Mô hình Flamingo là mô hình tạo văn bản tự hồi quy có điều kiện trực quan, có thể xử lý mã thông báo văn bản được trộn với hình ảnh và/hoặc video và tạo văn bản dưới dạng đầu ra.
  • Kiến trúc của Flamingo kết hợp hai mô hình cố định và đào tạo trước bổ sung:
    • Một mô hình thị giác có khả năng “nhận thức” các cảnh trực quan.
    • Một mô hình ngôn ngữ lớn được giao nhiệm vụ thực hiện lý luận cơ bản.
  • Các thành phần kiến ​​trúc mới lạ tích hợp các mô hình này theo cách giữ lại kiến ​​thức thu được trong quá trình đào tạo trước chuyên sâu về tính toán của chúng.
  • Ngoài ra, các mẫu Flamingo có kiến ​​trúc dựa trên Perceiver, cho phép chúng nhập hình ảnh hoặc video có độ phân giải cao. Kiến trúc này có thể tạo ra một số lượng mã thông báo trực quan cố định cho mỗi hình ảnh/video từ một loạt các tính năng đầu vào trực quan đa dạng và có thể thay đổi.

Kết quả là gì?

  • Nghiên cứu cho thấy rằng tương tự như LLM, vốn là những người học ít ảnh tốt, VLM có thể học từ một vài ví dụ đầu vào/đầu ra cho các tác vụ hiểu hình ảnh và video, chẳng hạn như phân loại, tạo chú thích hoặc trả lời câu hỏi.
  • Flamingo thiết lập một chuẩn mực mới trong học tập vài lần, thể hiện hiệu suất vượt trội trên một loạt 16 nhiệm vụ hiểu ngôn ngữ và hình ảnh/video đa phương thức.
  • Đối với 6 trong số 16 nhiệm vụ này, Flamingo vượt qua hiệu suất của trạng thái nghệ thuật được tinh chỉnh, mặc dù nó chỉ sử dụng 32 ví dụ cụ thể về nhiệm vụ – dữ liệu đào tạo theo nhiệm vụ cụ thể ít hơn khoảng 1000 lần so với các mô hình hoạt động hàng đầu hiện tại.
Mô hình ngôn ngữ tầm nhìn Flamingo

Tìm hiểu thêm về nghiên cứu này ở đâu?

Bạn có thể lấy mã thực hiện ở đâu?

  • DeepMind đã không phát hành triển khai chính thức của Flamingo. 
  • Bạn có thể tìm thấy triển khai mã nguồn mở của phương pháp được giới thiệu trong OpenFlamingo Github Repo.
  • Hiện có triển khai PyTorch thay thế tại đây.

5. BLIP-2 của Salesforce

Tổng kết 

BLIP-2 là một khuôn khổ đào tạo trước hiệu quả và chung cho các mô hình ngôn ngữ và hình ảnh, được thiết kế để tránh chi phí đào tạo trước ngày càng cao đối với các mô hình quy mô lớn. BLIP-2 tận dụng các bộ mã hóa hình ảnh được đào tạo trước được đóng băng có sẵn và các mô hình ngôn ngữ lớn được đóng băng để khởi động quá trình đào tạo trước ngôn ngữ thị giác, kết hợp một Trình chuyển đổi truy vấn nhẹ được đào tạo trước trong hai giai đoạn. Giai đoạn đầu tiên bắt đầu học cách biểu diễn ngôn ngữ hình ảnh từ bộ mã hóa hình ảnh cố định và giai đoạn thứ hai thúc đẩy quá trình học tập tạo hình ảnh sang ngôn ngữ từ một mô hình ngôn ngữ cố định. Mặc dù có ít thông số có thể huấn luyện hơn đáng kể, nhưng BLIP-2 vượt trội so với các phương pháp hiện đại, vượt qua Flamingo80B của DeepMind tới 8.7% trên VQAv2 không bắn với các thông số có thể huấn luyện ít hơn 54 lần. Mô hình này cũng thể hiện khả năng tạo hình ảnh thành văn bản không ảnh đầy hứa hẹn theo hướng dẫn ngôn ngữ tự nhiên.

khung BLIP-2
Tổng quan về khung của BLIP-2

Mục tiêu là gì? 

  • Để có được hiệu suất cao nhất đối với các tác vụ ngôn ngữ thị giác, đồng thời giảm chi phí tính toán.

Vấn đề được tiếp cận như thế nào?

  • Nhóm Salesforce đã giới thiệu khung đào tạo trước ngôn ngữ tầm nhìn mới có tên là BLIP-2, Bkhai thác mỏ Lngôn ngữ-Ipháp sư Pđào tạo lại với các mô hình đơn thức bị đóng băng:
    • Các mô hình đơn thức được đào tạo trước vẫn bị đóng băng trong quá trình đào tạo trước để giảm chi phí tính toán và tránh vấn đề lãng quên nghiêm trọng.
    • Để tạo điều kiện căn chỉnh đa phương thức và thu hẹp khoảng cách về phương thức giữa các mô hình hình ảnh được đào tạo trước và các mô hình ngôn ngữ được đào tạo trước, nhóm đã đề xuất một Biến truy vấn nhẹ (Q-Former) hoạt động như một nút cổ chai thông tin giữa bộ mã hóa hình ảnh được cố định và bộ biến áp được cố định. LLM.
    • Q-former được đào tạo trước với chiến lược hai giai đoạn mới:
      • Giai đoạn tiền đào tạo đầu tiên thực hiện việc học biểu diễn ngôn ngữ hình ảnh. Điều này thực thi Q-Former để tìm hiểu cách trình bày trực quan phù hợp nhất với văn bản.
      • Giai đoạn tiền đào tạo thứ hai thực hiện quá trình học tạo từ tầm nhìn sang ngôn ngữ bằng cách kết nối đầu ra của Q-Former với LLM đã đóng băng. Q-Former được đào tạo sao cho LLM có thể hiểu được biểu diễn trực quan đầu ra của nó.

Kết quả là gì?

  • BLIP-2 mang lại kết quả đặc biệt, tiên tiến nhất trên nhiều tác vụ ngôn ngữ hình ảnh khác nhau, bao gồm trả lời câu hỏi bằng hình ảnh, chú thích hình ảnh và truy xuất văn bản hình ảnh.
    • Ví dụ: nó vượt trội hơn Flamingo 8.7% trên VQAv2 không bắn.
  • Hơn nữa, hiệu suất vượt trội này đạt được với hiệu suất máy tính cao hơn đáng kể:
    • BLIP-2 vượt trội hơn Flamingo-80B trong khi sử dụng ít hơn 54 × tham số có thể huấn luyện. 
  • BLIP-2 có khả năng thực hiện việc tạo ảnh thành văn bản bằng không ảnh để đáp ứng các hướng dẫn ngôn ngữ tự nhiên, từ đó mở đường cho việc phát triển các kỹ năng như lý luận kiến ​​thức trực quan và trò chuyện trực quan giữa những người khác.
  • Cuối cùng, điều quan trọng cần lưu ý là BLIP-2 là một cách tiếp cận linh hoạt có thể tận dụng các mô hình đơn phương tinh vi hơn để nâng cao hơn nữa hiệu suất của việc đào tạo trước ngôn ngữ thị giác.
Kết quả BLIP-2
Kết quả BLIP-2

Tìm hiểu thêm về nghiên cứu này ở đâu?

Bạn có thể lấy mã thực hiện ở đâu?

Việc triển khai BLIP-2 chính thức có sẵn trên GitHub.

6. LLaMA của Meta AI

Tổng kết 

Nhóm Meta AI khẳng định rằng các mô hình nhỏ hơn được đào tạo trên nhiều mã thông báo hơn sẽ dễ dàng đào tạo lại và tinh chỉnh hơn cho các ứng dụng sản phẩm cụ thể. Vì vậy, họ giới thiệu cuộc gọi (Ltiền bạc Langôn ngữ Model Meta AI), một tập hợp các mô hình ngôn ngữ nền tảng với các thông số từ 7B đến 65B. LLaMA 33B và 65B được đào tạo trên 1.4 nghìn tỷ mã thông báo, trong khi mô hình nhỏ nhất, LLaMA 7B, được đào tạo trên một nghìn tỷ mã thông báo. Họ độc quyền sử dụng các bộ dữ liệu có sẵn công khai mà không phụ thuộc vào dữ liệu độc quyền hoặc dữ liệu bị hạn chế. Nhóm cũng đã thực hiện các cải tiến kiến ​​trúc quan trọng và các kỹ thuật tối ưu hóa tốc độ đào tạo. Do đó, LLaMA-13B vượt trội so với GPT-3, nhỏ hơn 10 lần và LLaMA-65B thể hiện hiệu suất cạnh tranh với PaLM-540B.

Mục tiêu là gì? 

  • Để chứng minh tính khả thi của việc đào tạo các mô hình hoạt động hàng đầu chỉ dựa trên các tập dữ liệu có thể truy cập công khai mà không dựa vào các nguồn dữ liệu bị hạn chế hoặc độc quyền.
  • Để cung cấp cho cộng đồng nghiên cứu các mô hình nhỏ hơn và hiệu quả hơn và do đó, cho phép những người không có quyền truy cập vào số lượng lớn cơ sở hạ tầng có thể nghiên cứu các mô hình ngôn ngữ lớn.

Vấn đề được tiếp cận như thế nào?

  • Để đào tạo mô hình LLaMA, các nhà nghiên cứu chỉ sử dụng dữ liệu có sẵn công khai và tương thích với nguồn mở.
  • Họ cũng đã giới thiệu một vài cải tiến đối với kiến ​​trúc Transformer tiêu chuẩn:
    • Khi áp dụng phương pháp GPT-3, tính ổn định của quá trình đào tạo đã được tăng cường bằng cách chuẩn hóa đầu vào cho từng lớp con máy biến áp, thay vì chuẩn hóa đầu ra.
    • Lấy cảm hứng từ các mô hình PaLM, các nhà nghiên cứu đã thay thế tính phi tuyến tính của ReLU bằng chức năng kích hoạt SwiGLU để cải thiện hiệu suất.
    • Lấy cảm hứng từ Su và cộng sự (2021), họ đã loại bỏ các nhúng theo vị trí tuyệt đối và thay vào đó, kết hợp các nhúng theo vị trí quay (RoPE) ở mọi lớp của mạng.
  • Cuối cùng, nhóm Meta AI đã cải thiện tốc độ đào tạo mô hình của họ bằng cách:
    • Sử dụng triển khai chú ý nhiều đầu theo nguyên nhân hiệu quả bằng cách không lưu trữ trọng số chú ý hoặc tính toán điểm khóa/truy vấn được che dấu.
    • Sử dụng điểm kiểm tra để giảm thiểu kích hoạt được tính toán lại trong quá trình quay ngược.
    • Chồng chéo tính toán kích hoạt và giao tiếp giữa các GPU qua mạng (do hoạt động all_reduce).

Kết quả là gì?

  • LLaMA-13B vượt qua GPT-3 mặc dù nhỏ hơn 10 lần, trong khi LLaMA-65B giữ vị trí của mình trước PaLM-540B.

Tìm hiểu thêm về nghiên cứu này ở đâu?

Bạn có thể lấy mã thực hiện ở đâu?

  • Meta AI cung cấp quyền truy cập vào LLaMA cho các nhà nghiên cứu học thuật, các cá nhân liên quan đến chính phủ, xã hội dân sự, tổ chức học thuật và phòng thí nghiệm nghiên cứu ngành toàn cầu trên cơ sở đánh giá trường hợp cá nhân. Để áp dụng, đi đến sau Kho GitHub.

7. GPT-4 của OpenAI

Tổng kết 

GPT-4 là một mô hình đa phương thức, quy mô lớn, chấp nhận đầu vào hình ảnh và văn bản và tạo đầu ra văn bản. Do những lo ngại về tính cạnh tranh và an toàn, các chi tiết cụ thể về kiến ​​trúc và quá trình đào tạo của mô hình sẽ được giữ lại. Về hiệu suất, GPT-4 vượt qua các mô hình ngôn ngữ trước đây trên các điểm chuẩn truyền thống và cho thấy những cải tiến đáng kể về khả năng hiểu ý định của người dùng và các thuộc tính an toàn. Mô hình này cũng đạt được hiệu suất ở cấp độ con người trong các kỳ thi khác nhau, bao gồm 10% điểm cao nhất trong Kỳ thi Đoàn thống nhất mô phỏng.

Mục tiêu là gì? 

  • Để phát triển một mô hình đa phương thức, quy mô lớn, có thể chấp nhận đầu vào hình ảnh và văn bản và tạo đầu ra văn bản. 
  • Để phát triển cơ sở hạ tầng và các phương pháp tối ưu hóa hoạt động có thể dự đoán được trên nhiều quy mô.

Vấn đề được tiếp cận như thế nào?

  • Do bối cảnh cạnh tranh và ý nghĩa an toàn, OpenAI đã quyết định giữ lại các chi tiết về kiến ​​trúc, kích thước mô hình, phần cứng, tính toán đào tạo, xây dựng tập dữ liệu và phương pháp đào tạo.
  • Họ tiết lộ rằng:
    • GPT-4 là mô hình dựa trên Máy biến áp, được đào tạo trước để dự đoán mã thông báo tiếp theo trong tài liệu.
    • Nó sử dụng dữ liệu có sẵn công khai và dữ liệu được cấp phép của bên thứ ba.
    • Mô hình đã được tinh chỉnh bằng cách sử dụng Học tăng cường từ phản hồi của con người (RLHF).
  • Thông tin chưa được xác nhận cho thấy rằng GPT-4 không phải là một mô hình dày đặc duy nhất như các phiên bản tiền nhiệm của nó, mà là một liên minh mạnh mẽ gồm tám mô hình riêng biệt, mỗi mô hình chứa 220 tỷ tham số đáng kinh ngạc.
Hiệu suất GPT-4

Kết quả là gì?

  • GPT-4 đạt được hiệu suất ở cấp độ con người trong hầu hết các kỳ thi học thuật và chuyên nghiệp, đặc biệt là đạt điểm trong top 10% trong Kỳ thi Đoàn thống nhất mô phỏng.
  • Mô hình GPT-4 cơ sở được đào tạo trước hoạt động tốt hơn các mô hình ngôn ngữ hiện có và các hệ thống tiên tiến nhất trước đó trên các tiêu chuẩn NLP truyền thống mà không cần chế tạo theo tiêu chuẩn cụ thể hoặc các giao thức đào tạo bổ sung.
  • GPT-4 thể hiện sự cải thiện đáng kể trong việc tuân theo ý định của người dùng, với các phản hồi của nó được ưu tiên hơn so với phản hồi của GPT-3.5 ở 70.2% trong số 5,214 lời nhắc từ ChatGPT và API OpenAI.
  • Các thuộc tính an toàn của GPT-4 đã được cải thiện đáng kể so với GPT-3.5, trong đó giảm 82% khả năng phản hồi các yêu cầu nội dung không được phép và tăng 29% khả năng tuân thủ các chính sách đối với các yêu cầu nhạy cảm (ví dụ: tư vấn y tế và tự làm hại bản thân).

Tìm hiểu thêm về nghiên cứu này ở đâu?

Bạn có thể lấy mã thực hiện ở đâu?

  • Không có triển khai mã của GPT-4.

Các ứng dụng trong thế giới thực của các mô hình ngôn ngữ (tầm nhìn) lớn

Những đột phá nghiên cứu AI quan trọng nhất trong những năm gần đây đến từ các mô hình AI lớn được đào tạo trên các bộ dữ liệu khổng lồ. Những mô hình này thể hiện hiệu suất ấn tượng và thật thú vị khi nghĩ về cách AI có thể cách mạng hóa toàn bộ các ngành, như dịch vụ khách hàng, tiếp thị, thương mại điện tử, chăm sóc sức khỏe, phát triển phần mềm, báo chí và nhiều ngành khác.

Các mô hình ngôn ngữ lớn có nhiều ứng dụng trong thế giới thực. GPT-4 liệt kê như sau:

  • Hiểu và tạo ngôn ngữ tự nhiên cho chatbot và trợ lý ảo.
  • Dịch máy giữa các ngôn ngữ.
  • Tóm tắt các bài báo, báo cáo hoặc các tài liệu văn bản khác.
  • Phân tích tình cảm để nghiên cứu thị trường hoặc theo dõi phương tiện truyền thông xã hội.
  • Tạo nội dung để tiếp thị, truyền thông xã hội hoặc viết sáng tạo.
  • Hệ thống trả lời câu hỏi để hỗ trợ khách hàng hoặc cơ sở kiến ​​thức.
  • Phân loại văn bản để lọc thư rác, phân loại chủ đề hoặc tổ chức tài liệu.
  • Các công cụ dạy kèm và học ngôn ngữ được cá nhân hóa.
  • Hỗ trợ tạo mã và phát triển phần mềm.
  • Hỗ trợ và phân tích tài liệu y tế, pháp lý và kỹ thuật.
  • Các công cụ trợ năng dành cho người khuyết tật, chẳng hạn như chuyển văn bản thành giọng nói và chuyển đổi lời nói thành văn bản.
  • Dịch vụ nhận dạng giọng nói và phiên âm.

Nếu chúng tôi thêm một phần trực quan, các lĩnh vực ứng dụng khả thi sẽ mở rộng hơn nữa:

Thật thú vị khi theo dõi những đột phá gần đây về AI và suy nghĩ về các ứng dụng tiềm năng trong thế giới thực của chúng. Tuy nhiên, trước khi triển khai các mô hình này trong cuộc sống thực, chúng ta cần giải quyết các rủi ro và hạn chế tương ứng, điều không may là khá đáng kể.

Rủi ro và Hạn chế

Nếu bạn hỏi GPT-4 về những rủi ro và hạn chế của nó, thì có khả năng nó sẽ cung cấp cho bạn một danh sách dài các mối lo ngại có liên quan. Sau khi lọc qua danh sách này và thêm một số cân nhắc bổ sung, tôi đã kết thúc với tập hợp các rủi ro và hạn chế chính sau đây của các mô hình ngôn ngữ lớn hiện đại:

  1. Thiên vị và phân biệt đối xử: Các mô hình này học hỏi từ một lượng lớn dữ liệu văn bản, thường chứa nội dung thành kiến ​​và phân biệt đối xử. Do đó, kết quả đầu ra được tạo ra có thể vô tình duy trì định kiến, ngôn ngữ xúc phạm và phân biệt đối xử dựa trên các yếu tố như giới tính, chủng tộc hoặc tôn giáo.
  2. Thông tin sai: Các mô hình ngôn ngữ lớn có thể tạo ra nội dung không chính xác, gây hiểu lầm hoặc lỗi thời trên thực tế. Mặc dù các mô hình được đào tạo trên nhiều nguồn khác nhau, nhưng chúng có thể không phải lúc nào cũng cung cấp thông tin chính xác hoặc cập nhật nhất. Điều này thường xảy ra bởi vì mô hình ưu tiên tạo ra các đầu ra đúng ngữ pháp hoặc có vẻ mạch lạc, ngay cả khi chúng gây hiểu nhầm.
  3. Thiếu hiểu biết: Mặc dù các mô hình này dường như hiểu ngôn ngữ của con người, nhưng chúng hoạt động chủ yếu bằng cách xác định các mẫu và liên kết thống kê trong dữ liệu huấn luyện. Họ không hiểu sâu về nội dung mà họ tạo ra, điều này đôi khi có thể dẫn đến kết quả đầu ra vô nghĩa hoặc không liên quan.
  4. Nội dung không phù hợp: Các mô hình ngôn ngữ đôi khi có thể tạo ra nội dung xúc phạm, có hại hoặc không phù hợp. Mặc dù các nỗ lực được thực hiện để giảm thiểu nội dung như vậy, nhưng nó vẫn có thể xảy ra do bản chất của dữ liệu đào tạo và việc mô hình không có khả năng phân biệt ngữ cảnh hoặc ý định của người dùng.

Kết luận

Các mô hình ngôn ngữ lớn chắc chắn đã cách mạng hóa lĩnh vực xử lý ngôn ngữ tự nhiên và thể hiện tiềm năng to lớn trong việc nâng cao năng suất trong các vai trò và ngành khác nhau. Khả năng tạo văn bản giống con người, tự động hóa các tác vụ thông thường và cung cấp hỗ trợ trong các quy trình sáng tạo và phân tích đã khiến chúng trở thành những công cụ không thể thiếu trong thế giới công nghệ phát triển nhanh ngày nay.

Tuy nhiên, điều quan trọng là phải thừa nhận và hiểu những hạn chế và rủi ro liên quan đến các mô hình mạnh mẽ này. Không thể bỏ qua các vấn đề như sai lệch, thông tin sai lệch và khả năng sử dụng độc hại. Khi chúng ta tiếp tục tích hợp các công nghệ do AI điều khiển này vào cuộc sống hàng ngày, điều cần thiết là phải đạt được sự cân bằng giữa việc tận dụng khả năng của chúng và đảm bảo sự giám sát của con người, đặc biệt là trong các tình huống nhạy cảm và rủi ro cao.

Nếu thành công trong việc áp dụng các công nghệ AI tổng hợp một cách có trách nhiệm, chúng ta sẽ mở đường cho một tương lai nơi trí tuệ nhân tạo và chuyên môn của con người phối hợp với nhau để thúc đẩy đổi mới và tạo ra một thế giới tốt đẹp hơn cho tất cả mọi người.

Thưởng thức bài viết này? Đăng ký để cập nhật thêm nghiên cứu AI.

Chúng tôi sẽ cho bạn biết khi chúng tôi phát hành thêm các bài viết tóm tắt như thế này.

Dấu thời gian:

Thêm từ HÀNG ĐẦU