Phát triển sản phẩm LLM từng bước dành cho lãnh đạo doanh nghiệp

Được xuất bản lại bởi Plato

Người theo dõi: 0

Ngăn xếp công nghệ LLMOps

Được tạo bằng Midjourney

Các doanh nghiệp trong mọi ngành và mọi nơi trên thế giới đang gấp rút tích hợp sức mạnh của các mô hình ngôn ngữ lớn (LLM) như ChatGPT của OpenAI, Claude của Anthropic và Jurassic của AI12Lab để tăng hiệu suất trong nhiều ứng dụng kinh doanh, chẳng hạn như nghiên cứu thị trường, dịch vụ khách hàng và tạo nội dung.

Tuy nhiên, việc xây dựng một ứng dụng LLM ở quy mô doanh nghiệp đòi hỏi một bộ công cụ và sự hiểu biết khác với việc xây dựng các ứng dụng máy học (ML) truyền thống. Các nhà lãnh đạo và giám đốc điều hành doanh nghiệp muốn duy trì tiếng nói thương hiệu và chất lượng dịch vụ đáng tin cậy cần phát triển sự hiểu biết sâu sắc hơn về cách thức hoạt động của LLM cũng như ưu và nhược điểm của các công cụ khác nhau trong ngăn xếp ứng dụng LLM.

Trong bài viết này, chúng tôi sẽ cung cấp cho bạn phần giới thiệu cần thiết về chiến lược & công cụ cấp cao mà bạn sẽ cần để xây dựng và chạy ứng dụng LLM cho doanh nghiệp của mình.

Phát triển ML truyền thống so với ứng dụng LLM

Các mô hình học máy truyền thống dành riêng cho từng nhiệm vụ, nghĩa là bạn cần xây dựng một mô hình riêng cho từng nhiệm vụ khác nhau. Ví dụ: nếu bạn muốn phân tích tâm lý khách hàng, bạn cần xây dựng một mô hình và nếu muốn xây dựng chatbot hỗ trợ khách hàng, bạn sẽ cần xây dựng một mô hình khác.

Quá trình xây dựng và đào tạo các mô hình ML dành riêng cho nhiệm vụ này tốn nhiều thời gian và yêu cầu nhiều dữ liệu. Loại bộ dữ liệu cần thiết để đào tạo các mô hình ML khác nhau này cũng sẽ khác nhau tùy thuộc vào nhiệm vụ. Để đào tạo một mô hình nhằm phân tích cảm tính của khách hàng, bạn sẽ cần một bộ dữ liệu đánh giá của khách hàng đã được gắn nhãn với cảm tính tương ứng (tích cực, tiêu cực, trung lập). Để đào tạo một mô hình xây dựng chatbot hỗ trợ khách hàng, bạn sẽ cần một bộ dữ liệu về các cuộc trò chuyện giữa khách hàng và bộ phận hỗ trợ kỹ thuật.

Các mô hình ngôn ngữ lớn đã thay đổi điều này. Các LLM được đào tạo trước trên một tập dữ liệu lớn về văn bản và mã, cho phép họ thực hiện tốt nhiều nhiệm vụ khác nhau, bao gồm:

Tóm tắt văn bản
Tạo nội dung
Dịch
Trích xuất thông tin
Câu trả lời câu hỏi
Phân tích tình cảm
Hỗ trợ khách hàng
Hỗ trợ bán hàng

Quá trình phát triển các ứng dụng LLM có thể được chia thành bốn bước cơ bản:

Chọn một mô hình nền tảng thích hợp. Đây là một thành phần quan trọng, xác định hiệu suất của ứng dụng LLM của bạn.
Tùy chỉnh mô hình, nếu cần thiết. Bạn có thể cần tinh chỉnh mô hình hoặc tăng cường mô hình bằng cơ sở kiến thức bổ sung để đáp ứng các nhu cầu cụ thể của mình.
Thiết lập cơ sở hạ tầng ML. Điều này bao gồm phần cứng và phần mềm cần thiết để chạy ứng dụng của bạn (tức là chất bán dẫn, chip, lưu trữ đám mây, suy luận và triển khai).
Tăng cường ứng dụng của bạn với các công cụ bổ sung. Những công cụ này có thể giúp cải thiện hiệu quả, hiệu suất và bảo mật của ứng dụng của bạn.

Bây giờ, chúng ta hãy xem ngăn xếp công nghệ tương ứng.

Nếu nội dung giáo dục chuyên sâu này hữu ích cho bạn, đăng ký vào danh sách gửi thư AI của chúng tôi để được cảnh báo khi chúng tôi phát hành tài liệu mới.

Ngăn xếp ứng dụng LLM cấp cao

Các ứng dụng LLM được xây dựng dựa trên một số thành phần chính, bao gồm:

Mô hình nền tảng, có thể yêu cầu tùy chỉnh trong các trường hợp sử dụng cụ thể.
Cơ sở hạ tầng ML để có đủ tài nguyên máy tính thông qua nền tảng đám mây hoặc phần cứng của chính công ty.
Công cụ bổ sung, chẳng hạn như đường dẫn dữ liệu, cơ sở dữ liệu vectơ, công cụ điều phối, nền tảng ML tinh chỉnh, công cụ giám sát hiệu suất mô hình, v.v.

Chúng tôi sẽ giới thiệu ngắn gọn cho bạn về các thành phần này để bạn có thể hiểu rõ hơn về bộ công cụ cần thiết để xây dựng và triển khai một ứng dụng LLM.

Mô hình nền tảng là gì?

Sử dụng một LLM được đào tạo trước có thể giúp bạn tiết kiệm rất nhiều thời gian và nguồn lực. Tuy nhiên, đào tạo một mô hình như vậy từ đầu là một quá trình kịp thời và tốn kém, vượt quá khả năng của hầu hết các công ty, ngoại trừ một số nhà lãnh đạo công nghệ ưu tú.

Một số công ty và nhóm nghiên cứu đã đào tạo các mô hình này và cho phép các công ty khác sử dụng chúng. Các ví dụ hàng đầu bao gồm ChatGPT, Claude, Llama, Jurassic và T5. Những mô hình công khai này được gọi là mô hình nền tảng. Một số trong số chúng là độc quyền và có thể được truy cập thông qua lệnh gọi API có tính phí. Những người khác có nguồn mở và có thể được sử dụng miễn phí. Các mô hình này được đào tạo trước trên một bộ dữ liệu khổng lồ chứa dữ liệu văn bản chưa được gắn nhãn, cho phép chúng thực hiện nhiều nhiệm vụ khác nhau, từ tạo bản sao quảng cáo sáng tạo đến giao tiếp với khách hàng của bạn bằng ngôn ngữ mẹ đẻ của họ thay mặt cho công ty.

Có hai loại mô hình nền tảng chính: độc quyền và mã nguồn mở.

mô hình độc quyền được sở hữu bởi một công ty hoặc tổ chức duy nhất và thường chỉ có sẵn với một khoản phí. Một số ví dụ phổ biến nhất về mô hình độc quyền bao gồm mô hình GPT của OpenAI, mô hình Claude của Anthropic và mô hình Jurassic của AI21 Labs.

Mô hình nguồn mở thường có sẵn miễn phí cho bất cứ ai muốn sử dụng chúng. Tuy nhiên, một số mô hình nguồn mở có những hạn chế trong việc sử dụng, chẳng hạn như: (1) chỉ khả dụng cho mục đích nghiên cứu, (2) chỉ khả dụng cho mục đích thương mại của các công ty có quy mô nhất định. Cộng đồng nguồn mở tuyên bố rằng việc đặt ra những hạn chế như vậy không cho phép một mô hình đủ tiêu chuẩn là “nguồn mở”. Tuy nhiên, những ví dụ nổi bật nhất về các mô hình ngôn ngữ có thể được sử dụng miễn phí, bao gồm các mô hình Llama của Meta, các mô hình Falcon của Viện Đổi mới Công nghệ ở Abu Dhabi và các mô hình StableLM của Stability AI. Đọc thêm về các mô hình mã nguồn mở và các rủi ro liên quan tại đây.

Bây giờ, hãy thảo luận về một số yếu tố cần xem xét khi chọn mô hình nền tảng cho ứng dụng LLM của bạn.

Chọn một mô hình nền tảng

Chọn mô hình nền tảng tốt nhất cho ứng dụng LLM của bạn có thể là một quá trình đầy thách thức, nhưng về cơ bản chúng ta có thể chia nó thành ba bước:

Chọn giữa các mô hình nguồn mở và độc quyền. Các mô hình độc quyền thường lớn hơn và có nhiều khả năng hơn các mô hình nguồn mở, nhưng chúng có thể đắt hơn khi sử dụng và kém linh hoạt hơn. Ngoài ra, mã không minh bạch, điều này gây khó khăn cho việc gỡ lỗi hoặc khắc phục sự cố với hiệu suất của các mẫu độc quyền. Mặt khác, các mô hình nguồn mở thường nhận được ít bản cập nhật hơn và ít hỗ trợ hơn từ các nhà phát triển.
Chọn kích thước của mô hình. Các mô hình lớn hơn thường thực hiện tốt hơn các tác vụ đòi hỏi nhiều kiến thức, chẳng hạn như trả lời câu hỏi hoặc tạo văn bản sáng tạo. Tuy nhiên, các mô hình lớn hơn cũng tốn kém hơn về mặt tính toán để sử dụng. Bạn có thể bắt đầu bằng cách thử nghiệm với các mô hình lớn hơn, sau đó chuyển sang các mô hình nhỏ hơn miễn là hiệu suất của mô hình phù hợp với trường hợp sử dụng của bạn.
Chọn một mô hình cụ thể. Bạn có thể bắt đầu bằng cách xem xét các điểm chuẩn chung để đưa vào danh sách rút gọn các mô hình để thử nghiệm. Sau đó, tiến hành thử nghiệm các mô hình khác nhau cho các nhiệm vụ dành riêng cho ứng dụng của bạn. Đối với điểm chuẩn tùy chỉnh, hãy cân nhắc tính toán Điểm BLEU và ROUGE, chỉ số giúp định lượng số lần chỉnh sửa cần thiết đối với văn bản do AI tạo trước khi đưa ra đầu ra cho các ứng dụng do con người thực hiện.

Để hiểu rõ hơn về sự khác biệt giữa các mô hình ngôn ngữ khác nhau, hãy xem tổng quan của chúng tôi về ngôn ngữ mạnh mẽ nhất (LLM) và các mô hình ngôn ngữ trực quan (VLM).

Sau khi bạn đã chọn một mô hình nền tảng cho ứng dụng của mình, bạn có thể xem xét liệu bạn có cần tùy chỉnh mô hình để có hiệu suất tốt hơn hay không.

Tùy chỉnh một mô hình nền tảng

Trong một số trường hợp, bạn có thể muốn tùy chỉnh mô hình ngôn ngữ nền tảng để có hiệu suất tốt hơn trong trường hợp sử dụng cụ thể của mình. Ví dụ: bạn có thể muốn tối ưu hóa cho một số thứ nhất định:

miền. Nếu bạn hoạt động trong các lĩnh vực cụ thể, chẳng hạn như pháp lý, tài chính hoặc chăm sóc sức khỏe, bạn có thể muốn làm phong phú vốn từ vựng của mô hình trong lĩnh vực này để mô hình có thể hiểu và phản hồi tốt hơn các truy vấn của người dùng cuối.
Nhiệm vụ. Ví dụ: nếu bạn muốn mô hình tạo các chiến dịch tiếp thị, bạn có thể cung cấp cho mô hình các ví dụ cụ thể về nội dung tiếp thị có thương hiệu. Điều này sẽ giúp người mẫu tìm hiểu các mẫu và phong cách phù hợp với công ty và đối tượng của bạn.
Tông giọng. Nếu bạn cần mô hình sử dụng một giọng nói cụ thể, bạn có thể tùy chỉnh mô hình trên tập dữ liệu bao gồm các ví dụ về mẫu ngôn ngữ mục tiêu của bạn.

Có ba cách khả thi để tùy chỉnh mô hình ngôn ngữ nền tảng:

Tinh chỉnh: cung cấp cho mô hình tập dữ liệu được gắn nhãn dành riêng cho miền gồm khoảng 100-500 bản ghi. Các trọng số của mô hình được cập nhật, điều này sẽ mang lại hiệu suất tốt hơn đối với các tác vụ được trình bày bởi tập dữ liệu này.
Thích ứng tên miền: cung cấp cho mô hình một tập dữ liệu chưa được gắn nhãn dành riêng cho miền có chứa một khối lượng lớn dữ liệu từ miền tương ứng. Các trọng số mô hình cũng được cập nhật trong trường hợp này.
Truy xuất thông tin: tăng cường mô hình nền tảng với kiến thức miền đóng. Mô hình không được đào tạo lại và trọng số của mô hình vẫn giữ nguyên. Tuy nhiên, mô hình được phép lấy thông tin từ cơ sở dữ liệu vectơ chứa dữ liệu liên quan.

Hai cách tiếp cận đầu tiên yêu cầu tài nguyên máy tính đáng kể để đào tạo lại mô hình, điều này thường chỉ khả thi đối với các công ty lớn có tài năng kỹ thuật phù hợp để quản lý việc tùy chỉnh. Các công ty nhỏ hơn thường sử dụng cách tiếp cận phổ biến hơn là tăng cường mô hình bằng kiến thức miền thông qua cơ sở dữ liệu vectơ, chúng tôi sẽ trình bày chi tiết sau trong bài viết này trong phần về các công cụ LLM.

Thiết lập cơ sở hạ tầng ML

Thành phần cơ sở hạ tầng ML của bối cảnh LLMOps bao gồm nền tảng đám mây, phần cứng máy tính và các tài nguyên khác cần thiết để triển khai và chạy LLM. Thành phần này đặc biệt phù hợp nếu bạn chọn sử dụng mô hình nguồn mở hoặc tùy chỉnh mô hình cho ứng dụng của mình. Trong trường hợp này, bạn có thể cần tài nguyên máy tính đáng kể để tinh chỉnh mô hình, nếu cần và chạy mô hình.

Có một số nền tảng đám mây cung cấp dịch vụ để triển khai LLM, bao gồm Google Cloud Platform, Amazon Web Services và Microsoft Azure. Các nền tảng này cung cấp một số tính năng giúp dễ dàng triển khai và chạy LLM, bao gồm:

Các mô hình được đào tạo trước có thể được tinh chỉnh cho ứng dụng cụ thể của bạn
Cơ sở hạ tầng được quản lý chăm sóc phần cứng và phần mềm cơ bản
Các công cụ và dịch vụ để theo dõi và gỡ lỗi LLM của bạn

Lượng tài nguyên máy tính bạn cần sẽ phụ thuộc vào quy mô và độ phức tạp của mô hình, nhiệm vụ bạn muốn mô hình thực hiện và quy mô của hoạt động kinh doanh, nơi bạn muốn triển khai mô hình này.

Tăng cường với các công cụ

Các công cụ liền kề LLM bổ sung có thể được sử dụng để nâng cao hơn nữa hiệu suất của ứng dụng LLM của bạn.

Đường ống dữ liệu

Nếu bạn cần sử dụng dữ liệu của mình trong sản phẩm LLM, quy trình tiền xử lý dữ liệu sẽ là trụ cột thiết yếu trong ngăn xếp công nghệ mới của bạn, giống như trong ngăn xếp AI doanh nghiệp truyền thống. Các công cụ này bao gồm trình kết nối để nhập dữ liệu từ bất kỳ nguồn nào, lớp chuyển đổi dữ liệu và trình kết nối xuôi dòng. Các nhà cung cấp đường dẫn dữ liệu hàng đầu, chẳng hạn như Databricks và Snowflake, và những người chơi mới, như Không cấu trúc, giúp các nhà phát triển dễ dàng chỉ ra khối dữ liệu ngôn ngữ tự nhiên lớn và không đồng nhất cao (ví dụ: hàng nghìn tệp PDF, bản trình bày PowerPoint, nhật ký trò chuyện, HTML cóp nhặt, v.v.) đến một điểm truy cập duy nhất hoặc thậm chí vào một tài liệu duy nhất có thể được các ứng dụng LLM tiếp tục sử dụng.

Cơ sở dữ liệu vectơ

Các mô hình ngôn ngữ lớn bị giới hạn trong việc xử lý vài nghìn từ một lúc, vì vậy chúng không thể tự xử lý các tài liệu lớn một cách hiệu quả. Để khai thác sức mạnh của các tài liệu lớn, doanh nghiệp cần sử dụng cơ sở dữ liệu vector.

Cơ sở dữ liệu vectơ là các hệ thống lưu trữ chuyển đổi các tài liệu lớn mà chúng nhận được thông qua các đường dẫn dữ liệu thành các vectơ hoặc phần nhúng có thể quản lý được. Sau đó, các ứng dụng LLM có thể truy vấn các cơ sở dữ liệu này để xác định chính xác các vectơ phù hợp, chỉ trích xuất các mẩu thông tin cần thiết.

Một số cơ sở dữ liệu vectơ nổi bật nhất hiện có là Pinecone, Chroma và Weaviate.

Công cụ dàn nhạc

Khi người dùng gửi truy vấn tới ứng dụng LLM của bạn, chẳng hạn như câu hỏi về dịch vụ khách hàng, ứng dụng cần tạo một loạt lời nhắc trước khi gửi truy vấn này tới mô hình ngôn ngữ. Yêu cầu cuối cùng đối với mô hình ngôn ngữ thường bao gồm một mẫu nhanh được mã hóa cứng bởi nhà phát triển, các ví dụ về kết quả đầu ra hợp lệ được gọi là các ví dụ ngắn gọn, bất kỳ thông tin cần thiết nào được truy xuất từ các API bên ngoài và một bộ tài liệu liên quan được truy xuất từ cơ sở dữ liệu vectơ . Các công cụ điều phối từ các công ty như LangChain hoặc LlamaIndex có thể giúp hợp lý hóa quy trình này bằng cách cung cấp các khung sẵn sàng sử dụng để quản lý và thực hiện lời nhắc.

Tinh chỉnh

Các mô hình ngôn ngữ lớn được đào tạo trên bộ dữ liệu khổng lồ có thể tạo ra văn bản trôi chảy và đúng ngữ pháp. Tuy nhiên, chúng có thể thiếu chính xác trong một số lĩnh vực nhất định, chẳng hạn như y học hoặc luật. Tinh chỉnh các mô hình này trên bộ dữ liệu dành riêng cho miền cho phép họ tiếp thu các tính năng độc đáo của các khu vực đó, nâng cao khả năng tạo văn bản có liên quan.

Tinh chỉnh LLM có thể là một quá trình tốn nhiều chi phí cho các công ty nhỏ. Tuy nhiên, các giải pháp từ các công ty như Weights & Biases và OctoML có thể giúp tinh chỉnh hợp lý và hiệu quả. Các giải pháp này cung cấp nền tảng cho các công ty tinh chỉnh LLM mà không cần phải đầu tư vào cơ sở hạ tầng của riêng họ.

Các công cụ khác

Có nhiều công cụ khác có thể hữu ích cho việc xây dựng và chạy các ứng dụng LLM. Ví dụ: bạn có thể cần các công cụ ghi nhãn nếu muốn tinh chỉnh mô hình bằng các mẫu dữ liệu cụ thể của mình. Bạn cũng có thể muốn triển khai các công cụ cụ thể để theo dõi hiệu suất của ứng dụng của mình, vì ngay cả những thay đổi nhỏ đối với mô hình nền tảng hoặc yêu cầu từ khách hàng cũng có thể ảnh hưởng đáng kể đến hiệu suất của lời nhắc. Cuối cùng, có những công cụ giám sát mức độ an toàn của mô hình để giúp bạn tránh quảng cáo nội dung kích động thù địch, đề xuất nguy hiểm hoặc thành kiến. Sự cần thiết và tầm quan trọng của các công cụ khác nhau này sẽ phụ thuộc vào trường hợp sử dụng cụ thể của bạn.

Điều gì tiếp theo trong phát triển ứng dụng LLM?

Bốn bước để phát triển sản phẩm LLM mà chúng ta đã thảo luận ở đây, là nền tảng thiết yếu của chiến lược AI tổng quát của bất kỳ doanh nghiệp nào sử dụng các mô hình ngôn ngữ lớn. Chúng rất quan trọng đối với các nhà lãnh đạo doanh nghiệp không chuyên về kỹ thuật, ngay cả khi bạn có một nhóm kỹ thuật triển khai các chi tiết. Chúng tôi sẽ xuất bản các hướng dẫn chi tiết hơn trong tương lai về cách tận dụng nhiều loại công cụ AI tổng hợp trên thị trường. Hiện tại, bạn có thể Theo dõi bản tin của chúng tôi để nhận được các bản cập nhật mới nhất.

Chúng tôi sẽ cho bạn biết khi chúng tôi phát hành thêm các bài viết tóm tắt như thế này.