Cloudflare cho phép AI thoát khỏi biên mạng

Được xuất bản lại bởi Plato

Người theo dõi: 0

Các mô hình AI sáng tạo có thể được đào tạo trong các cụm GPU khổng lồ, nhưng Cloudflare lập luận rằng nơi hiển nhiên để chạy chúng không chỉ ở rìa mà còn trong chính mạng.

Vào thứ Tư gã khổng lồ giao hàng công bố một bộ dịch vụ AI nhằm mục đích loại bỏ sự phức tạp của việc triển khai và chạy các mô hình ngôn ngữ lớn (LLM) cũng như các thuật toán học máy (ML) khác, đồng thời đạt được độ trễ thấp nhất có thể.

Thực ra, độ trễ thấp nhất có thể đạt được bằng cách chạy khối lượng công việc suy luận trên thiết bị của người dùng. Intel đã rất quan tâm đến vấn đề này, chào hàng sự trỗi dậy của thế hệ PC AI, tuần trước tại Intel Innovation. Nhưng mặc dù điều này có thể hợp lý trong một số trường hợp, Cloudflare lập luận rằng các thiết bị cục bộ vẫn chưa đủ mạnh.

“Điều này làm cho mạng trở thành nền tảng suy luận vàng. Không quá xa, với đủ sức mạnh tính toán — vừa phải,” biz viết.

Không có máy chủ cho GPU

Bộ AI bao gồm ba dịch vụ cốt lõi. Đầu tiên trong số này là phần mở rộng của nền tảng Công nhân không có máy chủ để hỗ trợ khối lượng công việc được tăng tốc GPU. Được mệnh danh là Workers AI, dịch vụ này được thiết kế để hợp lý hóa quá trình triển khai các mô hình được đào tạo trước.

“Không có chuyên môn về học máy, không lục lọi GPU. Chỉ cần chọn một trong các mô hình được cung cấp và sử dụng,” Cloudflare tuyên bố.

Chúng tôi được biết nền tảng này chạy trên GPU Nvidia, mặc dù Cloudflare không cho chúng tôi biết đó là GPU nào. “Công nghệ mà Cloudflare đã xây dựng có thể phân chia nhiệm vụ suy luận trên nhiều GPU khác nhau, bởi vì chúng tôi đang đảm nhiệm việc lập kế hoạch và hệ thống, đồng thời chúng tôi sẽ quyết định loại chip nào phù hợp nhất để cung cấp điều đó,” nó nói. Đăng ký trong một tuyên bố.

Vì sự đơn giản, nền tảng này không - ít nhất là không phải ban đầu - hỗ trợ các mẫu do khách hàng cung cấp. Chúng tôi được biết họ có kế hoạch triển khai chức năng này trong tương lai, nhưng hiện tại, nó chỉ giới hạn ở sáu mô hình được đào tạo trước, bao gồm:

Meta's Llama 2 7B Int8 để tạo văn bản
M2m100-1.2 của Meta để dịch
OpenAI's Whisper để nhận dạng giọng nói
Hugging Face's Distilbert-sst-2-int8 để phân loại văn bản
Resnet-50 của Microsoft để phân loại hình ảnh
Bge-base-en-v1.5 của Baai để nhúng

Tuy nhiên, Cloudflare cho biết họ đang nỗ lực mở rộng danh sách này trong tương lai gần. Giống như nhiều hy vọng về AI, nó có chào mời sự trợ giúp của Ôm Mặt để tối ưu hóa các mẫu bổ sung cho dịch vụ.

Không rõ liệu có giới hạn về kích thước của các mô hình mà nền tảng có thể hỗ trợ hay không, nhưng danh sách ban đầu cung cấp một số manh mối. Cloudflare đang cung cấp Llama 2 LLM bảy tỷ tham số của Meta chạy trên Int8, yêu cầu bộ nhớ GPU khoảng 7GB. Công ty cũng lưu ý rằng “nếu bạn đang muốn chạy hàng trăm tỷ phiên bản tham số của các mô hình thì đám mây tập trung sẽ phù hợp hơn với khối lượng công việc của bạn”.

Sau khi thiết lập và chạy, Cloudflare cho biết khách hàng có thể tích hợp dịch vụ này vào ứng dụng của họ bằng API REST hoặc bằng cách buộc nó vào giao diện trang web Trang của họ.

Để tất cả chúng cùng nhau

Vì Workers AI chỉ hỗ trợ suy luận trên các mô hình được đào tạo trước nên Cloudflare cho biết họ đã phát triển dịch vụ cơ sở dữ liệu vectơ có tên Vectorize để giúp các mô hình ML truyền dữ liệu khách hàng đến người dùng dễ dàng hơn

Ví dụ: đối với chatbot, khách hàng có thể tải danh mục sản phẩm của họ lên cơ sở dữ liệu vectơ, từ đó mô hình sẽ chuyển đổi danh mục sản phẩm đó thành tài sản được nhúng.

Ý tưởng có vẻ là, trong khi mô hình Llama 2 do Cloudflare cung cấp có thể không có kiến thức cụ thể về dữ liệu của khách hàng, chatbot vẫn có thể hiển thị thông tin liên quan bằng cách kết nối với dịch vụ cơ sở dữ liệu. Theo Cloudflare, cách tiếp cận này làm cho suy luận dễ tiếp cận hơn, nhanh hơn và ít tốn tài nguyên hơn vì nó tách dữ liệu khách hàng khỏi chính mô hình.

Bên cạnh Workers AI và Vectorize, bộ AI của Cloudflare cũng bao gồm một nền tảng để giám sát, tối ưu hóa và quản lý khối lượng công việc suy luận trên quy mô lớn.

Được đặt tên là Cổng AI, dịch vụ này áp dụng một số tính năng thường được liên kết với mạng phân phối nội dung và proxy web, như bộ nhớ đệm và giới hạn tốc độ, cho suy luận AI để giúp khách hàng kiểm soát chi phí.

Công ty giải thích trong bài đăng trên blog: “Bằng cách lưu vào bộ nhớ đệm các phản hồi AI được sử dụng thường xuyên, nó giúp giảm độ trễ và tăng cường độ tin cậy của hệ thống, đồng thời giới hạn tốc độ đảm bảo phân bổ tài nguyên hiệu quả, giảm thiểu những thách thức về chi phí AI tăng vọt”.

Giá cả và tính sẵn sàng

Cloudflare lưu ý rằng dịch vụ này vẫn đang trong giai đoạn triển khai ban đầu, với bảy trang web trực tuyến hiện nay. Tuy nhiên, công ty đang triển khai GPU để đưa dịch vụ này đạt 100 điểm hiện diện vào cuối năm nay và “gần như ở mọi nơi” vào cuối năm 2024.

Do đó, họ chưa khuyến nghị triển khai các ứng dụng sản xuất trên Workers AI mà mô tả nó là “bản beta sớm”.

“Những gì chúng tôi phát hành hôm nay chỉ là một bản xem trước nhỏ để giúp bạn biết được những gì sắp xảy ra,” bài đăng trên blog viết.

Như thường lệ, Cloudflare cho biết họ sẽ không tính phí dịch vụ vào ngày đầu tiên. Như đã nói, nó dự kiến sẽ tính phí khoảng một xu cho mỗi nghìn “tế bào thần kinh co giật thông thường” và 0.125 USD cho mỗi nghìn “tế bào thần kinh co giật nhanh”. Sự khác biệt giữa hai loại này là loại thứ hai ưu tiên sự gần gũi với người dùng cuối, trong khi loại thứ hai ít tốn kém hơn chạy ở bất cứ nơi nào Cloudflare có công suất dư thừa.

Công ty giải thích rằng nơ-ron là một cách để đo lường đầu ra của AI và nói thêm rằng một nghìn nơ-ron phù hợp với khoảng 130 phản hồi LLM, 830 phân loại hình ảnh hoặc 1,250 lượt nhúng ®.