Các mô hình AI sáng tạo có thể được đào tạo trong các cụm GPU khổng lồ, nhưng Cloudflare lập luận rằng nơi hiển nhiên để chạy chúng không chỉ ở rìa mà còn trong chính mạng.
Vào thứ Tư gã khổng lồ giao hàng công bố một bộ dịch vụ AI nhằm mục đích loại bỏ sự phức tạp của việc triển khai và chạy các mô hình ngôn ngữ lớn (LLM) cũng như các thuật toán học máy (ML) khác, đồng thời đạt được độ trễ thấp nhất có thể.
Thực ra, độ trễ thấp nhất có thể đạt được bằng cách chạy khối lượng công việc suy luận trên thiết bị của người dùng. Intel đã rất quan tâm đến vấn đề này, chào hàng sự trỗi dậy của thế hệ PC AI, tuần trước tại Intel Innovation. Nhưng mặc dù điều này có thể hợp lý trong một số trường hợp, Cloudflare lập luận rằng các thiết bị cục bộ vẫn chưa đủ mạnh.
“Điều này làm cho mạng trở thành nền tảng suy luận vàng. Không quá xa, với đủ sức mạnh tính toán — vừa phải,” biz viết.
Không có máy chủ cho GPU
Bộ AI bao gồm ba dịch vụ cốt lõi. Đầu tiên trong số này là phần mở rộng của nền tảng Công nhân không có máy chủ để hỗ trợ khối lượng công việc được tăng tốc GPU. Được mệnh danh là Workers AI, dịch vụ này được thiết kế để hợp lý hóa quá trình triển khai các mô hình được đào tạo trước.
“Không có chuyên môn về học máy, không lục lọi GPU. Chỉ cần chọn một trong các mô hình được cung cấp và sử dụng,” Cloudflare tuyên bố.
Chúng tôi được biết nền tảng này chạy trên GPU Nvidia, mặc dù Cloudflare không cho chúng tôi biết đó là GPU nào. “Công nghệ mà Cloudflare đã xây dựng có thể phân chia nhiệm vụ suy luận trên nhiều GPU khác nhau, bởi vì chúng tôi đang đảm nhiệm việc lập kế hoạch và hệ thống, đồng thời chúng tôi sẽ quyết định loại chip nào phù hợp nhất để cung cấp điều đó,” nó nói. Đăng ký trong một tuyên bố.
Vì sự đơn giản, nền tảng này không - ít nhất là không phải ban đầu - hỗ trợ các mẫu do khách hàng cung cấp. Chúng tôi được biết họ có kế hoạch triển khai chức năng này trong tương lai, nhưng hiện tại, nó chỉ giới hạn ở sáu mô hình được đào tạo trước, bao gồm:
- Meta's Llama 2 7B Int8 để tạo văn bản
- M2m100-1.2 của Meta để dịch
- OpenAI's Whisper để nhận dạng giọng nói
- Hugging Face's Distilbert-sst-2-int8 để phân loại văn bản
- Resnet-50 của Microsoft để phân loại hình ảnh
- Bge-base-en-v1.5 của Baai để nhúng
Tuy nhiên, Cloudflare cho biết họ đang nỗ lực mở rộng danh sách này trong tương lai gần. Giống như nhiều hy vọng về AI, nó có chào mời sự trợ giúp của Ôm Mặt để tối ưu hóa các mẫu bổ sung cho dịch vụ.
Không rõ liệu có giới hạn về kích thước của các mô hình mà nền tảng có thể hỗ trợ hay không, nhưng danh sách ban đầu cung cấp một số manh mối. Cloudflare đang cung cấp Llama 2 LLM bảy tỷ tham số của Meta chạy trên Int8, yêu cầu bộ nhớ GPU khoảng 7GB. Công ty cũng lưu ý rằng “nếu bạn đang muốn chạy hàng trăm tỷ phiên bản tham số của các mô hình thì đám mây tập trung sẽ phù hợp hơn với khối lượng công việc của bạn”.
Sau khi thiết lập và chạy, Cloudflare cho biết khách hàng có thể tích hợp dịch vụ này vào ứng dụng của họ bằng API REST hoặc bằng cách buộc nó vào giao diện trang web Trang của họ.
Để tất cả chúng cùng nhau
Vì Workers AI chỉ hỗ trợ suy luận trên các mô hình được đào tạo trước nên Cloudflare cho biết họ đã phát triển dịch vụ cơ sở dữ liệu vectơ có tên Vectorize để giúp các mô hình ML truyền dữ liệu khách hàng đến người dùng dễ dàng hơn
Ví dụ: đối với chatbot, khách hàng có thể tải danh mục sản phẩm của họ lên cơ sở dữ liệu vectơ, từ đó mô hình sẽ chuyển đổi danh mục sản phẩm đó thành tài sản được nhúng.
Ý tưởng có vẻ là, trong khi mô hình Llama 2 do Cloudflare cung cấp có thể không có kiến thức cụ thể về dữ liệu của khách hàng, chatbot vẫn có thể hiển thị thông tin liên quan bằng cách kết nối với dịch vụ cơ sở dữ liệu. Theo Cloudflare, cách tiếp cận này làm cho suy luận dễ tiếp cận hơn, nhanh hơn và ít tốn tài nguyên hơn vì nó tách dữ liệu khách hàng khỏi chính mô hình.
Bên cạnh Workers AI và Vectorize, bộ AI của Cloudflare cũng bao gồm một nền tảng để giám sát, tối ưu hóa và quản lý khối lượng công việc suy luận trên quy mô lớn.
Được đặt tên là Cổng AI, dịch vụ này áp dụng một số tính năng thường được liên kết với mạng phân phối nội dung và proxy web, như bộ nhớ đệm và giới hạn tốc độ, cho suy luận AI để giúp khách hàng kiểm soát chi phí.
Công ty giải thích trong bài đăng trên blog: “Bằng cách lưu vào bộ nhớ đệm các phản hồi AI được sử dụng thường xuyên, nó giúp giảm độ trễ và tăng cường độ tin cậy của hệ thống, đồng thời giới hạn tốc độ đảm bảo phân bổ tài nguyên hiệu quả, giảm thiểu những thách thức về chi phí AI tăng vọt”.
Giá cả và tính sẵn sàng
Cloudflare lưu ý rằng dịch vụ này vẫn đang trong giai đoạn triển khai ban đầu, với bảy trang web trực tuyến hiện nay. Tuy nhiên, công ty đang triển khai GPU để đưa dịch vụ này đạt 100 điểm hiện diện vào cuối năm nay và “gần như ở mọi nơi” vào cuối năm 2024.
Do đó, họ chưa khuyến nghị triển khai các ứng dụng sản xuất trên Workers AI mà mô tả nó là “bản beta sớm”.
“Những gì chúng tôi phát hành hôm nay chỉ là một bản xem trước nhỏ để giúp bạn biết được những gì sắp xảy ra,” bài đăng trên blog viết.
Như thường lệ, Cloudflare cho biết họ sẽ không tính phí dịch vụ vào ngày đầu tiên. Như đã nói, nó dự kiến sẽ tính phí khoảng một xu cho mỗi nghìn “tế bào thần kinh co giật thông thường” và 0.125 USD cho mỗi nghìn “tế bào thần kinh co giật nhanh”. Sự khác biệt giữa hai loại này là loại thứ hai ưu tiên sự gần gũi với người dùng cuối, trong khi loại thứ hai ít tốn kém hơn chạy ở bất cứ nơi nào Cloudflare có công suất dư thừa.
Công ty giải thích rằng nơ-ron là một cách để đo lường đầu ra của AI và nói thêm rằng một nghìn nơ-ron phù hợp với khoảng 130 phản hồi LLM, 830 phân loại hình ảnh hoặc 1,250 lượt nhúng ®.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/
- : có
- :là
- :không phải
- $ LÊN
- 1
- 100
- 125
- 2024
- 250
- a
- Giới thiệu
- tăng tốc
- có thể truy cập
- Theo
- đạt được
- đạt được
- ngang qua
- thực sự
- thêm
- thêm vào
- AI
- Mô hình AI
- Dịch vụ AI
- nhằm vào
- thuật toán
- Tất cả
- phân bổ
- Ngoài ra
- an
- và
- bất cứ nơi nào
- API
- xuất hiện
- các ứng dụng
- áp dụng
- phương pháp tiếp cận
- ứng dụng
- LÀ
- Tranh luận
- AS
- tài sản
- liên kết
- At
- có sẵn
- xa
- BE
- bởi vì
- beta
- Hơn
- giữa
- lớn
- thanh toán
- biz
- Blog
- người ủng hộ
- mang lại
- xây dựng
- nhưng
- by
- gọi là
- CAN
- Sức chứa
- mà
- trường hợp
- Danh mục hàng
- phần trăm
- tập trung
- thách thức
- phí
- chatbot
- Chip
- Snacks
- tuyên bố
- trong sáng
- đám mây
- CloudFlare
- CO
- đến
- công ty
- phức tạp
- bao gồm
- Tính
- nội dung
- điều khiển
- chuyển đổi
- Trung tâm
- Chi phí
- khách hàng
- dữ liệu khách hàng
- khách hàng
- dữ liệu
- Cơ sở dữ liệu
- ngày
- nhiều
- quyết định
- cung cấp
- giao hàng
- triển khai
- triển khai
- thiết kế
- phát triển
- thiết bị
- Thiết bị (Devices)
- sự khác biệt
- khác nhau
- làm
- doesn
- được mệnh danh là
- Đầu
- dễ dàng hơn
- Cạnh
- hiệu quả
- nhúng
- cuối
- đủ
- đảm bảo
- Ether (ETH)
- Mỗi
- ở khắp mọi nơi
- ví dụ
- dư thừa
- Mở rộng
- kỳ vọng
- đắt tiền
- chuyên môn
- Giải thích
- Giải thích
- mở rộng
- Đối mặt
- xa
- NHANH
- nhanh hơn
- Tính năng
- Tên
- Trong
- thường xuyên
- từ
- lối vào
- về mặt chức năng
- tương lai
- cửa ngõ
- thế hệ
- khổng lồ
- Cho
- Go
- đi
- tốt
- GPU
- GPU
- Có
- giúp đỡ
- Tuy nhiên
- HTTPS
- ý tưởng
- if
- hình ảnh
- in
- bao gồm
- bao gồm
- thông tin
- ban đầu
- ban đầu
- sự đổi mới
- tích hợp
- Intel
- quan tâm
- trong
- isn
- IT
- ITS
- chính nó
- jpg
- chỉ
- kiến thức
- Họ
- Độ trễ
- học tập
- ít nhất
- ít
- cho phép
- Lượt thích
- LIMIT
- Hạn chế
- Danh sách
- ll
- Loài đà mã ở nam mỹ
- địa phương
- tìm kiếm
- thấp nhất
- máy
- học máy
- thực hiện
- làm cho
- LÀM CHO
- Làm
- quản lý
- nhiều
- lớn
- Có thể..
- đo
- Bộ nhớ
- Siêu dữ liệu
- Might
- giảm nhẹ
- ML
- kiểu mẫu
- mô hình
- giám sát
- chi tiết
- hầu hết
- di chuyển
- nhiều
- Gần
- gần
- mạng
- mạng
- Neurons
- Không
- Chú ý
- tại
- Nvidia
- Rõ ràng
- of
- cung cấp
- cung cấp
- on
- ONE
- những
- Trực tuyến
- có thể
- Tối ưu hóa
- tối ưu hóa
- or
- gọi món
- Nền tảng khác
- ra
- đầu ra
- trang
- tham số
- vượt qua
- PC
- chọn
- Nơi
- kế hoạch
- nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- điểm
- có thể
- Bài đăng
- quyền lực
- mạnh mẽ
- sự hiện diện
- Xem trước
- ưu tiên
- quá trình
- Sản phẩm
- Sản lượng
- cung cấp
- người ủy nhiệm
- Tỷ lệ
- RE
- giới thiệu
- làm giảm
- đều đặn
- phát hành
- có liên quan
- độ tin cậy
- yêu cầu
- tài nguyên
- phản ứng
- REST của
- kết quả
- ngay
- Tăng lên
- Lăn
- chạy
- chạy
- chạy
- s
- Nói
- nói
- Quy mô
- lập kế hoạch
- ý nghĩa
- Không có máy chủ
- dịch vụ
- DỊCH VỤ
- XNUMX
- một số
- đơn giản
- Các trang web
- Six
- Kích thước máy
- nhỏ
- một số
- riêng
- phát biểu
- chia
- giai đoạn
- Tuyên bố
- Vẫn còn
- hợp lý hóa
- đủ
- bộ
- hỗ trợ
- Hỗ trợ
- Bề mặt
- hệ thống
- T
- dùng
- Nhiệm vụ
- hương vị
- Công nghệ
- nói
- văn bản
- việc này
- Sản phẩm
- Tương lai
- cung cấp their dịch
- Them
- Đó
- Kia là
- điều này
- Tuy nhiên?
- nghìn
- số ba
- đến
- bây giờ
- nói với
- quá
- đào tạo
- Twitch
- hai
- thường
- us
- đã sử dụng
- người sử dang
- sử dụng
- Đường..
- we
- web
- Website
- Thứ Tư
- tuần
- Điều gì
- cái nào
- trong khi
- Thì thầm
- với
- Won
- công nhân
- đang làm việc
- sẽ
- sẽ
- năm
- nhưng
- bạn
- trên màn hình
- zephyrnet