AI ở rìa Không còn có nghĩa là AI đã chết

Nút nguồn: 1579936

Một khía cạnh của trí tuệ nhận được về AI là tất cả sự đổi mới đều bắt đầu từ các công cụ đào tạo/học máy lớn trên đám mây. Một số đổi mới đó cuối cùng có thể di chuyển ở dạng giảm/hạn chế sang cạnh. Một phần điều này phản ánh sự mới mẻ của lĩnh vực này. Có lẽ một phần nó cũng phản ánh nhu cầu về các giải pháp phù hợp với một kích cỡ được đóng gói sẵn cho các vật dụng IoT. Nơi các nhà thiết kế muốn có sự thông minh trong sản phẩm của họ nhưng chưa sẵn sàng để trở thành chuyên gia thiết kế ML. Nhưng bây giờ những nhà thiết kế đang bắt kịp. Họ đọc các thông cáo báo chí và nghiên cứu giống như tất cả chúng ta, cũng như các đối thủ cạnh tranh của họ. Họ muốn tận dụng những tiến bộ tương tự, trong khi vẫn tuân thủ các hạn chế về năng lượng và chi phí.

AI ở rìa Không còn có nghĩa là AI đã chết

Nhận diện khuôn mặt

Sự khác biệt của AI ở rìa

Đó là tất cả về sự khác biệt trong phạm vi chi phí/công suất có thể chấp nhận được. Đó là khó khăn để có được từ các giải pháp đóng gói sẵn. Rốt cuộc, các đối thủ cạnh tranh đều có quyền truy cập vào các giải pháp giống nhau. Điều bạn thực sự muốn là một tập hợp các tùy chọn thuật toán được lập mô hình trong bộ xử lý dưới dạng các bộ tăng tốc chuyên dụng sẵn sàng được sử dụng, với khả năng tạo lớp trên giá trị gia tăng dựa trên phần mềm của riêng bạn. Bạn có thể nghĩ rằng bạn không thể làm được gì nhiều ở đây, ngoài một số quản trị viên và điều chỉnh. Thời gian đã thay đổi. CEVA gần đây đã giới thiệu bộ xử lý AI nhúng NeuPro-M của họ, cho phép tối ưu hóa bằng cách sử dụng một số tiến bộ ML mới nhất, đi sâu vào thiết kế thuật toán.

OK, do đó, kiểm soát thuật toán nhiều hơn, nhưng để đạt được mục đích gì? Bạn muốn tối ưu hóa hiệu suất trên mỗi watt, nhưng số liệu tiêu chuẩn – TOPS/W – quá thô. Các ứng dụng hình ảnh nên được đo theo số khung hình trên giây (khung hình/giây) trên mỗi watt. Đối với các ứng dụng bảo mật, để đảm bảo an toàn cho ô tô hoặc tránh va chạm với máy bay không người lái, thời gian nhận dạng trên mỗi khung hình phù hợp hơn nhiều so với hoạt động thô trên giây. Vì vậy, một nền tảng như NeuPro-M có thể cung cấp tới hàng nghìn khung hình/giây/W về nguyên tắc sẽ xử lý tốc độ khung hình/giây thực tế là 30-60 khung hình/giây ở mức điện năng rất thấp. Đó là một bước tiến thực sự đối với các giải pháp AI đóng gói sẵn truyền thống.

Làm cho nó có thể

Các thuật toán cơ bản được xây dựng bằng cách quay số trong các tính năng mà bạn đã đọc, bắt đầu với một loạt các tùy chọn lượng tử hóa. Điều tương tự cũng áp dụng cho tính đa dạng của loại dữ liệu khi kích hoạt và trọng số trên một loạt kích thước bit. Đơn vị hệ số thần kinh (NMU) hỗ trợ tối ưu nhiều tùy chọn độ rộng bit để kích hoạt và trọng số như 8×2 hoặc 16×4 và cũng sẽ hỗ trợ các biến thể như 8×10.

Bộ xử lý hỗ trợ Biến đổi Winograd hoặc tích chập hiệu quả, mang lại hiệu suất tăng gấp 2 lần và giảm công suất với sự suy giảm độ chính xác hạn chế. Thêm công cụ thưa thớt vào mô hình để tăng tốc lên tới 4 lần tùy thuộc vào số lượng giá trị 2 (trong dữ liệu hoặc trọng số). Tại đây, Đơn vị nhân thần kinh cũng hỗ trợ nhiều loại dữ liệu, cố định từ 2×16 đến 16×16 và dấu phẩy động (và Bfloat) từ 16×32 đến 32×XNUMX.

Logic truyền trực tuyến cung cấp các tùy chọn để chia tỷ lệ, kích hoạt và tổng hợp điểm cố định. Bộ xử lý vector cho phép bạn thêm các lớp tùy chỉnh của riêng mình vào mô hình. “Vậy thì sao, mọi người đều ủng hộ điều đó”, bạn có thể nghĩ nhưng hãy xem bên dưới về thông lượng. Ngoài ra còn có một tập hợp các tính năng AI thế hệ tiếp theo bao gồm biến hình ảnh, tích chập 3D, hỗ trợ RNN và phân tách ma trận.

Rất nhiều tùy chọn thuật toán, tất cả đều được tối ưu hóa mạng hỗ trợ cho giải pháp nhúng của bạn thông qua khung CDNN để khai thác triệt để sức mạnh của thuật toán ML của bạn. CDNN là sự kết hợp của trình biên dịch biểu đồ suy luận mạng và công cụ bổ trợ PyTorch chuyên dụng. Công cụ này sẽ cắt bớt mô hình, tùy chọn hỗ trợ nén mô hình thông qua phân tách ma trận và thêm đào tạo lại nhận biết lượng tử hóa.

tối ưu hóa thông lượng

Trong hầu hết các hệ thống AI, một số chức năng này có thể được xử lý trong các công cụ chuyên dụng, yêu cầu dữ liệu phải được giảm tải và chuyển đổi sẽ được tải lại khi hoàn thành. Đó là rất nhiều độ trễ được thêm vào (và có thể ảnh hưởng đến sức mạnh), làm suy yếu hoàn toàn hiệu suất trong mô hình mạnh mẽ của bạn. NeuPro-M loại bỏ vấn đề đó bằng cách kết nối tất cả các các bộ tăng tốc này trực tiếp vào bộ đệm L1 được chia sẻ. Duy trì băng thông cao hơn nhiều so với những gì bạn có thể tìm thấy trong các máy gia tốc thông thường.

Như một ví dụ nổi bật, đơn vị xử lý véc tơ, thường được sử dụng để xác định các lớp tùy chỉnh, nằm ở cùng mức với các bộ gia tốc khác. Các thuật toán của bạn được triển khai trong VPU được hưởng lợi từ khả năng tăng tốc giống như phần còn lại của mô hình. Một lần nữa, không cần giảm tải và tải lại để tăng tốc các lớp tùy chỉnh. Ngoài ra, bạn có thể có tối đa 8 công cụ NPM này (tất cả các công cụ tăng tốc, cộng với bộ nhớ đệm NPM L1). NeuPro-M cũng cung cấp mức độ tối ưu hóa băng thông do phần mềm kiểm soát đáng kể giữa bộ nhớ đệm L2 và bộ nhớ đệm L1, tối ưu hóa việc xử lý khung và giảm thiểu nhu cầu truy cập DDR.

Đương nhiên NeuPro-M cũng sẽ giảm thiểu lưu lượng dữ liệu và trọng lượng . Đối với dữ liệu, các bộ tăng tốc chia sẻ cùng một bộ đệm L1. Bộ xử lý chủ có thể giao tiếp dữ liệu trực tiếp với NeuPro-M L2, một lần nữa giảm nhu cầu truyền DDR. NeuPro-M nén và giải nén trọng lượng trên chip khi truyền bằng bộ nhớ DDR. Nó có thể làm tương tự với kích hoạt.

Bằng chứng về khả năng tăng tốc fps/W

CEVA đã chạy các điểm chuẩn tiêu chuẩn bằng cách sử dụng kết hợp các thuật toán được lập mô hình trong các máy gia tốc, từ gốc đến Winograd, đến Winograd+Sparsity, đến Winograd+Sparsity+4×4. Cả hai điểm chuẩn đều cho thấy hiệu suất được cải thiện lên tới 3 lần, với công suất (khung hình/giây/giây) tăng khoảng 5 lần đối với ISP NN. Giải pháp NeuPro-M mang lại diện tích nhỏ hơn, hiệu suất gấp 4 lần, công suất bằng 1/3 so với NeuPro-S thế hệ trước của họ.

Có một xu hướng mà tôi đang nhìn thấy một cách tổng quát hơn là đạt được hiệu suất cao nhất bằng cách kết hợp nhiều thuật toán. Đó là những gì CEVA hiện có thể thực hiện được với nền tảng này. bạn có thể đọc thêm nhấp vào ĐÂY .

Chia sẻ bài đăng này qua: Nguồn: https://semiwiki.com/artificial-intelligence/306655-ai-at-the-edge-no-longer-means-dumbed-down-ai/

Dấu thời gian:

Thêm từ bánwiki