엣지에서의 AI는 더 이상 멍청한 AI를 의미하지 않습니다.

소스 노드 : 1579936

AI에 대한 지혜의 한 측면은 모든 혁신이 클라우드의 대형 기계 학습/훈련 엔진에서 시작된다는 것입니다. 이러한 혁신 중 일부는 결국 축소/제한된 형태로 에지로 마이그레이션될 수 있습니다. 부분적으로 이것은 현장의 새로움을 반영했습니다. 아마도 부분적으로는 IoT 위젯을 위한 사전 패키징된 획일적 솔루션의 필요성을 반영한 것일 수도 있습니다. 디자이너는 제품에 스마트함을 원했지만 ML 디자인 전문가가 될 준비가 되지 않았습니다. 그러나 이제 그 디자이너들은 따라 잡고 있습니다. 그들은 경쟁사와 마찬가지로 우리 모두가 하는 것과 동일한 보도 자료와 조사를 읽습니다. 그들은 전력 및 비용 제약을 고수하면서 동일한 발전을 활용하기를 원합니다.

엣지에서의 AI는 더 이상 멍청한 AI를 의미하지 않습니다.

얼굴 인식

에지에서의 AI 차별화

수용 가능한 비용/전력 엔벨로프 내에서의 차별화에 관한 것입니다. 사전 패키징된 솔루션으로는 얻기가 어렵습니다. 경쟁업체도 결국 동일한 솔루션에 액세스할 수 있습니다. 당신이 진정으로 원하는 것은 사용할 준비가 된 전용 가속기로 프로세서에서 모델링된 일련의 알고리즘 옵션과 자체 소프트웨어 기반 부가 가치를 쌓을 수 있는 능력입니다. 일부 관리 및 튜닝 외에는 여기에서 할 수 있는 일이 많지 않다고 생각할 수 있습니다. 시대가 바뀌었습니다. CEVA는 최근 알고리즘 설계에 대한 최신 ML 발전을 사용하여 최적화할 수 있는 NeuPro-M 임베디드 AI 프로세서를 출시했습니다.

좋습니다. 알고리즘을 더 많이 제어할 수 있지만 어떤 목적을 위해? 와트당 성능을 최적화하고 싶지만 표준 메트릭(TOPS/W)이 너무 거칠습니다. 이미징 애플리케이션은 와트당 초당 프레임 수(fps)로 측정해야 합니다. 보안 애플리케이션, 자동차 안전 또는 드론 충돌 방지의 경우 프레임당 인식 시간이 초당 원시 작업보다 훨씬 더 관련이 있습니다. 따라서 원칙적으로 최대 수천 fps/W를 제공할 수 있는 NeuPro-M과 같은 플랫폼은 매우 낮은 전력에서 초당 30-60프레임의 현실적인 fps 속도를 처리합니다. 이는 기존의 사전 패키징된 AI 솔루션에 대한 실질적인 발전입니다.

우리는 가능하게한다

궁극의 알고리즘은 광범위한 양자화 옵션부터 시작하여 읽은 기능에 전화를 걸어 구축됩니다. 비트 크기 범위에 걸친 활성화 및 가중치의 데이터 유형 다양성에도 동일하게 적용됩니다. NMU(Neural Multiplier Unit)는 8×2 또는 16×4와 같은 활성화 및 가중치에 대한 여러 비트 폭 옵션을 최적으로 지원하며 8×10과 같은 변형도 지원합니다.

이 프로세서는 Winograd Transforms 또는 효율적인 컨볼루션을 지원하여 최대 2배의 성능 향상과 제한된 정밀도 저하로 전력 감소를 제공합니다. 4 값(데이터 또는 가중치)의 양에 따라 최대 2배 가속을 위해 희소성 엔진을 모델에 추가합니다. 여기에서 Neural Multiplier Unit은 2×16에서 16×16까지 고정된 데이터 유형과 16×32에서 32×XNUMX까지 부동 소수점(및 Bfloat) 범위의 데이터 유형도 지원합니다.

스트리밍 논리는 고정 소수점 크기 조정, 활성화 및 풀링을 위한 옵션을 제공합니다. 벡터 프로세서를 사용하면 사용자 지정 레이어를 모델에 추가할 수 있습니다. "그래서 모두가 그것을 지원합니다"라고 생각할 수 있지만 처리량에 대해서는 아래를 참조하십시오. 비전 변환기, 3D 컨볼루션, RNN 지원 및 매트릭스 분해를 포함한 차세대 AI 기능 세트도 있습니다.

CDNN 프레임워크를 통해 임베디드 솔루션에 대한 네트워크 최적화로 지원되는 많은 알고리즘 옵션을 통해 ML 알고리즘의 성능을 최대한 활용할 수 있습니다. CDNN은 네트워크 추론 그래프 컴파일러와 전용 PyTorch 애드온 도구의 조합입니다. 이 도구는 모델을 잘라내고 선택적으로 매트릭스 분해를 통해 모델 압축을 지원하며 양자화 인식 재훈련을 추가합니다.

처리량 최적화

대부분의 AI 시스템에서 이러한 기능 중 일부는 특수 엔진에서 처리될 수 있으므로 완료 시 데이터를 오프로드하고 변환을 다시 로드해야 합니다. 대기 시간이 많이 추가되고(전력이 저하될 수도 있음) 강력한 모델의 성능이 완전히 저하됩니다. NeuPro-M은 연결을 통해 이러한 문제를 해결합니다. 모든 이러한 가속기는 공유 L1 캐시에 직접 연결됩니다. 기존 가속기에서 찾을 수 있는 것보다 훨씬 더 높은 대역폭을 유지합니다.

놀라운 예로, 일반적으로 사용자 지정 레이어를 정의하는 데 사용되는 벡터 처리 장치는 다른 가속기와 동일한 수준에 있습니다. VPU에서 구현된 알고리즘은 모델의 나머지 부분과 동일한 가속의 이점을 얻습니다. 다시 말하지만, 커스텀 레이어를 가속화하기 위해 오프로드 및 재로드가 필요하지 않습니다. 또한 이러한 NPM 엔진을 최대 8개까지 보유할 수 있습니다(모든 가속기 및 NPM L1 캐시). NeuPro-M은 또한 L2 캐시와 L1 캐시 간에 상당한 수준의 소프트웨어 제어 대역폭 최적화를 제공하여 프레임 처리를 최적화하고 DDR 액세스의 필요성을 최소화합니다.

당연히 NeuPro-M은 데이터 및 중량 트래픽을 최소화합니다. 데이터의 경우 가속기는 동일한 L1 캐시를 공유합니다. 호스트 프로세서는 NeuPro-M L2와 데이터를 직접 통신할 수 있으므로 DDR 전송의 필요성이 다시 줄어듭니다. NeuPro-M은 DDR 메모리로 전송할 때 온칩 가중치를 압축 및 압축 해제합니다. 활성화와 동일한 작업을 수행할 수 있습니다.

fps/W 가속의 증거

CEVA는 기본에서 Winograd, Winograd+Sparsity, Winograd+Sparsity+4×4까지 가속기에서 모델링된 알고리즘 조합을 사용하여 표준 벤치마크를 실행했습니다. 두 벤치마크 모두 ISP NN의 경우 약 3배의 전력(fps/W)으로 최대 5배의 성능 향상을 보여주었습니다. NeuPro-M 솔루션은 이전 세대 NeuPro-S에 비해 더 작은 면적, 4배 성능, 1/3의 전력을 제공했습니다.

여러 알고리즘을 결합하여 최고의 성능을 얻기 위해 더 일반적으로 보고 있는 추세가 있습니다. 이것이 바로 CEVA가 이 플랫폼으로 가능하게 한 것입니다. 더 읽을 수 있습니다 여기를 클릭하십시오..

다음을 통해이 게시물 공유 : 출처: https://semiwiki.com/artificial-intelligence/306655-ai-at-the-edge-no-longer-means-dumbed-down-ai/

타임 스탬프 :

더보기 세미위키