Cloudflare를 통해 AI가 네트워크 에지에서 벗어날 수 있습니다

플라톤에 의해 재발행

팔로워 : 0

생성적 AI 모델은 대규모 GPU 클러스터에서 훈련될 수 있지만 Cloudflare는 이를 실행할 수 있는 확실한 장소는 엣지뿐만 아니라 네트워크 자체라고 주장합니다.

수요일에는 배달의 거인 발표 LLM(대형 언어 모델) 및 기타 ML(기계 학습) 알고리즘을 배포 및 실행하는 복잡성을 없애고 대기 시간을 최소화하는 것을 목표로 하는 AI 서비스 제품군입니다.

실제로 사용자 장치에서 추론 워크로드를 실행하면 대기 시간을 최소화할 수 있습니다. 인텔은 이에 대해 큰 의미를 두었습니다. 강매하는 지난 주 Intel Innovation에서 AI PC 세대의 부상을 소개했습니다. 그러나 이것이 어떤 경우에는 의미가 있을 수 있지만 Cloudflare는 로컬 장치가 아직 충분히 강력하지 않다고 주장합니다.

“이것은 네트워크를 추론의 금빛 자물쇠로 만듭니다. 충분한 컴퓨팅 성능을 갖춘다면 그리 멀지 않습니다. 딱 맞습니다.”라고 비즈니스는 썼습니다.

GPU용 서버리스

AI 제품군은 세 가지 핵심 서비스로 구성됩니다. 그 중 첫 번째는 GPU 가속 워크로드를 지원하기 위한 서버리스 Workers 플랫폼의 확장입니다. Workers AI라고 불리는 이 서비스는 사전 훈련된 모델을 배포하는 프로세스를 간소화하도록 설계되었습니다.

“머신러닝 전문 지식도 없고 GPU를 뒤지는 일도 없습니다. 제공된 모델 중 하나를 선택하면 됩니다.”라고 Cloudflare는 주장합니다.

플랫폼이 Nvidia GPU 위에서 실행된다고 들었지만 Cloudflare는 어느 GPU인지 알려주지 않았습니다. "Cloudflare가 구축한 기술은 추론 작업을 여러 GPU로 분할할 수 있습니다. 왜냐하면 우리가 일정과 시스템을 관리하고 이를 제공하는 데 가장 적합한 칩을 결정할 것이기 때문입니다."라고 말했습니다. 등록 문한다.

단순성을 위해 플랫폼은 적어도 초기에는 고객 제공 모델을 지원하지 않습니다. 앞으로 이 기능을 기능적으로 출시할 계획이라고 들었지만 현재로서는 다음을 포함하는 XNUMX개의 사전 훈련된 모델로 제한됩니다.

텍스트 생성을 위한 Meta의 Llama 2 7B Int8
번역용 Meta의 M2m100-1.2
OpenAI의 음성 인식용 Whisper
텍스트 분류를 위한 Hugging Face의 Distilbert-sst-2-int8
이미지 분류를 위한 Microsoft의 Resnet-50
임베딩을 위한 Baai의 bge-base-en-v1.5

그러나 Cloudflare는 가까운 시일 내에 이 목록을 확장하기 위해 노력하고 있다고 밝혔습니다. 많은 AI 희망자들처럼, 그것은 요청 Hugging Face의 도움으로 서비스에 대한 추가 모델을 최적화합니다.

플랫폼이 지원할 수 있는 모델의 크기에 제한이 있는지는 확실하지 않지만 초기 목록은 몇 가지 단서를 제공합니다. Cloudflare는 Meta의 2억 매개변수 Llama 8 LLM을 Int7에서 실행할 수 있도록 만들고 있으며, 이를 위해서는 약 XNUMXGB의 GPU 메모리가 필요합니다. 또한 회사는 "천억 개의 매개변수 버전의 모델을 실행하려는 경우 중앙 집중식 클라우드가 워크로드에 더 적합할 것"이라고 말합니다.

Cloudflare는 일단 실행되면 고객이 REST API를 사용하거나 페이지 웹 사이트 프런트엔드에 연결하여 서비스를 애플리케이션에 통합할 수 있다고 말합니다.

함께 모아서

Workers AI는 사전 훈련된 모델에 대한 추론만 지원하기 때문에 Cloudflare는 ML 모델이 고객 데이터를 사용자에게 더 쉽게 전달할 수 있도록 Vectorize라는 벡터 데이터베이스 서비스를 개발했다고 밝혔습니다.

예를 들어, 챗봇의 경우 고객은 제품 카탈로그를 벡터 데이터베이스에 업로드할 수 있으며, 여기에서 모델이 이를 내장 자산으로 변환합니다.

Cloudflare에서 제공하는 Llama 2 모델은 고객 데이터에 대한 구체적인 지식이 없을 수 있지만 챗봇은 데이터베이스 서비스에 연결하여 관련 정보를 계속 표시할 수 있다는 아이디어인 것으로 보입니다. Cloudflare에 따르면 이 접근 방식은 브랜드 추론은 모델 자체에서 고객 데이터를 분리하기 때문에 더 접근하기 쉽고 빠르며 리소스 집약도가 낮습니다.

Workers AI 및 Vectorize와 함께 Cloudflare의 AI 제품군에는 대규모 추론 워크로드를 모니터링, 최적화 및 관리하기 위한 플랫폼도 포함되어 있습니다.

AI 게이트웨이라고 불리는 이 서비스는 고객이 비용을 제어할 수 있도록 돕기 위해 캐싱 및 속도 제한과 같이 일반적으로 콘텐츠 전송 네트워크 및 웹 프록시와 관련된 여러 기능을 AI 추론에 적용합니다.

"자주 사용되는 AI 응답을 캐싱함으로써 대기 시간을 줄이고 시스템 안정성을 강화하는 동시에 속도 제한은 효율적인 리소스 할당을 보장하여 AI 비용 급증 문제를 완화합니다."라고 회사는 블로그 게시물에서 설명합니다.

가격 및 가용성

Cloudflare는 이 서비스가 아직 배포 초기 단계에 있으며 현재 100개 사이트가 온라인 상태라고 밝혔습니다. 그러나 회사는 올해 말까지 서비스를 2024개 지점으로 확장하고 XNUMX년 말까지 "거의 모든 곳"에 서비스를 제공하기 위해 GPU를 배포할 예정입니다.

따라서 아직은 Workers AI에 프로덕션 앱을 배포하는 것을 권장하지 않으며 이를 "초기 베타"라고 설명합니다.

블로그 게시물에는 “오늘 우리가 공개한 것은 앞으로 나올 내용을 미리 보여주기 위한 작은 미리보기일 뿐입니다.”라고 적혀 있습니다.

평소와 마찬가지로 Cloudflare는 첫날에는 서비스 비용을 청구하지 않을 것이라고 밝혔습니다. 즉, "일반 트위치 뉴런" 0.125개당 약 XNUMX센트, "빠른 트위치 뉴런" XNUMX개당 XNUMX달러를 청구할 것으로 예상됩니다. 둘 사이의 차이점은 후자가 최종 사용자와의 근접성을 우선시하는 반면, 두 가지 중 비용이 덜 드는 것은 Cloudflare가 초과 용량이 있는 곳 어디에서나 실행된다는 것입니다.

뉴런은 AI 출력을 측정하는 방법이며, 130개의 뉴런은 약 830개의 LLM 응답, 1,250개의 이미지 분류 또는 XNUMX개의 임베딩 ®에 적합하다고 덧붙였습니다.