복원력은 모든 워크로드 개발에서 중추적인 역할을 합니다. 생성 적 AI 업무량도 다르지 않습니다. 탄력성 렌즈를 통해 생성 AI 워크로드를 엔지니어링할 때 고유한 고려 사항이 있습니다. 생성적 AI 워크로드가 조직의 가용성 및 비즈니스 연속성 요구 사항을 충족하려면 탄력성을 이해하고 우선 순위를 지정하는 것이 중요합니다. 이 게시물에서는 생성적 AI 워크로드의 다양한 스택과 이러한 고려 사항에 대해 논의합니다.
풀스택 생성 AI
생성적 AI에 대한 많은 관심이 모델에 초점을 맞추고 있지만 완전한 솔루션에는 여러 영역의 사람, 기술 및 도구가 포함됩니다. LLM(대형 언어 모델)을 위한 a16z 신흥 애플리케이션 스택에 대한 AWS 보기인 다음 그림을 고려하십시오.
AI 및 기계 학습(ML)을 기반으로 구축된 보다 전통적인 솔루션과 비교하여 생성적 AI 솔루션에는 이제 다음이 포함됩니다.
- 새로운 역할 – 모델 제작자와 모델 통합자뿐만 아니라 모델 튜너도 고려해야 합니다.
- 새로운 도구 – 기존 MLOps 스택은 다른 시스템과 상호 작용하기 위해 도구를 호출하는 에이전트 또는 신속한 엔지니어링에 필요한 실험 추적 또는 관찰 유형을 포괄하도록 확장되지 않습니다.
상담원 추론
기존 AI 모델과 달리 RAG(검색 증강 생성)는 외부 지식 소스를 통합하여 보다 정확하고 상황에 맞는 대응을 허용합니다. RAG를 사용할 때 고려해야 할 사항은 다음과 같습니다.
- 적절한 시간 제한을 설정하는 것은 고객 경험에 중요합니다. 채팅 중에 연결이 끊어지는 것보다 사용자 경험이 좋지 않다는 것을 의미하는 것은 없습니다.
- 모델에서 정의한 할당된 문자 제한에 대한 프롬프트 입력 데이터 및 프롬프트 입력 크기의 유효성을 검사해야 합니다.
- 프롬프트 엔지니어링을 수행하는 경우 프롬프트를 안정적인 데이터 저장소에 유지해야 합니다. 이는 우발적인 손실이 발생한 경우 또는 전반적인 재해 복구 전략의 일부로 프롬프트를 보호합니다.
데이터 파이프라인
RAG 패턴을 사용하여 기초 모델에 상황별 데이터를 제공해야 하는 경우 소스 데이터를 수집하고 이를 임베딩 벡터로 변환하고 임베딩 벡터를 벡터 데이터베이스에 저장할 수 있는 데이터 파이프라인이 필요합니다. 이 파이프라인은 상황별 데이터를 미리 준비하는 경우 일괄 파이프라인이 될 수 있고, 새로운 상황별 데이터를 즉시 통합하는 경우 지연 시간이 짧은 파이프라인이 될 수 있습니다. 배치 사례에는 일반적인 데이터 파이프라인에 비해 몇 가지 과제가 있습니다.
데이터 소스는 파일 시스템의 PDF 문서, CRM 도구와 같은 SaaS(Software as a Service) 시스템의 데이터 또는 기존 Wiki 또는 지식 기반의 데이터일 수 있습니다. 이러한 소스에서 수집하는 것은 로그 데이터와 같은 일반적인 데이터 소스와 다릅니다. 아마존 단순 스토리지 서비스 (Amazon S3) 버킷 또는 관계형 데이터베이스의 구조화된 데이터입니다. 달성할 수 있는 병렬 처리 수준은 소스 시스템에 의해 제한될 수 있으므로 제한을 고려하고 백오프 기술을 사용해야 합니다. 일부 소스 시스템은 불안정할 수 있으므로 오류 처리 및 재시도 논리를 구축해야 합니다.
임베딩 모델은 파이프라인에서 로컬로 실행하든 외부 모델을 호출하든 상관없이 성능 병목 현상이 발생할 수 있습니다. 임베딩 모델은 GPU에서 실행되며 용량이 무제한이 아닌 기초 모델입니다. 모델이 로컬로 실행되는 경우 GPU 용량을 기준으로 작업을 할당해야 합니다. 모델이 외부에서 실행되는 경우 외부 모델이 포화되지 않도록 해야 합니다. 두 경우 모두 달성할 수 있는 병렬 처리 수준은 일괄 처리 시스템에서 사용할 수 있는 CPU 및 RAM의 양이 아니라 임베딩 모델에 따라 결정됩니다.
지연 시간이 짧은 경우 임베딩 벡터를 생성하는 데 걸리는 시간을 고려해야 합니다. 호출 애플리케이션은 파이프라인을 비동기적으로 호출해야 합니다.
벡터 데이터베이스
벡터 데이터베이스에는 임베딩 벡터를 저장하고 유사성 검색을 실행하여 가장 가까운 벡터를 찾는 두 가지 기능이 있습니다. k 새로운 벡터와 일치합니다. 벡터 데이터베이스에는 세 가지 일반적인 유형이 있습니다.
- Pinecone과 같은 전용 SaaS 옵션.
- 다른 서비스에 내장된 벡터 데이터베이스 기능. 여기에는 다음과 같은 기본 AWS 서비스가 포함됩니다. 아마존 오픈서치 서비스 및 Amazon Aurora.
- 대기 시간이 짧은 시나리오에서 임시 데이터에 사용할 수 있는 메모리 내 옵션입니다.
이 게시물에서는 유사성 검색 기능을 자세히 다루지 않습니다. 중요하기는 하지만 시스템의 기능적 측면이며 복원력에 직접적인 영향을 미치지 않습니다. 대신, 우리는 저장 시스템으로서 벡터 데이터베이스의 복원력 측면에 중점을 둡니다.
- 숨어 있음 – 벡터 데이터베이스는 높거나 예측할 수 없는 부하에 대해 잘 작동할 수 있습니까? 그렇지 않은 경우 호출 애플리케이션은 속도 제한과 백오프 및 재시도를 처리해야 합니다.
- 확장성 – 시스템은 얼마나 많은 벡터를 보유할 수 있습니까? 벡터 데이터베이스의 용량을 초과하는 경우 샤딩이나 다른 솔루션을 살펴봐야 합니다.
- 고가용성 및 재해 복구 – 임베딩 벡터는 귀중한 데이터이므로 다시 생성하는 데 비용이 많이 들 수 있습니다. 단일 AWS 리전에서 벡터 데이터베이스의 가용성이 높습니까? 재해 복구 목적으로 데이터를 다른 지역으로 복제할 수 있는 기능이 있습니까?
애플리케이션 계층
생성 AI 솔루션을 통합할 때 애플리케이션 계층에 대해 세 가지 고유한 고려 사항이 있습니다.
- 잠재적으로 높은 대기 시간 – 기초 모델은 대규모 GPU 인스턴스에서 실행되는 경우가 많으며 용량이 제한될 수 있습니다. 속도 제한, 백오프 및 재시도, 로드 차단에 대한 모범 사례를 사용해야 합니다. 높은 대기 시간이 애플리케이션의 기본 인터페이스를 방해하지 않도록 비동기식 설계를 사용하십시오.
- 보안 태세 – 에이전트, 도구, 플러그인 또는 모델을 다른 시스템에 연결하는 기타 방법을 사용하는 경우 보안 상태에 특히 주의하십시오. 모델은 예상치 못한 방식으로 이러한 시스템과 상호 작용을 시도할 수 있습니다. 다른 시스템에서 들어오는 프롬프트를 제한하는 등 최소 권한 액세스의 일반적인 관행을 따르십시오.
- 빠르게 발전하는 프레임워크 – LangChain과 같은 오픈 소스 프레임워크는 빠르게 발전하고 있습니다. 마이크로서비스 접근 방식을 사용하여 덜 성숙한 프레임워크에서 다른 구성 요소를 격리합니다.
생산 능력
추론과 훈련 모델 데이터 파이프라인이라는 두 가지 맥락에서 용량을 생각할 수 있습니다. 조직이 자체 파이프라인을 구축할 때 용량을 고려해야 합니다. 워크로드를 실행할 인스턴스를 선택할 때 가장 중요한 두 가지 요구 사항은 CPU 및 메모리 요구 사항입니다.
생성적 AI 워크로드를 지원할 수 있는 인스턴스는 일반적인 범용 인스턴스 유형보다 얻기가 더 어려울 수 있습니다. 인스턴스 유연성은 용량 및 용량 계획에 도움이 될 수 있습니다. 워크로드를 실행 중인 AWS 리전에 따라 다양한 인스턴스 유형을 사용할 수 있습니다.
중요한 사용자 여정의 경우 조직은 필요할 때 가용성을 보장하기 위해 인스턴스 유형을 예약하거나 사전 프로비저닝하는 것을 고려할 것입니다. 이 패턴은 복원력 모범 사례인 정적으로 안정적인 아키텍처를 달성합니다. AWS Well-Architected 프레임워크 안정성 원칙의 정적 안정성에 대해 자세히 알아보려면 다음을 참조하십시오. 정적 안정성을 사용하여 이중 모드 동작 방지.
관찰 성
CPU 및 RAM 사용률과 같이 일반적으로 수집하는 리소스 측정항목 외에도 모델을 호스팅하는 경우 GPU 사용률을 면밀히 모니터링해야 합니다. 아마존 세이지 메이커 or 아마존 엘라스틱 컴퓨트 클라우드 (아마존 EC2). 기본 모델이나 입력 데이터가 변경되면 GPU 활용도가 예기치 않게 변경될 수 있으며, GPU 메모리가 부족하면 시스템이 불안정한 상태가 될 수 있습니다.
스택의 상위 단계에서는 시스템 전체의 호출 흐름을 추적하여 에이전트와 도구 간의 상호 작용을 캡처할 수도 있습니다. 에이전트와 도구 간의 인터페이스는 API 계약보다 덜 공식적으로 정의되어 있으므로 성능뿐만 아니라 새로운 오류 시나리오를 캡처하기 위해 이러한 추적을 모니터링해야 합니다. 보안 위험 및 위협에 대해 모델이나 에이전트를 모니터링하려면 다음과 같은 도구를 사용할 수 있습니다. 아마존 가드듀티.
또한 임베딩 벡터, 프롬프트, 컨텍스트, 출력의 기준선과 이들 간의 상호 작용을 캡처해야 합니다. 시간이 지남에 따라 이러한 변화가 나타나면 사용자가 시스템을 새로운 방식으로 사용하고 있거나 참조 데이터가 질문 공간을 동일한 방식으로 다루지 않거나 모델의 출력이 갑자기 다르다는 것을 나타낼 수 있습니다.
재해 복구
재해 복구 전략이 포함된 비즈니스 연속성 계획을 수립하는 것은 모든 워크로드에 필수입니다. 생성적 AI 워크로드도 다르지 않습니다. 워크로드에 적용할 수 있는 오류 모드를 이해하면 전략을 수립하는 데 도움이 됩니다. 워크로드에 다음과 같은 AWS 관리형 서비스를 사용하는 경우 아마존 기반암 및 SageMaker를 사용하려면 복구 AWS 리전에서 서비스를 사용할 수 있는지 확인하세요. 이 글을 쓰는 시점에서 이러한 AWS 서비스는 기본적으로 AWS 리전 간의 데이터 복제를 지원하지 않으므로 재해 복구를 위한 데이터 관리 전략을 고려해야 하며 여러 AWS 리전에서 세부 조정이 필요할 수도 있습니다.
결론
이 게시물에서는 생성적 AI 솔루션을 구축할 때 탄력성을 고려하는 방법을 설명했습니다. 생성적 AI 애플리케이션에는 몇 가지 흥미로운 뉘앙스가 있지만 기존 탄력성 패턴과 모범 사례는 여전히 적용됩니다. 생성적 AI 애플리케이션의 각 부분을 평가하고 관련 모범 사례를 적용하면 됩니다.
생성적 AI 및 이를 AWS 서비스와 함께 사용하는 방법에 대한 자세한 내용은 다음 리소스를 참조하십시오.
저자에 관하여
제니퍼 모란 그는 뉴욕시에 거주하는 AWS 수석 복원력 전문가 솔루션 아키텍트입니다. 그녀는 소프트웨어 개발, 애자일 리더십, DevOps 등 다양한 기술 분야에서 일한 등 다양한 배경을 갖고 있으며 기술 분야의 여성 옹호자입니다. 그녀는 탄력성 자세를 개선하기 위해 고객이 탄력성 있는 솔루션을 설계하도록 돕고 탄력성과 관련된 모든 주제에 대해 공개적으로 이야기하는 것을 좋아합니다.
랜디 드포 AWS의 수석 수석 솔루션 아키텍트입니다. 그는 미시간 대학교에서 MSEE를 취득했으며 자율주행차용 컴퓨터 비전 분야에서 일했습니다. 그는 또한 콜로라도 주립대학교에서 MBA를 취득했습니다. Randy는 소프트웨어 엔지니어링에서 제품 관리에 이르기까지 기술 분야에서 다양한 직책을 맡았습니다. 그는 2013년부터 빅데이터 분야에 입문해 계속해서 그 분야를 탐구하고 있다. 그는 ML 공간의 프로젝트에 적극적으로 참여하고 있으며 Strata 및 GlueCon을 포함한 수많은 컨퍼런스에서 발표했습니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/machine-learning/designing-generative-ai-workloads-for-resilience/
- :있다
- :이다
- :아니
- :어디
- $UP
- 100
- 2013
- 90
- a
- a16z
- 능력
- 소개
- ACCESS
- 우연한
- 계정
- 정확한
- 달성
- 달성하다
- 가로질러
- 활발히
- 전진
- 변호사
- 영향을
- 반대
- 에이전트
- 자치령 대표
- 기민한
- AI
- AI 모델
- All
- 할당
- 수
- 또한
- 이기는하지만
- 아마존
- Amazon EC2
- Amazon Web Services
- an
- 및
- 다른
- 어떤
- API를
- 앱
- 응용할 수 있는
- 어플리케이션
- 어플리케이션
- 신청
- 적용
- 접근
- 적당한
- 아키텍처
- 있군요
- 지역
- 약
- AS
- 양상
- 측면
- At
- 주의
- 증강 된
- 자발적인
- 자치 차량
- 유효성
- 가능
- 평균
- AWS
- 배경
- 나쁜
- 기지
- 기반으로
- BE
- 때문에
- 존재
- BEST
- 모범 사례
- 사이에
- 큰
- 빅 데이터
- 가장 큰
- 병목
- 빌드
- 빌더
- 건물
- 내장
- 사업
- 비즈니스 연속성
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- by
- 전화
- 부름
- 통화
- CAN
- 기능
- 생산 능력
- 포착
- 캡처
- 케이스
- 가지 경우
- 과제
- 이전 단계로 돌아가기
- 변경
- 문자
- 잡담
- 선택
- City
- 면밀히
- 수집
- 콜로라도
- 비교
- 완전한
- 구성 요소들
- 계산
- 컴퓨터
- 컴퓨터 비전
- 회의
- 연결
- 고려
- 고려
- 고려 사항
- 문맥
- 문맥
- 문맥
- 계속
- 연속성
- 계약
- 변하게 하다
- 수
- 두
- 엄호
- 피복
- CPU
- 임계
- CRM
- 결정적인
- 고객
- 고객 경험
- 고객
- 데이터
- 데이터 관리
- 데이터베이스
- 데이터베이스
- 한정된
- 의존
- 기술 된
- 디자인
- 설계
- 디자인
- 세부 묘사
- 개발
- 개발자
- 지시 된
- 다른
- 어려운
- 직접
- 재앙
- 분야
- 연결이 끊어
- 토론
- 몇몇의
- do
- 서류
- 하지
- 하지 않습니다
- 도메인
- 말라
- 마다
- 중
- 임베딩
- 신흥
- 엔지니어링
- 확인
- 입력 된
- 오류
- 에테르 (ETH)
- 평가
- 진화하는
- 예
- 넘다
- 흥분
- 현존하는
- 비싼
- 경험
- 실험
- 탐험
- 확장
- 외부
- 외부 적으로
- 여분의
- 고장
- 특징
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- Find
- 유연성
- 흐름
- 초점
- 집중
- 따라
- 수행원
- 럭셔리
- 형식적으로
- Foundation
- 뼈대
- 프레임 워크
- 에
- 기능의
- 기능
- 일반
- 범용
- 생성
- 세대
- 생성적인
- 제너레이티브 AI
- 점점
- GPU
- GPU
- 안내
- 핸들
- 처리
- 있다
- 데
- he
- 개최
- 도움
- 도움이
- 높은
- 고도로
- 보유
- 보유
- 주인
- 방법
- How To
- HTML
- HTTP
- HTTPS
- if
- 중대한
- 개선
- in
- 포함
- 포함
- 들어오는
- 통합
- 표시
- 정보
- 입력
- 예
- 인스턴스
- 를 받아야 하는 미국 여행자
- 통합
- 상호 작용하는
- 상호 작용
- 흥미있는
- 인터페이스
- 방해
- 으로
- 포함
- IT
- Journeys
- 다만
- 지식
- 언어
- 넓은
- 숨어 있음
- Leadership
- 배우다
- 배우기
- 렌즈
- 적게
- 레벨
- 처럼
- 제한된
- 제한
- 제한
- llm
- 하중
- 장소 상에서
- 기록
- 논리
- 보기
- 오프
- 롯
- 기계
- 기계 학습
- 본관
- 확인
- 관리
- 구축
- .
- 성냥
- 문제
- 성숙한
- XNUMX월..
- MBA
- 소개
- 메모리
- 방법
- 통계
- 미시간
- 마이크로 서비스
- 중간
- ML
- MLOps
- 모델
- 모델
- 모드
- 모니터
- 배우기
- 많은
- 여러
- 절대로 필요한 것
- 출신
- 기본적으로
- 필요한
- 필요
- 필요
- 요구
- 신제품
- 뉴욕
- 뉴욕시
- 아니
- 표준
- 아무것도
- 지금
- 뉘앙스
- 다수의
- 획득
- of
- 자주
- on
- 만
- 열 수
- 오픈 소스
- 옵션
- or
- 조직
- 조직
- 기타
- 아웃
- 출력
- 위에
- 전체
- 자신의
- 부품
- 무늬
- 패턴
- 지불
- 사람들
- 수행
- 성능
- 실행할 수 있는
- .
- 기둥
- 관로
- 추축의
- 계획
- 계획
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 재생
- 플러그인
- 위치
- 게시하다
- 연습
- 사례
- Prepare
- 제시
- 예방
- 교장
- 우선 순위
- 처리
- 프로덕트
- 제품 관리
- 프로젝트
- 프롬프트
- 제공
- 공개적으로
- 목적
- 놓다
- 문제
- 조각
- 램
- 이르기까지
- 빠르게
- 율
- 차라리
- 회복
- 참조
- 참고
- 관계없이
- 지방
- 지역
- 관련
- 관련된
- 신뢰성
- 신뢰할 수있는
- 복제
- 요구조건 니즈
- 되튀기
- 탄력
- 의지
- 제품 자료
- 응답
- 제한
- 검색
- 위험
- 직위별
- 달리기
- 달리는
- 실행
- SaaS는
- 현자
- 같은
- 라고
- 시나리오
- 검색
- 수색
- 보안
- 보안 위험
- 연장자
- 서비스
- 서비스
- 몇몇의
- 샤딩
- 그녀
- 흘리기
- 영상을
- 단순, 간단, 편리
- 단일
- 크기
- 기술
- So
- 소프트웨어
- 서비스로서의 소프트웨어
- 소프트웨어 개발
- 소프트웨어 공학
- 해결책
- 솔루션
- 일부
- 출처
- 지우면 좋을거같음 . SM
- 스페이스 버튼
- 언어
- 전문가
- 안정
- 안정된
- 스택
- 스택
- 주 정부
- 아직도
- 저장
- 저장
- 전략들
- 전략
- 구조화
- 이러한
- SUPPORT
- 확인
- 체계
- 시스템은
- 받아
- 소요
- 분류 체계
- 기술
- 테크니컬
- 기법
- Technology
- 보다
- 그
- XNUMXD덴탈의
- 소스
- 그들의
- 그들
- 그곳에.
- Bowman의
- 그들
- 생각
- 이
- 그
- 위협
- 세
- 을 통하여
- 층
- 시간
- 에
- 수단
- 검색을
- 이상의 주제
- 더듬다
- 추적
- 전통적인
- 트레이닝
- 시도
- 두
- 유형
- 유형
- 전형적인
- 일반적으로
- 이해
- 예기치 않은
- 유일한
- 대학
- 미시간 대학
- 무제한
- 예측할 수
- 사용
- 익숙한
- 사용자
- 사용자 경험
- 사용자
- 사용
- 유효 기간
- 가치 있는
- 종류
- 차량
- 관측
- 시력
- 필요
- 방법..
- 방법
- we
- 웹
- 웹 서비스
- 잘
- 뭐
- 언제
- 여부
- 어느
- 의지
- 과
- 여성 컬렉션
- 기술 분야의 여성
- 작업
- 일
- 일하는
- 쓰기
- 요크
- 당신
- 너의
- 제퍼 넷