무신사 데이터사이언티스트 박지혜님의 게스트 포스팅입니다.
무 신사 는 8.4만 명의 고객에게 서비스를 제공하고 6,000개의 패션 브랜드를 판매하는 한국 최대 온라인 패션 플랫폼 중 하나입니다. 월간 사용자 트래픽은 4만 명에 달하며, 인구 통계의 90% 이상이 패션 트렌드에 민감한 XNUMX대와 젊은 성인으로 구성되어 있습니다. MUSINSA는 방대한 양의 데이터를 선도하는 국내 트렌드를 선도하는 플랫폼 리더입니다.
무신사 데이터 솔루션팀은 무신사 스토어에서 수집된 데이터와 관련된 모든 일을 담당합니다. 로그 수집부터 데이터 모델링, 모델 서빙까지 풀 스택 개발을 수행합니다. 앱 메인 페이지의 라이브 상품 추천 서비스, 텍스트 리뷰에서 '사이즈', '만족도' 등의 단어를 감지하여 강조하는 키워드 하이라이팅 서비스 등 다양한 데이터 기반 상품을 개발합니다.
자동 검토 이미지 검사 프로세스의 과제
고객이 제품을 직접 보지 않고 구매 결정을 내리기 때문에 고객 리뷰의 품질과 양은 전자상거래 비즈니스에 매우 중요합니다. 구매한 제품에 대한 이미지 리뷰(즉, 제품 사진 또는 제품을 착용/사용한 사진이 포함된 리뷰)를 작성하는 사람들에게 크레딧을 부여하여 고객 경험을 향상시키고 구매 전환율을 높입니다. 제출된 사진이 크레딧 기준을 충족하는지 확인하기 위해 모든 사진을 사람이 개별적으로 검사합니다. 예를 들어, "스타일 리뷰"에는 제품을 착용/사용하는 사람의 전신 사진이 포함되어야 하고, "제품 리뷰"에는 제품의 전체 사진이 포함되어야 한다고 기준에 명시되어 있습니다. 다음 이미지는 제품 리뷰 및 스타일 리뷰의 예를 보여줍니다. 사진 사용에 대한 업로더의 동의가 부여되었습니다.
무신사 스토어 플랫폼에는 검사가 필요한 사진이 매일 20,000장 이상 업로드됩니다. 검사 과정에서는 이미지를 '패키지', '제품', '전체 길이', '절반 길이'로 분류합니다. 이미지 검사 프로세스는 완전히 수동이므로 시간이 많이 걸리고 가이드라인을 적용하더라도 개인마다 분류가 다르게 수행되는 경우가 많습니다. 이러한 도전에 직면하여 우리는 다음을 사용했습니다. 아마존 세이지 메이커 이 작업을 자동화합니다.
Amazon SageMaker는 완전관리형 인프라, 도구 및 워크플로를 통해 모든 사용 사례에 맞게 기계 학습(ML) 모델을 구축, 교육 및 배포하기 위한 완전관리형 서비스입니다. 이를 통해 자동화된 이미지 검사 서비스를 신속하게 구현하여 좋은 결과를 얻을 수 있었습니다.
ML 모델을 사용하여 문제를 해결하고 Amazon SageMaker를 사용한 방법에 대해 자세히 설명하겠습니다.
리뷰 이미지 검사 프로세스 자동화
이미지 검토 검사 프로세스를 자동화하기 위한 첫 번째 단계는 이미지에 수동으로 레이블을 지정하여 적절한 카테고리 및 검사 기준에 일치시키는 것이었습니다. 예를 들어 이미지를 '전신샷', '상반신샷', '포장샷', '제품샷' 등으로 분류했습니다. 상품평의 경우 상품샷 이미지에만 크레딧을 부여했습니다. 마찬가지로 스타일 리뷰의 경우 전신 사진에 크레딧이 부여되었습니다.
이미지 분류의 경우 모델을 훈련하는 데 필요한 입력 이미지의 양이 너무 많기 때문에 사전 훈련된 CNN(컨볼루션 신경망) 모델에 크게 의존했습니다. 이미지에서 의미 있는 특징을 정의하고 분류하는 것은 모델 학습에 매우 중요하지만 이미지에는 무제한의 특징이 있을 수 있습니다. 따라서 CNN 모델을 사용하는 것이 가장 합리적이었고 10,000개가 넘는 ImageNet 데이터 세트로 모델을 사전 훈련한 다음 전이 학습을 사용했습니다. 이는 나중에 이미지 라벨을 사용하여 모델을 더 효과적으로 학습할 수 있음을 의미합니다.
Amazon SageMaker Ground Truth를 사용한 이미지 수집
그러나 전이 학습에는 모델이 상위 계층에서 새로 학습되어야 하기 때문에 고유한 한계가 있었습니다. 이는 지속적으로 입력 이미지가 필요하다는 것을 의미합니다. 반면에 이 방법은 성능이 좋았으며 전체 레이어를 훈련할 때 더 적은 입력 이미지가 필요했습니다. 이미 엄청난 양의 데이터로 훈련되었기 때문에 이러한 레이어의 이미지에서 특징을 쉽게 식별했습니다. MUSINSA에서는 전체 인프라가 AWS에서 실행되며 고객이 업로드한 사진을 AWS에 저장하고 있습니다. Amazon Simple Storage Service(S3). 우리는 정의한 레이블을 기반으로 이러한 이미지를 다양한 폴더로 분류했으며 다음과 같은 이유로 Amazon SageMaker Ground Truth를 사용했습니다.
- 보다 일관된 결과 – 수동 프로세스에서는 단일 검사자의 실수가 아무런 개입 없이 모델 교육에 반영될 수 있습니다. SageMaker Ground Truth를 사용하면 여러 명의 검사관이 동일한 이미지를 검토하도록 하고 가장 신뢰할 수 있는 검사관의 입력이 이미지 라벨링에 대해 더 높은 평가를 받았는지 확인하여 더욱 신뢰할 수 있는 결과를 얻을 수 있었습니다.
- 수작업 감소 – SageMaker Ground Truth 자동화된 데이터 레이블링은 신뢰도 점수 임계값과 함께 적용되어 확실하게 기계 레이블을 지정할 수 없는 이미지는 사람이 레이블 지정을 위해 전송됩니다. 이는 비용과 정확성의 최상의 균형을 보장합니다. 자세한 내용은 다음에서 확인할 수 있습니다. Amazon SageMaker Ground Truth 개발자 가이드.
이 방법을 사용하여 수동으로 분류된 이미지의 수를 43% 줄였습니다. 다음 표는 Ground Truth를 채택한 후 반복당 처리된 이미지 수를 보여줍니다(훈련 및 검증 데이터는 누적된 데이터이고 다른 측정항목은 반복 기준임). - 결과 직접 로드 – SageMaker에서 모델을 구축할 때 SageMaker Ground Truth에서 생성된 결과 매니페스트 파일을 로드하고 이를 교육에 사용할 수 있었습니다.
요약하면 10,000개의 이미지를 분류하는 데 22명의 검사관이 980일 동안 필요하고 비용은 XNUMX달러입니다.
Amazon SageMaker Studio를 이용한 이미지 분류 모델 개발
리뷰 이미지를 전신샷, 상반신샷, 패키지샷, 제품샷, 제품으로 분류하여 해당 카테고리에 맞게 분류해야 했습니다. 목표를 달성하기 위해 우리는 ResNet 기반 SageMaker 내장 모델과 Tensorflow 기반 MobileNet. 동일한 테스트 데이터 세트에서 두 가지를 모두 테스트한 결과 SageMaker 내장 모델이 0.98 F1 점수와 TensorFlow 모델의 0.88로 더 정확하다는 것을 확인했습니다. 따라서 우리는 SageMaker 내장 모델을 결정했습니다.
XNUMXD덴탈의 SageMaker 스튜디오기반 모델 학습 과정은 다음과 같습니다.
- SageMaker Ground Truth에서 레이블이 지정된 이미지 가져오기
- 이미지 전처리 – 이미지 크기 조정 및 확대
- 을로드 Amazon SageMaker 내장 모델 Docker 이미지로
- 그리드 검색을 통해 하이퍼파라미터 조정
- 전이 학습 적용
- 훈련 지표를 기반으로 매개변수 재조정
- 모델 저장
SageMaker를 사용하면 훈련용 서버를 프로비저닝하고 관리하는 것에 대해 걱정할 필요 없이 클릭 한 번으로 모델을 간단하게 훈련할 수 있습니다.
하이퍼파라미터 전환을 위해 우리는 그리드 검색을 사용하여 하이퍼파라미터의 최적 값을 훈련 레이어 수(num_layers
) 및 훈련 주기(epochs
) 전이 학습 중에 분류 모델 정확도에 영향을 미쳤습니다.
SageMaker Batch Transform 및 Apache Airflow를 사용한 모델 제공
우리가 구축한 이미지 분류 모델에는 리뷰 이미지가 크레딧 자격이 있는지 확인하기 위해 ML 워크플로가 필요했습니다. 우리는 다음 네 단계를 통해 워크플로를 구축했습니다.
- 자동으로 검토되어야 하는 리뷰 이미지 및 메타데이터 가져오기
- 이미지의 라벨 추론(추론)
- 추론된 라벨을 기반으로 크레딧을 제공해야 하는지 결정
- 프로덕션 데이터베이스에 결과 테이블 저장
우리가 사용하는 아파치 에어 플로우 데이터 제품 워크플로를 관리합니다. 간단하고 직관적인 웹 UI 그래프로 유명한 에어비앤비에서 개발한 워크플로우 스케줄링 및 모니터링 플랫폼입니다. Amazon SageMaker를 지원하므로 SageMaker Studio로 개발한 코드를 Apache Airflow로 쉽게 마이그레이션할 수 있습니다. Apache Airflow에서 SageMaker 작업을 실행하는 방법에는 두 가지가 있습니다.
- Amazon SageMaker 연산자 사용
- 사용 Python 연산자 : Apache Airflow에서 Amazon SageMaker Python SDK를 사용하여 Python 함수를 작성하고 호출 가능한 매개변수로 가져옵니다.
두 번째 옵션은 다음과 같습니다. 기존 Python 유지 SageMaker Studio에 이미 있는 코드, Amazon SageMaker Operators에 대한 새로운 문법을 배울 필요도 없었습니다.
하지만 Apache Airflow를 Amazon SageMaker와 처음으로 통합했기 때문에 시행착오를 겪었습니다. 우리가 배운 교훈은 다음과 같습니다.
- Boto3 업데이트: Amazon SageMaker Python SDK 버전 2에는 Boto3 1.14.12 이상이 필요합니다. 따라서 기존 Apache Airflow 환경의 Boto3 버전(1.13.4)을 업데이트해야 했습니다.
- IAM 역할 및 권한 상속: Apache Airflow에서 사용하는 AWS IAM 역할은 Amazon SageMaker를 실행할 수 있는 역할을 상속하는 데 필요했습니다.
- 네트워크 구성: Apache Airflow를 사용하여 SageMaker 코드를 실행하려면 네트워크 연결을 위해 엔드포인트를 구성해야 했습니다. 다음 엔드포인트는 우리가 사용하고 있던 AWS 리전 및 서비스를 기반으로 했습니다. 자세한 내용은 다음을 참조하세요. AWS 웹사이트.
api.sagemaker.ap-northeast-2.amazonaws.com
runtime.sagemaker.ap-northeast-2.amazonaws.com
aws.sagemaker.ap-northeast-2.studio
결과
리뷰 이미지 검사 프로세스를 자동화하여 다음과 같은 비즈니스 성과를 얻었습니다.
- 업무 효율성 향상 – 현재 서비스가 적용된 카테고리의 이미지 중 76%가 98%의 검사 정확도로 자동 검사되고 있습니다.
- 학점 부여의 일관성 – 학점은 명확한 기준에 따라 부여됩니다. 그러나 유사한 사건이라도 검사관의 판단 차이로 인해 다르게 인정되는 경우도 있었다. ML 모델은 신용 정책을 적용할 때 더 일관되고 더 높은 일관성으로 규칙을 적용합니다.
- 인적 오류 감소 – 모든 인간 참여에는 인간 오류의 위험이 있습니다. 예를 들어, 제품 리뷰에 스타일 리뷰 기준을 사용한 경우가 있었습니다. 우리의 자동 검사 모델은 이러한 인적 오류의 위험을 크게 줄였습니다.
특히 Amazon SageMaker를 사용하여 이미지 검사 프로세스를 자동화함으로써 다음과 같은 이점을 얻었습니다.
- 모듈식 프로세스를 통해 모델을 구축하고 테스트할 수 있는 환경 구축 – Amazon SageMaker에서 가장 마음에 들었던 점은 모듈로 구성되어 있다는 것입니다. 이를 통해 쉽고 빠르게 서비스를 구축하고 테스트할 수 있습니다. 처음에는 Amazon SageMaker에 대해 배우는 데 시간이 좀 필요했지만, 일단 배우고 나면 이를 작업에 쉽게 적용할 수 있었습니다. 우리는 Amazon SageMaker가 MUSINSA Store처럼 신속한 서비스 개발이 필요한 비즈니스에 이상적이라고 믿습니다.
- Amazon SageMaker Ground Truth로 신뢰할 수 있는 입력 데이터 수집 – ML 영역에서는 모델링 자체보다 입력 데이터 수집이 점점 더 중요해지고 있습니다. ML의 급속한 발전으로 사전 학습된 모델은 추가 조정 없이 이전보다 훨씬 더 나은 성능을 발휘할 수 있습니다. AutoML을 사용하면 ML 모델링을 위한 코드를 작성할 필요도 없어졌습니다. 따라서 고품질 입력 데이터를 수집하는 능력이 그 어느 때보다 중요하며 Amazon SageMaker Ground Truth와 같은 라벨링 서비스를 사용하는 것이 중요합니다.
결론
앞으로는 자동 배치를 통해 모델 서빙뿐만 아니라 모델 학습까지 자동화할 계획입니다. 우리는 새로운 라벨이나 이미지가 추가될 때 모델이 최적의 하이퍼파라미터를 자동으로 식별하기를 원합니다. 또한 앞서 언급한 자동화된 학습 방법을 기반으로 모델의 성능, 즉 재현율과 정밀도를 지속적으로 개선할 예정입니다. 더 많은 리뷰 이미지를 검사하고, 더 많은 비용을 절감하고, 더 높은 정확도를 달성할 수 있도록 모델 적용 범위를 늘려 고객 만족도를 높일 것입니다.
사용 방법에 대한 자세한 내용은 아마존 세이지 메이커 ML을 사용하여 비즈니스 문제를 해결하려면 제품 웹 페이지. 그리고 언제나처럼 최신 소식을 받아보세요. 여기에서 AWS 기계 학습 뉴스를 확인하세요.
이 게시물의 내용과 의견은 제 XNUMX 자 작성자의 것이며 AWS는이 게시물의 내용이나 정확성에 대해 책임을지지 않습니다.
저자에 관하여
박지혜 MUSINSA에서 데이터 분석 및 모델링을 담당하는 데이터 과학자입니다. 그녀는 전자상거래와 같은 유비쿼터스 데이터를 다루는 것을 좋아합니다. 그녀의 주요 역할은 데이터 모델링이지만 데이터 엔지니어링에도 관심이 있습니다.
김성민 Amazon Web Services의 수석 솔루션 설계자입니다. 그는 스타트업과 협력하여 비즈니스 요구에 맞게 AWS에서 솔루션을 설계, 설계, 자동화 및 구축합니다. 그는 AI/ML 및 분석을 전문으로 합니다.
- '
- "
- 000
- 100
- 107
- 98
- 추가
- Airbnb
- All
- 아마존
- 아마존 세이지 메이커
- 아마존 세이지 메이커 그라운드 진실
- Amazon Web Services
- 분석
- 분석
- 아파치
- 지역
- 자동화
- AWS
- BEST
- 몸
- 브랜드
- 빌드
- 건물
- 사업
- 사업
- 가지 경우
- 도전
- 분류
- 현지 시간
- 암호
- 수집
- 자신
- 연결
- 동의
- 함유량
- 계속
- 매출 상승
- 컨벌루션 신경망
- 비용
- 신용
- 크레딧
- 고객 경험
- 고객 만족
- 고객
- 데이터
- 데이터 분석
- 데이터 과학자
- 인구 통계
- 디자인
- 세부 묘사
- 개발
- 개발자
- 개발
- 도커
- 전자 상거래
- 엔지니어링
- 환경
- 등
- 경험
- 패션
- 특징
- 연방 준비 은행
- 먼저,
- 처음으로
- 함대
- 앞으로
- 가득 찬
- 기능
- 기부
- 목표
- 좋은
- 그리드
- 손님
- 고객 포스트
- 가이드 라인
- 여기에서 지금 확인해 보세요.
- 방법
- How To
- HTTPS
- 인간
- IAM
- 확인
- 영상
- IMAGEnet
- 개선
- 포함
- 증가
- 정보
- 인프라
- IT
- 작업
- 한국
- 레이블링
- 레이블
- 리드
- 지도
- 배우다
- 배운
- 배우기
- 하중
- 기계 학습
- 통계
- ML
- 모델
- 모델링
- 모듈러
- 모니터링
- 즉
- 네트워크
- 신경
- 신경망
- news
- 온라인
- 행정부
- 의견
- 선택권
- 기타
- 성능
- 플랫폼
- 플랫폼
- 정책
- Precision
- 프로덕트
- 생산
- 제품
- 매수
- Python
- 품질
- 이유
- 감소
- 결과
- 리뷰
- 리뷰
- 위험
- 규칙
- 달리기
- 현자
- SDK
- 검색
- 감각
- 서비스
- 피복재
- 단순, 간단, 편리
- So
- 솔루션
- 풀다
- 남쪽
- 대한민국
- 전문적으로
- 신생
- 미국
- 유지
- 저장
- 저장
- 제출
- 지원
- 청소년
- 텐서 흐름
- test
- 시간
- 검색을
- 교통
- 트레이닝
- 트렌드
- 시도
- ui
- 업데이트
- us
- 음량
- 웹
- 웹 서비스
- 누구
- 말
- 작업
- 워크플로우
- 일