这是 MUSINSA 数据科学家 Jihye Park 的客座文章。
穆辛萨 是韩国最大的在线时尚平台之一,为 8.4 万客户提供服务,销售 6,000 个时尚品牌。我们的每月用户流量达到 4 万,超过 90% 的用户群体是对时尚潮流敏感的青少年和年轻人。 MUSINSA是国内引领潮流的平台领导者,以海量数据领先。
MUSINSA 数据解决方案团队参与与从 MUSINSA 商店收集的数据相关的所有事务。我们进行从日志收集到数据建模和模型服务的全栈开发。我们开发各种基于数据的产品,包括应用程序主页上的实时产品推荐服务,以及从文本评论中检测并突出显示“尺寸”或“满意度”等词语的关键字突出显示服务。
自动审查图像检查过程中的挑战
客户评论的质量和数量对于电子商务企业至关重要,因为客户在没有亲自看到产品的情况下做出购买决定。我们对那些在所购买的产品上撰写图片评论(即带有产品照片或穿着/使用产品照片的评论)的人给予积分,以增强客户体验并提高购买转化率。为了确定提交的照片是否符合我们的评分标准,所有照片都会由人工单独检查。例如,我们的标准规定,“风格评论”应包含穿着/使用产品的人的全身照片,而“产品评论”应提供产品的全景照片。下图显示了产品评论和风格评论的示例。上传者同意使用这些照片。
每天有超过 20,000 张照片上传到 MUSINSA Store 平台需要检查。检查过程将图像分类为“包装”、“产品”、“全长”或“半长”。图像检查过程完全是手动的,因此非常耗时,而且即使有指南,不同的人通常也会以不同的方式进行分类。面对这一挑战,我们使用了 亚马逊SageMaker 来自动执行此任务。
Amazon SageMaker 是一项完全托管的服务,用于通过完全托管的基础设施、工具和工作流程为任何用例构建、训练和部署机器学习 (ML) 模型。它让我们快速实现了自动化图像检测服务并取得了良好的效果。
我们将详细介绍如何使用 ML 模型解决问题以及如何使用 Amazon SageMaker。
审查图像检查过程的自动化
自动化图像审查检查流程的第一步是手动标记图像,从而将它们与适当的类别和检查标准相匹配。例如,我们将图像分类为“全身照”、“上半身照”、“包装照”、“产品照”等。在产品评论的情况下,仅对产品照图像给予评分。同样,在风格回顾中,全身照也被授予学分。
至于图像分类,由于训练模型所需的输入图像数量巨大,我们很大程度上依赖于预先训练的卷积神经网络 (CNN) 模型。虽然定义和分类图像中有意义的特征对于训练模型都至关重要,但图像可以具有无限数量的特征。因此,使用 CNN 模型是最有意义的,我们用 10,000 多个 ImageNet 数据集预训练了我们的模型,然后使用了迁移学习。这意味着稍后可以使用图像标签更有效地训练我们的模型。
使用 Amazon SageMaker Ground Truth 收集图像
然而,迁移学习有其自身的局限性,因为模型必须在更高层上进行新的训练。这意味着它不断需要输入图像。另一方面,这种方法表现良好,并且在整个层上训练时需要更少的输入图像。它可以轻松地从这些层的图像中识别特征,因为它已经接受了大量数据的训练。在 MUSINSA,我们的整个基础设施都在 AWS 上运行,我们将客户上传的照片存储在 亚马逊简单存储服务(S3)。 我们根据定义的标签将这些图像分类到不同的文件夹中,并使用 Amazon SageMaker Ground Truth 的原因如下:
- 更一致的结果 – 在手动流程中,单个检查员的错误可以被输入到模型训练中,而无需任何干预。借助 SageMaker Ground Truth,我们可以让多名检查员审查同一图像,并确保最值得信赖的检查员的输入在图像标签方面获得更高的评级,从而获得更可靠的结果。
- 减少手工作业 – SageMaker Ground Truth 自动数据标记可以应用置信度分数阈值,以便将任何无法自信地进行机器标记的图像发送给人工标记。这确保了成本和准确性的最佳平衡。更多信息可在 Amazon SageMaker Ground Truth 开发人员指南.
使用这种方法,我们将手动分类图像的数量减少了 43%。下表显示了我们采用 Ground Truth 后每次迭代处理的图像数量(请注意,训练和验证数据是累积数据,而其他指标是基于每次迭代的)。 - 直接加载结果 – 在 SageMaker 中构建模型时,我们可以加载 SageMaker Ground Truth 生成的结果清单文件并将其用于训练。
总之,对 10,000 张图像进行分类需要 22 名检查员花费 980 天时间,成本为 XNUMX 美元。
使用 Amazon SageMaker Studio 开发图像分类模型
我们需要将评论图片分类为全身照、上半身照、包装照、产品照,并将产品分类为适用的类别。为了实现我们的目标,我们考虑了两种模型:基于 ResNet 的 SageMaker 内置模型和 基于 Tensorflow 的 MobileNet。我们在相同的测试数据集上对两者进行了测试,发现 SageMaker 内置模型更准确,F0.98 分数为 1,而 TensorFlow 模型的 F0.88 分数为 XNUMX。因此,我们决定使用 SageMaker 内置模型。
SageMaker 工作室基于的模型训练流程如下:
- 从 SageMaker Ground Truth 导入带标签的图像
- 预处理图像——调整图像大小和增强图像
- 加载 Amazon SageMaker 内置模型 作为 Docker 镜像
- 通过网格搜索调整超参数
- 应用迁移学习
- 根据训练指标重新调整参数
- 保存模型
SageMaker 只需单击一下即可轻松训练模型,无需担心配置和管理一组用于训练的服务器。
对于超参数转向,我们采用网格搜索来确定超参数的最佳值,如训练层数(num_layers
)和训练周期(epochs
)在迁移学习期间影响了我们的分类模型的准确性。
使用 SageMaker Batch Transform 和 Apache Airflow 进行模型服务
我们构建的图像分类模型需要 ML 工作流程来确定评论图像是否有资格获得学分。我们通过以下四个步骤建立了工作流程。
- 导入必须自动审核的审核图像和元数据
- 推断图像的标签(推断)
- 根据推断的标签确定是否应给予学分
- 将结果表存储在生产数据库中
我们正在使用 阿帕奇气流 管理数据产品工作流程。它是由 Airbnb 开发的工作流程调度和监控平台,以简单直观的 Web UI 图表而闻名。它支持 Amazon SageMaker,因此可以轻松地将使用 SageMaker Studio 开发的代码迁移到 Apache Airflow。在 Apache Airflow 上运行 SageMaker 作业有两种方法:
- 使用 Amazon SageMaker 运算符
- 运用 Python运算子 :在 Apache Airflow 上使用 Amazon SageMaker Python SDK 编写 Python 函数并将其作为可调用参数导入
第二个选项让我们 维护我们现有的Python 我们在 SageMaker Studio 上已有的代码, 它不需要我们学习 Amazon SageMaker Operators 的新语法。
然而,我们经历了一些尝试和错误,因为这是我们第一次将 Apache Airflow 与 Amazon SageMaker 集成。我们吸取的教训是:
- Boto3更新:Amazon SageMaker Python SDK 版本 2 需要 Boto3 1.14.12 或更高版本。因此,我们需要更新现有 Apache Airflow 环境的 Boto3 版本,即 1.13.4。
- IAM 角色和权限继承:Apache Airflow 使用的 AWS IAM 角色需要继承可以运行 Amazon SageMaker 的角色。
- 网络配置:要使用 Apache Airflow 运行 SageMaker 代码,需要配置其端点以进行网络连接。以下终端节点基于我们使用的 AWS 区域和服务。欲了解更多信息,请参阅 AWS网站.
api.sagemaker.ap-northeast-2.amazonaws.com
runtime.sagemaker.ap-northeast-2.amazonaws.com
aws.sagemaker.ap-northeast-2.studio
结果
通过自动化审查图像检查流程,我们获得了以下业务成果:
- 提高工作效率 – 目前,该服务所应用类别的图像有76%被自动检查,检查准确率达到98%。
- 给予学分的一致性 – 根据明确的标准给予学分。但也有因检查人员判断不同而对类似案件给予不同评分的情况。 ML 模型应用的规则与我们的信用政策更加一致,并且具有更高的一致性。
- 减少人为错误 – 每次人为参与都存在人为错误的风险。例如,我们有使用风格审核标准进行产品审核的案例。我们的自动检查模型极大地降低了这些人为错误的风险。
通过使用 Amazon SageMaker 自动化图像检查过程,我们获得了以下好处:
- 建立了一个可以通过模块化流程构建和测试模型的环境 – 我们最喜欢 Amazon SageMaker 的一点是它由模块组成。这使我们能够轻松快速地构建和测试服务。显然,我们一开始需要一些时间来了解 Amazon SageMaker,但一旦学会,我们就可以轻松地将其应用到我们的运营中。我们认为,Amazon SageMaker 非常适合需要快速服务开发的企业(例如 MUSINSA Store)。
- 使用 Amazon SageMaker Ground Truth 收集可靠的输入数据 – 在机器学习领域,收集输入数据比建模本身变得越来越重要。随着机器学习的快速发展,预训练的模型可以比以前表现得更好,并且无需额外的调整。 AutoML 还消除了为 ML 建模编写代码的需要。因此,收集高质量输入数据的能力比以往任何时候都更加重要,并且使用 Amazon SageMaker Ground Truth 等标签服务至关重要。
结论
展望未来,我们计划不仅实现模型服务的自动化,还计划通过自动批处理实现模型训练的自动化。我们希望我们的模型在添加新标签或图像时自动识别最佳超参数。此外,我们将在前面提到的自动化训练方法的基础上,继续改进模型的性能,即召回率和精确率。我们将增加模型的覆盖范围,以便它可以检查更多的评论图像,降低更多的成本,并实现更高的精度,这一切都将带来更高的客户满意度。
有关如何使用的更多信息 亚马逊SageMaker 要使用 ML 解决您的业务问题,请访问 产品网页。并且一如既往地了解最新动态 AWS 机器学习新闻在这里。
本文中的内容和观点是第三方作者的观点,AWS对本文的内容或准确性不承担任何责任。
作者简介
朴智惠 是 MUSINSA 的数据科学家,负责数据分析和建模。她喜欢处理无处不在的数据,例如电子商务。她的主要职责是数据建模,但她也对数据工程感兴趣。
金圣民 是 Amazon Web Services 的高级解决方案架构师。他与初创公司合作,在 AWS 上架构、设计、自动化和构建解决方案,以满足他们的业务需求。他专注于人工智能/机器学习和分析。
- '
- "
- 000
- 100
- 107
- 98
- 额外
- Airbnb的
- 所有类型
- Amazon
- 亚马逊SageMaker
- 亚马逊SageMaker地面真相
- 亚马逊网络服务
- 分析
- 分析
- 阿帕奇
- 国家 / 地区
- 自动化
- AWS
- 最佳
- 身体
- 品牌
- 建立
- 建筑物
- 商业
- 企业
- 例
- 挑战
- 分类
- 美国有线电视新闻网
- 码
- 收藏
- 信心
- 连接
- 同意
- 内容
- 继续
- 转化
- 卷积神经网络
- 成本
- 信用
- 积分
- 客户体验
- 客户满意度
- 合作伙伴
- data
- 数据分析
- 数据科学家
- 人口统计
- 设计
- 细节
- 开发
- 开发商
- 研发支持
- 码头工人
- 电子商务
- 工程师
- 环境
- 等
- 体验
- 时尚
- 特征
- 美联储
- 姓氏:
- 第一次
- 舰队
- 向前
- ,
- 功能
- 给予
- 理想中
- 非常好
- 格
- 客人
- 游客发表
- 方针
- 此处
- 创新中心
- How To
- HTTPS
- 人类
- IAM
- 鉴定
- 图片
- 影像网
- 改善
- 包含
- 增加
- 信息
- 基础设施
- IT
- 工作机会
- 韩国
- 标签
- 标签
- 铅
- 领导
- 学习用品
- 知道
- 学习
- 加载
- 机器学习
- 指标
- ML
- 模型
- 造型
- 模块化
- 监控
- 亦即
- 网络
- 神经
- 神经网络
- 消息
- 在线
- 运营
- 意见
- 附加选项
- 其他名称
- 性能
- 平台
- 平台
- 政策
- 平台精度
- 产品
- 生产
- 热销产品
- 采购
- 蟒蛇
- 质量
- 原因
- 减少
- 成果
- 检讨
- 评论
- 风险
- 定位、竞价/采购和分析/优化数字媒体采购,但算法只不过是解决问题的操作和规则。
- 运行
- sagemaker
- SDK
- 搜索
- 感
- 特色服务
- 服务
- 简易
- So
- 解决方案
- 解决
- 南部
- 韩国
- 专业
- 初创企业
- 州
- 留
- 存储
- 商店
- 提交
- 支持
- 青少年
- tensorflow
- test
- 次
- 工具
- 交通
- 产品培训
- 趋势
- 试用
- ui
- 更新
- us
- 体积
- 卷筒纸
- Web服务
- WHO
- 话
- 工作
- 工作流程
- 合作