这是由 smava 首席数据架构师 Alex Naumov 共同撰写的客座文章。
斯玛瓦有限公司 是德国领先的金融服务公司之一,为消费者提供透明、公平且负担得起的个人贷款。 smava 基于数字流程比较 20 多家银行的贷款报价。这样,借款人就可以快速、数字化、高效地选择对自己最有利的交易。
smava 相信并利用数据驱动的决策来成为市场领导者。数据平台团队负责通过为公司所有部门和分支机构提供数据产品来支持 smava 的数据驱动决策。这些部门包括从工程到销售和营销的团队。分行按产品分类,即B2C贷款、B2B贷款,以前也有B2C抵押贷款。公司内部使用的数据产品包括来自用户旅程、运营报告和营销活动结果等的见解。该数据平台平均每天处理60万个查询。数据量达到两位数TB,并随着业务和数据源的发展而稳定增长。
smava 的数据平台团队面临的挑战是向具有不同 SLA 的利益相关者提供数据,同时保持扩展和缩减的灵活性,同时保持成本效益。生成每日报告需要长达 3 小时的时间,当需要在白天进行重新计算时,这会影响业务决策。为了加速自助分析并促进基于数据的创新,需要一种解决方案来提供允许任何团队以去中心化方式自行创建数据产品的方法。为了创建和管理数据产品,smava 使用 亚马逊Redshift,一个云数据仓库。
在这篇文章中,我们展示了 smava 如何通过使用优化他们的数据平台 Amazon Redshift 无服务器 和 Amazon Redshift 数据共享 克服不可预测的工作负载的正确规模挑战并进一步提高性价比。通过优化,与之前的分析基础设施相比,smava 节省了高达 50% 的成本,报告生成速度提高了三倍。
解决方案概述
作为一家数据驱动型公司,smava 依靠 AWS 云来支持其分析用例。为了给客户带来最好的优惠和用户体验,smava 遵循 现代数据架构 数据湖作为可扩展、持久的数据存储和用于分析处理和数据消费的专用数据存储的原则。
smava 将来自各种外部和内部数据源的数据采集到数据湖上的着陆阶段,基于 亚马逊简单存储服务 (亚马逊 S3)。为了获取数据,smava 使用一组流行的第三方客户数据平台并辅以自定义脚本。
数据到达 Amazon S3 后,smava 使用 AWS胶水 数据目录和爬虫 自动对可用数据进行编目、捕获元数据并提供允许查询所有数据资产的界面。
需要访问数据湖上的原始资产的数据分析师使用 亚马逊雅典娜,一种无服务器的交互式分析服务,用于探索即席查询。对于组织内所有部门的下游消费,smava 的数据平台团队根据以下内容准备精选的数据产品: 提取、加载和转换 (ELT)模式。 smava 使用 Amazon Redshift 作为云数据仓库来转换、存储和分析数据,并使用 亚马逊红移频谱 使用 SQL 从数据湖中高效查询和检索结构化和半结构化数据。
斯玛瓦遵循 数据仓库建模 使用 Raw Vault、Business Vault 和 Data Mart 阶段的方法来为最终消费者准备数据产品。 Raw Vault 描述直接从数据源加载的对象,并代表数据湖中登陆阶段的副本。 Business Vault 中填充有来自 Raw Vault 的数据,并根据业务规则进行转换。最后,将数据聚合成面向特定业务线的特定数据产品。这是 数据库 阶段。 Business Vault 和 Data Mart 阶段的数据产品现已可供消费者使用。 smava 决定使用 Tableau 进行商业智能、数据可视化和进一步分析。数据转换是通过以下方式管理的 DBT 简化工作流程治理和团队协作。
下图展示了优化前的高层数据平台架构。
数据平台需求的演变
smava 从单个 Redshift 集群开始托管所有三个数据阶段。他们选择了配置的集群节点 RA3型 预留实例 (RI) 用于成本优化。随着数据量同比增长 53%,各种分析工作负载的复杂性和要求也随之增加。
smava 通过调整集群规模并使用 Amazon Redshift 并发扩展 用于高峰工作负载。此外,smava 希望为所有团队提供以自助服务方式创建自己的数据产品的选项,以加快创新步伐。为了避免对集中管理的数据产品产生任何干扰,分散的产品开发环境需要严格隔离。同样的要求也适用于数据平台团队策划的不同产品阶段的隔离。
通过数据共享和 Redshift Serverless 优化架构
为了满足不断发展的需求,smava 决定通过将单个配置的 Redshift 集群拆分为多个数据仓库来分离工作负载,每个仓库服务于不同的阶段。此外,smava 在 Business Vault 中添加了新的暂存环境,以开发新的数据产品,而不会干扰现有产品管道的风险。为了避免对数据平台团队集中管理的数据产品产生任何干扰,smava 引入了额外的 Redshift 集群,隔离分散的工作负载。
smava 正在寻找一种开箱即用的解决方案来实现工作负载隔离,而无需管理复杂的数据复制管道。
刚推出后 红移数据共享 2021 年,数据平台团队认识到这是他们一直在寻找的解决方案。 smava 采用数据共享功能,使来自生产者集群的数据可在不同的消费者集群上进行读取访问,每个消费者集群服务于不同的阶段。
Redshift 数据共享支持跨 Redshift 集群即时、精细且快速的数据访问,而无需复制数据。它提供对数据的实时访问,以便用户始终看到数据仓库中更新的最新且一致的信息。通过数据共享,您可以与相同或不同 AWS 账户中的 Redshift 集群以及跨区域安全地共享实时数据。
借助 Redshift 数据共享,smava 能够通过将数据工作负载分离到各个消费者集群来优化数据架构,而无需复制数据。下图展示了将单个 Redshift 集群拆分为多个集群后的高级数据平台架构。
通过提供自助数据集市,smava 为用户提供对数据各个方面的访问,从而提高了数据民主化。他们还为团队提供了一套定制工具,用于数据发现、临时分析、原型设计和运营成熟数据产品的整个生命周期。
从各个集群收集运营数据后,数据平台团队确定了进一步的潜在优化:Raw Vault 集群全天候 (24/7) 保持稳定负载,但 Business Vault 集群仅每晚更新。为了优化成本,smava 使用了 暂停和恢复功能 Redshift 配置的集群。这些功能对于需要在特定时间可用的集群非常有用。当集群暂停时,按需计费也会暂停。只有集群的存储会产生费用。
暂停和恢复功能有助于 smava 优化成本,但需要额外的操作开销来触发集群操作。此外,开发集群在工作时间内仍然存在空闲时间。这些挑战最终通过在 2022 年采用 Redshift Serverless 得到解决。数据平台团队决定将 Business Data Vault 阶段集群迁移到 Redshift Serverless,这使得他们能够仅在使用时可靠且高效地为数据仓库付费。
Redshift Serverless 非常适合难以预测计算需求的情况,例如可变工作负载、具有空闲时间的周期性工作负载以及具有峰值的稳态工作负载。此外,随着使用需求随着新的工作负载和更多并发用户的变化而变化,Redshift Serverless 会自动配置正确的计算资源,并且数据仓库可以无缝自动扩展,无需手动干预。 Redshift Serverless 和配置有 RA3 节点的 Redshift 集群之间支持双向数据共享,因此无需对 smava 架构进行任何更改。下图显示了迁移到 Redshift Serverless 后的高级架构设置。
smava 通过无缝 CI/CD 管道结合了 Redshift Serverless 和 dbt 的优势,采用基于主干的开发方法。 Git 存储库上的更改会自动部署到测试阶段,并使用自动化集成测试进行验证。这种方法提高了开发人员的效率,并将平均生产时间从几天缩短到几分钟。
smava 采用了一种架构,该架构利用预配置和无服务器 Redshift 数据仓库以及数据共享功能来隔离工作负载。通过根据需求选择正确的架构模式,smava 能够实现以下目标:
- 简化数据管道并减少运营开销
- 将功能发布时间从几天缩短到几分钟
- 通过减少空闲时间和调整工作负载来提高性价比
- 以原始设置成本的 50% 实现高达三倍的报告生成速度(更快的计算和更高的并行化)
- 通过数据访问民主化提高所有部门的敏捷性并支持数据驱动的决策
- 为所有部门的团队提供自助数据能力,并加强 A/B 测试能力以覆盖整个客户旅程,从而提高创新速度
现在,smava 的所有部门都在使用可用的数据产品来做出数据驱动的、准确的、敏捷的决策。
未来愿景
未来,smava 计划继续根据运营指标优化数据平台。他们正在考虑将更多配置的集群(例如自助数据集市集群)切换为无服务器集群。此外,smava 正在优化 ELT 编排工具链,以增加要运行的并行数据管道的数量。这将提高所配置的 Redshift 资源的利用率并降低成本。
随着数据产品创建的去中心化、自助服务的引入,smava 向 数据网格架构。未来,数据平台团队计划进一步评估服务用户的需求,并建立进一步的数据网格原则,例如联合数据治理。
结论
在这篇文章中,我们展示了 smava 如何通过使用 Redshift Serverless 和数据共享功能隔离环境和工作负载来优化其数据平台。这些 Redshift 环境与其基础设施完美集成,可以灵活地按需扩展,并且高度可用,并且需要最少的管理工作。总体而言,smava 将性能提高了三倍,同时将平台总成本降低了 50%。此外,他们将运营开销降至最低,同时维持现有的报告生成时间 SLA。此外,smava 通过提供自助数据产品功能来加快产品上市时间,从而强化了创新文化。
如果您有兴趣了解有关 Amazon Redshift 功能的更多信息,我们建议您观看最新的 AWS Events 频道中的 Amazon Redshift 会话的新增功能 获取最近添加到服务中的功能的概述。您还可以探索 自助式实践 Amazon Redshift 实验室 以引导方式试验关键的 Amazon Redshift 功能。
您还可以更深入地了解 Redshift 无服务器用例 和 数据共享用例。此外,请查看 数据共享最佳实践 并发现如何 其他客户通过 Redshift 数据共享优化成本和性能 为您自己的工作负载获取灵感。
如果您喜欢书籍,请查看 Amazon Redshift:O’Reilly 的权威指南,其中作者详细介绍了 Amazon Redshift 的功能,并为您提供了有关相应模式和技术的见解。
作者简介
亚历克斯·瑙莫夫 是 smava GmbH 的首席数据架构师,领导数据部门的转型项目。 Alex 此前曾在电信、银行、能源和金融等多个领域担任顾问和数据/解决方案架构师 10 年,使用各种技术堆栈,在许多不同的国家/地区工作。他对数据充满热情,并致力于将组织转变为数据驱动型组织,并在其工作中做到最好。
郑玲丽 在 AWS 全球专业组织中担任业务开发经理,支持 DACH 区域的客户从 Amazon 分析服务中获得最大价值。她在能源、自动化和软件行业拥有超过 12 年的经验,专注于数据分析、人工智能和机器学习,致力于帮助客户通过数字化转型实现切实的业务成果。
亚历山大·斯皮瓦克 是 AWS 的高级初创解决方案架构师,专注于欧洲、中东和非洲北部地区的 B2B ISV 客户。在加入 AWS 之前,Alexander 曾担任金融服务业务的顾问,包括软件开发和架构方面的各种职位。他热衷于数据分析、无服务器架构和创建高效的组织。
高级分析解决方案架构师 David Greenshtein 审核了本文的技术准确性。
- :具有
- :是
- :在哪里
- $UP
- 10
- 100
- 12
- 125
- 20
- 2021
- 2022
- 60
- a
- Able
- 关于
- ACCESS
- 访问数据
- 完成
- 根据
- 账户
- 精准的
- 实现
- 横过
- Ad
- 添加
- 增加
- 额外
- 另外
- 解决
- 管理
- 采用
- 采用
- 优点
- 实惠
- 后
- 敏捷
- AI
- 亚历克斯
- 亚历山大
- 所有类型
- 让
- 允许
- 还
- 时刻
- Amazon
- 亚马逊网络服务
- 其中
- an
- 分析
- 分析师
- 解析
- 分析
- 分析
- 分析
- 和
- 任何
- 应用的
- 的途径
- 建筑的
- 架构
- 保健
- AS
- 方面
- 办公室文员:
- At
- 作者
- 作者
- 自动化
- 自动
- 自动化和干细胞工程
- 可使用
- 避免
- AWS
- B2B模式
- B2C
- 银行业
- 银行
- 基于
- BE
- 成为
- 很
- before
- 相信
- 好处
- 最佳
- 之间
- 计费
- 博客
- 书籍
- 借款人
- 都
- 分支机构
- 带来
- 商业
- 业务发展
- 商业智能
- 但是
- by
- 营销活动
- CAN
- 能力
- 能力
- 捕获
- 例
- 检索目录
- 挑战
- 挑战
- 更改
- 收费
- 查
- 选择
- 选择
- 云端技术
- 簇
- 合作
- 收藏
- 结合
- 公司
- 公司
- 相比
- 完成
- 复杂
- 复杂
- 计算
- 并发
- 考虑
- 一贯
- 顾问
- 消费者
- 消费者
- 消费
- 继续
- 相应
- 价格
- 节约成本
- 成本
- 国家
- 外壳
- 创建信息图
- 创造
- 创建
- 文化塑造
- 策划
- 习俗
- 顾客
- 客户数据
- 合作伙伴
- 每天
- data
- 数据访问
- 数据分析
- 数据湖
- 数据平台
- 数据共享
- 数据可视化
- 数据仓库
- 数据仓库
- 数据驱动
- David
- 天
- 一年中的
- 交易
- 分散
- 决定
- 决策
- 决定
- 下降
- 专用
- 更深
- 明确
- 交付
- 需求
- 民主化
- 民主化
- 问题类型
- 部门
- 部署
- 细节
- 开发
- 开发
- 研发支持
- DID
- 不同
- 难
- 数字
- 数字化改造
- 方向
- 直接
- 通过各种方式找到
- 发现
- 潜水
- do
- 域名
- 向下
- ,我们将参加
- 每
- 效率
- 高效
- 有效
- 工作的影响。
- 欧洲与中东地区
- 使
- 结束
- 能源
- 订婚
- 工程师
- 环境中
- 建立
- 醚(ETH)
- 评估
- 事件
- 发展
- 进化
- 演变
- 现有
- 体验
- 实验
- 勘探
- 探索
- 外部
- 面临
- 公平
- 高效率
- 快
- 有利
- 专栏
- 特征
- 终于
- 金融
- 金融
- 金融服务
- 高度灵活
- 柔软
- 专注焦点
- 聚焦
- 以下
- 如下
- 针对
- 对于消费者
- 以前
- 向前
- 培育
- 止
- ,
- 功能
- 进一步
- 此外
- 未来
- 生成
- 代
- 德国
- 得到
- 混帐
- 给
- 有限公司
- 治理
- 大
- 增长
- 成长
- 事业发展
- 客人
- 游客发表
- 指南
- 制导
- 民政事务总署
- 动手
- 发生
- 有
- 有
- he
- 帮助
- 帮助
- 高水平
- 更高
- 高度
- 主持人
- HOURS
- 创新中心
- HTML
- HTTPS
- 理想
- 确定
- 空闲
- 说明
- 影响
- 改善
- in
- 包括
- 包含
- 增加
- 增加
- 个人
- 行业中的应用:
- 信息
- 基础设施
- 創新
- 内
- 可行的洞见
- 灵感
- 实例
- 即食类
- 集成
- 积分
- 房源搜索
- 互动
- 有兴趣
- 接口
- 干扰
- 干扰
- 内部
- 介入
- 成
- 介绍
- 介绍
- 介绍
- 孤立
- 隔离
- ISV
- IT
- 旅程
- 键
- 湖泊
- 着陆
- 土地
- 发射
- 领导者
- 领导
- 信息
- 学习
- 生命周期
- 喜欢
- Line
- 生活
- 实时数据
- 加载
- 贷款
- 贷款
- 寻找
- 制成
- 维持
- 使
- 制作
- 制作
- 管理
- 管理
- 经理
- 管理的
- 方式
- 手册
- 许多
- 市场
- 市场领导者
- 营销
- 成熟
- 满足
- 网格
- 元数据
- 研究方法
- 指标
- 最低限度
- 分钟
- ML
- 更多
- 此外
- 抵押贷款
- 最先进的
- 移动
- 多
- 亦即
- 需求
- 打印车票
- 需要
- 全新
- 没有
- 节点
- 北
- 现在
- 数
- 对象
- of
- 优惠精选
- on
- 点播
- 一
- 仅由
- 操作
- 操作
- 运营
- 优化
- 优化
- 优化
- 追求项目的积极优化
- 附加选项
- or
- 管弦乐编曲
- 秩序
- 组织
- 组织
- 原版的
- 其他名称
- 其它
- 输出
- 超过
- 最划算
- 克服
- 简介
- 己
- 步伐
- 并行
- 情
- 多情
- 模式
- 模式
- 暂停
- 暂停
- 高峰
- 为
- 性能
- 定期
- 个人
- 个人贷款
- 管道
- 计划
- 平台
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 热门
- 人口稠密
- 帖子
- 潜力
- 功率
- 预测
- 比较喜欢
- Prepare
- 准备
- 以前
- 先前
- 校长
- 原则
- 先
- 过程
- 处理
- 制片人
- 产品
- 产品开发
- 生产
- 核心产品
- 项目
- 原型
- 提供
- 提供
- 提供
- 优
- 查询
- 很快
- 范围
- 原
- 阅读
- 最近
- 最近
- 确认
- 建议
- 减少
- 减少
- 减少
- 减少
- 地区
- 地区
- 释放
- 保持
- 复制
- 报告
- 报告
- 业务报告
- 知识库
- 代表
- 要求
- 必须
- 需求
- 岗位要求
- 资源
- 提供品牌战略规划
- 成果
- 简历
- 审查
- 右
- 风险
- 角色
- 定位、竞价/采购和分析/优化数字媒体采购,但算法只不过是解决问题的操作和规则。
- 运行
- 销售
- 销售和营销
- 同
- 储
- 可扩展性
- 鳞片
- 秤
- 缩放
- 脚本
- 无缝的
- 无缝
- 安全
- 看到
- 自助服务
- 前辈
- 分开
- 分离
- 无服务器
- 服务
- 服务
- 特色服务
- 服务
- 会议
- 集
- 格局
- Share
- 共享
- 她
- 显示
- 显示
- 作品
- 简易
- 简化
- 单
- So
- 软件
- 软件开发
- 方案,
- 解决方案
- 解决
- 采购
- 来源
- 专家
- 具体的
- 速度
- 钉鞋
- SQL
- 堆栈
- 阶段
- 实习
- 分期
- 利益相关者
- 开始
- 启动
- 住宿
- 稳定
- 步
- 存储
- 商店
- 商店
- 加强
- 强化
- 结构化
- 主题
- 这样
- SUPPORT
- 支持
- 支持
- 暂停
- 画面
- 需要
- 有形
- 团队
- 队
- 科技
- 文案
- 技术
- 电信
- test
- 测试
- 比
- 这
- 未来
- 其
- 他们
- 博曼
- 他们
- 第三方
- Free Introduction
- 那些
- 千
- 三
- 通过
- 次
- 时
- 至
- 一起
- 了
- 工具
- 合计
- 向
- 改造
- 转型
- 转换
- 转化
- 转型
- 透明
- 触发
- 下
- 变幻莫测
- 跟上时代的
- 更新
- 用法
- 使用
- 用过的
- 用户
- 用户体验
- 用户
- 使用
- 运用
- 利用
- 验证
- 折扣值
- 变量
- 各种
- 各个
- 拱顶
- 可视化
- 体积
- 卷
- 通缉
- 仓库保管
- 是
- 观看
- 方法..
- 方法
- we
- 卷筒纸
- Web服务
- 井
- 为
- 什么是
- ,尤其是
- 这
- 而
- WHO
- 宽
- 维基百科上的数据
- 将
- 也完全不需要
- 工作
- 工作流程
- 加工
- 工作时间
- 合作
- 工作坊
- 全世界
- 年
- 年
- 您
- 您一站式解决方案
- YouTube的
- 和风网