这篇文章是与来自 redBus 的 Girish Kumar Chidananda 合着的。
redBus 是印度最早采用 AWS 的公司之一,其大部分服务和应用程序都托管在 AWS 云上。 AWS 为 redBus 提供了快速扩展其基础设施的灵活性,同时保持极低的成本。 AWS 拥有一套全面的服务来满足他们的大部分需求,包括提供 redBus 可以担保的客户支持。
在这篇文章中,我们分享了 redBus 的数据平台架构,以及各种组件如何连接以形成它们的数据高速公路。 我们还讨论了 redBus 在为其实时商业智能 (BI) 用例构建仪表板时面临的挑战,以及他们如何使用 亚马逊QuickSight,一种快速、易于使用、云驱动的业务分析服务,使 redBus 内的所有员工都可以轻松地构建可视化效果并执行临时分析,以便随时随地在任何设备上从他们的数据中获得业务洞察力。
关于红巴
redBus 是世界上最大的在线巴士票务平台,在印度建立,为全球超过 36 万满意的客户提供服务。 除了公交车售票业务,redBus 还经营名为 红轨 以及名为 雷德. 它隶属于 GO-MMT 集团,后者是印度领先的在线旅游公司,拥有广泛的品牌组合,其中包括 MakeMyTrip 和 Goibibo 等其他知名在线旅游品牌。
redBus 的数据高速公路 1.0
redBus 严重依赖于在各个层面做出数据驱动的决策,从其旅客旅程跟踪、预测高流量期间的需求、识别和解决其公交运营商注册过程中的瓶颈,等等。 随着 redBus 的业务在其运营的城市和国家数量以及每个城市使用该服务的公交运营商和旅客数量方面开始增长,传入数据量也随之增加。 在一处访问和分析数据的需求要求他们构建自己的数据平台,如下图所示。
在以下部分中,我们将更详细地研究每个组件。
数据摄取源
使用数据平台 1.0,可以从各种来源获取数据:
- 即时的 – 实时数据来自 redBus 移动应用程序、后端微服务,以及乘客、巴士运营商或应用程序何时执行任何操作,如预订巴士票、搜索巴士库存、上传 KYC 文件等
- 批处理模式 – 计划作业从多个持久性数据存储中获取数据,例如 亚马逊关系数据库服务 (Amazon RDS),其中存储来自其所有应用程序的 OLTP 数据,Apache Cassandra 集群,其中存储来自不同运营商的总线库存,Arango DB,其中存储用户身份图,等等
数据编目
实时数据被引入他们自行管理的 Apache Nifi 集群,这是一个开源数据平台,用于在将数据发送到目的地之前使用其路由功能清理、分析和编目数据。
存储和分析
redBus 使用以下服务来满足其存储和分析需求:
- 亚马逊简单存储服务 (Amazon S3),这是一种对象存储服务,因其几乎无限的可扩展性和更高的耐用性而为其数据湖提供了基础。 来自 Apache Druid 的实时数据流和来自数据存储的数据根据时间表定期流动。
- Apache Druid,一种 OLAP 风格的数据存储(数据通过 Kafka Druid 数据加载器流动),它在数据加载过程中根据各种维度计算事实和指标。
- 亚马逊Redshift,一种云数据仓库服务,可帮助您分析 EB 级数据并运行复杂的分析查询。 redBus 使用 Amazon Redshift 存储来自 Amazon S3 的处理数据和来自 Apache Druid 的聚合数据。
查询和可视化
为了使 redBus 尽可能以数据为驱动,他们确保 SRE 工程师、数据工程师和业务分析师可以通过可视化层访问数据。 该层的特点是使用开源数据可视化应用程序 Apache SuperSet 提供的仪表板,以及 亚马逊雅典娜,一种交互式查询服务,使用标准 SQL 分析 Amazon S3 中的数据以满足临时查询要求。
挑战
最初,redBus 处理的数据以每天 10 万个事件的速度摄取。 随着时间的推移,随着其业务开始增长,数据量(从 GB 到 TB 到 PB)、每天的数据摄取(从 10 万到 320 亿个事件)以及其商业智能仪表板需求也随之增加。 不久之后,他们开始面临自我管理的 Superset 的 BI 功能和增加的运营复杂性的挑战。
有限的 BI 功能
redBus 遇到以下 BI 限制:
- 无法从多个数据源创建可视化 – Superset 不允许从其数据探索层中的多个表创建可视化。 redBus 数据工程师必须事先在数据源级别本身连接表。 为了为 redBus 的业务利益相关者创建 360 度视图,数据工程师维护多个支持可视化层的表变得很不方便。
- 仪表板中的视觉对象没有全局过滤器 – Superset 不支持仪表板中跨视觉对象的全局或主要过滤器。 例如,考虑在仪表板中有诸如按地区划分的销售胜利、按地区实现的 YTD 收入、按地区划分的销售管道等视觉对象,并且将过滤器区域添加到具有 EMEA、APAC 和 US 等值的仪表板。 过滤器区域将仅适用于其中一个视觉效果,而不适用于整个仪表板。 但是,仪表板用户希望在整个仪表板中进行过滤。
- 不是对企业用户友好的工具 – 在定制方面,Superset 高度以开发人员为中心。 例如,如果 redBus 业务分析师必须自定义定时刷新,根据预设值自动重新查询仪表板上的每个切片,则分析师必须更新仪表板的 JSON 元数据字段。 因此,了解 JSON 及其语法对于在视觉效果或仪表板上进行任何自定义是必不可少的。
运营成本增加
尽管 Superset 是开源的,这意味着没有许可成本,但这也意味着需要付出更多努力来维护其作为企业级 BI 工具运行所需的所有组件。 redBus 已经部署并维护了一个 Web 服务器(Nginx),前端是一个 应用程序负载均衡器 做负载均衡; 元数据数据库服务器 (MySQL),Superset 存储其内部信息,如用户、切片和仪表板定义; 用于支持长时间运行查询的异步任务队列 (Celery); 消息代理 (RabbitMQ); 以及用于缓存结果、图表数据等的分布式缓存服务器 (Redis) 亚马逊弹性计算云 (亚马逊 EC2)实例。 下图说明了此体系结构。
redBus 的 DevOps 团队必须完成配置基础架构、进行备份、根据需要手动扩展组件、单独升级组件等繁重工作。 它还需要 Python Web 开发人员在场进行配置更改,以便所有组件无缝协同工作。 所有这些手动操作都增加了 redBus 的总拥有成本。
QuickSight 之旅
redBus 主要围绕其几个仪表板要求开始探索 BI 解决方案:
- 面向业务利益相关者和分析师的 BI 仪表板,其中数据来自 Amazon S3 和 Amazon Redshift。
- 一个实时应用程序性能监控 (APM) 仪表板,可帮助他们的 SRE 工程师和开发人员确定微服务部署中问题的根本原因,以便他们可以在问题影响客户体验之前解决问题。 在这种情况下,数据来自 Druid。
QuickSight 符合 redBus 的大部分 BI 仪表板要求,他们的数据平台团队很快就开始为他们的几个复杂仪表板进行概念验证 (POC)。 在历时一个月的 POC 结束时,团队分享了他们的发现。
首先,QuickSight 具有丰富的 BI 功能,包括:
- 这是一个具有拖放功能的自助式 BI 解决方案,可以帮助 redBus 分析师轻松使用它,而无需任何编码工作。
- 单个仪表板中来自多个数据源的可视化可以帮助 redBus 业务利益相关者在单个面板中获得销售、预测和洞察的 360 度全方位视图。
- 在仪表板中跨视觉对象和跨工作表的级联过滤器是 redBus 的 BI 要求急需的功能。
- QuickSight 提供类似 Excel 的视觉效果——带有计算的表格、带有单元格分组的数据透视表和样式对查看者很有吸引力。
- QuickSight 中的超快速并行内存计算引擎 (SPICE) 可以帮助 redBus 扩展到数十万用户,他们可以同时对各种 AWS 数据源执行快速交互式分析。
- 现成的 ML 洞察力和预测无需额外费用,这将使 redBus 的数据科学团队能够专注于 ML 模型,而不是销售预测和类似模型。
- 内置的行级安全性 (RLS) 可以允许 redBus 为其查看者授予过滤访问权限。 例如,redBus 有许多管理不同国家/地区的业务分析师。 借助 RLS,每位业务分析师只能在单个仪表板中查看与其指定国家/地区相关的数据。
- redBus 使用 OneLogin 作为其身份提供者,它支持安全断言标记语言 2.0 (SAML 2.0)。 借助 QuickSight 的身份联合和单点登录支持,redBus 可以为其 QuickSight 用户提供简单的入职流程。
- QuickSight 提供内置警报和电子邮件通知功能。
其次,QuickSight 是 AWS 提供的完全托管、云原生、无服务器的 BI 服务产品,具有以下功能:
- redBus 工程师无需专注于在 EC2 实例上配置、扩展和维护其 BI 解决方案的繁重工作。
- QuickSight 提供与 Amazon Redshift、Amazon S3 和 Athena 等 AWS 服务以及 Presto、Snowflake、Teradata 等其他流行框架的原生集成。 QuickSight 连接到除 Apache Druid 之外的 redBus 已有的大部分数据源,因为截至 2022 年 XNUMX 月,与 Druid 的原生集成尚不可用。有关受支持数据源的完整列表,请参阅 支持的数据源.
结果
考虑到所有丰富的功能和较低的总拥有成本,redBus 选择 QuickSight 来满足他们的 BI 仪表板要求。 借助 QuickSight,redBus 的数据工程师立即构建了许多仪表板,以向业务利益相关者和分析师提供 PB 级数据的洞察力。 redBus 数据高速公路不断发展,以更好的性能和更快的价值实现时间将商业智能带给组织中更广泛的受众。 截至 2022 年 XNUMX 月,它结合了面向业务用户的 QuickSight 和用于实时 APM 仪表板的 Superset(在撰写本文时,QuickSight 不提供 Druid 的本机连接器),如下图所示。
销售异常检测仪表板
尽管 redBus 将许多仪表板部署到生产环境中,但销售异常检测是 redBus 构建的有趣仪表板之一。 它使用 redBus 专有的销售预测模型,该模型又来源于 Amazon Redshift 表的历史销售数据和 Druid 表的实时销售数据,如下图所示。
计划的作业定期向 redBus 预测模型提供实时和历史销售数据,然后将预测数据推送到 Amazon Redshift 表中。 QuickSight 中的销售异常检测控制面板由生成的 Amazon Redshift 表提供服务。
以下是销售异常检测仪表板的视觉效果之一。 它是使用折线图构建的,该折线图表示每小时实际销售额、预测销售额和 redBus 中特定业务组的时间序列的警报阈值。
在此视觉效果中,每个条形代表在时间序列中特定点触发的销售异常数。
redBus 的分析师可以进一步深入到分钟级别的销售细节和异常,如下图所示。 这种向下钻取功能是 QuickSight 开箱即用的。
有关向 QuickSight 仪表板视觉对象添加向下钻取的更多详细信息,请参阅 在 Amazon QuickSight 中向可视化数据添加向下钻取.
除了视觉效果外,由于以下显着特点,它已成为 redBus 观众最喜欢的仪表板之一:
- 由于跨视觉对象筛选是 QuickSight 中的开箱即用功能,因此将基于时间戳的筛选器添加到仪表板。 这有助于通过一次单击过滤仪表板中的多个视觉对象。
- 在视觉对象上配置的 URL 操作可帮助查看者导航到上下文相关的内部应用程序。
- 在 KPI 和仪表视觉上配置的电子邮件警报可帮助查看者及时收到通知。
接下来的步骤
除了为他们的 BI 仪表板需求构建新的仪表板外,redBus 正在采取以下后续步骤:
- 探索 QuickSight 嵌入式分析 满足他们的一些应用程序需求,以通过上下文数据可视化、交互式仪表板以及更直接地在应用程序中加快用户获得洞察力的时间
- 探索 QuickSight Q,这可以让他们的业务利益相关者以自然语言提出问题,并通过相关的可视化获得准确的答案,从而帮助他们从数据中获得洞察力
- 使用 QuickSight 构建统一的仪表板解决方案,在集成可用时涵盖所有数据源
结论
在本文中,我们向您展示了 redBus 如何使用各种 AWS 服务和 Apache 框架构建其数据平台,该平台所经历的挑战(尤其是在他们的 BI 仪表板要求和扩展时遇到的挑战),以及他们如何使用 QuickSight 并降低总成本所有权。
要了解有关 redBus 工程的更多信息,请查看他们的 中等博客文章. 要详细了解 QuickSight 中发生的事情,或者如果您有任何疑问,请联系 QuickSight 社区,它非常活跃并提供多种资源。
作者简介
吉里什·库马尔·奇达南达 在 redBus 担任数据工程高级工程经理,过去 5 年他一直在为 redBus 构建各种数据工程应用程序和组件。 在开始其 IT 行业之旅之前,他曾在多个组织担任机械和控制系统工程师,并拥有巴斯大学流体动力工程硕士学位。
Kayalvizhi 坎达萨米 与数字本土公司合作,支持他们的创新。 作为 Amazon Web Services 的高级解决方案架构师 (APAC),她利用自己的经验帮助人们将他们的想法变为现实,主要关注微服务架构和使用 AWS 服务的云原生解决方案。 工作之余,她喜欢下国际象棋,并且是 FIDE 评级的国际象棋棋手。 她还指导女儿们下棋,并为她们参加各种国际象棋比赛做准备。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/big-data/a-dive-into-redbuss-data-platform-and-how-they-used-amazon-quicksight-to-accelerate-business-insights/
- 10 百万美元
- 1
- 10
- 100
- 2022
- 360度
- a
- 关于
- 加快
- ACCESS
- 无障碍
- 根据
- 精准的
- 横过
- 行动
- 要积极。
- Ad
- 添加
- 额外
- 解决
- 采纳者
- 影响
- 后
- 驳
- 警惕
- 所有类型
- 已经
- Amazon
- Amazon EC2
- 亚马逊QuickSight
- 亚马逊RDS
- 亚马逊网络服务
- 量
- 分析
- 分析人士
- 分析师
- 分析
- 分析
- 分析
- 和
- 异常检测
- 答案
- 亚太地区
- 阿帕奇
- 应用领域
- 应用领域
- 使用
- 应用
- 架构
- 围绕
- 艺术
- 分配
- 吸引力
- 听众
- 作者
- 自动
- 可使用
- AWS
- 后端
- 备份
- 酒吧
- 基于
- 因为
- 成为
- before
- 作为
- 更好
- 博客
- 盒子
- 品牌
- 品牌
- 带来
- 经纪人
- 建立
- 建筑物
- 建
- 内建的
- 总线
- 商业
- 商业智能
- 被称为
- 能力
- 汽车
- 案件
- 例
- 检索目录
- 原因
- 挑战
- 更改
- 图表
- 图表
- 查
- 棋
- 选择
- 城市
- 城市
- 云端技术
- 编码
- 队列
- 结合
- 公司
- 公司
- 完成
- 复杂
- 复杂性
- 元件
- 组件
- 全面
- 计算
- 概念
- 已联繫
- 所连接
- 考虑
- 控制
- 价格
- 成本
- 可以
- 国家
- 国家
- 情侣
- 覆盖
- 创建信息图
- 创造
- 顾客
- 客户支持
- 合作伙伴
- 定制
- 定制
- XNUMX月XNUMX日
- data
- 数据湖
- 数据平台
- 数据科学
- 数据可视化
- 数据仓库
- 数据驱动
- 数据库
- 天
- 十二月
- 决定
- 学位
- 需求
- 部署
- 部署
- 目的地
- 细节
- 详情
- 检测
- 开发商
- 开发
- 设备
- DevOps的
- DID
- 不同
- 尺寸
- 直接
- 讨论
- 分布
- 文件
- 不会
- 做
- 别
- 向下
- 德鲁伊
- 耐久力
- ,我们将参加
- 每
- 易于使用
- 努力
- 工作的影响。
- 邮箱地址
- 嵌入式
- 欧洲与中东地区
- 员工
- enable
- 发动机
- 工程师
- 工程师
- 工程师
- 企业级
- 整个
- 特别
- 醚(ETH)
- 事件
- 进化
- 例子
- 除
- 预期
- 体验
- 勘探
- 探索
- 广泛
- 非常
- 面临
- 面对
- 高效率
- 快
- 喜爱
- 专栏
- 特征
- 联邦
- 部分
- 数字
- 过滤
- 过滤
- 过滤器
- 适合
- 固定
- 高度灵活
- 流
- 流动
- 专注焦点
- 聚焦
- 以下
- 申请
- 基金会
- 框架
- 友好
- 止
- 正面
- 充分
- 功能
- 进一步
- Gain增益
- 得到
- 给
- 玻璃
- 全球
- 授予
- 图表
- 团队
- 成长
- 快乐
- 有
- 严重
- 帮助
- 帮助
- 高
- 更高
- 高度
- 高速公路
- 历史的
- 持有
- 托管
- 创新中心
- 但是
- HTML
- HTTPS
- 数百
- 思路
- 鉴定
- 确定
- 身分
- in
- 包括
- 包含
- 来电
- 增加
- 印度
- 个别地
- 行业中的应用:
- 信息
- 基础设施
- 創新
- 可行的洞见
- 积分
- 集成
- 房源搜索
- 互动
- 有趣
- 内部
- 库存
- 问题
- 问题
- IT
- IT行业
- 本身
- 工作机会
- 加盟
- 旅程
- JSON
- 卡夫卡
- 保持
- 知道
- 知识
- KYC
- 湖泊
- 语言
- 最大
- (姓氏)
- 层
- 领导
- 学习用品
- Level
- 许可证
- 生活
- 翻新
- 限制
- Line
- 清单
- 加载
- 装载机
- 装载
- 看
- 低
- 保持
- 使
- 制作
- 制作
- 管理
- 管理
- 经理
- 强制性
- 手册
- 手动
- 许多
- 手段
- 机械
- 的话
- 元数据
- 指标
- 微服务
- 百万
- 分钟
- ML
- 联络号码
- 移动应用
- 模型
- 模型
- 监控
- 更多
- 最先进的
- MS
- 多
- MySQL的
- 本地人
- 自然
- 自然语言
- 导航
- 需求
- 打印车票
- 需要
- 全新
- 下页
- NGINX
- 显着
- 通知
- 通知
- 十一月
- 数
- 对象
- 对象存储
- 提供
- 提供
- 优惠精选
- 前期洽谈
- 一
- 在线
- 打开
- 开放源码
- 操作
- 操作
- 操作
- 运营
- 操作者
- 运营商
- 秩序
- 组织
- 组织
- 其他名称
- 学校以外
- 己
- 所有权
- 面包
- 并行
- 部分
- 特别
- 员工
- 演出
- 性能
- 管道
- 枢
- 地方
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放机
- 播放
- 的PoC
- 点
- 热门
- 个人档案
- 可能
- 帖子
- 功率
- 都曾预测
- 准备
- 主要
- 小学
- 先
- 过程
- 生产
- 突出
- 证明
- 概念验证
- 所有权
- 提供
- 提供
- 提供者
- 提供
- 优
- 蟒蛇
- 有疑问吗?
- 轨道镶
- 急速
- 率
- 达到
- 实时的
- 实时数据
- 实现
- 接收
- 地区
- 定期
- 有关
- 相应
- 代表
- 代表
- 必须
- 岗位要求
- 资源
- 成果
- 收入
- 丰富
- 根
- 运行
- 销售
- 可扩展性
- 鳞片
- 缩放
- 预定
- 预定作业
- 科学
- 无缝
- 搜索
- 部分
- 保安
- 看到
- 自助服务
- 发送
- 前辈
- 系列
- 无服务器
- 服务
- 特色服务
- 服务
- 几个
- Share
- 共用的,
- 如图
- 类似
- 简易
- 同时
- 单
- 切片
- So
- 方案,
- 解决方案
- 不久
- 来源
- 来源
- 香料
- SQL
- 利益相关者
- 标准
- 开始
- 开始
- 步骤
- 存储
- 商店
- 存储
- 商店
- 套房
- SUPPORT
- 支持
- 支持
- 支持
- 句法
- 产品
- 表
- 服用
- 任务
- 团队
- 条款
- 世界
- 其
- 因此
- 数千
- 门槛
- 通过
- 售票处
- 门票
- 次
- 时间序列
- 时控
- 至
- 一起
- 工具
- 合计
- 锦标赛
- 向
- 跟踪
- 交通
- 旅行
- 游客
- 旅客
- 引发
- 转
- 统一
- 大学
- 无限
- 更新
- 上传
- us
- 使用
- 用户
- 用户
- 折扣值
- 价值观
- 各种
- 各个
- 通过
- 查看
- 观众
- 实质上
- 可视化
- 体积
- 仓库保管
- 卷筒纸
- Web服务器
- Web服务
- 什么是
- 什么是
- 这
- 而
- WHO
- 宽
- 更宽
- 将
- 胜利
- 中
- 也完全不需要
- 工作
- 一起工作
- 工作
- 合作
- 世界
- 世界
- 将
- 写作
- 年
- 和风网