介绍数据分析结构概念 - DATAVERSITY

介绍数据分析结构概念 – DATAVERSITY

源节点: 2884345

世界各地的组织(无论是盈利组织还是非营利组织)都在寻求利用数据分析来提高业务绩效。 调查结果来自 麦肯锡调查 表明数据驱动的组织获得客户的可能性提高了 23 倍,保留客户的可能性提高了 19 倍,利润提高了 1 倍 [XNUMX]。 麻省理工学院的研究 研究发现,数字化成熟的公司的利润比同行高出 26% [2]。 但许多公司尽管拥有丰富的数据,但由于业务需求、可用能力和资源之间的优先级相互冲突,因此很难实施数据分析。 Gartner的研究 发现超过 85% 的数据和分析项目失败了 [3],并且 联合报告 IBM 和 Carnegie Melon 的研究表明,组织中 90% 的数据从未成功用于任何战略目的 [4]。

在此背景下,我们引入了“数据分析结构(DAF)”概念,作为一个生态系统或结构,使数据分析能够根据(a)业务需求或目标,(b)人员/技能等可用能力有效发挥作用、流程、文化、技术、见解、决策能力等,以及 (c) 资源(即企业运营业务所需的组件)。

我们引入数据分析结构的主要目标是回答这个基本问题:“从数据中有效构建决策支持系统需要什么? 数据科学 衡量和提高业务绩效的算法?” 下面显示并讨论了数据分析结构及其五个关键表现形式。

图片来源: DBP-研究所

1. 以测量为中心

分析的核心是使用数据来获取洞察、衡量并提高业务绩效 [5]。 用于衡量和提高业务绩效的分析主要分为三种类型:

  • 描述性分析 提出问题:“发生了什么事?” 描述性分析用于使用探索性、关联性和推理性数据分析技术来分析历史数据,以识别模式、趋势和关系。 探索性数据分析技术分析和总结数据集。 关联描述性分析解释了变量之间的关系。 推论描述性数据分析用于根据样本数据集推断或推断更大群体的趋势。 
  • 预测分析 着眼于回答这个问题:“会发生什么?” 基本上,预测分析是使用数据预测未来趋势和事件的过程。 预测分析可以手动进行(通常称为分析师驱动的预测分析)或使用 机器学习算法 (也称为数据驱动的预测分析)。 无论哪种方式,历史数据都用于做出未来预测。
  • 规范分析 有助于回答“我们怎样才能实现这一目标?”的问题。 基本上,规范性分析会建议使用优化和模拟技术向前推进的最佳行动方案。 通常,预测分析和规范分析结合在一起,因为预测分析有助于发现潜在的结果,而规范分析则着眼于这些结果并找到更多选择。

2. 可变焦点

还可以根据可用变量的数量来分析数据。 在这方面,根据变量的数量,数据分析技术可以是单变量、双变量或多变量。

  • 单变量分析: 单变量分析涉及使用中心性(均值、中位数、众数等)和变异(标准差、标准误差、方差等)度量来分析单个变量中存在的模式。
  • 双变量分析: 有两个变量,其中分析与原因以及两个变量之间的关系有关。 这两个变量可以相互依赖或独立。 相关技术是最常用的双变量分析技术。
  • 多变量分析: 该技术用于分析两个以上的变量。 在多变量环境中,我们通常在预测分析领域进行操作,大多数众所周知的机器学习 (ML) 算法(例如线性回归、逻辑回归、回归树、支持向量机和神经网络)通常应用于多变量环境。

3、以监管为重点

第三种类型的数据分析结构涉及训练输入数据或已标记为特定输出(即因变量)的自变量数据。 基本上,自变量是实验者控制的变量。 因变量是响应自变量而变化的变量。 以监督为重点的 DAF 可能是两种类型之一。

  • 因果关系: 标记数据,无论是自动生成还是手动生成,对于监督学习都是至关重要的。 标记数据允许人们清楚地定义因变量,然后就需要使用预测分析算法来构建 AI/ML 工具,该工具将在标签(因变量)和自变量集之间建立关系。 事实上,因变量和一组自变量的概念之间有明显的界限,我们允许自己引入术语“因果关系”来最好地解释这种关系。
  • 非因果关系: 当我们将“以监督为中心”作为我们的维度时,我们也意味着“缺乏监督”,这将非因果模型带入了讨论。 非因果模型值得一提,因为它们不需要标记数据。 这里的基本技术是聚类,最流行的方法是 k-Means 和层次聚类。  

4. 以数据类型为中心

数据分析结构的这个维度或表现形式侧重于与数据分析技术中用于获取见解的自变量和因变量相关的三种不同类型的数据变量。 

  • 标称数据 用于标记或分类数据。 它不涉及数值,因此无法使用标称数据进行统计计算。 名义数据的示例是性别、产品描述、客户地址等。 
  • 有序或排名数据 是值的顺序,但每个值之间的差异并不真正已知。 这里常见的例子是根据市值、供应商付款条件、客户满意度评分、交付优先级等对公司进行排名。 
  • 数值数据 无需介绍,并且是数字值。 这些变量是最基本的数据类型,可用于对所有类型的算法进行建模。  

5. 注重结果

这种类型的数据分析结构着眼于如何通过分析获得的见解来交付业务价值。 分析可以通过两种方式驱动业务价值,即通过产品或项目。 虽然产品可能需要解决有关用户体验和软件工程的其他影响,但为导出模型而进行的建模练习在项目和产品中都是相似的。

  • A 数据分析产品 是可重复使用的数据资产,可以满足业务的长期需求。 它从相关数据源收集数据,确保数据质量,对其进行处理,并使任何需要它的人都可以访问这些数据。 产品通常是针对角色设计的,并且具有实现产品价值的多个生命周期阶段或迭代。
  • 数据分析项目 旨在满足特定或独特的业务需求,并具有明确的或狭窄的用户群或目的。 基本上,项目是一项临时工作,旨在在预算范围内按时交付指定范围的解决方案。

未来几年,世界经济将发生巨大转变,因为组织将越来越多地使用数据和分析来获取见解并做出决策来衡量和提高业务绩效。 麦肯锡 研究发现,洞察力驱动的公司 EBITDA(息税折旧摊销前利润)增幅高达 25% [5]。 然而,许多组织未能成功利用数据和分析来改善业务成果。 但没有一种标准的方式或方法来提供数据分析。 数据分析解决方案的部署或实施取决于业务目标、能力和资源。 DAF 及其此处讨论的五种表现形式可以使分析能够根据业务需求、可用功能和资源进行有效部署。

参考资料

  1. mckinsey.com/capability/growth-marketing-and-sales/our-insights/ Five-facts-how-customer-analytics-boosts-corporate-performance
  2. ide.mit.edu/insights/digitally-mature-firms-are-26-more-profitable-than-their-peers/
  3. gartner.com/en/newsroom/press-releases/2018-02-13-gartner-says-近一半的 cios 正在计划部署人工智能
  4. forbes.com/sites/forbestechcouncil/2023/04/04/three-key-misconceptions-of-data-quality/?sh=58570fc66f98
  5. Southekal、Prashanth,“分析最佳实践”,Technics,2020 年
  6. mckinsey.com/capability/growth-marketing-and-sales/our-insights/insights-to-impact-creating-and-sustaining-data-driven-commercial-growth

时间戳记:

更多来自 数据多样性