为什么单独使用法学硕士无法满足公司的预测需求 - KDnuggets

为什么单独使用法学硕士无法满足公司的预测需求 – KDnuggets

源节点: 3089436

赞助商的内容

ChatGPT 和基于大型语言模型 (LLM) 的类似工具非常棒。但它们并不是万能的工具。

这就像选择其他工具来构建和创造一样。您需要为这项工作选择合适的人选。你不会尝试用锤子拧紧螺栓或用搅拌器翻转汉堡肉饼。这个过程会很尴尬,导致混乱的失败。

像法学硕士这样的语言模型仅构成更广泛的机器学习工具包的一部分,涵盖生成式人工智能和预测式人工智能。选择正确类型的机器学习模型对于满足任务要求至关重要。

让我们更深入地探讨为什么法学硕士更适合帮助您起草文本或集思广益的礼物创意,而不是解决您企业最关键的预测建模任务。在法学硕士之前的“传统”机器学习模型仍然发挥着至关重要的作用,并且已经多次证明了它们在商业中的价值。我们还将探索一种将这些工具结合使用的开创性方法——我们在 Pecan 称之为令人兴奋的发展 预测基因人工智能

法学硕士是为文字而不是数字而设计的

 
在机器学习中,使用不同的数学方法来分析所谓的“训练数据”——代表数据分析师或数据科学家希望解决的问题的初始数据集。

训练数据的重要性怎么强调都不为过。它包含机器学习模型在稍后获得新的、未见过的数据时将“学习”预测结果的模式和关系。

那么,LLM具体是什么?大型语言模型(LLM)属于机器学习的范畴。它们起源于深度学习,其结构是专门为自然语言处理而开发的。

你可能会说它们是建立在文字的基础上的。他们的目标只是预测单词序列中的下一个单词。例如,iOS 17 中 iPhone 的自动更正功能现在使用 LLM 来更好地预测您接下来最有可能想要输入的单词。

 
法学硕士和传统机器学习的优势
 

现在,假设您是一个机器学习模型。 (请耐心等待,我们知道这有些牵强。)您已经接受过预测单词的训练。您已经阅读并研究了来自各种来源的各种主题的数百万个单词。您的导师(又称开发人员)帮助您学习预测单词和创建适合用户请求的新文本的最佳方法。 

但这里有一个转折。现在,用户为您提供了包含数百万行数字的大量客户和交易数据电子表格,并要求您预测与这些现有数据相关的数字。

您认为您的预测结果如何?首先,您可能会因为这项任务与您努力学习的内容不符而感到恼火。 (幸运的是,据我们所知,法学硕士还没有感情。)更重要的是,你被要求做的任务与你所学的不相符。而且你可能不会表现得那么好。

培训和任务之间的差距有助于解释为什么法学硕士不太适合涉及数字、表格数据(大多数企业收集的主要数据格式)的预测任务。相反,专门为处理此类数据而设计和微调的机器学习模型更为有效。它实际上是经过专门训练的。

法学硕士的效率和优化挑战

 
除了更好地匹配数值数据之外,传统的机器学习方法比法学硕士更高效、更容易优化以获得更好的性能。 

让我们回顾一下您冒充法学硕士的经历。阅读所有这些单词并研究它们的风格和顺序听起来像是一项繁重的工作,对吧?将所有这些信息内化需要付出很大的努力。 

同样,法学硕士的复杂训练可能会产生具有数十亿参数的模型。这种复杂性使这些模型能够理解并响应人类语言中棘手的细微差别。然而,当法学硕士生成响应时,繁重的训练会带来繁重的计算需求。面向数字的“传统”机器学习算法,如决策树或神经网络,可能需要更少的计算资源。这并不是“越大越好”的情况。即使法学硕士可以处理数值数据,这种差异也意味着传统的机器学习方法仍然更快、更高效、更环保且更具成本效益。

此外,您是否曾经询问过 ChatGPT 它如何知道提供特定的响应?它的答案可能有点模糊:

我根据许可数据、人类培训师创建的数据和公开数据的混合生成响应。我的训练还涉及从各种来源(包括书籍、网站和其他文本)获得的大规模数据集,以培养对人类语言的广泛理解。训练过程涉及在数周或数月内在数千个 GPU 上运行计算,但确切的细节和时间尺度是 OpenAI 专有的。

该响应中反映的“知识”有多少来自人类培训师、公共数据和书籍?甚至 ChatGPT 本身也不确定:“这些来源的相对比例未知,而且我无法详细了解哪些特定文档是我的训练集的一部分。”

让 ChatGPT 为您的问题提供如此自信的答案,但却无法追踪其响应的具体来源,这有点令人不安。法学硕士有限的可解释性也对针对特定业务需求进行优化提出了挑战。很难理解他们的信息或预测背后的基本原理。让事情变得更加复杂的是,某些企业需要应对监管要求,这意味着他们必须能够解释影响模型预测的因素。总而言之,这些挑战表明传统的机器学习模型(通常更容易解释)可能更适合业务用例。

法学硕士在企业预测工具包中的正确位置

 
那么,我们是否应该让法学硕士专注于与文字相关的任务,而忘记他们的预测用例呢?现在看来,他们毕竟无法帮助预测客户流失或客户终身价值。

事情是这样的:虽然“传统机器学习模型”使这些技术听起来被广泛理解且易于使用,但我们从 Pecan 的经验得知,企业在很大程度上仍在努力采用这些更熟悉的人工智能形式。 

 
42% 的北美公司根本没有开始使用人工智能,或者才刚刚开始研究他们的选择。
 

Workday 最近的研究显示,42% 的北美公司要么尚未开始使用人工智能,要么正处于探索其选择的早期阶段。机器学习工具变得更容易被公司使用已经过去十多年了。他们有时间,并且有各种可用的工具。 

出于某种原因,尽管数据科学和人工智能引起了广泛关注,并且公认它们具有重大业务影响的潜力,但成功的人工智能实施却非常罕见。缺少一些重要的机制来帮助弥合人工智能的承诺与有效实施它的能力之间的差距。

这正是我们相信法学硕士现在可以发挥重要桥梁作用的地方。法学硕士可以帮助业务用户跨越确定要解决的业务问题和开发预测模型之间的鸿沟。

现在有了法学硕士,没有能力或能力手动编码机器学习模型的业务和数据团队现在可以更好地将他们的需求转化为模型。正如父母喜欢说的那样,他们可以“用自己的语言”来启动建模过程。 

将法学硕士与机器学习技术相融合,在业务数据方面表现出色

 
Pecan 的 Predictive GenAI 现已具备这种功能,它将法学硕士的优势与我们已经高度完善和自动化的机器学习平台融合在一起。我们由法学硕士支持的预测聊天收集业务用户的输入,以指导预测问题的定义和开发 - 用户想要使用模型解决的特定问题。 

然后,我们的平台使用 GenAI 生成预测笔记本,使下一步建模变得更加容易。同样,利用 LLM 功能,该笔记本包含预填充的 SQL 查询,用于为预测模型选择训练数据。 Pecan 的自动化数据准备、特征工程、模型构建和部署功能可以在创纪录的时间内完成其余过程,比任何其他预测建模解决方案都要快。

简而言之,Pecan 的 Predictive GenAI 利用法学硕士无与伦比的语言技能,使我们一流的预测建模平台对业务用户来说更加易于访问和友好。我们很高兴看到这种方法将如何帮助更多公司在人工智能方面取得成功。

所以,虽然法学硕士 虽然不能很好地满足您的所有预测需求,但它们可以在推动您的人工智能项目向前发展方面发挥强大的作用。通过解释您的用例并通过自动生成的 SQL 代码为您提供领先优势,Pecan 的 Predictive GenAI 在整合这些技术方面处于领先地位。你可以 立即免费试用.
 
 

时间戳记:

更多来自 掘金队