生成式人工智能能否为手机市场注入新动力? - 半维基

生成式人工智能能否为手机市场注入新动力? – 半维基

源节点: 2926005

对智能手机市场的共识徘徊在小幅下降和小幅增长之间,表明缺乏更强劲增长的明显驱动力。 作为一种商业机会,这种不吸引人的状态在一定程度上被庞大的销量所抵消(据一位消息人士称,500 年将达到 2023B 美元),但我们已经接近中国以外地区的采用高峰,因此手机制造商面临的真正问题必须是“下一个杀手是什么”可以改变现状的应用程序吗?”

生成式人工智能能否为手机市场充电

我们消费者是一个善变的群体,而娱乐似乎在我们的必备品清单上名列前茅。 手臂是 手机游戏投注。 另一种可能性可能是用于图像创建/操作的生成式人工智能。 高通 已经展示了基于电话的功能 而包括苹果在内的其他公司仍然专注于大型语言模型应用程序。 对我来说,值得更仔细地研究生成式人工智能的图像方面,只是为了在它起飞时获得更多的知识。 为了好玩,我使用 Microsoft Bing 的 Image Creator 生成了此处的图像。

基于扩散的生成

我将尝试通过与法学硕士进行比较来解释这个概念。 法学硕士在文本序列上进行训练,必须是线性的。 很多。 他们处理标记化文本,当他们看到特定的标记序列时,会学习该序列通常可能遵循的内容。 非常适合文本,但不适用于 2D 并且通常不可标记的图像,因此训练方法必须不同。 在基于扩散的训练中,首先将噪声逐步添加到训练图像中(前向扩散),同时通过对修改后的图像进行去噪来训练网络以恢复每个原始图像(反向扩散)。 听起来很混乱,但显然去噪方法(求解随机微分方程)定义明确且稳健。 作为一个例子,稳定扩散模型是公开可用的。

然后可以从随机噪声图像开始,从这个经过训练的网络生成新图像。 现在您需要一种方法来指导您想要生成什么图像。 Dall.E-2、Midjourney 和 Stable Diffusion 都可以接受文本提示。 这些取决于从与训练图像一起提供的文本标签中获取的训练。 然后,推理将注意力过程中的提示信息包含在推理最终图像的路径中。 与法学硕士一样,这些系统也使用变压器,这意味着支持此功能需要新的硬件。

生成并不限于从头开始创建图像。 一种技术称为 修补 可用于改进或替换图像的部分。 可以将其视为智能手机上已经流行的基于人工智能的图像编辑版本。 不仅仅是基本的色彩、光线平衡、裁剪照片炸弹等,还包括解决更具挑战性的问题或重新设计自己的角色扮演服装——任何事情。 现在我发现它很受欢迎。

生成式人工智能会带来改变吗?

我不知道——请参阅上面对善变消费者的评论。 话又说回来,视觉刺激,尤其是我们周围的视觉刺激,以及玩耍几乎对每个人都有吸引力。 如果您可以在手机上执行此操作,为什么不呢? 人工智能是一个快速发展的领域,似乎鼓励大赌注。 我当然不想打赌这种可能性。

我还应该提到,生成成像已经有了更重要的应用,特别是在医学领域,它可以用来修复嘈杂的 CAT 扫描或恢复可能被骨骼结构遮挡的细节。 我什至可以想象这项技术将进入取证工具包。 我们都看过电视节目——艾比或安吉拉通过根据可见内容推断训练有素的数据来填补照片中缺失的细节。 生成成像可以使这成为可能!

通过以下方式分享此帖子:

时间戳记:

更多来自 半维基