ChatGPT 嵌入机器人,互联网担心文明终结

ChatGPT 嵌入机器人,互联网担心文明终结

源节点: 2611695

来自沙特阿拉伯的一组博士生研究人员开发了一种新的人工智能工具 MiniGPT-4,它具有与 OpenAI的 聊天GPT-4。

ChatGPT 于 XNUMX 月发布并风靡全球,开发人员不遗余力地开发新的 AI 工具,以与流行的聊天机器人竞争或对其进行补充。

使用 ChatGPT 模型开发的 MiniGPT-4 就是最新的例子。

也可以参考: 比尔盖茨:人工智能聊天机器人可以在 18 个月内教孩子们阅读

根据 未来工具, MiniGPT-4 能够完成许多任务,包括图像描述生成和网站建设。

“这个工具能够生成详细的图像描述,根据手写草稿创建网站,根据给定图像写故事和诗歌,为图像中显示的问题提供解决方案,并教用户如何根据食物照片做饭,”Future 声称工具。

ChatGPT-4 发布时,展示了一段视频,该模型通过草图图像构建网站。 根据推文 巴西, MiniGPT-4 有能力完成同样的壮举。 唯一不同的是,ChatGPT-4 目前并不是所有人都可以使用,而 MiniGPT-4 已经在野外使用。

了解 MiniGPT

根据 Ghacks,MiniGPT-4 使用称为 Vicuna 的高级 LLM 作为语言解码器,它建立在 LLaMa 之上,据报道可达到 GPT-90 评估的 ChatGPT 质量的 4%。

AI 模型使用了 Bootstrapping Language Image Pre-training (BLIP-2) 的预训练组件,并添加了一个注入层,通过冻结所有其他视觉和语言组件,将编码的视觉特征与 Vicuna 语言模型对齐。

大卫·沃森 说 MiniGPT 是轻量级的,可以在聊天机器人、虚拟助手和自动图像字幕系统等实时情况下轻松实施。

他还列出了一些可以很好地使用 MiniGPT-4 的可能应用:创建只需要轻量级资源的图像字幕系统; 以及使用音频描述为视障人士提供图像描述,这种方法需要包括文本到音频系统。

OpenAI 证实了 GPT-4 的多模态能力,但他们尚未发布其图像处理能力。 MiniGPT-4 通过使用更复杂的 LLM 处理图像和语言来填补这一空白。

辅助研究的 AI 工具

专家表示,所使用的最先进的基础语言模型旨在帮助研究人员推进他们在这一特定人工智能领域的工作。

鉴于 OpenAI 没有透露太多关于 GPT-4 的架构、模型大小、硬件、训练计算、数据集构建或训练方法的信息,MiniGPT-4 的开源性质可能对研究人员特别有价值。

“MiniGPT 处理图像的能力为研究人员提供了研究语言和视觉模型之间关系的新机会,”Yana Khara 说,他为 分析维达亚.

“通过为研究人员提供更小、更易于使用的模型,MiniGPT-4 可以推动 AI 技术的创新和进步。

“此外,该模型的开源基础确保研究社区可以合作并分享他们的发现,以进一步推动该领域的发展。”

MiniGPT 将图像字幕提升到另一个层次

巴塞,他在推特上发布了一条描述如何使用 MiniGPT-4 与图像聊天的帖子,其中包括以下一些案例:

修复损坏的物品

通过将损坏物品的图片上传到 MiniGPT 平台并询问您如何修复图片中的情况,聊天机器人将解释图片中的情况并建议解决所发现问题的方法。

鸣叫, MiniGPT 可以很容易地识别问题,一台漏水的洗衣机,解释可能发生漏水的原因,并提供用户可以尝试的解决方案列表。

写广告

在另一 来自 Barsee 的推文 在 MiniGPT 线程中,他包含了一个场景,其中给 MiniGPT 一张用户制作和销售的杯子图片。 然后用户要求聊天机器人写广告来推销这些杯子,聊天机器人按时做了。

简短介绍

只需上传一张电影图片,让 MiniGPT 给你一个简短的介绍; 然后它将产生有关电影的段落介绍。 如在 鸣叫, MiniGPT 聊天机器人识别出《教父》中的图像,并按照指示写下电影介绍。

自 ChatGPT 推出以来,市场上已经出现了无数新的人工智能工具。 著名的聊天机器人还有更多替代品,据报道其他人的速度超过了它,尤其是 自动GPT,它仍在 AI 社区中掀起波澜。 以这种速度,我们几乎不可避免地会以 AI 财富来处理几乎所有人类任务的尴尬而告终。

时间戳记:

更多来自 元新闻