–>
图片:Mark Hachman / IDG 来自 Dreamstudio.ai
汤姆汉克斯不只是打电话给我推销我的角色,但听起来确实如此。
自从 PCWorld 开始报道 AI艺术等各种AI应用,我一直在 GitHub 中的代码存储库和 Reddit 中的链接中四处寻找,人们将在其中发布针对各种方法对他们自己的 AI 模型进行的调整。
其中一些模型实际上最终出现在商业网站上,这些网站要么推出自己的算法,要么改编其他已作为开源发布的算法。 现有 AI 音频网站的一个很好的例子是 Uberduck.ai,它提供了数百种预编程模型。 在文本字段中输入文本,您可以让虚拟的 Elon Musk、Bill Gates、Peggy Hill、Daffy Duck、Alex Trebek、Beavis、The Joker,甚至 Siri 读出您的预编程台词。
去年我们上传了一个假的比尔克林顿赞美 PCWorld,这个模型听起来已经很不错了。
训练 AI 重现语音涉及上传清晰的语音样本。 人工智能“学习”说话者如何将声音与目标结合起来,学习这些关系,完善它们,并模仿结果。 如果您熟悉 1992 年出色的惊悚片 运动鞋 (由罗伯特·雷德福、西德尼·波蒂埃和本·金斯利等全明星阵容出演),那么你就会知道角色需要通过录制目标声音的语音样本来“破解”生物识别语音密码的场景. 这几乎是一回事。
通常,组装一个好的语音模型需要大量的训练,用很长的样本来表明一个人是如何说话的。 然而,在过去的几天里,出现了一些新情况: Microsoft Vall-E,研究论文 (带有现场示例)合成语音只需要几秒钟的源音频即可生成完全可编程的语音。
自然地,AI 研究人员和其他 AI 追星族想知道 Vall-E 模型是否已经向公众发布。 答案是否定的,尽管您可以根据需要使用另一种模型,称为 Tortoise。 (作者指出,它之所以被称为 Tortoise,是因为它很慢,确实如此,但它确实有效。)
用 Tortoise 训练你自己的 AI 声音
Tortoise 的有趣之处在于,您只需上传一些音频片段,就可以根据您选择的任何声音来训练模型。 这 乌龟 GitHub 页面 请注意,您应该有几个大约十几秒的片段。 您需要将它们保存为具有特定质量的 .WAV 文件。
它是怎么运行的? 通过您可能不知道的公用事业: 谷歌合作实验室. 从本质上讲,Collab 是 Google 提供的一种云服务,允许访问 Python 服务器。 您(或其他人)编写的代码可以存储为笔记本,可以与拥有通用 Google 帐户的用户共享。 这 乌龟共享资源在这里.
该界面看起来令人生畏,但还不错。 您需要以 Google 用户身份登录,然后点击右上角的“连接”。 一句警告。 虽然此 Colab 不会将任何内容下载到您的 Google 云端硬盘,但其他 Colab 可能会。 (不过,它生成的音频文件存储在浏览器中,但可以下载到您的 PC 上。)请注意,您正在运行其他人编写的代码。 您可能会收到错误消息,要么是因为输入错误,要么是因为 Google 在后端出现问题,例如没有可用的 GPU。 这有点实验性。
如果将鼠标悬停在每个代码块上,就会出现一个小的“播放”图标。 您需要在每个代码块上单击“播放”以运行它,等待每个代码块执行完毕后再运行下一个代码块。
虽然我们不打算逐步完成所有功能的详细说明,但请注意,红色文本是用户可修改的,例如您希望模型说出的建议文本。 向下大约七个街区,您可以选择训练模型。 您需要为模型命名,然后上传音频文件。 完成后,在第四块中选择新的音频模型,运行代码,然后在第三块中配置文本。 跑步 这 代码块。
如果一切按计划进行,您将获得样本声音的小音频输出。 它有效吗? 好吧,我为我的同事 Gordon Mah Ung 制作了一个快速而肮脏的声音模型,他的作品出现在我们的 完整的书呆子播客 以及各种视频。 我上传了一个几分钟的示例而不是简短的片段,只是为了看看它是否有效。
结果? 嗯,它 声音 栩栩如生,但一点也不像戈登。 他现在肯定不会受到数字冒充。 (这也不代表任何快餐连锁店。)
但是 Tortoise 作者在演员汤姆汉克斯身上训练的现有模型听起来不错。 这不是汤姆·汉克斯在这里说话! 汤姆也做过 不能 给我一份工作,但这足以愚弄至少我的一个朋友。
结论? 这有点可怕:相信我们听到(很快看到)的时代即将结束。 或者已经有了。
优惠券代码
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://www.pcworld.com/article/1473072/tom-hanks-did-not-offer-me-a-job-but-ai-sounds-like-it.html
- 1
- 2023
- 39
- a
- 关于
- ACCESS
- 账号管理
- 通
- 适应
- AI
- 亚历克斯
- 算法
- 所有类型
- 允许
- 已经
- 其中
- amp
- 和
- 另一个
- 回答
- 应用领域
- 方法
- 围绕
- 刊文
- 人造的
- 音频
- 作者
- 可使用
- 背部
- 坏
- 因为
- before
- 开始
- 相信
- 法案
- 比尔·克林顿
- 比尔·盖茨
- 生物识别
- 位
- 阻止
- 吹氣梢
- 浏览器
- 按键
- 呼叫
- 被称为
- 卡
- 产品类别
- 当然
- 链
- 字符
- 芯片
- 清除
- 剪辑
- 云端技术
- 码
- 同事
- 结合
- 注释
- 商业的
- 完成对
- 结论
- 控制
- 角落
- 课程
- 覆盖
- 信用
- 的CSS
- 日期
- 一年中的
- 描述
- 详细
- DID
- 数字
- 不会
- 向下
- 下载
- 打
- 驾驶
- 每
- 编辑
- 或
- 伊隆
- 伊隆麝香
- 出现
- 更多
- 输入
- 错误
- 本质上
- 醚(ETH)
- 甚至
- 一切
- 例子
- 例子
- 优秀
- 执行
- 现有
- 假
- 熟悉
- 特征
- 少数
- 部分
- 文件
- 档
- 重点
- 遵循
- 前
- 以前
- 第四
- 朋友
- 止
- ,
- 充分
- 盖茨
- 生成
- 产生
- 得到
- 越来越
- GitHub上
- 目标
- GOES
- 去
- 非常好
- 谷歌
- GPU
- 大
- 有
- 高度
- 徘徊
- 创新中心
- 但是
- HTML
- HTTPS
- 人
- 数百
- ICON
- 图片
- in
- 指数
- 表明
- 说明
- 有趣
- 接口
- 吓人
- IT
- 一月
- 工作
- 小丑
- 知道
- 大
- 名:
- 去年
- 学习
- 线
- 链接
- 小
- 生活
- LOOKS
- 制作
- 经理
- 标记
- 矩阵
- 最大宽度
- 条未读消息
- 微软
- 可能
- 分钟
- 镜面
- 模型
- 模型
- 麝香
- 姓名
- 需求
- 全新
- 消息
- 下页
- 笔记本
- 提供
- 优惠精选
- 一
- 打开
- 开放源码
- 优化
- 附加选项
- 其他名称
- 其它
- 己
- 部分
- 特别
- 密码
- 过去
- PC
- 员工
- 完善
- 人
- 个人
- 沥青
- 计划
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 插入
- 帖子
- 高级版
- 总统
- 漂亮
- 小学
- 本人简介
- 提供
- 国家
- 出版
- 蟒蛇
- 质量
- 阅读
- 阅读
- 接收
- 最近
- 了解
- 红色
- 关系
- 发布
- 需要
- 研究
- 研究人员
- 资源
- 导致
- 成果
- 上升
- ROBERT
- 机器人
- 机器人
- 滚
- 运行
- 运行
- 安全
- 同
- 保存
- 现场
- 秒
- 前辈
- 搜索引擎优化
- 服务
- 特色服务
- XNUMX所
- 共用的,
- 短
- 应该
- 只是
- 自
- 单
- 蟹
- 网站
- 网站
- 坐在
- 放慢
- 小
- So
- 软件
- 有人
- 东西
- 不久
- 来源
- 说话
- 喇叭
- 发言
- 说
- 具体的
- 言语
- 开始
- 开始
- 步
- 存储
- 故事
- 这样
- 表
- 行李牌
- 采取
- 专业技术
- 其
- 事
- 第三
- 通过
- 次
- 标题
- 至
- 也有
- 培训
- 熟练
- 产品培训
- 转
- 上传
- 上传
- 网址
- 用户
- 用户
- 效用
- 各个
- 版本
- 通过
- 视频
- 在线会议
- 音色
- VOICES
- W
- 等候
- 通缉
- 警告
- 什么是
- 这
- 而
- WHO
- 将
- 中
- Word
- 工作
- 合作
- 将
- 书面
- 年
- 您一站式解决方案
- YouTube的
- 和风网