Inside the Tech 是一个博客系列,伴随着我们 技术讲座播客。 在播客的第 19 集中, 国际, Roblox 首席执行官 David Baszucki 与产品高级总监方臻讨论了 Roblox 的国际战略,以及我们为确保全球数千万用户获得本地化体验而正在解决的技术挑战。 在本期 Inside the Tech 中,我们与工程经理 Ravali Kandur 进行了交谈,详细了解其中一项技术挑战:多语言和语义搜索,以及 Growth 团队的工作如何帮助全球的 Roblox 用户搜索并快速找到——他们在我们的平台上想要的任何东西。
您的团队面临的最大技术挑战是什么?
直到大约一年前,Roblox 搜索还使用词汇系统将结果与用户的搜索进行匹配,这意味着它只专注于文本匹配。 但搜索行为正在迅速变化,这种方法已不足以为用户提供相关内容。 与此同时,一些 Roblox 用户可能在查询中使用不正确的拼写。 因此,我们必须能够提出符合他们所寻求的结果,这意味着理解他们的意图。
搜索的另一个主要问题是缺乏跨语言的训练数据。 在语义搜索之前,我们的第一步是利用 Roblox 系统中的机器翻译。 我们对翻译建立索引,然后进行文本匹配。 但这还不足以始终向用户显示相关内容。 因此,我们采用了一种更先进的机器学习技术,称为学生-教师模型:教师从我们针对任何特定场景的最大上下文来源中学习。
英语是 Roblox 上最常用的语言,这就是为什么我们在英语中学习尽可能多的语义关系(教师模型),然后通过将其扩展到其他语言,将其提炼为学生模型。 即使我们没有大量某些语言的数据,这也可以帮助我们解决这个问题。 这使得来自日本搜索的播放量增加了 15%。
我们最近一直在努力更好地支持我们的目录查询,例如“đua xe(赛车)”。 但用户更频繁地提交长的、自由格式的查询,例如,“嘿,我记得玩过一个游戏,里面有一条龙和一个女孩在与它战斗。 你能帮我找到那个吗?” 这提出了更多的技术挑战,我们正在沿着这些方向继续改进我们的系统。
有哪些创新方法可以整合更多上下文和更多语义搜索?
我们构建了一个混合搜索系统,该系统采用词法搜索,并将其与利用语义搜索和理解查询意图的机器学习技术和模型相结合。 我们不断改进我们的系统,以构建上下文理解、处理复杂查询并返回相关内容。
语义搜索的魔力在于嵌入,它是我们从 Roblox 各地获得的各种信号的丰富表示。 例如,我们正在整合用户人口统计、用户查询、查询时长或其独特之处等信号。
我们还在关注内容信号,例如体验、头像物品和参与度——这款游戏的玩频率或拥有多少用户,以及来自多少个国家/地区? 还有诸如货币化和保留之类的东西,以及诸如体验的标题、描述或创建者之类的元数据。 我们将所有这些通过基于 BERT、基于 Transformer 的架构进行处理,并使用 多层感知器 最后生成嵌入,成为我们的真理来源。
另一项创新是我们内部的相似性搜索系统。 当有人进行搜索查询时,我们会检索密切相关的嵌入,并对它们进行排名,以确保它们与用户正在寻找的内容相关。 然后我们将结果返回给用户。
您从这项技术工作中学到了哪些关键知识?
每种语言都有其独特的挑战。 尤其是在搜索方面,我们需要了解世界不同地区的用户正在寻找什么,以便我们可以向他们展示最相关的结果。 我们必须理解不同的语言元素。 例如,预先训练的 Transformer 对于理解日语的多种方言至关重要。
其次,搜索查询模式已经发生了很大变化,我们必须不断发展我们的技术堆栈才能跟上。 同时,我们需要告知用户我们平台上可以做什么,因为他们可能没有意识到。 例如,我们可以告诉用户,搜索可以支持自由式查询(例如赛车游戏或流行的美食游戏)等内容,并且它了解人们正在寻找什么并可以返回适当的结果。
您的团队最符合哪种 Roblox 价值观?
着眼长远是我们团队的核心,这也是我喜欢在 Roblox 工作的原因之一。
我团队的一个例子是我们的技术堆栈,它由基于 ML 和 NLP 的搜索系统组成——使用预先训练的大型模型进行语义搜索、自动完成和拼写纠正。
我们在构建此功能时考虑到了数千万日常活跃用户进行的不同类型搜索的可重用性。 这意味着我们可以插入不同类型的数据(例如,头像项目而不是体验),并且它应该只需很少的更改即可工作。
我们已经整合了对体验的语义搜索,并且我们已经与 Marketplace 等其他垂直行业共享它,他们已经能够直接跳到现有的架构上。 它不是完美的即插即用,但通过一些微调,我们可以使其适应不同的用例。
Roblox 和您的团队的发展方向最让您兴奋的是什么?
搜索是用户表达其明确意图的唯一界面。 这意味着我们必须了解他们想要什么并为他们提供最相关的结果。 因此,我真的很兴奋能够理解这种意图并教育我们的用户什么是可能的,有时甚至在用户意识到之前。
任何国家/地区的用户都可以提出问题,我们可以为他们提供他们想要的、与他们最相关的信息。 这会建立信任,进而提高保留率。 我很高兴能够接受改进搜索的挑战,以建立信任并帮助 Roblox 实现拥有 XNUMX 亿用户的目标。
- :具有
- :是
- :不是
- :在哪里
- $UP
- 15%
- 19
- a
- Able
- 关于
- 横过
- 要积极。
- 适应
- 采用
- 前
- 对齐
- 所有类型
- 沿
- 还
- 时刻
- an
- 和
- 任何
- 的途径
- 方法
- 适当
- 架构
- 保健
- 围绕
- AS
- 问
- 方面
- At
- 自动完成
- 头像
- BE
- 成为
- 很
- before
- 更好
- 最大
- 亿
- 位
- 博客
- 建立
- 建立
- 建
- 但是
- by
- 被称为
- CAN
- 例
- 检索目录
- CEO
- 一定
- 挑战
- 挑战
- 更改
- 改变
- 结合
- 复杂
- 由
- 内容
- 上下文
- 继续
- 一直
- 核心
- 可以
- 国家
- 国家
- 创造者
- 每天
- data
- David
- 人口统计
- 描述
- DID
- 不同
- 副总经理
- 不
- 做
- 别
- 龙
- 版
- 教育
- 分子
- 结束
- 工程师
- 确保
- 插曲
- 特别
- 必要
- 甚至
- 发展
- 演变
- 究竟
- 例子
- 的激励
- 令人兴奋的
- 现有
- 体验
- 体验
- 特快
- 延长
- 战斗
- 找到最适合您的地方
- (名字)
- 重点
- 食品
- 针对
- 频繁
- 止
- 游戏
- Games
- 生成
- 得到
- 女孩
- 给
- 地球
- 目标
- 事业发展
- 处理
- 有
- 有
- 为首
- 帮助
- 帮助
- 帮助
- 创新中心
- HTTPS
- 杂交种
- i
- 改善
- 提高
- 改善
- in
- 成立
- 结合
- 增加
- 索引
- 通知
- 創新
- 创新
- 内
- 代替
- 意图
- 国际
- IT
- 项目
- 它的
- 日本
- 日文
- 跳
- 只是
- 保持
- 键
- 缺乏
- 语言
- 语言
- 大
- 学习用品
- 知道
- 导致
- 杠杆作用
- 喜欢
- 线
- 长
- 不再
- 寻找
- 占地
- 爱
- 机
- 制成
- 魔法
- 主要
- 制作
- 经理
- 许多
- 市场
- 匹配
- 匹配
- 可能..
- me
- 意
- 手段
- 元数据
- 百万
- 介意
- 最小
- ML
- 机器学习技术
- 模型
- 模型
- 货币化
- 更多
- 最先进的
- 多
- my
- 需求
- 没有
- of
- 经常
- on
- 一
- 仅由
- or
- 始发
- 其他名称
- 我们的
- 己
- 部分
- 模式
- 员工
- 完美
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 播放
- 扮演
- 插头
- 播客
- 热门
- 可能
- 礼物
- 市场问题
- 产品
- 放
- 查询
- 很快
- 相当
- 赛车
- 排名
- 实现
- 真
- 原因
- 最近
- 关系
- 相应
- 纪念
- 成果
- 保留
- 回报
- 丰富
- Roblox
- 同
- 脚本
- 搜索
- 搜索
- 前辈
- 系列
- 共用的,
- 应该
- 显示
- 显示
- 信号
- So
- 独自
- 解决
- 解决
- 一些
- 有人
- 东西
- 有时
- 来源
- 具体的
- 拼字
- 堆
- 国家的最先进的
- 步
- 策略
- 学生
- 这样
- 足够
- 建议
- SUPPORT
- 肯定
- 磁化面
- 系统
- 产品
- 采取
- 需要
- 服用
- 会谈
- 老师
- 团队
- 科技
- 文案
- 技术
- 技术
- 专业技术
- 展示
- HAST
- 文本
- 这
- 世界
- 其
- 他们
- 然后
- 那里。
- 博曼
- 他们
- 事
- Free Introduction
- 那些
- 虽然?
- 通过
- 次
- 标题
- 至
- 产品培训
- 变形金刚
- 中英口译 笔译
- 信任
- 真相
- 转
- 类型
- 类型
- 理解
- 理解
- 理解
- 独特
- us
- 使用
- 用过的
- 用户
- 用户
- 运用
- 利用
- 折扣值
- 各种
- 垂直
- 非常
- 查看
- 想
- 是
- we
- 井
- 什么是
- 什么是
- ,尤其是
- 这
- 为什么
- 维基百科上的数据
- 中
- 工作
- 加工
- 世界
- 年
- 您
- 您一站式解决方案
- 和风网