Inside the Tech — это серия блогов, сопровождающая наши Подкаст «Технические переговоры». В 19 выпуске подкаста: МультиязычностьГенеральный директор Roblox Дэвид Басуки поговорил со старшим директором по продуктам Чжэнь Фаном о международной стратегии Roblox и технических проблемах, которые мы решаем, чтобы обеспечить локализованный опыт для десятков миллионов людей по всему миру. В этом выпуске Inside the Tech мы поговорили с техническим менеджером Равали Кандуром, чтобы узнать больше об одной из этих технических проблем — многоязычном и семантическом поиске, а также о том, как работа команды Growth помогает пользователям Roblox по всему миру искать — и быстро находить — все, что они хотят, на нашей платформе.
Какую самую сложную техническую задачу решает ваша команда?
Примерно год назад поиск Roblox использовал лексическую систему для сопоставления результатов с поисковыми запросами пользователей, то есть он был сосредоточен исключительно на сопоставлении текста. Но поведение при поиске быстро меняется, и этого подхода уже недостаточно, чтобы предоставить пользователям релевантный контент. В то же время некоторые пользователи Roblox могут использовать в своих запросах неправильное написание. Итак, мы должны быть в состоянии предлагать результаты, соответствующие тому, что они ищут, а это значит, что мы должны понимать их намерения.
Еще одна серьезная проблема поиска — отсутствие обучающих данных по разным языкам. Перед семантическим поиском нашим первым шагом было использование машинного перевода в системе Roblox. Мы проиндексировали переводы, а затем сопоставили текст. Но этого недостаточно для того, чтобы всегда показывать пользователям релевантный контент. Итак, мы внедрили более современную технику машинного обучения, называемую моделью «ученик-учитель»: учитель учится из нашего крупнейшего источника контекста для любого конкретного сценария.
Английский — наиболее часто используемый язык в Roblox, поэтому мы изучаем как можно больше семантических отношений на английском языке — модель учителя — а затем перерабатываем их в модель ученика, распространяя их на другие языки. Это помогает нам решить эту проблему, хотя у нас не так много данных на некоторых языках. Это привело к увеличению количества воспроизведений, полученных с помощью поиска в Японии, на 15%.
Недавно мы работали над улучшением поддержки запросов нашего каталога, таких как «đua xe (гонки)». Но пользователи чаще отправляют длинные запросы произвольной формы, например: «Эй, я помню, как играл в игру, где был дракон и девочка, сражавшаяся с ним. Можете ли вы помочь мне найти это?» Это создает больше технических проблем, и мы продолжаем совершенствовать наши системы в этом направлении.
Каковы инновационные подходы к включению большего количества контекста и большего количества семантического поиска?
Мы создали гибридную поисковую систему, которая сочетает лексический поиск с методами и моделями машинного обучения, использующими семантический поиск и понимание цели запроса. Мы постоянно совершенствуем наши системы для улучшения понимания контекста, обработки сложных запросов и возврата соответствующего контента.
Магия семантического поиска заключается во встраиваниях, которые представляют собой богатое представление различных сигналов, которые мы получаем со всего Roblox. Например, мы включаем такие сигналы, как демографические данные пользователя, запрос пользователя, его продолжительность или каковы его уникальные аспекты.
Мы также рассматриваем сигналы контента, такие как впечатления, элементы аватара и вовлеченность: как часто в эту игру играли, сколько у нее было пользователей и из скольких стран? Существуют также такие вещи, как монетизация и удержание, а также метаданные, такие как название, описание или создатель опыта. Мы реализуем все это через архитектуру на основе BERT и трансформатора и используем Многослойный персептрон в конце генерировать вложения, которые становятся нашим источником истины.
Еще одно новшество — наша собственная система поиска по сходству. Когда кто-то делает поисковый запрос, мы извлекаем тесно связанные вложения и ранжируем их, чтобы убедиться, что они соответствуют тому, что ищет пользователь. А затем мы возвращаем результаты пользователям.
Каким ключевым вещам вы научились, выполняя эту техническую работу?
Каждый язык представляет собой свою уникальную задачу. И особенно в случае с поиском, нам необходимо понимать, что ищут пользователи в разных частях мира, чтобы мы могли показывать им наиболее релевантные результаты. Нам необходимо понимать различные элементы языка. Например, предварительно обученные трансформеры сыграли важную роль в понимании множества диалектов японского языка.
Во-вторых, шаблоны поисковых запросов довольно сильно изменились, и нам приходится постоянно совершенствовать наш технологический стек, чтобы идти в ногу со временем. В то же время нам необходимо информировать наших пользователей о том, что возможно на нашей платформе, поскольку они могут этого не осознавать. Например, мы могли бы сказать нашим пользователям, что поиск может поддерживать такие вещи, как произвольные запросы (например, гоночные игры или популярные игры с едой), и что он понимает, что ищут люди, и может возвращать соответствующие результаты.
Какая ценность Roblox больше всего соответствует вашей команде?
Долгосрочная перспектива — это основа нашей команды, и это одна из причин, почему мне нравится работать в Roblox.
Одним из примеров моей команды является наш технологический стек, который состоит из поисковых систем на основе ML и NLP — семантического поиска, автозаполнения и исправления орфографии с использованием предварительно обученных больших моделей.
Мы создали это с учетом возможности повторного использования для различных типов поиска, выполняемых нашими десятками миллионов ежедневных активных пользователей. Это означает, что мы можем подключить другой тип данных (например, элементы аватара вместо опыта), и это должно работать с минимальными изменениями.
Мы включили семантический поиск для опыта и поделились им с другими вертикалями, такими как Marketplace, и они смогли просто воспользоваться существующей архитектурой. Это не идеальный вариант «подключи и работай», но после некоторой тонкой настройки мы можем адаптировать его к различным сценариям использования.
Что вас больше всего волнует в том, куда движутся Roblox и ваша команда?
Поиск — единственная поверхность, где пользователи выражают свои явные намерения. А это означает, что очень важно, чтобы мы понимали, чего они хотят, и давали им наиболее релевантные результаты. Поэтому мне очень интересно работать над пониманием этого намерения и просвещать наших пользователей о том, что возможно, иногда даже до того, как пользователь это осознает.
Пользователь в любой стране может что-то спросить, и мы можем дать ему именно то, что он хочет и что для него наиболее актуально. Это укрепляет доверие, что, в свою очередь, улучшает удержание. Мне интересно взяться за улучшение поиска, чтобы завоевать это доверие и помочь Roblox достичь нашей цели — иметь миллиард пользователей.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://blog.roblox.com/2023/11/inside-the-tech-solving-for-multilingual-semantic-search/
- :имеет
- :является
- :нет
- :куда
- $UP
- 15%
- 19
- a
- в состоянии
- О нас
- Достигать
- через
- активный
- приспосабливать
- принял
- тому назад
- выравнивать
- Все
- вдоль
- причислены
- всегда
- an
- и
- любой
- подхода
- подходы
- соответствующий
- архитектура
- МЫ
- около
- AS
- спросить
- аспекты
- At
- автозаполнения
- аватар
- BE
- становиться
- было
- до
- Лучшая
- Крупнейшая
- миллиард
- Немного
- Блог
- строить
- строит
- построенный
- но
- by
- под названием
- CAN
- случаев
- каталог
- Генеральный директор
- определенный
- вызов
- проблемы
- изменения
- изменения
- комбинаты
- комплекс
- состоит
- содержание
- контекст
- продолжающийся
- непрерывно
- Основные
- может
- страны
- страна
- создатель
- ежедневно
- данным
- Давид
- Демографическая
- описание
- DID
- различный
- директор
- приносит
- дело
- Dont
- Dragon
- edition
- обучение
- элементы
- конец
- Проект и
- обеспечивать
- эпизод
- особенно
- существенный
- Даже
- развивается
- развивается
- точно,
- пример
- пьянит
- захватывающий
- существующий
- опыт
- Впечатления
- экспресс
- простирающийся
- борьба
- Найдите
- Во-первых,
- внимание
- питание
- Что касается
- часто
- от
- игра
- Игры
- порождать
- получить
- девушка
- Дайте
- земной шар
- цель
- Рост
- обрабатывать
- Есть
- имеющий
- возглавлял
- помощь
- помощь
- помогает
- Как
- HTTPS
- Гибридный
- i
- улучшать
- улучшается
- улучшение
- in
- включенный
- включения
- Увеличение
- индексированный
- наделяют информацией
- Инновации
- инновационный
- внутри
- вместо
- намерение
- Мультиязычность
- IT
- пункты
- ЕГО
- Япония
- Японский
- Прыгать
- всего
- Сохранить
- Основные
- Отсутствие
- язык
- Языки
- большой
- УЧИТЬСЯ
- узнали
- привело
- Кредитное плечо
- такое как
- линий
- Длинное
- дольше
- искать
- серия
- любят
- машина
- сделанный
- магия
- основной
- ДЕЛАЕТ
- менеджер
- многих
- рынка
- Совпадение
- согласование
- Май..
- me
- смысл
- означает
- Метаданные
- миллионы
- против
- минимальный
- ML
- Техники машинного обучения
- модель
- Модели
- монетизация
- БОЛЕЕ
- самых
- с разными
- my
- Необходимость
- нет
- of
- .
- on
- ONE
- только
- or
- Возникнув
- Другое
- наши
- собственный
- части
- паттеранами
- Люди
- в совершенстве
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- играл
- игры
- играет
- штекер
- Подкаст
- Популярное
- возможное
- разрабатывает
- Проблема
- Продукт
- положил
- Запросы
- быстро
- вполне
- гоночный
- ранг
- реализовать
- на самом деле
- причины
- недавно
- Отношения
- соответствующие
- помнить
- Итоги
- сохранение
- возвращают
- Богатые
- Roblox
- то же
- сценарий
- Поиск
- поиск
- старший
- Серии
- общие
- должен
- показывать
- показ
- сигналы
- So
- только
- РЕШАТЬ
- Решение
- некоторые
- Кто-то
- удалось
- иногда
- Источник
- конкретный
- орфография
- стек
- современное состояние
- Шаг
- Стратегия
- "Студент"
- такие
- достаточный
- предлагать
- поддержка
- Убедитесь
- Поверхность
- система
- системы
- взять
- принимает
- с
- переговоры
- учитель
- команда
- технологии
- Технический
- техника
- снижения вреда
- Технологии
- сказать
- десятки
- текст
- который
- Ассоциация
- мир
- их
- Их
- тогда
- Там.
- Эти
- они
- вещи
- этой
- те
- хоть?
- Через
- время
- Название
- в
- Обучение
- трансформеры
- В реальном времени
- Доверие
- Правда
- ОЧЕРЕДЬ
- напишите
- Типы
- понимать
- понимание
- понимает
- созданного
- us
- использование
- используемый
- Информация о пользователе
- пользователей
- через
- Использующий
- ценностное
- разнообразие
- вертикалей
- очень
- Вид
- хотеть
- законопроект
- we
- ЧТО Ж
- Что
- Что такое
- когда
- который
- зачем
- Википедия.
- в
- Работа
- работает
- Мир
- год
- являетесь
- ВАШЕ
- зефирнет