Inside the Tech — це серія блогів, яка супроводжує наш Подкаст Tech Talks. У 19 епізоді подкасту Міжнародне покриття, генеральний директор Roblox Девід Базукі поговорив зі старшим директором із продуктів Женем Фаном про міжнародну стратегію Roblox і технічні проблеми, які ми вирішуємо, щоб забезпечити локалізований досвід для десятків мільйонів людей по всьому світу. У цьому випуску Inside the Tech ми розмовляли з менеджером з інженерних розробок Равалі Кандур, щоб дізнатися більше про одну з цих технічних проблем, багатомовний і семантичний пошук, і про те, як робота команди Growth допомагає користувачам Roblox у всьому світі шукати — і швидко знаходити — все, що вони хочуть на нашій платформі.
Яке найбільше технічне завдання, з яким береться ваша команда?
Приблизно рік тому пошук Roblox використовував лексичну систему для зіставлення результатів із пошуковими запитами користувачів, тобто він зосереджувався виключно на відповідності тексту. Але пошукова поведінка швидко змінюється, і цього підходу вже недостатньо, щоб надати користувачам відповідний вміст. У той же час деякі користувачі Roblox можуть використовувати неправильне написання у своїх запитах. Отже, ми повинні мати можливість запропонувати результати, які відповідають тому, що вони шукають, що означає розуміння їхніх намірів.
Іншою серйозною проблемою в пошуку є відсутність навчальних даних різними мовами. Перед семантичним пошуком нашим першим кроком було використання машинного перекладу в системі Roblox. Ми проіндексували переклади, а потім зіставили текст. Але цього недостатньо, щоб завжди показувати користувачам відповідний вміст. Отже, ми застосували більш сучасну техніку машинного навчання, яка називається моделлю учень-викладач: учитель навчається з нашого найбільшого джерела контексту для будь-якого конкретного сценарію.
Англійська мова є найбільш використовуваною мовою в Roblox, тому ми вивчаємо якомога більше семантичних зв’язків в англійській мові (моделі вчителя), а потім переміщуємо це в модель учня, поширюючи це на інші мови. Це допомагає нам вирішити цю проблему, навіть якщо ми не маємо багато даних певними мовами. Це призвело до збільшення на 15% кількості відтворень, які походять із пошуку в Японії.
Нещодавно ми працювали над кращою підтримкою наших запитів до каталогу, як-от «đua xe (гонки)». Але користувачі частіше надсилають довгі запити довільної форми, наприклад: «Гей, я пам’ятаю, як грав у гру, де був дракон і дівчина, яка боролася з ним. Чи можете ви допомогти мені знайти це?» Це створює додаткові технічні проблеми, і ми продовжуємо вдосконалювати наші системи в цьому напрямку.
Які інноваційні підходи до включення більшого контексту та більшого семантичного пошуку?
Ми створили гібридну систему пошуку, яка використовує лексичний пошук і поєднує його з методами й моделями машинного навчання, використовуючи семантичний пошук і розуміння мети запиту. Ми постійно вдосконалюємо наші системи для розуміння контексту, обробки складних запитів і повернення релевантного вмісту.
Магія семантичного пошуку полягає у вкладеннях, які є багатими представленнями різноманітних сигналів, які ми отримуємо з усього Roblox. Наприклад, ми враховуємо такі сигнали, як демографічні дані користувача, запит користувача, його тривалість або його унікальні аспекти.
Ми також розглядаємо сигнали вмісту, як-от досвід, елементи аватарів і залучення: як часто грали в цю гру, скільки користувачів було в неї та зі скількох країн? Є також такі речі, як монетизація та утримання, а також метадані, як-от назва, опис або творець досвіду. Ми використовуємо все це через трансформаторну архітектуру на основі BERT і використовуємо a Багатошаровий перцептрон наприкінці, щоб створити вбудовування, які стають нашим джерелом істини.
Ще однією інновацією є наша власна система пошуку подібності. Коли хтось робить пошуковий запит, ми отримуємо тісно пов’язані вбудовування та класифікуємо їх, щоб переконатися, що вони відповідають тому, що шукає користувач. А потім ми повертаємо результати користувачам.
Які ключові речі ви навчилися, виконуючи цю технічну роботу?
Кожна мова представляє свій унікальний виклик. І особливо під час пошуку, нам потрібно розуміти, що шукають користувачі в різних частинах світу, щоб ми могли показувати їм найрелевантніші результати. Ми повинні розуміти різні елементи мови. Наприклад, попередньо підготовлені трансформатори були дуже важливі для розуміння багатьох діалектів японської мови.
По-друге, шаблони пошукових запитів суттєво змінилися, і ми маємо постійно розвивати наш стек технологій, щоб не відставати. У той же час ми повинні інформувати наших користувачів про те, що можливо на нашій платформі, оскільки вони можуть цього не усвідомлювати. Наприклад, ми могли б повідомити нашим користувачам, що пошук може підтримувати такі запити, як фрістайл (наприклад, перегони чи популярні ігри про їжу), і що він розуміє, що люди шукають, і може повертати відповідні результати.
Яким цінностям Roblox найбільше відповідає ваша команда?
Довгостроковий погляд є основою нашої команди, і це одна з причин, чому я люблю працювати в Roblox.
Одним із прикладів моєї команди є наш технологічний стек, який складається з наших пошукових систем на основі ML і NLP — семантичного пошуку, автозаповнення та виправлення орфографії за допомогою попередньо навчених великих моделей.
Ми створили це з урахуванням можливості повторного використання в різних типах пошуку, які здійснюють наші десятки мільйонів щоденних активних користувачів. Це означає, що ми можемо підключити інший тип даних (наприклад, елементи аватара замість досвіду), і це має працювати з мінімальними змінами.
Ми включили семантичний пошук досвіду та поділилися ним з іншими вертикалями, такими як Marketplace, і вони змогли просто перейти до існуючої архітектури. Це не ідеально підключай і працюй, але за допомогою певного тонкого налаштування ми можемо адаптувати його для різних випадків використання.
Що вас найбільше хвилює в тому, куди рухаються Roblox і ваша команда?
Пошук – це єдина поверхня, де користувачі висловлюють свої явні наміри. А це означає, що дуже важливо, щоб ми розуміли, чого вони хочуть, і давали їм найвідповідніші результати. Тому для мене дуже цікаво працювати над розумінням цього наміру та навчанням наших користувачів про те, що можливо, іноді навіть до того, як користувачі це усвідомлюють.
Користувач у будь-якій країні може щось запитати, і ми можемо дати йому саме те, що він хоче, і це найбільш актуально для нього. Це створює довіру, що, у свою чергу, покращує утримання. Мені дуже приємно взятися за виклик покращення пошуку, щоб побудувати цю довіру та допомогти Roblox досягти нашої мети – мати мільярд користувачів.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://blog.roblox.com/2023/11/inside-the-tech-solving-for-multilingual-semantic-search/
- : має
- :є
- : ні
- :де
- $UP
- 15%
- 19
- a
- Здатний
- МЕНЮ
- Achieve
- через
- активний
- пристосовувати
- прийнята
- назад
- вирівнювати
- ВСІ
- по
- Також
- завжди
- an
- та
- будь-який
- підхід
- підходи
- відповідний
- архітектура
- ЕСТЬ
- навколо
- AS
- запитати
- аспекти
- At
- автозаповнення
- аватар
- BE
- ставати
- було
- перед тим
- Краще
- найбільший
- Мільярд
- Біт
- Блог
- будувати
- Будує
- побудований
- але
- by
- званий
- CAN
- випадків
- каталог
- Генеральний директор
- певний
- виклик
- проблеми
- Зміни
- заміна
- комбінати
- комплекс
- складається
- зміст
- контекст
- триває
- постійно
- Core
- може
- країни
- країна
- творець
- щодня
- дані
- Девід
- Демографічна
- description
- DID
- різний
- Директор
- робить
- справи
- Не знаю
- дракон
- видання
- освіту
- елементи
- кінець
- Машинобудування
- забезпечувати
- епізод
- особливо
- істотний
- Навіть
- еволюціонувати
- еволюціонує
- точно
- приклад
- збуджений
- захоплюючий
- існуючий
- досвід
- Досліди
- експрес
- розширення
- боротьба
- знайти
- Перший
- увагу
- харчування
- для
- часто
- від
- гра
- Games
- породжувати
- отримати
- дівчина
- Давати
- земну кулю
- мета
- Зростання
- обробляти
- Мати
- має
- очолював
- допомога
- допомогу
- допомагає
- Як
- HTTPS
- гібрид
- i
- удосконалювати
- поліпшується
- поліпшення
- in
- Зареєстрований
- включення
- Augmenter
- індексований
- повідомити
- інновація
- інноваційний
- всередині
- замість
- намір
- Міжнародне покриття
- IT
- пунктів
- ЙОГО
- Japan
- японський
- стрибати
- просто
- тримати
- ключ
- відсутність
- мова
- мови
- великий
- УЧИТЬСЯ
- вчений
- Led
- Важіль
- як
- ліній
- Довго
- довше
- шукати
- серія
- любов
- машина
- made
- магія
- основний
- РОБОТИ
- менеджер
- багато
- ринку
- матч
- узгодження
- Може..
- me
- сенс
- засоби
- метадані
- мільйони
- mind
- мінімальний
- ML
- Техніка ML
- модель
- Моделі
- монетизація
- більше
- найбільш
- множинний
- my
- Необхідність
- немає
- of
- часто
- on
- ONE
- тільки
- or
- походження
- Інше
- наші
- власний
- частини
- моделі
- Люди
- відмінно
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- грав
- ігри
- відіграє
- штекер
- Подкаст
- популярний
- це можливо
- подарунки
- Проблема
- Product
- put
- запити
- швидко
- досить
- racing
- ранжувати
- реалізувати
- насправді
- Причини
- нещодавно
- Відносини
- доречний
- запам'ятати
- результати
- утримання
- повертати
- Багаті
- Roblox
- то ж
- сценарій
- Пошук
- пошук
- старший
- Серія
- загальні
- Повинен
- Показувати
- показ
- сигнали
- So
- виключно
- ВИРІШИТИ
- Розв’язування
- деякі
- Хтось
- що в сім'ї щось
- іноді
- Source
- конкретний
- орфографія
- стек
- впроваджений
- Крок
- Стратегія
- студент
- такі
- достатній
- пропонувати
- підтримка
- Переконайтеся
- поверхню
- система
- Systems
- Приймати
- приймає
- взяття
- Переговори
- учитель
- команда
- технології
- технічний
- техніка
- методи
- Технологія
- сказати
- тензор
- текст
- Що
- Команда
- світ
- їх
- Їх
- потім
- Там.
- Ці
- вони
- речі
- це
- ті
- хоча?
- через
- час
- назва
- до
- Навчання
- Трансформатори
- У реальному часі
- Довіряйте
- Правда
- ПЕРЕГЛЯД
- тип
- Типи
- розуміти
- розуміння
- розумієш
- створеного
- us
- використання
- використовуваний
- користувач
- користувачі
- використання
- використовує
- значення
- різноманітність
- вертикалі
- дуже
- вид
- хотіти
- було
- we
- ДОБРЕ
- Що
- Що таке
- коли
- який
- чому
- Вікіпедія
- з
- в
- Work
- робочий
- світ
- рік
- ви
- вашу
- зефірнет