Inside the Tech je serija blogov, ki spremlja našo Podcast Tech Talks. V 19. epizodi podcasta, Facebook Global, izvršni direktor Robloxa David Baszucki je govoril z višjim direktorjem produkta Zhenom Fangom o mednarodni strategiji Robloxa in tehničnih izzivih, ki jih rešujemo, da bi zagotovili lokalizirano izkušnjo za več deset milijonov ljudi po vsem svetu. V tej izdaji oddaje Inside the Tech smo se pogovarjali z vodjo inženiringa Ravali Kandur, da bi izvedeli več o enem od teh tehničnih izzivov, večjezičnem in semantičnem iskanju, in o tem, kako delo skupine Growth pomaga uporabnikom Robloxa po vsem svetu iskati – in hitro najti – vse, kar želijo na naši platformi.
Kateri je največji tehnični izziv vaše ekipe?
Do pred približno enim letom je iskanje Roblox uporabljalo leksikalni sistem za povezovanje rezultatov z iskanji uporabnikov, kar pomeni, da se je osredotočalo izključno na ujemanje besedila. Toda vedenje pri iskanju se hitro spreminja in ta pristop ne zadostuje več, da bi uporabnikom ponudil ustrezno vsebino. Hkrati lahko nekateri uporabniki Robloxa v svojih poizvedbah uporabljajo nepravilno črkovanje. Zato moramo biti sposobni predlagati rezultate, ki se ujemajo s tem, kar iščejo, kar pomeni razumevanje njihove namere.
Druga velika težava pri iskanju je pomanjkanje podatkov o usposabljanju v različnih jezikih. Pred semantičnim iskanjem je bil naš prvi korak uporaba strojnih prevodov v sistemu Roblox. Prevode smo indeksirali in nato ujemali besedilo. Vendar to ni dovolj, da uporabnikom vedno prikazujemo ustrezno vsebino. Zato smo sprejeli najsodobnejšo tehniko strojnega učenja, imenovano model učenec-učitelj: učitelj se uči iz našega največjega vira konteksta za vsak določen scenarij.
Angleščina je najpogosteje uporabljen jezik na Robloxu, zato se naučimo čim več semantičnih odnosov v angleščini – model učitelja – in nato to destiliramo na model učenca, tako da to razširimo na druge jezike. To nam pomaga rešiti to težavo, čeprav nimamo veliko podatkov v določenih jezikih. To je vodilo do 15-odstotnega povečanja predvajanj, ki izvirajo iz iskanja na Japonskem.
Nedavno smo si prizadevali za boljšo podporo našim kataloškim poizvedbam, kot je »đua xe (dirkanje).« Toda uporabniki pogosteje pošiljajo dolge poizvedbe v prosti obliki, na primer: »Hej, spomnim se, da sem igral igro, v kateri sta bila zmaj in dekle, ki sta se borila z njim. Mi lahko pomagaš najti to?« To predstavlja več tehničnih izzivov in svoje sisteme še naprej izboljšujemo v tej smeri.
Kateri so nekateri inovativni pristopi k vključevanju več konteksta in bolj semantičnega iskanja?
Zgradili smo hibridni iskalni sistem, ki zajema leksikalno iskanje in ga združuje s tehnikami in modeli ML, ki uporabljajo semantično iskanje in razumevanje namena poizvedbe. Nenehno razvijamo naše sisteme za ustvarjanje razumevanja konteksta, obravnavanje zapletenih poizvedb in vračanje ustrezne vsebine.
Čarobnost semantičnega iskanja je v vdelavah, ki so bogate predstavitve različnih signalov, ki jih dobimo od vsega Robloxa. Vključujemo na primer signale, kot so demografski podatki uporabnikov, uporabniška poizvedba, kako dolga je ali kateri so njeni edinstveni vidiki.
Gledamo tudi vsebinske signale, kot so izkušnje, elementi avatarjev in angažiranost – kako pogosto se je igrala ta igra ali koliko uporabnikov je imela in iz koliko držav? Obstajajo tudi stvari, kot sta monetizacija in zadrževanje, pa tudi metapodatki, kot so naslov, opis ali ustvarjalec izkušnje. Vse to postavimo skozi arhitekturo, ki temelji na BERT in na transformatorjih, in uporabljamo a Večplastni perceptron na koncu ustvariti vdelave, ki postanejo naš vir resnice.
Druga novost je naš interni sistem za iskanje podobnosti. Ko nekdo izvede iskalno poizvedbo, pridobimo tesno povezane vdelave in jih razvrstimo, da se prepričamo, da ustrezajo temu, kar uporabnik išče. In nato rezultate vrnemo uporabnikom.
Katere so ključne stvari, ki ste se jih naučili pri tem tehničnem delu?
Vsak jezik predstavlja svoj edinstven izziv. Še posebej pri iskanju moramo razumeti, kaj uporabniki na različnih koncih sveta iščejo, da jim lahko pokažemo najbolj ustrezne rezultate. Razumeti moramo različne jezikovne elemente. Na primer, vnaprej usposobljeni transformatorji so bili bistveni za razumevanje več dialektov japonščine.
Drugič, vzorci iskalnih poizvedb se precej spreminjajo in nenehno moramo razvijati naš tehnološki sklop, da jim sledimo. Hkrati moramo naše uporabnike obveščati o tem, kaj je na naši platformi mogoče, saj se tega morda ne zavedajo. Našim uporabnikom bi lahko na primer povedali, da lahko iskanje podpira stvari, kot so poizvedbe v prostem slogu (kot so dirkalne igre ali priljubljene igre s hrano) in da razume, kaj ljudje iščejo, ter lahko vrne ustrezne rezultate.
S katero vrednoto Robloxa se vaša ekipa najbolj ujema?
Dolgoročno gledanje je jedro naše ekipe in to je eden od razlogov, zakaj rad delam pri Robloxu.
Eden od primerov moje ekipe je naš tehnološki sklad, ki ga sestavljajo naši iskalni sistemi, ki temeljijo na ML in NLP – semantično iskanje, samodokončanje in popravljanje črkovanja z uporabo vnaprej usposobljenih velikih modelov.
To smo zgradili z mislijo na možnost ponovne uporabe v različnih vrstah iskanj naših desetin milijonov dnevno aktivnih uporabnikov. To pomeni, da lahko vključimo drugo vrsto podatkov (na primer elemente avatarja namesto izkušenj) in mora delovati z zelo minimalnimi spremembami.
Vključili smo semantično iskanje izkušenj in ga delili z drugimi vertikalami, kot je Marketplace, in lahko so preprosto skočili na obstoječo arhitekturo. Ni popolnoma plug-and-play, vendar ga lahko z nekaj natančnega prilagajanja prilagodimo različnim primerom uporabe.
Kaj vas pri Robloxu in vaši ekipi najbolj navdušuje?
Iskanje je edina površina, kjer uporabniki izrazijo svoje eksplicitne namene. In to pomeni, da je ključnega pomena, da razumemo, kaj hočejo, in jim zagotovimo najbolj ustrezne rezultate. Zato mi je res vznemirljivo delati na razumevanju te namere in izobraževati naše uporabnike o tem, kaj je mogoče, včasih še preden se uporabnik tega zave.
Uporabnik v kateri koli državi lahko nekaj vpraša in mi mu lahko damo točno tisto, kar želi in kar je zanj najbolj relevantno. To gradi zaupanje, kar posledično izboljša zadrževanje. Zame je vznemirljivo, da sprejmem izziv izboljšanja iskanja, da zgradim to zaupanje in pomagam Robloxu doseči naš cilj milijarde uporabnikov.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://blog.roblox.com/2023/11/inside-the-tech-solving-for-multilingual-semantic-search/
- :ima
- : je
- :ne
- :kje
- $GOR
- 15%
- 19
- a
- Sposobna
- O meni
- Doseči
- čez
- aktivna
- prilagodijo
- sprejet
- Avgust
- uskladiti
- vsi
- skupaj
- Prav tako
- vedno
- an
- in
- kaj
- pristop
- pristopi
- primerno
- Arhitektura
- SE
- okoli
- AS
- vprašati
- vidiki
- At
- samodokončanje
- avatar
- BE
- postanejo
- bilo
- pred
- Boljše
- največji
- Billion
- Bit
- Blog
- izgradnjo
- Gradi
- zgrajena
- vendar
- by
- se imenuje
- CAN
- primeri
- Katalog
- ceo
- nekatere
- izziv
- izzivi
- Spremembe
- spreminjanje
- združuje
- kompleksna
- vsebuje
- vsebina
- ozadje
- nadaljevati
- stalno
- Core
- bi
- države
- država
- kreator
- vsak dan
- datum
- David
- Demografski podatki
- opis
- DID
- drugačen
- Direktor
- ne
- tem
- dont
- Dragon
- izdaja
- izobraževanje
- elementi
- konec
- Inženiring
- zagotovitev
- epizoda
- zlasti
- bistvena
- Tudi
- razvijajo
- razvija
- točno
- Primer
- razburjen
- zanimivo
- obstoječih
- izkušnje
- Doživetja
- express
- razširitev
- boju proti
- Najdi
- prva
- osredotočena
- hrana
- za
- pogosto
- iz
- igra
- Games
- ustvarjajo
- dobili
- Dekleta
- Daj
- globus
- Cilj
- Rast
- ročaj
- Imajo
- ob
- vodil
- pomoč
- pomoč
- Pomaga
- Kako
- HTTPS
- Hybrid
- i
- izboljšanje
- izboljšuje
- izboljšanju
- in
- Vključena
- vključujoč
- Povečajte
- indeksirane
- obvesti
- Inovacije
- inovativne
- v notranjosti
- Namesto
- namen
- Facebook Global
- IT
- Izdelkov
- ITS
- Japonska
- Japonski
- skoči
- samo
- Imejte
- Ključne
- Pomanjkanje
- jezik
- jeziki
- velika
- UČITE
- naučili
- Led
- Vzvod
- kot
- linije
- Long
- več
- si
- Sklop
- ljubezen
- stroj
- je
- magic
- velika
- IZDELA
- upravitelj
- več
- tržnica
- Stave
- ujemanje
- Maj ..
- me
- kar pomeni,
- pomeni
- metapodatki
- milijoni
- moti
- minimalna
- ML
- tehnike ML
- Model
- modeli
- Monetizacija
- več
- Najbolj
- več
- my
- Nimate
- št
- of
- pogosto
- on
- ONE
- samo
- or
- s poreklom
- Ostalo
- naši
- lastne
- deli
- vzorci
- ljudje
- popolnoma
- platforma
- platon
- Platonova podatkovna inteligenca
- PlatoData
- igral
- igranje
- igra
- Vtič
- Podcast
- Popular
- mogoče
- darila
- problem
- Izdelek
- dal
- poizvedbe
- hitro
- precej
- racing
- uvrstitev
- uresničitev
- res
- Razlogi
- Pred kratkim
- Razmerja
- pomembno
- ne pozabite
- Rezultati
- zadrževanje
- vrnitev
- Rich
- Roblox
- Enako
- Scenarij
- Iskalnik
- iskanja
- višji
- Serija
- deli
- shouldnt
- Prikaži
- Prikaz
- signali
- So
- Izključno
- SOLVE
- Reševanje
- nekaj
- nekdo
- Nekaj
- Včasih
- vir
- specifična
- črkovanje
- sveženj
- state-of-the-art
- Korak
- Strategija
- študent
- taka
- dovolj
- predlagajte
- podpora
- Preverite
- Površina
- sistem
- sistemi
- Bodite
- meni
- ob
- pogovori
- Učitelj
- skupina
- tech
- tehnični
- tehnika
- tehnike
- Tehnologija
- povej
- deset
- besedilo
- da
- O
- svet
- njihove
- Njih
- POTEM
- Tukaj.
- te
- jih
- stvari
- ta
- tisti,
- čeprav?
- skozi
- čas
- Naslov
- do
- usposabljanje
- transformatorji
- Prevodi
- Zaupajte
- Resnica
- OBRAT
- tip
- Vrste
- razumeli
- razumevanje
- razume
- edinstven
- us
- uporaba
- Rabljeni
- uporabnik
- Uporabniki
- uporabo
- Uporaben
- vrednost
- raznolikost
- vertikale
- zelo
- Poglej
- želeli
- je
- we
- Dobro
- Kaj
- Kaj je
- kdaj
- ki
- zakaj
- Wikipedia
- z
- v
- delo
- deluje
- svet
- leto
- jo
- Vaša rutina za
- zefirnet