To je gostujoča objava Jihye Parka, podatkovnega znanstvenika pri MUSINSA.
MUSINSA je ena največjih spletnih modnih platform v Južni Koreji, ki oskrbuje 8.4 milijona strank in prodaja 6,000 modnih znamk. Naš mesečni promet uporabnikov dosega 4 milijone in več kot 90 % naše demografije sestavljajo najstniki in mladi odrasli, ki so občutljivi na modne trende. MUSINSA je vodilna platforma v državi, ki postavlja trende in vodi z ogromnimi količinami podatkov.
Ekipa MUSINSA Data Solution se ukvarja z vsem, kar je povezano s podatki, zbranimi v trgovini MUSINSA. Izvajamo celoten razvoj sklada od zbiranja dnevnikov do modeliranja podatkov in serviranja modela. Razvijamo različne izdelke, ki temeljijo na podatkih, vključno s storitvijo za priporočanje izdelkov v živo na glavni strani naše aplikacije in storitvijo za označevanje ključnih besed, ki zazna in izpostavi besede, kot sta "velikost" ali "stopnja zadovoljstva" iz besedilnih pregledov.
Izzivi v procesu avtomatiziranega pregledovanja slik
Kakovost in količina mnenj strank sta ključnega pomena za e-trgovinska podjetja, saj se kupci odločajo o nakupu, ne da bi si izdelke ogledali osebno. Tistim, ki napišejo slikovne ocene o izdelkih, ki so jih kupili (to je ocene s fotografijami izdelkov ali fotografijami, na katerih nosijo/uporabljajo izdelke), priznamo kredite, da izboljšamo uporabniško izkušnjo in povečamo stopnjo konverzije nakupa. Da bi ugotovili, ali predložene fotografije izpolnjujejo naša merila za zasluge, vse fotografije posamično pregledajo ljudje. Naša merila na primer navajajo, da mora »Pregled sloga« vsebovati fotografije, na katerih je prikazano celotno telo osebe, ki nosi/uporablja izdelek, medtem ko mora »Pregled izdelka« zagotoviti celoten posnetek izdelka. Naslednje slike prikazujejo primere pregleda izdelka in pregleda stila. Za uporabo fotografij je bilo izdano soglasje oseb, ki so naložile fotografije.
Na platformo MUSINSA Store se dnevno naloži več kot 20,000 fotografij, ki zahtevajo pregled. Postopek pregleda razvrsti slike kot "paket", "izdelek", "polno dolžino" ali "polovično dolžino". Postopek pregledovanja slik je popolnoma ročni, zato je bil izjemno dolgotrajen, razvrstitve pa različni posamezniki pogosto izvajajo različno, tudi ob upoštevanju smernic. Soočeni s tem izzivom, smo uporabili Amazon SageMaker za avtomatizacijo te naloge.
Amazon SageMaker je popolnoma upravljana storitev za gradnjo, usposabljanje in uvajanje modelov strojnega učenja (ML) za vse primere uporabe s popolnoma upravljano infrastrukturo, orodji in poteki dela. Omogoča nam hitro implementacijo storitve avtomatiziranega pregledovanja slik z dobrimi rezultati.
Podrobno bomo opisali, kako smo svoje težave reševali z uporabo modelov ML in ob tem uporabljali Amazon SageMaker.
Avtomatizacija procesa pregleda pregledne slike
Prvi korak k avtomatizaciji postopka pregledovanja slik je bilo ročno označevanje slik, s čimer so bile ujemane z ustreznimi kategorijami in kriteriji pregleda. Slike smo na primer razvrstili kot »posnetek celega telesa«, »posnetek zgornjega dela telesa«, »posnetek embalaže«, »posnetek izdelka« itd. V primeru ocene izdelka so bili krediti dodeljeni samo za sliko posnetka izdelka. Podobno so bili v primeru revije Style Review priznani posnetki celega telesa.
Kar zadeva razvrščanje slik, smo bili v veliki meri odvisni od vnaprej usposobljenega modela konvolucijske nevronske mreže (CNN) zaradi ogromne količine vhodnih slik, potrebnih za usposabljanje našega modela. Čeprav sta definiranje in kategoriziranje pomembnih funkcij iz slik ključnega pomena za usposabljanje modela, ima lahko slika neomejeno število funkcij. Zato je bila uporaba modela CNN najbolj smiselna in naš model smo predhodno usposobili z več kot 10,000 nabori podatkov ImageNet, nato pa smo uporabili učenje prenosa. To je pomenilo, da bi lahko naš model pozneje učinkoviteje usposobili z našimi slikovnimi oznakami.
Zbiranje slik z Amazon SageMaker Ground Truth
Vendar je imelo transferno učenje svoje omejitve, saj je treba model na novo usposobiti na višjih ravneh. To pomeni, da je nenehno zahteval vnos slik. Po drugi strani pa se je ta metoda dobro obnesla in zahtevala manj vhodnih slik, ko se je učila na celotnih slojih. Zlahka je identificiral značilnosti slik iz teh plasti, ker je bil že usposobljen z ogromno količino podatkov. V podjetju MUSINSA naša celotna infrastruktura deluje na AWS in fotografije, ki jih naložijo stranke, shranjujemo v Preprosta storitev shranjevanja Amazon (S3). Te slike smo kategorizirali v različne mape na podlagi oznak, ki smo jih določili, Amazon SageMaker Ground Truth pa smo uporabili iz naslednjih razlogov:
- Bolj dosledni rezultati – V ročnih procesih se lahko napaka enega samega inšpektorja vključi v usposabljanje modela brez kakršnega koli posredovanja. S SageMaker Ground Truth bi lahko več inšpektorjev pregledalo isto sliko in zagotovilo, da so bili vnosi najbolj zaupanja vrednega inšpektorja ocenjeni višje za označevanje slik, kar vodi do bolj zanesljivih rezultatov.
- Manj ročnega dela – Samodejno označevanje podatkov SageMaker Ground Truth je mogoče uporabiti s pragom ocene zaupanja, tako da se vse slike, ki jih strojno ni mogoče zanesljivo označiti, pošljejo v človeško označevanje. To zagotavlja najboljše razmerje med stroški in natančnostjo. Več informacij je na voljo v Priročnik za razvijalce Amazon SageMaker Ground Truth.
S to metodo smo zmanjšali število ročno razvrščenih slik za 43 %. Naslednja tabela prikazuje število obdelanih slik na iteracijo, potem ko smo sprejeli Ground Truth (upoštevajte, da so podatki o usposabljanju in validaciji akumulirani podatki, medtem ko so druge meritve na podlagi iteracije). - Neposredno nalaganje rezultatov – Pri gradnji modelov v SageMakerju bi lahko naložili nastale datoteke manifesta, ki jih je ustvaril SageMaker Ground Truth, in jih uporabili za usposabljanje.
Če povzamemo, kategorizacija 10,000 slik je zahtevala 22 inšpektorjev pet dni in stala 980 $.
Razvoj modela klasifikacije slik z Amazon SageMaker Studio
Pregledne slike smo morali razvrstiti v ustrezne kategorije kot posnetke celotnega telesa, posnetke zgornjega dela telesa, posnetke paketov, posnetke izdelkov in izdelke. Da bi dosegli naše cilje, smo upoštevali dva modela: vgrajeni model SageMaker, ki temelji na ResNetu, in MobileNet, ki temelji na Tensorflowu. Oba smo preizkusili na istih testnih naborih podatkov in ugotovili, da je bil vgrajeni model SageMaker bolj natančen, z rezultatom F0.98 1 v primerjavi z 0.88 iz modela TensorFlow. Zato smo se odločili za vgradni model SageMaker.
O Studio SageMakerProces usposabljanja na podlagi modela je bil naslednji:
- Uvozite označene slike iz SageMaker Ground Truth
- Predhodna obdelava slik – spreminjanje velikosti in povečevanje slik
- Naložite Vgrajeni model Amazon SageMaker kot Dockerjeva slika
- Nastavite hiperparametre z iskanjem po mreži
- Uporabite prenos učenja
- Ponovno prilagodite parametre na podlagi meritev usposabljanja
- Shranite model
SageMaker je omogočil preprosto usposabljanje modela s samo enim klikom in brez skrbi glede zagotavljanja in upravljanja flote strežnikov za usposabljanje.
Za obračanje hiperparametrov smo uporabili iskanje po mreži, da smo določili optimalne vrednosti hiperparametrov, kot je število učnih plasti (num_layers
) in cikle usposabljanja (epochs
) med učenjem prenosa je vplivalo na točnost našega klasifikacijskega modela.
Serviranje modela s SageMaker Batch Transform in Apache Airflow
Model klasifikacije slik, ki smo ga zgradili, je zahteval delovne poteke ML, da bi ugotovil, ali je pregledna slika primerna za kredite. Vzpostavili smo potek dela z naslednjimi štirimi koraki.
- Uvozite pregledne slike in metapodatke, ki jih je treba samodejno pregledati
- Skleni oznake slik (sklep)
- Ugotovite, ali je treba kredite dodeliti na podlagi izpeljanih oznak
- Shranite tabelo rezultatov v produkcijsko bazo podatkov
Mi uporabljamo pretok zraka apache za upravljanje delovnih tokov podatkovnih izdelkov. To je platforma za načrtovanje in spremljanje poteka dela, ki jo je razvil Airbnb in je znana po preprostih in intuitivnih grafih spletnega uporabniškega vmesnika. Podpira Amazon SageMaker, tako da zlahka preseli kodo, razvito s SageMaker Studio, v Apache Airflow. Opravila SageMaker na Apache Airflow lahko izvajate na dva načina:
- Uporaba operaterjev Amazon SageMaker
- Uporaba Python operaterji : Napišite funkcijo Python z Amazon SageMaker Python SDK na Apache Airflow in jo uvozite kot parameter, ki ga je mogoče priklicati
Druga možnost nam vzdržujemo naš obstoječi Python kode, ki smo jih že imeli v studiu SageMaker, in ni zahtevalo, da se naučimo novih slovnic za operaterje Amazon SageMaker.
Vendar smo šli skozi nekaj poskusov in napak, saj smo prvič integrirali Apache Airflow z Amazon SageMaker. Lekcije, ki smo se jih naučili, so bile:
- Posodobitev Boto3: Amazon SageMaker Python SDK različica 2 zahteva Boto3 1.14.12 ali novejšo. Zato smo morali posodobiti različico Boto3 našega obstoječega okolja Apache Airflow, ki je bilo na 1.13.4.
- IAM dedovanje vlog in dovoljenj: Vloge AWS IAM, ki jih uporablja Apache Airflow, so potrebne za podedovanje vlog, ki lahko izvajajo Amazon SageMaker.
- Konfiguracija omrežja: Za izvajanje kod SageMaker z Apache Airflow je bilo treba njegove končne točke konfigurirati za omrežne povezave. Naslednje končne točke so temeljile na regijah in storitvah AWS, ki smo jih uporabljali. Za več informacij glejte Spletno mesto AWS.
api.sagemaker.ap-northeast-2.amazonaws.com
runtime.sagemaker.ap-northeast-2.amazonaws.com
aws.sagemaker.ap-northeast-2.studio
Rezultati
Z avtomatizacijo procesov pregledovanja slik pregledov smo dosegli naslednje poslovne rezultate:
- Povečana delovna učinkovitost – Trenutno je 76 % slik kategorij, kjer je bila uporabljena storitev, samodejno pregledanih z 98 % natančnostjo pregleda.
- Doslednost pri dajanju kreditov – Krediti se podeljujejo na podlagi jasnih meril. Bilo pa je primerov, ko so bili podobni primeri zaradi različnih sodb inšpektorjev različno kreditirani. Model ML dosledneje uporablja pravila in bolj dosledno uporablja naše kreditne politike.
- Zmanjšano število človeških napak – Vsako človeško sodelovanje nosi tveganje za človeške napake. Imeli smo na primer primere, ko so bila za ocene izdelkov uporabljena merila za pregled sloga. Naš model samodejnega pregleda je močno zmanjšal tveganja teh človeških napak.
Z uporabo Amazon SageMaker za avtomatizacijo postopka pregledovanja slik smo pridobili naslednje prednosti:
- Vzpostavili smo okolje, kjer lahko gradimo in testiramo modele prek modularnih procesov – Pri Amazon SageMaker nam je bilo najbolj všeč, da je sestavljen iz modulov. To nam omogoča enostavno in hitro gradnjo in testiranje storitev. Očitno smo potrebovali nekaj časa, da smo najprej spoznali Amazon SageMaker, a ko smo se naučili, smo ga zlahka uporabili v naših operacijah. Verjamemo, da je Amazon SageMaker idealen za podjetja, ki potrebujejo hiter razvoj storitev, kot je v primeru trgovine MUSINSA.
- Zberite zanesljive vhodne podatke z Amazon SageMaker Ground Truth – Zbiranje vhodnih podatkov na področju ML postaja vse pomembnejše od samega modeliranja. S hitrim napredkom ML lahko vnaprej usposobljeni modeli delujejo veliko bolje kot prej in brez dodatnega prilagajanja. AutoML je prav tako odstranil potrebo po pisanju kod za modeliranje ML. Zato je zmožnost zbiranja kakovostnih vhodnih podatkov pomembnejša kot kdaj koli prej, uporaba storitev označevanja, kot je Amazon SageMaker Ground Truth, pa je ključnega pomena.
zaključek
V prihodnje načrtujemo avtomatizacijo ne le strežbe modelov, ampak tudi usposabljanje modelov prek samodejnih paketov. Želimo, da naš model samodejno prepozna optimalne hiperparametre, ko so dodane nove oznake ali slike. Poleg tega bomo še naprej izboljševali delovanje našega modela, in sicer odpoklice in natančnost, na podlagi prej omenjene metode avtomatiziranega usposabljanja. Povečali bomo pokritost našega modela, tako da bo lahko pregledal več preglednih slik, zmanjšal več stroškov in dosegel večjo natančnost, kar bo vodilo k večjemu zadovoljstvu strank.
Za več informacij o uporabi Amazon SageMaker za reševanje poslovnih težav z uporabo ML obiščite spletna stran izdelka. In kot vedno ostanite na tekočem z najnovejšimi informacijami Novice o strojnem učenju AWS tukaj.
Vsebina in mnenja v tej objavi so mnenja neodvisnega avtorja in AWS ni odgovoren za vsebino ali točnost te objave.
O avtorjih
Park Jihye je podatkovni znanstvenik pri MUSINSA, ki je odgovoren za analizo in modeliranje podatkov. Rada dela z vseprisotnimi podatki, kot je e-trgovina. Njena glavna vloga je modeliranje podatkov, vendar jo zanima tudi podatkovni inženiring.
Sungmin Kim je starejši arhitekt rešitev pri Amazon Web Services. Sodeluje z zagonskimi podjetji pri arhitekturi, oblikovanju, avtomatizaciji in gradnji rešitev na AWS za njihove poslovne potrebe. Specializiran je za AI/ML in analitiko.
- '
- "
- 000
- 100
- 107
- 98
- Dodatne
- Airbnb
- vsi
- Amazon
- Amazon SageMaker
- Amazon SageMaker Ground Truth
- Amazon Web Services
- Analiza
- analitika
- Apache
- OBMOČJE
- Avtomatizirano
- AWS
- BEST
- telo
- blagovne znamke
- izgradnjo
- Building
- poslovni
- podjetja
- primeri
- izziv
- Razvrstitev
- CNN
- Koda
- Zbiranje
- zaupanje
- povezave
- Soglasje
- vsebina
- naprej
- Pretvorba
- konvolucijsko nevronsko mrežo
- stroški
- kredit
- krediti
- Izkušnje s strankami
- Zadovoljstvo kupcev
- Stranke, ki so
- datum
- Analiza podatkov
- podatkovni znanstvenik
- Demografski podatki
- Oblikovanje
- Podatki
- Razvoj
- Razvojni
- Razvoj
- Lučki delavec
- elektronskem poslovanju
- Inženiring
- okolje
- itd
- izkušnje
- Moda
- Lastnosti
- Fed
- prva
- prvič
- FLET
- Naprej
- polno
- funkcija
- Giving
- Cilji
- dobro
- Mreža
- Gost
- Gost Prispevek
- Smernice
- tukaj
- Kako
- Kako
- HTTPS
- Ljudje
- IAM
- identificirati
- slika
- ImageNet
- izboljšanju
- Vključno
- Povečajte
- Podatki
- Infrastruktura
- IT
- Delovna mesta
- korea
- označevanje
- Oznake
- vodi
- vodi
- UČITE
- naučili
- učenje
- obremenitev
- strojno učenje
- Meritve
- ML
- Model
- modeliranje
- Modularna
- spremljanje
- in sicer
- mreža
- Nevronski
- nevronska mreža
- novice
- na spletu
- operacije
- Komentarji
- Možnost
- Ostalo
- performance
- platforma
- Platforme
- politike
- Precision
- Izdelek
- proizvodnja
- Izdelki
- nakup
- Python
- kakovost
- Razlogi
- zmanjša
- Rezultati
- pregleda
- Mnenja
- Tveganje
- pravila
- Run
- sagemaker
- SDK
- Iskalnik
- Občutek
- Storitve
- služijo
- Enostavno
- So
- rešitve
- SOLVE
- South
- Južna Koreja
- specializirano
- Ustanavljanjem
- Države
- bivanje
- shranjevanje
- trgovina
- predložen
- Podpira
- Teens
- tensorflo
- Test
- čas
- orodja
- Prometa
- usposabljanje
- Trends
- sojenje
- ui
- Nadgradnja
- us
- Obseg
- web
- spletne storitve
- WHO
- besede
- delo
- potek dela
- deluje