See on MUSINSA andmeteadlase Jihye Parki külalispostitus.
MUSINSA on Lõuna-Korea üks suurimaid veebipõhiseid moeplatvorme, mis teenindab 8.4 miljonit klienti ja müüb 6,000 moebrändi. Meie igakuine kasutajaliiklus ulatub 4 miljonini ja üle 90% meie demograafilisest elanikkonnast koosneb teismelistest ja noortest täiskasvanutest, kes on moetrendide suhtes tundlikud. MUSINSA on riigis trendiloov platvormijuht, kes juhib tohutul hulgal andmemahtusid.
MUSINSA Data Solution Team tegeleb kõigega, mis on seotud MUSINSA poest kogutud andmetega. Teostame täielikku pinuarendust logi kogumisest andmete modelleerimise ja mudelite teenindamiseni. Arendame välja erinevaid andmepõhiseid tooteid, sealhulgas reaalajas tootesoovituse teenust meie rakenduse avalehel ja märksõna esiletõstmise teenust, mis tuvastab ja tõstab tekstiülevaadetest esile sellised sõnad nagu „suurus” või „rahulolutase”.
Väljakutsed automaatse ülevaatuse pildikontrolli protsessis
Klientide arvustuste kvaliteet ja kogus on e-kaubandusega tegelevate ettevõtete jaoks kriitilise tähtsusega, kuna kliendid teevad ostuotsuseid tooteid isiklikult nägemata. Anname krediiti neile, kes kirjutavad oma ostetud toodetele piltarvustusi (st arvustused koos fotodega toodetest või fotod nende kandmisest/kasutamisest), et parandada kliendikogemust ja suurendada ostude konversioonimäära. Et teha kindlaks, kas esitatud fotod vastasid meie krediidikriteeriumidele, kontrollivad inimesed kõiki fotosid eraldi. Näiteks meie kriteeriumid näevad ette, et „Stiiliülevaade” peaks sisaldama fotosid, mis kajastavad toodet kandva/kasutava inimese kogu keha, samas kui „Tooteülevaade” peaks andma tootest täieliku ülevaate. Järgmistel piltidel on näited tooteülevaatest ja stiiliülevaatest. Üleslaadijate nõusolek fotode kasutamiseks on antud.
MUSINSA Store'i platvormile laaditakse iga päev üle 20,000 XNUMX foto, mis vajavad kontrolli. Kontrollimise käigus liigitatakse pildid pakenditeks, toodeteks, täispikkusteks või poolpikkadeks. Piltide kontrollimise protsess on täiesti käsitsi, seega oli see äärmiselt aeganõudev ja liigitusi teevad erinevad isikud sageli erinevalt, isegi juhiste järgi. Selle väljakutsega silmitsi seistes kasutasime Amazon SageMaker selle ülesande automatiseerimiseks.
Amazon SageMaker on täielikult hallatav teenus masinõppe (ML) mudelite ehitamiseks, koolitamiseks ja juurutamiseks iga kasutusjuhtumi jaoks koos täielikult hallatud infrastruktuuri, tööriistade ja töövoogudega. See võimaldab meil kiiresti ja heade tulemustega kasutusele võtta automaatse pildikontrolli teenuse.
Me käsitleme üksikasjalikult, kuidas lahendasime oma probleeme ML-mudelite abil ja kasutasime Amazon SageMakerit.
Piltide ülevaatuse kontrollimise protsessi automatiseerimine
Esimene samm kujutise ülevaatuse kontrollimise protsessi automatiseerimise suunas oli piltide käsitsi märgistamine, sobitades need vastavate kategooriate ja kontrollikriteeriumidega. Näiteks liigitasime pildid "kogu keha võtteks", "ülakeha võtteks", "pakendipildiks", "tootepildiks" jne. Tooteülevaate puhul anti krediiti ainult toote pildistamise eest. Samamoodi anti Style Review puhul krediiti kogu keha löögi eest.
Mis puutub piltide klassifitseerimisse, siis meie mudeli koolitamiseks vajalike sisendpiltide mahu tõttu sõltusime suuresti eelnevalt koolitatud konvolutsioonilise närvivõrgu (CNN) mudelist. Kuigi piltidelt tähenduslike tunnuste määratlemine ja kategoriseerimine on mudeli koolitamisel kriitilise tähtsusega, võib kujutisel olla piiramatu arv funktsioone. Seetõttu oli CNN-i mudeli kasutamine kõige mõttekam ja me koolitasime oma mudelit 10,000 XNUMX+ ImageNeti andmekogumiga, seejärel kasutasime ülekandeõpet. See tähendas, et meie mudelit sai hiljem meie pildisiltide abil tõhusamalt koolitada.
Pildikogu koos Amazon SageMaker Ground Truthiga
Ülekandeõppel olid aga omad piirangud, sest mudelit tuleb värskelt kõrgematel kihtidel koolitada. See tähendab, et see nõudis pidevalt sisendpilte. Teisest küljest toimis see meetod hästi ja nõudis tervetel kihtidel treenimisel vähem sisendpilte. See tuvastas nende kihtide piltidelt hõlpsasti funktsioone, kuna see oli juba treenitud tohutu hulga andmetega. Ettevõttes MUSINSA töötab kogu meie infrastruktuur AWS-is ja me salvestame klientide üleslaaditud fotosid Amazon Simple Storage Service (S3). Me liigitasime need pildid meie määratletud siltide alusel erinevatesse kaustadesse ja kasutasime Amazon SageMaker Ground Truthi järgmistel põhjustel.
- Järjepidevamad tulemused – Manuaalsetes protsessides võib ühe inspektori vea sisestada mudelikoolitusse ilma sekkumiseta. SageMaker Ground Truthiga võiksime lasta mitmel inspektoril sama pilti üle vaadata ja veenduda, et kõige usaldusväärsema inspektori sisendid said pildimärgistuse jaoks kõrgema hinnangu, mis annab usaldusväärsemad tulemused.
- Vähem käsitsitööd – SageMaker Ground Truthi automatiseeritud andmete märgistamist saab rakendada usaldusskoori lävega, nii et kõik pildid, mida ei saa masinlikult kindlalt märgistada, saadetakse inimeste märgistamiseks. See tagab kulude ja täpsuse parima tasakaalu. Lisateavet leiate aadressilt Amazon SageMaker Ground Truthi arendaja juhend.
Seda meetodit kasutades vähendasime käsitsi klassifitseeritud piltide arvu 43% võrra. Järgmises tabelis on näidatud piltide arv, mida on töödeldud iteratsiooni kohta pärast Ground Truthi vastuvõtmist (pange tähele, et koolitus- ja valideerimisandmed on kogutud andmed, samas kui muud mõõdikud on korduvad). - Laadige tulemusi otse – SageMakeris mudelite ehitamisel saime laadida SageMaker Ground Truthi loodud manifestifailid ja kasutada neid koolituseks.
Kokkuvõtlikult võib öelda, et 10,000 22 pildi liigitamine nõudis 980 inspektorit viis päeva ja maksis XNUMX dollarit.
Kujutiste klassifitseerimismudeli väljatöötamine Amazon SageMaker Studioga
Pidime arvustuspildid liigitama sobivatesse kategooriatesse kogu kehapiltideks, ülakehapiltideks, pakendipiltideks, tootepiltideks ja toodeteks. Eesmärkide saavutamiseks kaalusime kahte mudelit: ResNeti-põhist SageMakeri sisseehitatud mudelit ja Tensorflow-põhine MobileNet. Testisime mõlemat samade testiandmetega ja leidsime, et SageMakeri sisseehitatud mudel oli täpsem, skooriga 0.98 F1 vs. TensorFlow mudeli 0.88. Seetõttu otsustasime SageMakeri sisseehitatud mudeli kasuks.
. SageMakeri stuudiomudelipõhine koolitusprotsess oli järgmine:
- Importige märgistatud pildid saidist SageMaker Ground Truth
- Piltide eeltöötlus – pildi suuruse muutmine ja suurendamine
- Laadige Amazon SageMaker sisseehitatud mudel Dockeri kujutisena
- Häälestage hüperparameetreid ruudustikuotsingu kaudu
- Rakenda ülekandeõpet
- Häälestage parameetreid ümber treeningmõõdikute põhjal
- Salvestage mudel
SageMaker muutis mudeli koolitamise lihtsaks vaid ühe klõpsuga ja muretsemata koolituseks mõeldud serveripargi varustamise ja haldamise pärast.
Hüperparameetrite pööramiseks kasutasime ruudustikuotsingut, et määrata hüperparameetrite optimaalsed väärtused treeningkihtide arvuna (num_layers
) ja treeningtsüklid (epochs
) ülekande ajal oli õppimine mõjutanud meie klassifitseerimismudeli täpsust.
Mudeli serveerimine SageMaker Batch Transformi ja Apache Airflow abil
Meie loodud piltide klassifitseerimismudel nõudis ML-i töövooge, et teha kindlaks, kas arvustuse pilt vastab ainepunktidele. Lõime töövood järgmise nelja sammuga.
- Importige arvustuspildid ja metaandmed, mis tuleb automaatselt üle vaadata
- Järeldage piltide sildid (järeldus)
- Otsustage, kas ainepunkte tuleks anda tuletatud siltide põhjal
- Salvestage tulemuste tabel tootmisandmebaasi
Me kasutame Apache õhuvool andmetoodete töövoogude haldamiseks. See on töövoo ajastamise ja jälgimise platvorm, mille on välja töötanud Airbnb, mis on tuntud lihtsate ja intuitiivsete veebikasutajaliidese graafikute poolest. See toetab Amazon SageMakerit, nii et see migreerib hõlpsalt SageMaker Studioga loodud koodi Apache Airflow'i. SageMakeri tööde käitamiseks Apache Airflow'is on kaks võimalust:
- Amazon SageMakeri operaatorite kasutamine
- Kasutamine Pythoni operaatorid : kirjutage rakenduses Apache Airflow Pythoni funktsioon Amazon SageMaker Python SDK-ga ja importige see kutsutava parameetrina
Teine võimalus lubab meil säilitada meie olemasolev Python koodid, mis meil SageMaker Studios juba olid, ja see ei nõudnud meilt Amazon SageMakeri operaatorite jaoks uute grammatikate õppimist.
Siiski tegime läbi katse-eksituse, kuna see oli esimene kord, kui integreerisime Apache Airflow'i Amazon SageMakeriga. Meie õppetunnid olid järgmised:
- Boto3 värskendus: Amazon SageMaker Python SDK versioon 2 nõuab Boto3 1.14.12 või uuemat versiooni. Seetõttu pidime värskendama meie olemasoleva Apache Airflow keskkonna Boto3 versiooni, mille versioon oli 1.13.4.
- IAM Rolli ja lubade pärimine: Apache Airflow'i kasutatavad AWS IAM-i rollid pidid pärima rollid, mis võiksid Amazon SageMakeri käitada.
- Võrgu konfiguratsioon: SageMakeri koodide käitamiseks Apache Airflowga tuli selle lõpp-punktid võrguühenduste jaoks konfigureerida. Järgmised lõpp-punktid põhinesid meie kasutatud AWS-i piirkondadel ja teenustel. Lisateabe saamiseks vaadake AWS-i veebisait.
api.sagemaker.ap-northeast-2.amazonaws.com
runtime.sagemaker.ap-northeast-2.amazonaws.com
aws.sagemaker.ap-northeast-2.studio
Tulemused
Ülevaatepiltide kontrollimise protsesside automatiseerimisega saavutasime järgmised äritulemused:
- Suurenenud töö efektiivsus – Praegu kontrollitakse 76% piltidest kategooriatest, kus teenust rakendati, automaatselt 98% kontrolli täpsusega.
- Järjepidevus ainepunktide andmisel – Ainepunkte antakse selgete kriteeriumide alusel. Siiski esines juhtumeid, kus inspektorite otsuste tõttu anti sarnaste juhtumite puhul krediiti erinevalt. ML-mudel rakendab reegleid meie krediidipoliitikaga järjepidevamalt ja järjekindlamalt.
- Vähendatud inimlikud vead – Iga inimtegevusega kaasneb inimlike vigade oht. Näiteks oli meil juhtumeid, kus tooteülevaadete puhul kasutati stiiliülevaate kriteeriume. Meie automaatne kontrollimudel vähendas dramaatiliselt nende inimlike vigade riske.
Kasutades Amazon SageMakerit kujutise kontrollimise protsessi automatiseerimiseks, saime järgmised eelised:
- Loodud keskkond, kus saame modulaarsete protsesside kaudu mudeleid ehitada ja testida – Meile meeldis Amazon SageMakeri juures kõige rohkem see, et see koosneb moodulitest. See võimaldab meil teenuseid lihtsalt ja kiiresti luua ja testida. Ilmselgelt vajasime alguses mõnda aega Amazon SageMakeri tundmaõppimiseks, kuid pärast selle õppimist saime seda hõlpsasti oma tegevuses rakendada. Usume, et Amazon SageMaker sobib ideaalselt ettevõtetele, kes vajavad kiiret teenuste arengut, nagu näiteks MUSINSA poe puhul.
- Koguge usaldusväärseid sisendandmeid rakendusega Amazon SageMaker Ground Truth – Sisendandmete kogumine muutub ML valdkonnas üha olulisemaks kui enda modelleerimine. Tänu ML-i kiirele edenemisele suudavad eelkoolitatud mudelid töötada palju paremini kui varem ja ilma täiendava häälestuseta. AutoML on eemaldanud ka vajaduse kirjutada ML-i modelleerimiseks koode. Seetõttu on kvaliteetsete sisendandmete kogumise võimalus olulisem kui kunagi varem ning märgistamisteenuste, nagu Amazon SageMaker Ground Truth, kasutamine on kriitilise tähtsusega.
Järeldus
Edaspidi plaanime automatiseerida mitte ainult mudelite serveerimist, vaid ka mudelikoolitust automaatsete partiide kaudu. Soovime, et meie mudel tuvastaks uute siltide või piltide lisamisel automaatselt optimaalsed hüperparameetrid. Lisaks jätkame oma mudeli jõudluse, nimelt tagasikutsumise ja täpsuse täiustamist, tuginedes eelnevalt mainitud automatiseeritud treeningmeetodile. Suurendame oma mudeli katvust, et see saaks kontrollida rohkem arvustuspilte, vähendada rohkem kulusid ja saavutada suuremat täpsust, mis kõik suurendab klientide rahulolu.
Lisateabe saamiseks selle kasutamise kohta Amazon SageMaker ML-i abil oma äriprobleemide lahendamiseks külastage veebilehte toote veebileht. Ja nagu alati, olge kõige uuega kursis AWS-i masinõppe uudised siin.
Selle postituse sisu ja arvamused on kolmandast osapoolest autori omad ja AWS ei vastuta selle postituse sisu ega täpsuse eest.
Autoritest
Jihye park on MUSINSA andmeteadlane, kes vastutab andmete analüüsi ja modelleerimise eest. Talle meeldib töötada üldlevinud andmetega, näiteks e-kaubandusega. Tema peamine roll on andmemodelleerimine, kuid tal on huvi ka andmetehnika vastu.
Sungmin Kim on Amazon Web Services'i lahenduste arhitekt. Ta teeb koostööd idufirmadega, et AWS-il nende ärivajadustele vastavaid lahendusi kavandada, projekteerida, automatiseerida ja luua. Ta on spetsialiseerunud AI/ML ja Analyticsile.
- '
- "
- 000
- 100
- 107
- 98
- Täiendavad lisad
- Airbnb
- Materjal: BPA ja flataatide vaba plastik
- Amazon
- Amazon SageMaker
- Amazon SageMaker Ground Truth
- Amazon Web Services
- analüüs
- analytics
- Apache
- PIIRKOND
- Automatiseeritud
- AWS
- BEST
- keha
- brändid
- ehitama
- Ehitus
- äri
- ettevõtted
- juhtudel
- väljakutse
- klassifikatsioon
- CNN
- kood
- Kollektsioneerimine
- usaldus
- Side
- nõusolek
- sisu
- jätkama
- Konverteerimine
- konvolutsioonneuraalvõrk
- kulud
- krediit
- Autorid
- Kliendi kogemus
- Kliendi rahulolu
- Kliendid
- andmed
- andmete analüüs
- andmeteadlane
- Demograafia
- Disain
- detail
- arendama
- arendaja
- & Tarkvaraarendus
- laevalaadija
- pood
- Inseneriteadus
- keskkond
- jms
- kogemus
- mood
- FUNKTSIOONID
- Toidetud
- esimene
- Esimest korda
- FLEET
- edasi
- täis
- funktsioon
- andmine
- Eesmärgid
- hea
- võre
- külaline
- Külaline Postitus
- suunised
- siin
- Kuidas
- Kuidas
- HTTPS
- Inimestel
- IAM
- identifitseerima
- pilt
- IMAGEnet
- Paranemist
- Kaasa arvatud
- Suurendama
- info
- Infrastruktuur
- IT
- Tööturg
- Korea
- märgistamine
- Labels
- viima
- juhtivate
- Õppida
- õppinud
- õppimine
- koormus
- masinõpe
- Meetrika
- ML
- mudel
- modelleerimine
- modulaarne
- järelevalve
- nimelt
- võrk
- Neural
- Närvivõrgus
- uudised
- Internetis
- Operations
- Arvamused
- valik
- Muu
- jõudlus
- inimesele
- Platvormid
- Poliitika
- Täpsus
- Toode
- Produktsioon
- Toodet
- ostma
- Python
- kvaliteet
- põhjustel
- vähendama
- Tulemused
- läbi
- Arvustused
- Oht
- eeskirjade
- jooks
- salveitegija
- SDK
- Otsing
- tunne
- Teenused
- teenindavad
- lihtne
- So
- Lahendused
- LAHENDAGE
- Lõuna
- Lõuna-Korea
- spetsialiseerunud
- Alustavatel
- Ühendriigid
- jääma
- ladustamine
- salvestada
- esitatud
- Toetab
- teismeliseiga
- tensorivool
- test
- aeg
- töövahendid
- liiklus
- koolitus
- Trends
- kohtuprotsess
- ui
- Värskendused
- us
- maht
- web
- veebiteenused
- WHO
- sõnad
- Töö
- töövoog
- töötab