Dette er et gjesteinnlegg av Jihye Park, en dataforsker ved MUSINSA.
MUSINSA er en av de største online moteplattformene i Sør-Korea, og betjener 8.4 millioner kunder og selger 6,000 motemerker. Vår månedlige brukertrafikk når 4 millioner, og over 90 % av demografien vår består av tenåringer og unge voksne som er følsomme for motetrender. MUSINSA er en trendsettende plattformleder i landet, ledende med enorme mengder data.
MUSINSA Data Solution Team engasjerer seg i alt relatert til data som samles inn fra MUSINSA Store. Vi driver full stackutvikling fra logginnsamling til datamodellering og modellservering. Vi utvikler ulike databaserte produkter, inkludert Live Product Recommendation Service på appens hovedside og Keyword Highlighting Service som oppdager og fremhever ord som «størrelse» eller «tilfredshetsnivå» fra tekstanmeldelser.
Utfordringer i Automate Review Image Inspection Process
Kvaliteten og kvantiteten på kundeanmeldelser er avgjørende for e-handelsbedrifter, ettersom kunder tar kjøpsbeslutninger uten å se produktene personlig. Vi gir kreditter til de som skriver bildeanmeldelser på produktene de har kjøpt (det vil si anmeldelser med bilder av produktene eller bilder av dem iført/bruker produktene) for å forbedre kundeopplevelsen og øke kjøpskonverteringsraten. For å avgjøre om de innsendte bildene oppfyller kriteriene våre for kreditt, blir alle bildene inspisert individuelt av mennesker. Kriteriene våre sier for eksempel at en "stilanmeldelse" skal inneholde bilder som viser hele kroppen til en person som bærer/bruker produktet, mens en "produktanmeldelse" skal gi et fullstendig bilde av produktet. Følgende bilder viser eksempler på en produktanmeldelse og en stilgjennomgang. Opplasternes samtykke er gitt for bruk av bildene.
Over 20,000 XNUMX bilder lastes opp daglig til MUSINSA Store-plattformen som krever inspeksjon. Inspeksjonsprosessen klassifiserer bilder som "pakke", "produkt", "full lengde" eller "halv lengde". Bildeinspeksjonsprosessen er helt manuell, så det var ekstremt tidkrevende og klassifiseringer gjøres ofte forskjellig av ulike individer, selv med retningslinjene. Stilt overfor denne utfordringen brukte vi Amazon SageMaker for å automatisere denne oppgaven.
Amazon SageMaker er en fullt administrert tjeneste for å bygge, trene og distribuere maskinlæringsmodeller (ML) for alle brukstilfeller med fullstendig administrert infrastruktur, verktøy og arbeidsflyter. Det lot oss raskt implementere den automatiske bildeinspeksjonstjenesten med gode resultater.
Vi vil gå i detalj om hvordan vi adresserte problemene våre ved å bruke ML-modeller og brukte Amazon SageMaker underveis.
Automatisering av inspeksjonsprosessen for gjennomgangsbilde
Det første trinnet mot å automatisere inspeksjonsprosessen for bildegjennomgang var å manuelt merke bilder, og dermed matche dem til de aktuelle kategoriene og inspeksjonskriteriene. For eksempel klassifiserte vi bilder som et «helkroppsbilde», «overkroppsbilde», «pakkebilde», «produktbilde» osv. I tilfellet med en produktgjennomgang, ble det kun gitt kreditt for et produktbilde. På samme måte, i tilfelle av en Style Review, ble det gitt kreditter for et full body-shot.
Når det gjelder bildeklassifisering, var vi i stor grad avhengig av en forhåndstrent konvolusjonelt nevralt nettverk (CNN) modell på grunn av det store volumet av inngangsbilder som kreves for å trene modellen vår. Mens definering og kategorisering av meningsfulle funksjoner fra bilder både er avgjørende for å trene en modell, kan et bilde ha et ubegrenset antall funksjoner. Derfor var det mest fornuftig å bruke CNN-modellen, og vi forhåndstrente modellen vår med 10,000 XNUMX+ ImageNet-datasett, deretter brukte vi overføringslæring. Dette betydde at modellen vår kunne trenes mer effektivt med bildeetikettene våre senere.
Bildesamling med Amazon SageMaker Ground Truth
Overføringslæring hadde imidlertid sine egne begrensninger, fordi en modell må nyutdannes på høyere lag. Dette betyr at det hele tiden krevde inndatabilder. På den annen side fungerte denne metoden godt og krevde færre inngangsbilder når den ble trent på hele lag. Den identifiserte enkelt funksjoner fra bilder fra disse lagene fordi den allerede hadde blitt trent med en enorm mengde data. Hos MUSINSA kjører hele infrastrukturen vår på AWS, og vi lagrer kundeopplastede bilder i Amazon Simple Storage Service (S3). Vi kategoriserte disse bildene i forskjellige mapper basert på etikettene vi definerte, og vi brukte Amazon SageMaker Ground Truth av følgende grunner:
- Mer konsistente resultater – I manuelle prosesser kan en enkelt inspektørs feil mates inn i modelltrening uten inngrep. Med SageMaker Ground Truth kunne vi få flere inspektører til å gjennomgå det samme bildet og sørge for at inputene fra den mest pålitelige inspektøren ble vurdert høyere for bildemerking, og dermed føre til mer pålitelige resultater.
- Mindre manuelt arbeid – SageMaker Ground Truth automatisert datamerking kan brukes med en terskel for konfidenspoeng, slik at alle bilder som ikke kan maskinmerkes sikkert, sendes til menneskelig merking. Dette sikrer den beste balansen mellom kostnad og nøyaktighet. Mer informasjon er tilgjengelig i Amazon SageMaker Ground Truth utviklerveiledning.
Ved å bruke denne metoden reduserte vi antallet manuelt klassifiserte bilder med 43 %. Følgende tabell viser antall bilder behandlet per iterasjon etter at vi tok i bruk Ground Truth (merk at trenings- og valideringsdataene er akkumulerte data, mens de andre beregningene er på per-iterasjonsbasis). - Last inn resultater direkte – Når vi bygger modeller i SageMaker, kunne vi laste de resulterende manifestfilene generert av SageMaker Ground Truth og bruke dem til opplæring.
Oppsummert, kategorisering av 10,000 22 bilder krevde 980 inspektører fem dager og kostet $XNUMX.
Utvikling av bildeklassifiseringsmodell med Amazon SageMaker Studio
Vi trengte å klassifisere anmeldelsesbilder som helkroppsbilder, overkroppsbilder, pakkebilder, produktbilder og produkter i aktuelle kategorier. For å nå målene våre vurderte vi to modeller: den ResNet-baserte SageMaker innebygde modellen og Tensorflow-basert MobileNet. Vi testet begge på de samme testdatasettene og fant ut at SageMaker innebygde modell var mer nøyaktig, med en 0.98 F1-poengsum mot 0.88 fra TensorFlow-modellen. Derfor bestemte vi oss for den innebygde modellen SageMaker.
De SageMaker Studio-basert modelltreningsprosess var som følger:
- Importer merkede bilder fra SageMaker Ground Truth
- Forbehandle bilder – endre størrelse og forsterke bilder
- Last inn Amazon SageMaker innebygd modell som et Docker-bilde
- Still inn hyperparametre gjennom rutenettsøk
- Ta i bruk overføringslæring
- Juster parametere på nytt basert på treningsmålinger
- Lagre modellen
SageMaker gjorde det enkelt å trene modellen med bare ett klikk og uten å bekymre deg for å klargjøre og administrere en flåte av servere for opplæring.
For hyperparametervending brukte vi rutenettsøk for å bestemme de optimale verdiene for hyperparametre, som antall treningslag (num_layers
) og treningssykluser (epochs
) under overføringslæring hadde påvirket vår klassifiseringsmodellnøyaktighet.
Modellservering med SageMaker Batch Transform og Apache Airflow
Bildeklassifiseringsmodellen vi bygde krevde ML-arbeidsflyter for å avgjøre om et anmeldelsesbilde var kvalifisert for studiepoeng. Vi etablerte arbeidsflyter med følgende fire trinn.
- Importer vurderingsbilder og metadata som må gjennomgås automatisk
- Utlede etikettene til bildene (slutning)
- Bestem om studiepoeng skal gis basert på de utledede etikettene
- Lagre resultattabellen i produksjonsdatabasen
Vi bruker Apache luftstrøm for å administrere arbeidsflyter for dataprodukter. Det er en arbeidsflytplanleggings- og overvåkingsplattform utviklet av Airbnb kjent for enkle og intuitive grafer for webgrensesnitt. Den støtter Amazon SageMaker, så den overfører enkelt koden utviklet med SageMaker Studio til Apache Airflow. Det er to måter å kjøre SageMaker-jobber på Apache Airflow:
- Bruker Amazon SageMaker Operators
- Ved hjelp av Python-operatører : Skriv en Python-funksjon med Amazon SageMaker Python SDK på Apache Airflow og importer den som en kallbar parameter
Det andre alternativet la oss opprettholde vår eksisterende Python koder som vi allerede hadde på SageMaker Studio, og det krevde ikke at vi skulle lære nye grammatikker for Amazon SageMaker-operatører.
Imidlertid gikk vi gjennom litt prøving og feiling, siden det var første gang vi integrerte Apache Airflow med Amazon SageMaker. Lærdommene vi lærte var:
- Boto3 oppdatering: Amazon SageMaker Python SDK versjon 2 kreves Boto3 1.14.12 eller nyere. Derfor trengte vi å oppdatere Boto3-versjonen av vårt eksisterende Apache Airflow-miljø, som var på 1.13.4.
- IAM-rolle og tillatelsesarv: AWS IAM-roller brukt av Apache Airflow trengte for å arve roller som kunne kjøre Amazon SageMaker.
- Nettverkskonfigurasjon: For å kjøre SageMaker-koder med Apache Airflow, måtte endepunktene konfigureres for nettverkstilkoblinger. Følgende endepunkter var basert på AWS-regionene og tjenestene vi brukte. For mer informasjon, se AWS nettsted.
api.sagemaker.ap-northeast-2.amazonaws.com
runtime.sagemaker.ap-northeast-2.amazonaws.com
aws.sagemaker.ap-northeast-2.studio
Resultater
Ved å automatisere prosesser for gjennomgang av bildeinspeksjon, oppnådde vi følgende forretningsresultater:
- Økt arbeidseffektivitet – Foreløpig inspiseres 76 % av bildene av kategoriene der tjenesten ble brukt automatisk med en inspeksjonsnøyaktighet på 98 %.
- Konsistens i å gi studiepoeng – Studiepoeng gis ut fra klare kriterier. Det var imidlertid tilfeller der det ble gitt forskjellig godskriving for lignende saker på grunn av forskjeller i kontrollørenes vurderinger. ML-modellen bruker regler mer konsistent med og høyere konsistens i anvendelsen av våre kredittpolicyer.
- Redusert menneskelige feil – Ethvert menneskelig engasjement innebærer en risiko for menneskelige feil. For eksempel hadde vi tilfeller der Style Review-kriterier ble brukt for produktanmeldelser. Vår automatiske inspeksjonsmodell reduserte risikoen for disse menneskelige feilene dramatisk.
Vi oppnådde følgende fordeler spesifikt ved å bruke Amazon SageMaker for å automatisere bildeinspeksjonsprosessen:
- Etablert et miljø hvor vi kan bygge og teste modeller gjennom modulære prosesser – Det vi likte best med Amazon SageMaker er at den består av moduler. Dette lar oss bygge og teste tjenester enkelt og raskt. Vi trengte åpenbart litt tid til å lære om Amazon SageMaker til å begynne med, men når vi først hadde lært det, kunne vi enkelt bruke det i våre operasjoner. Vi tror at Amazon SageMaker er ideell for virksomheter som krever rask tjenesteutvikling, som i tilfellet med MUINSA Store.
- Samle pålitelige inndata med Amazon SageMaker Ground Truth – Innsamling av inputdata blir stadig viktigere enn å modellere seg selv på ML-området. Med den raske utviklingen av ML kan forhåndstrente modeller yte mye bedre enn før, og uten ekstra tuning. AutoML har også fjernet behovet for å skrive koder for ML-modellering. Derfor er muligheten til å samle inn kvalitetsdata viktigere enn noen gang, og bruk av merketjenester som Amazon SageMaker Ground Truth er avgjørende.
konklusjonen
Fremover planlegger vi å automatisere ikke bare modellservering, men også modelltrening gjennom automatiske batcher. Vi vil at modellen vår skal identifisere de optimale hyperparametrene automatisk når nye etiketter eller bilder legges til. I tillegg vil vi fortsette å forbedre ytelsen til modellen vår, nemlig tilbakekallinger og presisjon, basert på den tidligere nevnte automatiserte treningsmetoden. Vi vil øke modelldekningen vår slik at den kan inspisere flere anmeldelsesbilder, redusere flere kostnader og oppnå høyere nøyaktighet, noe som alt vil føre til høyere kundetilfredshet.
For mer informasjon om hvordan du bruker Amazon SageMaker for å løse forretningsproblemene dine ved å bruke ML, besøk produktside. Og, som alltid, hold deg oppdatert med det siste AWS Machine Learning News her.
Innholdet og meningene i dette innlegget er fra tredjepartsforfatteren, og AWS er ikke ansvarlig for innholdet eller nøyaktigheten av dette innlegget.
Om forfatterne
Jihye Park er en Data Scientist ved MUSINSA som er ansvarlig for dataanalyse og modellering. Hun elsker å jobbe med allestedsnærværende data som e-handel. Hennes hovedrolle er datamodellering, men hun har også interesser innen datateknikk.
Sungmin Kim er senior løsningsarkitekt hos Amazon Web Services. Han jobber med startups for å arkitekte, designe, automatisere og bygge løsninger på AWS for deres forretningsbehov. Han har spesialisert seg på AI/ML og Analytics.
- '
- "
- 000
- 100
- 107
- 98
- Ytterligere
- airbnb
- Alle
- Amazon
- Amazon SageMaker
- Amazon SageMaker Ground Truth
- Amazon Web Services
- analyse
- analytics
- Apache
- AREA
- Automatisert
- AWS
- BEST
- kroppen
- merker
- bygge
- Bygning
- virksomhet
- bedrifter
- saker
- utfordre
- klassifisering
- CNN
- kode
- Samle
- selvtillit
- Tilkoblinger
- samtykke
- innhold
- fortsette
- Konvertering
- convolutional nevralt nettverk
- Kostnader
- kreditt
- studiepoeng
- kundeopplevelse
- Kundetilfredshet
- Kunder
- dato
- dataanalyse
- dataforsker
- Demografi
- utforming
- detalj
- utvikle
- Utvikler
- Utvikling
- Docker
- e-handel
- Ingeniørarbeid
- Miljø
- etc
- erfaring
- Mote
- Egenskaper
- Fed
- Først
- første gang
- FLÅTE
- Forward
- fullt
- funksjon
- Giving
- Mål
- god
- Grid
- Gjest
- gjest innlegg
- retningslinjer
- her.
- Hvordan
- Hvordan
- HTTPS
- Mennesker
- IAM
- identifisere
- bilde
- IMAGEnet
- bedre
- Inkludert
- Øke
- informasjon
- Infrastruktur
- IT
- Jobb
- korea
- merking
- etiketter
- føre
- ledende
- LÆRE
- lært
- læring
- laste
- maskinlæring
- Metrics
- ML
- modell
- modellering
- modulære
- overvåking
- nemlig
- nettverk
- neural
- nevrale nettverket
- nyheter
- på nett
- Drift
- Meninger
- Alternativ
- Annen
- ytelse
- plattform
- Plattformer
- Politikk
- Precision
- Produkt
- Produksjon
- Produkter
- Kjøp
- Python
- kvalitet
- grunner
- redusere
- Resultater
- anmeldelse
- Anmeldelser
- Risiko
- regler
- Kjør
- sagemaker
- SDK
- Søk
- forstand
- Tjenester
- servering
- Enkelt
- So
- Solutions
- LØSE
- Sør
- Sør-Korea
- spesialisert
- startups
- Stater
- opphold
- lagring
- oppbevare
- innsendt
- Støtter
- tenåringer
- tensorflow
- test
- tid
- verktøy
- trafikk
- Kurs
- Trender
- prøve
- ui
- Oppdater
- us
- volum
- web
- webtjenester
- HVEM
- ord
- Arbeid
- arbeidsflyt
- virker