Ini adalah posting tamu oleh Jihye Park, seorang Data Scientist di MUSINSA.
MUSINSA adalah salah satu platform fesyen online terbesar di Korea Selatan, melayani 8.4 juta pelanggan dan menjual 6,000 merek fesyen. Lalu lintas pengguna bulanan kami mencapai 4 juta, dan lebih dari 90% demografi kami terdiri dari remaja dan dewasa muda yang peka terhadap tren mode. MUSINSA adalah pemimpin platform penentu tren di negara ini, memimpin dengan sejumlah besar data.
Tim Solusi Data MUSINSA terlibat dalam segala hal yang berkaitan dengan data yang dikumpulkan dari Toko MUSINSA. Kami melakukan pengembangan tumpukan penuh dari pengumpulan log hingga pemodelan data dan penyajian model. Kami mengembangkan berbagai produk berbasis data, termasuk Layanan Rekomendasi Produk Langsung di halaman utama aplikasi kami dan Layanan Penyorotan Kata Kunci yang mendeteksi dan menyorot kata-kata seperti 'ukuran' atau 'tingkat kepuasan' dari ulasan teks.
Tantangan dalam Proses Pemeriksaan Gambar Tinjauan Otomatis
Kualitas dan kuantitas ulasan pelanggan sangat penting untuk bisnis e-niaga, karena pelanggan membuat keputusan pembelian tanpa melihat produk secara langsung. Kami memberikan kredit kepada mereka yang menulis ulasan gambar pada produk yang mereka beli (yaitu ulasan dengan foto produk atau foto mereka memakai/menggunakan produk) untuk meningkatkan pengalaman pelanggan dan meningkatkan tingkat konversi pembelian. Untuk menentukan apakah foto yang dikirimkan memenuhi kriteria kredit kami, semua foto diperiksa satu per satu oleh manusia. Misalnya, kriteria kami menyatakan bahwa "Ulasan Gaya" harus berisi foto yang menampilkan seluruh tubuh seseorang yang memakai/menggunakan produk, sementara "Ulasan Produk" harus memberikan foto produk secara lengkap. Gambar berikut menampilkan contoh Review Produk dan Review Gaya. Persetujuan pengunggah telah diberikan untuk penggunaan foto.
Lebih dari 20,000 foto diunggah setiap hari ke platform MUSINSA Store yang memerlukan pemeriksaan. Proses pemeriksaan mengklasifikasikan gambar sebagai 'paket', 'produk', 'panjang penuh', atau 'panjang setengah'. Proses pemeriksaan citra sepenuhnya manual, sehingga sangat memakan waktu dan klasifikasi sering dilakukan secara berbeda oleh individu yang berbeda, bahkan dengan pedoman. Menghadapi tantangan ini, kami menggunakan Amazon SageMaker untuk mengotomatisasi tugas ini.
Amazon SageMaker adalah layanan yang dikelola sepenuhnya untuk membangun, melatih, dan menerapkan model machine learning (ML) untuk setiap kasus penggunaan dengan infrastruktur, alat, dan alur kerja yang dikelola sepenuhnya. Ini memungkinkan kami mengimplementasikan layanan inspeksi gambar otomatis dengan cepat dengan hasil yang baik.
Kami akan menjelaskan secara mendetail tentang cara kami mengatasi masalah menggunakan model ML dan menggunakan Amazon SageMaker selama prosesnya.
Otomatisasi Proses Pemeriksaan Gambar Tinjauan
Langkah pertama untuk mengotomatiskan proses Pemeriksaan Peninjauan Gambar adalah memberi label gambar secara manual, sehingga mencocokkannya dengan kategori dan kriteria pemeriksaan yang sesuai. Misalnya, kami mengklasifikasikan gambar sebagai "bidikan seluruh tubuh", "bidikan tubuh bagian atas", "bidikan pengemasan", "bidikan produk", dll. Dalam kasus Tinjauan Produk, kredit hanya diberikan untuk citra bidikan produk. Demikian pula, dalam kasus Style Review, kredit diberikan untuk bidikan seluruh tubuh.
Adapun klasifikasi gambar, kami sangat bergantung pada model jaringan saraf convolutional pra-terlatih (CNN) karena banyaknya volume gambar input yang diperlukan untuk melatih model kami. Meskipun mendefinisikan dan mengkategorikan fitur yang bermakna dari gambar sama-sama penting untuk melatih model, gambar dapat memiliki jumlah fitur yang tidak terbatas. Oleh karena itu, menggunakan model CNN paling masuk akal, dan kami melatih model kami terlebih dahulu dengan 10,000+ kumpulan data ImageNet, lalu kami menggunakan pembelajaran transfer. Ini berarti model kami dapat dilatih lebih efektif dengan label gambar kami nanti.
Koleksi Gambar dengan Amazon SageMaker Ground Truth
Namun, pembelajaran transfer memiliki keterbatasannya sendiri, karena model harus dilatih baru pada lapisan yang lebih tinggi. Ini berarti bahwa itu selalu membutuhkan gambar masukan. Di sisi lain, metode ini bekerja dengan baik dan membutuhkan lebih sedikit gambar masukan saat dilatih di seluruh lapisan. Itu dengan mudah mengidentifikasi fitur dari gambar dari lapisan ini karena sudah dilatih dengan sejumlah besar data. Di MUSINSA, seluruh infrastruktur kami berjalan di AWS, dan kami menyimpan foto yang diunggah pelanggan di Layanan Penyimpanan Sederhana Amazon (S3). Kami mengategorikan gambar-gambar ini ke dalam folder berbeda berdasarkan label yang kami tentukan, dan kami menggunakan Amazon SageMaker Ground Truth karena alasan berikut:
- Hasil yang lebih konsisten – Dalam proses manual, satu kesalahan inspektur dapat dimasukkan ke dalam pelatihan model tanpa intervensi apa pun. Dengan SageMaker Ground Truth, kami dapat meminta beberapa inspektur meninjau gambar yang sama dan memastikan masukan dari inspektur yang paling tepercaya diberi peringkat lebih tinggi untuk pelabelan gambar, sehingga memberikan hasil yang lebih andal.
- Lebih sedikit pekerjaan manual – Pelabelan data otomatis SageMaker Ground Truth dapat diterapkan dengan ambang batas skor kepercayaan sehingga setiap gambar yang tidak dapat diberi label mesin secara meyakinkan dikirim untuk pelabelan manusia. Ini memastikan keseimbangan terbaik antara biaya dan akurasi. Informasi lebih lanjut tersedia di Panduan Pengembang Amazon SageMaker Ground Truth.
Dengan menggunakan metode ini, kami mengurangi jumlah gambar yang diklasifikasikan secara manual sebesar 43%. Tabel berikut menunjukkan jumlah gambar yang diproses per iterasi setelah kami mengadopsi Ground Truth (perhatikan bahwa data pelatihan dan validasi adalah data akumulasi, sementara metrik lainnya berbasis per iterasi). - Langsung memuat hasil – Saat membuat model di SageMaker, kami dapat memuat file manifes yang dihasilkan oleh SageMaker Ground Truth dan menggunakannya untuk pelatihan.
Singkatnya, mengkategorikan 10,000 gambar memerlukan 22 inspektur selama lima hari dan biaya $980.
Pengembangan Model Klasifikasi Gambar dengan Amazon SageMaker Studio
Kami perlu mengklasifikasikan gambar ulasan sebagai foto seluruh tubuh, foto tubuh bagian atas, foto paket, foto produk, dan produk ke dalam kategori yang berlaku. Untuk mencapai tujuan kami, kami mempertimbangkan dua model: model bawaan SageMaker berbasis ResNet dan MobileNet berbasis tensorflow. Kami menguji keduanya pada kumpulan data pengujian yang sama dan menemukan bahwa model bawaan SageMaker lebih akurat, dengan skor F0.98 1 vs 0.88 dari model TensorFlow. Oleh karena itu, kami memutuskan model bawaan SageMaker.
Grafik Studio SageMakerProses pelatihan berbasis model adalah sebagai berikut:
- Impor gambar berlabel dari SageMaker Ground Truth
- Gambar praproses – mengubah ukuran dan menambah gambar
- Muat Model bawaan Amazon SageMaker sebagai gambar Docker
- Sesuaikan hyperparameter melalui pencarian grid
- Menerapkan pembelajaran transfer
- Sesuaikan ulang parameter berdasarkan metrik pelatihan
- Simpan modelnya
SageMaker mempermudah pelatihan model hanya dengan satu klik dan tanpa khawatir tentang penyediaan dan pengelolaan armada server untuk pelatihan.
Untuk pergantian hyperparameter, kami menggunakan pencarian grid untuk menentukan nilai optimal dari hyperparameter, sebagai jumlah lapisan pelatihan (num_layers
) dan siklus latihan (epochs
) selama pembelajaran transfer telah memengaruhi akurasi model klasifikasi kami.
Penyajian Model dengan SageMaker Batch Transform dan Apache Airflow
Model klasifikasi gambar yang kami buat memerlukan alur kerja ML untuk menentukan apakah gambar ulasan memenuhi syarat untuk kredit. Kami menetapkan alur kerja dengan empat langkah berikut.
- Impor gambar ulasan dan metadata yang harus ditinjau secara otomatis
- Menyimpulkan label gambar (inferensi)
- Tentukan apakah kredit harus diberikan berdasarkan label yang disimpulkan
- Simpan tabel hasil di database produksi
Kami menggunakan Aliran Udara Apache untuk mengelola alur kerja produk data. Ini adalah platform penjadwalan dan pemantauan alur kerja yang dikembangkan oleh Airbnb yang terkenal dengan grafik UI web yang sederhana dan intuitif. Ini mendukung Amazon SageMaker, sehingga dengan mudah memigrasikan kode yang dikembangkan dengan SageMaker Studio ke Apache Airflow. Ada dua cara untuk menjalankan tugas SageMaker di Apache Airflow:
- Menggunakan Operator Amazon SageMaker
- Menggunakan Operator Python : Tulis fungsi Python dengan Amazon SageMaker Python SDK di Apache Airflow dan impor sebagai parameter yang dapat dipanggil
Opsi kedua mari kita pertahankan Python kita yang sudah ada kode yang sudah kami miliki di SageMaker Studio, dan kami tidak perlu mempelajari tata bahasa baru untuk Operator Amazon SageMaker.
Namun, kami mengalami beberapa percobaan dan kesalahan, karena ini adalah kali pertama kami mengintegrasikan Apache Airflow dengan Amazon SageMaker. Pelajaran yang kami pelajari adalah:
- Pembaruan Boto3: Amazon SageMaker Python SDK versi 2 memerlukan Boto3 1.14.12 atau yang lebih baru. Oleh karena itu, kami perlu memperbarui versi Boto3 dari lingkungan Apache Airflow kami yang sudah ada, yaitu di 1.13.4.
- Warisan peran dan izin IAM: Peran IAM AWS yang digunakan oleh Apache Airflow diperlukan untuk mewarisi peran yang dapat menjalankan Amazon SageMaker.
- Konfigurasi jaringan: Untuk menjalankan kode SageMaker dengan Apache Airflow, titik akhirnya harus dikonfigurasi untuk koneksi jaringan. Titik akhir berikut didasarkan pada Wilayah AWS dan layanan yang kami gunakan. Untuk informasi lebih lanjut, lihat situs web AWS.
api.sagemaker.ap-northeast-2.amazonaws.com
runtime.sagemaker.ap-northeast-2.amazonaws.com
aws.sagemaker.ap-northeast-2.studio
Hasil
Dengan mengotomatiskan proses pemeriksaan gambar ulasan, kami memperoleh hasil bisnis berikut:
- Meningkatkan efisiensi kerja – Saat ini, 76% gambar dari kategori tempat layanan diterapkan diperiksa secara otomatis dengan akurasi pemeriksaan 98%.
- Konsistensi dalam memberikan kredit – Kredit diberikan berdasarkan kriteria yang jelas. Namun, ada kalanya kredit diberikan berbeda untuk kasus serupa karena perbedaan penilaian inspektur. Model ML menerapkan aturan dengan lebih konsisten dan konsistensi yang lebih tinggi dalam menerapkan kebijakan kredit kami.
- Mengurangi kesalahan manusia – Setiap keterlibatan manusia membawa risiko kesalahan manusia. Misalnya, kami memiliki kasus di mana kriteria Tinjauan Gaya digunakan untuk Tinjauan Produk. Model inspeksi otomatis kami secara dramatis mengurangi risiko kesalahan manusia ini.
Kami mendapatkan manfaat berikut secara khusus dengan menggunakan Amazon SageMaker untuk mengotomatiskan proses pemeriksaan gambar:
- Menetapkan lingkungan tempat kami dapat membangun dan menguji model melalui proses modular – Yang paling kami sukai dari Amazon SageMaker adalah terdiri dari modul. Ini memungkinkan kami membangun dan menguji layanan dengan mudah dan cepat. Jelas kami membutuhkan waktu untuk mempelajari tentang Amazon SageMaker pada awalnya, tetapi setelah mempelajarinya, kami dapat dengan mudah menerapkannya dalam operasi kami. Kami percaya bahwa Amazon SageMaker sangat ideal untuk bisnis yang membutuhkan pengembangan layanan yang cepat, seperti halnya Toko MUSINSA.
- Kumpulkan data masukan yang andal dengan Amazon SageMaker Ground Truth – Mengumpulkan data input menjadi semakin penting daripada memodelkan dirinya sendiri di area ML. Dengan kemajuan ML yang pesat, model yang telah dilatih sebelumnya dapat bekerja jauh lebih baik dari sebelumnya, dan tanpa penyetelan tambahan. AutoML juga menghilangkan kebutuhan untuk menulis kode untuk pemodelan ML. Oleh karena itu, kemampuan untuk mengumpulkan data masukan berkualitas menjadi lebih penting dari sebelumnya, dan menggunakan layanan pelabelan seperti Amazon SageMaker Ground Truth sangatlah penting.
Kesimpulan
Ke depan, kami berencana untuk mengotomatiskan tidak hanya penyajian model, tetapi juga pelatihan model melalui batch otomatis. Kami ingin model kami mengidentifikasi hyperparameter optimal secara otomatis saat label atau gambar baru ditambahkan. Selain itu, kami akan terus meningkatkan performa model kami, yaitu daya ingat dan presisi, berdasarkan metode pelatihan otomatis yang telah disebutkan sebelumnya. Kami akan meningkatkan cakupan model kami sehingga dapat memeriksa lebih banyak gambar ulasan, mengurangi lebih banyak biaya, dan mencapai akurasi yang lebih tinggi, yang semuanya akan menghasilkan kepuasan pelanggan yang lebih tinggi.
Untuk informasi lebih lanjut tentang cara menggunakan Amazon SageMaker untuk menyelesaikan masalah bisnis Anda menggunakan ML, kunjungi halaman web produk. Dan, seperti biasa, tetap up to date dengan yang terbaru Berita Pembelajaran Mesin AWS di sini.
Konten dan opini dalam posting ini adalah milik penulis pihak ketiga dan AWS tidak bertanggung jawab atas konten atau keakuratan posting ini.
Tentang Penulis
Taman Jihye adalah Ilmuwan Data di MUSENSA yang bertanggung jawab untuk analisis dan pemodelan data. Dia suka bekerja dengan data di mana-mana seperti e-niaga. Peran utamanya adalah pemodelan data tetapi dia juga memiliki minat dalam rekayasa data.
Sungmin Kim adalah Arsitek Solusi Senior di Amazon Web Services. Dia bekerja dengan startup untuk merancang, merancang, mengotomatiskan, dan membangun solusi di AWS untuk kebutuhan bisnis mereka. Ia berspesialisasi dalam AI/ML dan Analitik.
- '
- "
- 000
- 100
- 107
- 98
- Tambahan
- Airbnb
- Semua
- Amazon
- Amazon SageMaker
- Kebenaran Dasar Amazon SageMaker
- Amazon Web Services
- analisis
- analisis
- Apache
- DAERAH
- Otomatis
- AWS
- TERBAIK
- tubuh
- merek
- membangun
- Bangunan
- bisnis
- bisnis
- kasus
- menantang
- klasifikasi
- CNN
- kode
- Mengumpulkan
- kepercayaan
- Koneksi
- persetujuan
- Konten
- terus
- Konversi
- jaringan saraf convolutional
- Biaya
- kredit
- Kredit
- pengalaman pelanggan
- Kepuasan pelanggan
- pelanggan
- data
- analisis data
- ilmuwan data
- Demografi
- Mendesain
- rinci
- mengembangkan
- Pengembang
- Pengembangan
- Buruh pelabuhan
- e-commerce
- Teknik
- Lingkungan Hidup
- dll
- pengalaman
- Fashion
- Fitur
- Fed
- Pertama
- pertama kali
- ARMADA KAPAL
- Depan
- penuh
- fungsi
- Pemberian
- Anda
- baik
- kisi
- Tamu
- tamu Post
- pedoman
- di sini
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTTPS
- Manusia
- IAM
- mengenali
- gambar
- IMAGEnet
- meningkatkan
- Termasuk
- Meningkatkan
- informasi
- Infrastruktur
- IT
- Jobs
- Korea
- pelabelan
- Label
- memimpin
- terkemuka
- BELAJAR
- belajar
- pengetahuan
- memuat
- Mesin belajar
- Metrik
- ML
- model
- pemodelan
- modular
- pemantauan
- yaitu
- jaringan
- saraf
- saraf jaringan
- berita
- secara online
- Operasi
- Pendapat
- pilihan
- Lainnya
- prestasi
- Platform
- Platform
- Kebijakan
- Ketelitian
- Produk
- Produksi
- Produk
- membeli
- Ular sanca
- kualitas
- alasan
- menurunkan
- Hasil
- ulasan
- Review
- Risiko
- aturan
- Run
- pembuat bijak
- SDK
- Pencarian
- rasa
- Layanan
- porsi
- Sederhana
- So
- Solusi
- MEMECAHKAN
- Selatan
- Korea Selatan
- spesialisasi
- Startups
- Negara
- tinggal
- penyimpanan
- menyimpan
- disampaikan
- Mendukung
- remaja
- tensorflow
- uji
- waktu
- alat
- lalu lintas
- Pelatihan
- Tren
- percobaan
- ui
- Memperbarui
- us
- volume
- jaringan
- layanan web
- SIAPA
- kata
- Kerja
- alur kerja
- bekerja