Persiapan data adalah langkah penting dalam alur kerja pembelajaran mesin (ML), namun sering kali hal ini melibatkan tugas yang membosankan dan memakan waktu. Kanvas Amazon SageMaker kini mendukung kemampuan persiapan data komprehensif yang didukung oleh Pengatur Data Amazon SageMaker. Dengan integrasi ini, SageMaker Canvas memberi pelanggan ruang kerja tanpa kode end-to-end untuk menyiapkan data, membangun dan menggunakan model ML dan fondasi untuk mempercepat waktu dari data hingga wawasan bisnis. Anda kini dapat dengan mudah menemukan dan mengumpulkan data dari lebih dari 50 sumber data, serta menjelajahi dan menyiapkan data menggunakan lebih dari 300 analisis dan transformasi bawaan dalam antarmuka visual SageMaker Canvas. Anda juga akan melihat performa yang lebih cepat untuk transformasi dan analisis, serta antarmuka bahasa alami untuk mengeksplorasi dan mentransformasikan data untuk ML.
Dalam postingan ini, kami memandu Anda melalui proses menyiapkan data untuk pembuatan model end-to-end di SageMaker Canvas.
Ikhtisar solusi
Untuk kasus penggunaan kami, kami mengambil peran sebagai profesional data di perusahaan jasa keuangan. Kami menggunakan dua kumpulan data sampel untuk membangun model ML yang memprediksi apakah pinjaman akan dilunasi seluruhnya oleh peminjam, yang mana hal ini sangat penting untuk mengelola risiko kredit. Lingkungan SageMaker Canvas tanpa kode memungkinkan kami menyiapkan data dengan cepat, merekayasa fitur, melatih model ML, dan menerapkan model dalam alur kerja end-to-end, tanpa memerlukan pengkodean.
Prasyarat
Untuk mengikuti panduan ini, pastikan Anda telah menerapkan prasyarat seperti yang dirinci dalam
- Luncurkan Kanvas Amazon SageMaker. Jika Anda sudah menjadi pengguna SageMaker Canvas, pastikan Anda log out dan login kembali untuk dapat menggunakan fitur baru ini.
- Untuk mengimpor data dari Snowflake, ikuti langkah-langkah dari Siapkan OAuth untuk Kepingan Salju.
Siapkan data interaktif
Setelah penyiapan selesai, kini kita dapat membuat aliran data untuk mengaktifkan persiapan data interaktif. Aliran data menyediakan transformasi bawaan dan visualisasi real-time untuk mengatur data. Selesaikan langkah-langkah berikut:
- Buat aliran data baru menggunakan salah satu metode berikut:
- Pilih Pengatur Data, Data mengalir, Lalu pilih membuat.
- Pilih kumpulan data SageMaker Canvas dan pilih Buat aliran data.
- Pilih Impor data dan pilih Datar dari daftar drop-down
- Anda dapat mengimpor data secara langsung melalui lebih dari 50 konektor data seperti Layanan Penyimpanan Sederhana Amazon (Amazon S3), Amazon Athena, Pergeseran Merah Amazon, Kepingan Salju, dan Tenaga Penjualan. Dalam panduan ini, kami akan membahas cara mengimpor data Anda langsung dari Snowflake.
Alternatifnya, Anda dapat mengunggah kumpulan data yang sama dari mesin lokal Anda. Anda dapat mengunduh kumpulan data pinjaman-bagian-1.csv dan pinjaman-bagian-2.csv.
- Dari halaman Impor data, pilih Kepingan Salju dari daftar dan pilih Tambahkan koneksi.
- Masukkan nama untuk koneksi, pilih OAuth pilihan dari daftar drop-down metode otentikasi. Masukkan id akun okta Anda dan pilih Tambahkan koneksi.
- Anda akan diarahkan ke layar login Okta untuk memasukkan kredensial Okta untuk mengautentikasi. Jika autentikasi berhasil, Anda akan diarahkan ke halaman aliran data.
- Telusuri untuk menemukan kumpulan data pinjaman dari database Snowflake
Pilih dua kumpulan data pinjaman dengan menyeret dan melepaskannya dari sisi kiri layar ke kanan. Kedua dataset akan terhubung dan akan muncul simbol join dengan tanda seru berwarna merah. Klik di atasnya, lalu pilih untuk kedua dataset tersebut id kunci. Biarkan tipe gabungan sebagai Batin. Seharusnya terlihat seperti ini:
- Pilih Simpan & tutup.
- Pilih Buat set data. Beri nama pada kumpulan data tersebut.
- Navigasi ke aliran data, Anda akan melihat yang berikut ini.
- Untuk menjelajahi data pinjaman dengan cepat, pilih Dapatkan wawasan data Dan pilih
loan_status
kolom target dan Klasifikasi jenis masalah.
Yang dihasilkan Laporan Kualitas dan Wawasan Data menyediakan statistik utama, visualisasi, dan analisis kepentingan fitur.
- Tinjau peringatan tentang masalah kualitas data dan kelas yang tidak seimbang untuk memahami dan meningkatkan kumpulan data.
Untuk kumpulan data dalam kasus penggunaan ini, Anda akan mendapatkan peringatan prioritas tinggi “Skor model cepat sangat rendah”, dan kemanjuran model yang sangat rendah pada kelas minoritas (dikenakan biaya dan saat ini), yang menunjukkan perlunya membersihkan dan menyeimbangkan data. Mengacu pada Dokumentasi kanvas untuk mempelajari lebih lanjut laporan wawasan data.
Dengan lebih dari 300 transformasi bawaan yang didukung oleh SageMaker Data Wrangler, SageMaker Canvas memberdayakan Anda untuk menangani data pinjaman dengan cepat. Anda dapat mengklik Tambahkan langkah, dan telusuri atau cari transformasi yang tepat. Untuk kumpulan data ini, gunakan Jatuh hilang dan Menangani outlier untuk membersihkan data, lalu terapkan Enkode satu-panas, dan Vektorisasikan teks untuk membuat fitur untuk ML.
Ngobrol untuk persiapan data adalah kemampuan bahasa alami baru yang memungkinkan analisis data intuitif dengan mendeskripsikan permintaan dalam bahasa Inggris sederhana. Misalnya, Anda bisa mendapatkan statistik dan analisis korelasi fitur pada data pinjaman menggunakan frasa alami. SageMaker Canvas memahami dan menjalankan tindakan melalui interaksi percakapan, membawa persiapan data ke tingkat berikutnya.
Kita dapat menggunakan Ngobrol untuk persiapan data dan transformasi bawaan untuk menyeimbangkan data pinjaman.
- Pertama, masukkan instruksi berikut:
replace “charged off” and “current” in loan_status with “default”
Ngobrol untuk persiapan data menghasilkan kode untuk menggabungkan dua kelas minoritas menjadi satu default
kelas.
- Pilih yang bawaan HALUS transform fungsi untuk menghasilkan data sintetis untuk kelas default.
Sekarang Anda memiliki kolom target yang seimbang.
- Setelah membersihkan dan memproses data pinjaman, buat ulang Laporan Kualitas dan Wawasan Data untuk meninjau perbaikan.
Peringatan prioritas tinggi telah hilang, yang menunjukkan peningkatan kualitas data. Anda dapat menambahkan transformasi lebih lanjut sesuai kebutuhan untuk meningkatkan kualitas data untuk pelatihan model.
Skalakan dan otomatisasi pemrosesan data
Untuk mengotomatiskan persiapan data, Anda dapat menjalankan atau menjadwalkan seluruh alur kerja sebagai tugas pemrosesan Spark terdistribusi untuk memproses seluruh himpunan data atau himpunan data baru dalam skala besar.
- Dalam aliran data, tambahkan node tujuan Amazon S3.
- Luncurkan pekerjaan Pemrosesan SageMaker dengan memilih Ciptakan pekerjaan.
- Konfigurasikan pekerjaan pemrosesan dan pilih membuat, memungkinkan aliran berjalan pada ratusan GB data tanpa pengambilan sampel.
Aliran data dapat dimasukkan ke dalam pipeline MLOps end-to-end untuk mengotomatiskan siklus hidup ML. Aliran data dapat dimasukkan ke dalam buku catatan SageMaker Studio sebagai langkah pemrosesan data dalam alur SageMaker, atau untuk menyebarkan alur inferensi SageMaker. Hal ini memungkinkan otomatisasi alur dari persiapan data hingga pelatihan dan hosting SageMaker.
Bangun dan terapkan model di SageMaker Canvas
Setelah persiapan data, kami dapat mengekspor kumpulan data akhir dengan lancar ke SageMaker Canvas untuk membangun, melatih, dan menerapkan model prediksi pembayaran pinjaman.
- Pilih Buat model di simpul terakhir aliran data atau di panel simpul.
Tindakan ini akan mengekspor himpunan data dan meluncurkan alur kerja pembuatan model terpandu.
- Beri nama kumpulan data yang diekspor dan pilih Ekspor.
- Pilih Buat model dari notifikasi.
- Beri nama modelnya, pilih Analisis prediktif, dan pilih membuat.
Ini akan mengarahkan Anda ke halaman pembuatan model.
- Lanjutkan dengan pengalaman pembuatan model SageMaker Canvas dengan memilih kolom target dan jenis model, lalu pilih Membangun cepat or bangunan standar.
Untuk mempelajari lebih lanjut tentang pengalaman pembuatan model, lihat Membangun model.
Saat pelatihan selesai, Anda dapat menggunakan model untuk memprediksi data baru atau menerapkannya. Mengacu pada Terapkan model ML yang dibangun di Amazon SageMaker Canvas ke titik akhir real-time Amazon SageMaker untuk mempelajari lebih lanjut tentang penerapan model dari SageMaker Canvas.
Kesimpulan
Dalam postingan ini, kami mendemonstrasikan kemampuan menyeluruh SageMaker Canvas dengan mengambil peran sebagai profesional data keuangan yang menyiapkan data untuk memprediksi pembayaran pinjaman, yang didukung oleh SageMaker Data Wrangler. Persiapan data interaktif memungkinkan pembersihan, transformasi, dan analisis data pinjaman dengan cepat untuk merekayasa fitur informatif. Dengan menghilangkan kerumitan pengkodean, SageMaker Canvas memungkinkan kami melakukan iterasi dengan cepat untuk membuat kumpulan data pelatihan berkualitas tinggi. Alur kerja yang dipercepat ini mengarah langsung pada pembuatan, pelatihan, dan penerapan model ML yang berkinerja baik untuk memberikan dampak bisnis. Dengan persiapan data yang komprehensif dan pengalaman terpadu mulai dari data hingga wawasan, SageMaker Canvas memberdayakan Anda untuk meningkatkan hasil ML Anda. Untuk informasi selengkapnya tentang cara mempercepat perjalanan Anda dari data ke wawasan bisnis, lihat Hari perendaman SageMaker Canvas dan Panduan pengguna AWS.
Tentang penulis
Dr Changsa Ma adalah Spesialis AI/ML di AWS. Dia adalah seorang teknolog dengan gelar PhD di bidang Ilmu Komputer, gelar master di bidang Psikologi Pendidikan, dan pengalaman bertahun-tahun di bidang ilmu data dan konsultasi independen di bidang AI/ML. Dia bersemangat meneliti pendekatan metodologis untuk kecerdasan mesin dan manusia. Di luar pekerjaan, dia suka hiking, memasak, berburu makanan, dan menghabiskan waktu bersama teman dan keluarga.
Ajjay Govindaram adalah Arsitek Solusi Senior di AWS. Dia bekerja dengan pelanggan strategis yang menggunakan AI/ML untuk memecahkan masalah bisnis yang kompleks. Pengalamannya terletak pada memberikan arahan teknis serta bantuan desain untuk penyebaran aplikasi AI/ML skala kecil hingga besar. Pengetahuannya berkisar dari arsitektur aplikasi hingga data besar, analitik, dan pembelajaran mesin. Dia menikmati mendengarkan musik sambil beristirahat, menikmati alam bebas, dan menghabiskan waktu bersama orang yang dicintainya.
Huong Nguyen adalah Manajer Produk Senior di AWS. Dia memimpin persiapan data ML untuk SageMaker Canvas dan SageMaker Data Wrangler, dengan pengalaman selama 15 tahun dalam membuat produk yang berpusat pada pelanggan dan berbasis data.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :memiliki
- :adalah
- $NAIK
- 100
- 12
- 13
- 14
- 15 tahun
- 15%
- 300
- 50
- 8
- a
- Sanggup
- Tentang Kami
- mempercepat
- dipercepat
- Akun
- tindakan
- menambahkan
- agregat
- AI / ML
- diizinkan
- memungkinkan
- sepanjang
- sudah
- juga
- Amazon
- Amazon SageMaker
- Kanvas Amazon SageMaker
- Amazon Web Services
- an
- analisis
- analisis
- analisis
- menganalisis
- dan
- Apa pun
- muncul
- Aplikasi
- pendekatan
- arsitektur
- ADALAH
- AS
- Bantuan
- At
- mengotentikasi
- Otentikasi
- mengotomatisasikan
- mengotomatisasi
- AWS
- kembali
- Saldo
- seimbang
- BE
- Besar
- Big data
- pin
- peminjam
- kedua
- membangun
- Bangunan
- dibangun di
- built-in
- bisnis
- dampak bisnis
- by
- CAN
- Bisa Dapatkan
- kanvas
- kemampuan
- kemampuan
- kasus
- dibebankan
- Pilih
- memilih
- kelas
- kelas-kelas
- membersihkan
- Pembersihan
- Klik
- kode
- Pengkodean
- Kolom
- perusahaan
- lengkap
- kompleks
- kompleksitas
- luas
- komputer
- Komputer Ilmu
- Terhubung
- koneksi
- konsultasi
- percakapan
- memasak
- Korelasi
- menutupi
- membuat
- penciptaan
- Surat kepercayaan
- kredit
- sangat penting
- terbaru
- pelanggan
- data
- analisis data
- Persiapan data
- pengolahan data
- kualitas data
- ilmu data
- Data-driven
- kumpulan data
- Default
- Derajat
- menunjukkan
- menyebarkan
- penggelaran
- penyebaran
- menggambarkan
- Mendesain
- tujuan
- terperinci
- arah
- langsung
- menemukan
- didistribusikan
- turun
- Download
- Menjatuhkan
- Jatuhan
- mudah
- Pendidikan
- kemanjuran
- memberdayakan
- aktif
- diaktifkan
- memungkinkan
- memungkinkan
- ujung ke ujung
- insinyur
- Inggris
- mempertinggi
- memastikan
- Enter
- Seluruh
- Lingkungan Hidup
- Eter (ETH)
- contoh
- mengharapkan
- pengalaman
- mengalami
- menyelidiki
- ekspor
- ekspor
- keluarga
- lebih cepat
- Fitur
- Fitur
- terakhir
- keuangan
- data keuangan
- jasa keuangan
- perusahaan jasa keuangan
- aliran
- Mengalir
- mengikuti
- berikut
- makanan
- Untuk
- Foundations
- segar
- teman
- dari
- sepenuhnya
- fungsi
- lebih lanjut
- menghasilkan
- dihasilkan
- menghasilkan
- mendapatkan
- Memberikan
- kendali
- Memiliki
- he
- High
- berkualitas tinggi
- mendaki
- -nya
- tuan
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTML
- http
- HTTPS
- manusia
- kecerdasan manusia
- Ratusan
- Pemburuan
- ID
- if
- tidak seimbang
- pencelupan
- Dampak
- diimplementasikan
- mengimpor
- pentingnya
- pengimporan
- memperbaiki
- ditingkatkan
- perbaikan
- in
- Tergabung
- independen
- Menunjukkan
- informasi
- informatif
- wawasan
- wawasan
- instruksi
- integrasi
- Intelijen
- interaksi
- interaktif
- Antarmuka
- ke
- intuitif
- melibatkan
- masalah
- IT
- NYA
- Pekerjaan
- ikut
- Perjalanan
- jpg
- kunci
- pengetahuan
- bahasa
- besar-besaran
- Terakhir
- meluncurkan
- terkemuka
- Memimpin
- BELAJAR
- pengetahuan
- Meninggalkan
- meninggalkan
- Tingkat
- terletak
- siklus hidup
- 'like'
- Daftar
- Listening
- pinjaman
- Pinjaman
- lokal
- mencatat
- masuk
- melihat
- terlihat seperti
- dicintai
- mencintai
- Rendah
- mesin
- Mesin belajar
- membuat
- manajer
- pelaksana
- tanda
- tuan
- Bergabung
- metode
- metode
- minoritas
- ML
- MLOps
- model
- model
- sederhana
- lebih
- musik
- nama
- Alam
- Bahasa Alami
- Perlu
- dibutuhkan
- New
- Fitur baru
- berikutnya
- simpul
- node
- laptop
- pemberitahuan
- sekarang
- sumpah
- of
- lepas
- sering
- Oke
- on
- ONE
- yang
- pilihan
- or
- kami
- hasil
- di luar rumah
- di luar
- lebih
- halaman
- pane
- bergairah
- pembayaran
- prestasi
- phd
- frase
- pipa saluran
- Polos
- plato
- Kecerdasan Data Plato
- Data Plato
- Pos
- didukung
- meramalkan
- ramalan
- Prediksi
- persiapan
- Mempersiapkan
- mempersiapkan
- prasyarat
- prioritas
- Masalah
- masalah
- proses
- pengolahan
- Produk
- manajer produk
- Produk
- profesional
- menyediakan
- menyediakan
- Psikologi
- kualitas
- segera
- cepat
- real-time
- Merah
- redirect
- lihat
- menghapus
- melaporkan
- permintaan
- beristirahat
- ulasan
- benar
- Risiko
- Peran
- Run
- berjalan
- pembuat bijak
- Inferensi SageMaker
- tenaga penjualan
- sama
- Skala
- menjadwalkan
- Ilmu
- Layar
- mulus
- Pencarian
- melihat
- memilih
- senior
- Layanan
- perusahaan jasa
- penyiapan
- dia
- harus
- sisi
- Sederhana
- Solusi
- MEMECAHKAN
- sumber
- percikan
- spesialis
- Pengeluaran
- statistika
- Langkah
- Tangga
- penyimpanan
- Strategis
- studio
- sukses
- seperti itu
- Mendukung
- yakin
- simbol
- sintetis
- data sintetis
- pengambilan
- target
- tugas
- Teknis
- teknologis
- bahwa
- Grafik
- Mereka
- kemudian
- ini
- Melalui
- waktu
- membuang-buang waktu
- untuk
- Pelatihan VE
- Pelatihan
- Mengubah
- transformasi
- mengubah
- transformasi
- dua
- mengetik
- memahami
- mengerti
- terpadu
- us
- menggunakan
- gunakan case
- Pengguna
- menggunakan
- sangat
- visual
- berjalan
- walkthrough
- peringatan
- we
- jaringan
- layanan web
- BAIK
- apakah
- yang
- sementara
- SIAPA
- seluruh
- akan
- dengan
- tanpa
- Kerja
- alur kerja
- bekerja
- Lokakarya
- akan
- tahun
- namun
- kamu
- Anda
- zephyrnet.dll