Sepuluh transformasi visual baru di AWS Glue Studio

Sepuluh transformasi visual baru di AWS Glue Studio

Node Sumber: 2641422

Studio Lem AWS adalah antarmuka grafis yang memudahkan untuk membuat, menjalankan, dan memantau pekerjaan mengekstrak, mengubah, dan memuat (ETL) di Lem AWS. Hal ini memungkinkan Anda menyusun alur kerja transformasi data secara visual menggunakan node yang mewakili berbagai langkah penanganan data, yang kemudian diubah secara otomatis menjadi kode untuk dijalankan.

Studio Lem AWS baru saja dirilis 10 lebih banyak transformasi visual untuk memungkinkan pembuatan pekerjaan yang lebih maju dengan cara visual tanpa keterampilan pengkodean. Dalam posting ini, kami membahas kasus penggunaan potensial yang mencerminkan kebutuhan ETL umum.

Transformasi baru yang akan didemonstrasikan dalam posting ini adalah: Menggabungkan, Memisahkan String, Larik Ke Kolom, Menambahkan Cap Waktu Saat Ini, Pivot Baris Ke Kolom, Unpivot Kolom Ke Baris, Pencarian, Explode Array Atau Petakan Ke Kolom, Kolom Turunan, dan Pemrosesan Keseimbangan Otomatis .

Ikhtisar solusi

Dalam kasus penggunaan ini, kami memiliki beberapa file JSON dengan operasi opsi stok. Kami ingin melakukan beberapa transformasi sebelum menyimpan data agar lebih mudah dianalisis, dan kami juga ingin membuat ringkasan kumpulan data terpisah.

Dalam kumpulan data ini, setiap baris mewakili perdagangan kontrak opsi. Opsi adalah instrumen keuangan yang memberikan hak—tetapi bukan kewajiban—untuk membeli atau menjual saham saham dengan harga tetap (disebut  harga strike) sebelum tanggal kedaluwarsa yang ditentukan.

Memasukan data

Data mengikuti skema berikut:

  • Id pemesanan – ID unik
  • simbol – Kode yang umumnya didasarkan pada beberapa huruf untuk mengidentifikasi korporasi yang mengeluarkan saham yang mendasarinya
  • instrumen – Nama yang mengidentifikasi opsi spesifik yang dibeli atau dijual
  • mata uang – Kode mata uang ISO di mana harga dinyatakan
  • harga pompa cor beton mini – Jumlah yang dibayarkan untuk pembelian setiap kontrak opsi (di sebagian besar bursa, satu kontrak memungkinkan Anda untuk membeli atau menjual 100 lembar saham)
  • Pasar Valas – Kode pusat pertukaran atau tempat dimana opsi diperdagangkan
  • terjual – Daftar jumlah kontrak yang dialokasikan untuk mengisi pesanan jual saat ini adalah perdagangan jual
  • membeli – Daftar jumlah kontrak yang dialokasikan untuk mengisi pesanan beli saat ini adalah perdagangan beli

Berikut ini adalah contoh data sintetik yang dihasilkan untuk posting ini:

{"order_id": 1679931512485, "symbol": "AMZN", "instrument": "AMZN MAR 24 23 102 PUT", "currency": "usd", "price": 17.18, "exchange": "EDGX", "bought": [18, 38]}
{"order_id": 1679931512486, "symbol": "BMW.DE", "instrument": "BMW.DE MAR 24 23 96 PUT", "currency": "eur", "price": 2.98, "exchange": "XETR", "bought": [28]}
{"order_id": 1679931512487, "symbol": "BMW.DE", "instrument": "BMW.DE APR 28 23 101 CALL", "currency": "eur", "price": 14.71, "exchange": "XETR", "sold": [9, 59, 54]}
{"order_id": 1679931512489, "symbol": "JPM", "instrument": "JPM JUN 30 23 140 CALL", "currency": "usd", "price": 11.83, "exchange": "EDGX", "bought": [33, 42, 55, 67]}
{"order_id": 1679931512490, "symbol": "SIE.DE", "instrument": "SIE.DE MAR 24 23 149 CALL", "currency": "eur", "price": 13.68, "exchange": "XETR", "bought": [96, 89, 82]}
{"order_id": 1679931512491, "symbol": "NKE", "instrument": "NKE MAR 24 23 112 CALL", "currency": "usd", "price": 3.23, "exchange": "EDGX", "sold": [67]}
{"order_id": 1679931512492, "symbol": "AMZN", "instrument": "AMZN MAY 26 23 95 CALL", "currency": "usd", "price": 11.44, "exchange": "EDGX", "sold": [41, 62, 12]}
{"order_id": 1679931512493, "symbol": "JPM", "instrument": "JPM MAR 24 23 121 PUT", "currency": "usd", "price": 1.0, "exchange": "EDGX", "bought": [61, 34]}
{"order_id": 1679931512494, "symbol": "SAP.DE", "instrument": "SAP.DE MAR 24 23 132 CALL", "currency": "eur", "price": 15.9, "exchange": "XETR", "bought": [69, 33]}

persyaratan ETL

Data ini memiliki sejumlah karakteristik unik, seperti yang sering ditemukan pada sistem lama, yang membuat data lebih sulit digunakan.

Berikut ini adalah persyaratan ETL:

  • Nama instrumen memiliki informasi berharga yang dimaksudkan untuk dipahami manusia; kami ingin menormalkannya menjadi kolom terpisah untuk analisis yang lebih mudah.
  • Atribut bought dan sold saling eksklusif; kami dapat menggabungkannya ke dalam satu kolom dengan nomor kontrak dan memiliki kolom lain yang menunjukkan apakah kontrak tersebut dibeli atau dijual dalam urutan ini.
  • Kami ingin menyimpan informasi tentang alokasi kontrak individu tetapi sebagai baris individu alih-alih memaksa pengguna untuk berurusan dengan serangkaian angka. Kami dapat menjumlahkan jumlahnya, tetapi kami akan kehilangan informasi tentang bagaimana pesanan dipenuhi (menunjukkan likuiditas pasar). Sebagai gantinya, kami memilih untuk mendenormalisasi tabel sehingga setiap baris memiliki satu nomor kontrak, membagi pesanan dengan banyak nomor menjadi baris terpisah. Dalam format kolom terkompresi, ukuran kumpulan data ekstra dari pengulangan ini sering kali kecil saat kompresi diterapkan, jadi dapat diterima untuk membuat kumpulan data lebih mudah untuk dikueri.
  • Kami ingin membuat tabel ringkasan volume untuk setiap jenis opsi (call dan put) untuk setiap saham. Ini memberikan indikasi sentimen pasar untuk setiap saham dan pasar secara umum (keserakahan vs. ketakutan).
  • Untuk mengaktifkan ringkasan perdagangan secara keseluruhan, kami ingin memberikan total keseluruhan untuk setiap operasi dan menstandarkan mata uang ke dolar AS, menggunakan referensi perkiraan konversi.
  • Kami ingin menambahkan tanggal saat transformasi ini terjadi. Ini bisa berguna, misalnya, untuk memiliki referensi kapan konversi mata uang dilakukan.

Berdasarkan persyaratan tersebut, pekerjaan akan menghasilkan dua output:

  • File CSV dengan ringkasan jumlah kontrak untuk setiap simbol dan jenis
  • Tabel katalog untuk menyimpan riwayat pesanan, setelah melakukan transformasi yang ditunjukkan
    Skema data

Prasyarat

Anda memerlukan bucket S3 Anda sendiri untuk mengikuti kasus penggunaan ini. Untuk membuat keranjang baru, lihat Membuat ember.

Hasilkan data sintetis

Untuk mengikuti posting ini (atau bereksperimen dengan data semacam ini sendiri), Anda dapat membuat kumpulan data ini secara sintetis. Skrip Python berikut dapat dijalankan di lingkungan Python dengan Boto3 terinstal dan akses ke Layanan Penyimpanan Sederhana Amazon (Amazon S3).

Untuk menghasilkan data, selesaikan langkah-langkah berikut:

  1. Di AWS Glue Studio, buat pekerjaan baru dengan opsi Editor skrip shell Python.
  2. Beri nama pekerjaan dan pada Rincian pekerjaan tab, pilih a peran yang cocok dan nama untuk skrip Python.
  3. Dalam majalah Rincian pekerjaan bagian, luaskan Sifat lanjutan dan gulir ke bawah Parameter pekerjaan.
  4. Masukkan parameter bernama --bucket dan tetapkan sebagai nilai nama keranjang yang ingin Anda gunakan untuk menyimpan data sampel.
  5. Masukkan skrip berikut ke dalam editor shell AWS Glue:
    import argparse
    import boto3
    from datetime import datetime
    import io
    import json
    import random
    import sys # Configuration
    parser = argparse.ArgumentParser()
    parser.add_argument('--bucket')
    args, ignore = parser.parse_known_args()
    if not args.bucket: raise Exception("This script requires an argument --bucket with the value specifying the S3 bucket where to store the files generated") data_bucket = args.bucket
    data_path = "transformsblog/inputdata"
    samples_per_file = 1000 # Create a single file with synthetic data samples
    s3 = boto3.client('s3')
    buff = io.BytesIO() sample_stocks = [("AMZN", 95, "usd"), ("NKE", 120, "usd"), ("JPM", 130, "usd"), ("KO", 130, "usd"), ("BMW.DE", 95, "eur"), ("SIE.DE", 140, "eur"), ("SAP.DE", 115, "eur")]
    option_type = ["PUT", "CALL"]
    operations = ["sold", "bought"]
    dates = ["MAR 24 23", "APR 28 23", "MAY 26 23", "JUN 30 23"]
    for i in range(samples_per_file): stock = random.choice(sample_stocks) symbol = stock[0] ref_price = stock[1] currency = stock[2] strike_price = round(ref_price * 0.9 + ref_price * random.uniform(0.01, 0.3)) sample = { "order_id": int(datetime.now().timestamp() * 1000) + i, "symbol": stock[0], "instrument":f"{symbol} {random.choice(dates)} {strike_price} {random.choice(option_type)}", "currency": currency, "price": round(random.uniform(0.5, 20.1), 2), "exchange": "EDGX" if currency == "usd" else "XETR" } sample[random.choice(operations)] = [random.randrange(1,100) for i in range(random.randrange(1,5))] buff.write(json.dumps(sample).encode()) buff.write("n".encode()) s3.put_object(Body=buff.getvalue(), Bucket=data_bucket, Key=f"{data_path}/{int(datetime.now().timestamp())}.json")

  6. Jalankan pekerjaan dan tunggu sampai terlihat berhasil diselesaikan pada tab Runs (seharusnya hanya perlu beberapa detik).

Setiap proses akan menghasilkan file JSON dengan 1,000 baris di bawah bucket yang ditentukan dan awalan transformsblog/inputdata/. Anda dapat menjalankan pekerjaan berkali-kali jika ingin menguji dengan lebih banyak file masukan.
Setiap baris dalam data sintetik adalah baris data yang mewakili objek JSON seperti berikut:

{ "order_id":1681986991888, "symbol":"AMZN", "instrument":"AMZN APR 28 23 100 PUT", "currency":"usd", "price":2.89, "exchange":"EDGX", "sold":[88,49]
}

Buat tugas visual AWS Glue

Untuk membuat tugas visual AWS Glue, selesaikan langkah-langkah berikut:

  1. Buka AWS Glue Studio dan buat pekerjaan menggunakan opsi Visual dengan kanvas kosong.
  2. Edit Untitled job untuk memberinya nama dan menetapkan peran yang cocok untuk AWS Glue pada Rincian pekerjaan Tab.
  3. Tambahkan sumber data S3 (Anda dapat menamainya JSON files source) dan masukkan URL S3 tempat file disimpan (misalnya, s3://<your bucket name>/transformsblog/inputdata/), lalu pilih JSON sebagai format datanya.
  4. Pilih Menyimpulkan skema sehingga mengatur skema keluaran berdasarkan data.

Dari node sumber ini, Anda akan terus melakukan chaining transforms. Saat menambahkan setiap transformasi, pastikan simpul yang dipilih adalah yang terakhir ditambahkan sehingga ditetapkan sebagai induk, kecuali dinyatakan sebaliknya dalam instruksi.

Jika Anda tidak memilih induk yang tepat, Anda selalu dapat mengedit induk dengan memilihnya dan memilih induk lain di panel konfigurasi.

Konfigurasi induk simpul

Untuk setiap simpul yang ditambahkan, Anda akan memberinya nama tertentu (sehingga tujuan simpul ditampilkan di grafik) dan konfigurasi di Mengubah Tab.

Setiap kali transformasi mengubah skema (misalnya, menambahkan kolom baru), skema keluaran perlu diperbarui agar terlihat oleh transformasi hilir. Anda dapat mengedit skema keluaran secara manual, tetapi lebih praktis dan lebih aman melakukannya menggunakan pratinjau data.
Selain itu, dengan cara itu Anda dapat memverifikasi bahwa transformasi berfungsi sejauh yang diharapkan. Untuk melakukannya, buka Pratinjau data tab dengan transformasi yang dipilih dan mulai sesi pratinjau. Setelah Anda memverifikasi data yang diubah terlihat seperti yang diharapkan, buka Skema keluaran tab dan pilih Gunakan skema pratinjau data untuk memperbarui skema secara otomatis.

Saat Anda menambahkan jenis transformasi baru, pratinjau mungkin menampilkan pesan tentang ketergantungan yang hilang. Ketika ini terjadi, pilih Akhiri Sesi dan mulai yang baru, jadi pratinjau mengambil node jenis baru.

Ekstrak informasi instrumen

Mari kita mulai dengan menangani informasi pada nama instrumen untuk menormalkannya menjadi kolom yang lebih mudah diakses di tabel keluaran yang dihasilkan.

  1. Tambahkan Tali Terpisah simpul dan beri nama Split instrument, yang akan menandai kolom instrumen menggunakan regex spasi putih: s+ (satu ruang akan dilakukan dalam kasus ini, tetapi cara ini lebih fleksibel dan lebih jelas secara visual).
  2. Kami ingin menyimpan informasi instrumen asli apa adanya, jadi masukkan nama kolom baru untuk array terpisah: instrument_arr.
    Konfigurasi terpisah
  3. Tambahkan sebuah Larik Ke Kolom simpul dan beri nama Instrument columns untuk mengonversi kolom array yang baru saja dibuat menjadi kolom baru, kecuali untuk symbol, yang sudah kita miliki kolomnya.
  4. Pilih kolom instrument_arr, lewati token pertama dan minta untuk mengekstrak kolom keluaran month, day, year, strike_price, type menggunakan indeks 2, 3, 4, 5, 6 (spasi setelah koma adalah untuk keterbacaan, tidak memengaruhi konfigurasi).
    Konfigurasi susunan

Tahun yang diekstraksi hanya dinyatakan dengan dua digit; mari kita taruh sementara untuk menganggap itu di abad ini jika mereka hanya menggunakan dua digit.

  1. Tambahkan Kolom Turunan simpul dan beri nama Four digits year.
  2. Enter year sebagai kolom turunan sehingga menimpanya, dan masukkan ekspresi SQL berikut:
    CASE WHEN length(year) = 2 THEN ('20' || year) ELSE year END
    Konfigurasi kolom turunan tahun

Untuk kenyamanan, kami membangun sebuah expiration_date bidang yang dapat dimiliki pengguna sebagai referensi tanggal terakhir opsi dapat dilakukan.

  1. Tambahkan Menggabungkan Kolom simpul dan beri nama Build expiration date.
  2. Beri nama kolom baru expiration_date, pilih kolom year, month, dan day (dalam urutan itu), dan tanda hubung sebagai spacer.
    Konfigurasi tanggal gabungan

Diagram sejauh ini akan terlihat seperti contoh berikut.

DAG

Pratinjau data kolom baru sejauh ini akan terlihat seperti tangkapan layar berikut.

Pratinjau data

Normalisasi jumlah kontrak

Setiap baris dalam data menunjukkan jumlah kontrak dari setiap opsi yang dibeli atau dijual dan kumpulan pesanan yang dipenuhi. Tanpa kehilangan informasi tentang batch individual, kami ingin memiliki setiap jumlah pada baris individu dengan nilai jumlah tunggal, sedangkan informasi lainnya direplikasi di setiap baris yang diproduksi.

Pertama, mari gabungkan jumlahnya menjadi satu kolom.

  1. Tambahkan sebuah Unpivot Kolom Menjadi Baris simpul dan beri nama Unpivot actions.
  2. Pilih kolom bought dan sold untuk membuka pivot dan menyimpan nama dan nilai dalam kolom bernama action dan contracts, Masing-masing.
    Lepas konfigurasi
    Perhatikan di pratinjau bahwa kolom baru contracts masih merupakan array angka setelah transformasi ini.
  1. Tambahkan sebuah Meledakkan Array Atau Memetakan menjadi Baris baris bernama Explode contracts.
  2. Pilih contracts kolom dan masukkan contracts sebagai kolom baru untuk menimpanya (kita tidak perlu menyimpan array asli).

Pratinjau sekarang menunjukkan bahwa setiap baris memiliki satu baris contracts jumlah, dan bidang lainnya sama.

Ini juga berarti bahwa order_id bukan lagi kunci unik. Untuk kasus penggunaan Anda sendiri, Anda perlu memutuskan bagaimana memodelkan data Anda dan apakah Anda ingin melakukan denormalisasi atau tidak.
Ledakan konfigurasi

Tangkapan layar berikut adalah contoh tampilan kolom baru setelah transformasi sejauh ini.
Pratinjau data

Buat tabel ringkasan

Sekarang Anda membuat tabel ringkasan dengan jumlah kontrak yang diperdagangkan untuk setiap jenis dan setiap simbol saham.

Mari kita asumsikan untuk tujuan ilustrasi bahwa file yang diproses milik satu hari, jadi ringkasan ini memberikan informasi kepada pengguna bisnis tentang minat dan sentimen pasar pada hari itu.

  1. Tambahkan Pilih Fields simpul dan pilih kolom berikut untuk menyimpan ringkasan: symbol, type, dan contracts.
    Bidang yang dipilih
  2. Tambahkan Pivot Baris Menjadi Kolom simpul dan beri nama Pivot summary.
  3. Agregat pada contracts kolom menggunakan sum dan memilih untuk mengonversi type kolom.
    Konfigurasi pivot

Biasanya, Anda akan menyimpannya di beberapa database atau file eksternal untuk referensi; dalam contoh ini, kami menyimpannya sebagai file CSV di Amazon S3.

  1. Tambahkan sebuah Pemrosesan Keseimbangan Otomatis simpul dan beri nama Single output file.
  2. Meskipun tipe transformasi tersebut biasanya digunakan untuk mengoptimalkan paralelisme, di sini kami menggunakannya untuk mengurangi output menjadi satu file. Oleh karena itu, masuk 1 dalam jumlah konfigurasi partisi.
    Konfigurasi keseimbangan otomatis
  3. Tambahkan target S3 dan beri nama CSV Contract summary.
  4. Pilih CSV sebagai format data dan masukkan jalur S3 tempat peran pekerjaan diizinkan untuk menyimpan file.

Bagian terakhir dari pekerjaan sekarang akan terlihat seperti contoh berikut.
DAG

  1. Simpan dan jalankan pekerjaan. Menggunakan Berjalan tab untuk memeriksa kapan selesai dengan sukses.
    Anda akan menemukan file di bawah jalur itu yang merupakan CSV, meskipun tidak memiliki ekstensi tersebut. Anda mungkin perlu menambahkan ekstensi setelah mengunduhnya untuk membukanya.
    Pada alat yang dapat membaca CSV, ringkasannya akan terlihat seperti contoh berikut.
    Spreadsheet

Bersihkan kolom sementara

Sebagai persiapan untuk menyimpan pesanan ke dalam tabel historis untuk analisis di masa mendatang, mari bersihkan beberapa kolom sementara yang dibuat di sepanjang jalan.

  1. Tambahkan Bidang Jatuhkan simpul dengan Explode contracts node dipilih sebagai induknya (kami mencabangkan pipa data untuk menghasilkan keluaran terpisah).
  2. Pilih bidang yang akan dijatuhkan: instrument_arr, month, day, dan year.
    Sisanya ingin kita simpan agar disimpan di tabel historis yang akan kita buat nanti.
    Jatuhkan bidang

Standardisasi mata uang

Data sintetik ini berisi operasi fiktif pada dua mata uang, namun dalam sistem nyata Anda bisa mendapatkan mata uang dari pasar di seluruh dunia. Ini berguna untuk membakukan mata uang yang ditangani menjadi satu mata uang referensi sehingga dapat dengan mudah dibandingkan dan digabungkan untuk pelaporan dan analisis.

Kami menggunakan Amazon Athena untuk mensimulasikan tabel dengan perkiraan konversi mata uang yang diperbarui secara berkala (di sini kami berasumsi bahwa kami memproses pesanan cukup tepat waktu sehingga konversi tersebut merupakan perwakilan yang wajar untuk tujuan perbandingan).

  1. Buka konsol Athena di Wilayah yang sama tempat Anda menggunakan AWS Glue.
  2. Jalankan kueri berikut untuk membuat tabel dengan menyetel lokasi S3 tempat peran Athena dan AWS Glue Anda dapat membaca dan menulis. Juga, Anda mungkin ingin menyimpan tabel di database yang berbeda dari default (jika Anda melakukannya, perbarui nama tabel yang memenuhi syarat sesuai dengan contoh yang diberikan).
    CREATE EXTERNAL TABLE default.exchange_rates(currency string, exchange_rate double)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    STORED AS TEXTFILE
    LOCATION 's3://<enter some bucket>/exchange_rates/';

  3. Masukkan beberapa contoh konversi ke dalam tabel:
    INSERT INTO default.exchange_rates VALUES ('usd', 1.0), ('eur', 1.09), ('gbp', 1.24);
  4. Anda seharusnya sekarang dapat melihat tabel dengan kueri berikut:
    SELECT * FROM default.exchange_rates
  5. Kembali ke pekerjaan visual AWS Glue, tambahkan a Lookup simpul (sebagai anak dari Drop Fields) dan beri nama Exchange rate.
  6. Masukkan nama berkualitas dari tabel yang baru saja Anda buat, gunakan currency sebagai kunci dan pilih exchange_rate lapangan untuk digunakan.
    Karena bidang diberi nama yang sama di data dan tabel pencarian, kita cukup memasukkan namanya currency dan tidak perlu mendefinisikan pemetaan.Konfigurasi pencarian
    Pada saat penulisan ini, transformasi Pencarian tidak didukung dalam pratinjau data dan akan menunjukkan kesalahan bahwa tabel tidak ada. Ini hanya untuk pratinjau data dan tidak mencegah pekerjaan berjalan dengan benar. Beberapa langkah postingan yang tersisa tidak mengharuskan Anda untuk memperbarui skema. Jika Anda perlu menjalankan pratinjau data pada node lain, Anda dapat menghapus node pencarian untuk sementara, lalu mengembalikannya.
  7. Tambahkan Kolom Turunan simpul dan beri nama Total in usd.
  8. Beri nama kolom turunan total_usd dan gunakan ekspresi SQL berikut:
    round(contracts * price * exchange_rate, 2)
    Konfigurasi konversi mata uang
  9. Tambahkan Tambahkan Stempel Waktu Saat Ini simpul dan beri nama kolom ingest_date.
  10. Gunakan format %Y-%m-%d untuk stempel waktu Anda (untuk tujuan demonstrasi, kami hanya menggunakan tanggal; Anda dapat membuatnya lebih tepat jika Anda mau).
    Konfigurasi stempel waktu

Simpan tabel pesanan historis

Untuk menyimpan tabel pesanan historis, selesaikan langkah-langkah berikut:

  1. Tambahkan node target S3 dan beri nama Orders table.
  2. Konfigurasikan format Parquet dengan kompresi tajam, dan sediakan jalur target S3 untuk menyimpan hasilnya (terpisah dari ringkasan).
  3. Pilih Buat tabel di Katalog Data dan pada proses berikutnya, perbarui skema dan tambahkan partisi baru.
  4. Masukkan database target dan nama untuk tabel baru, misalnya: option_orders.
    Konfigurasi wastafel meja

Bagian terakhir dari diagram sekarang akan terlihat seperti berikut ini, dengan dua cabang untuk dua keluaran terpisah.
DAG

Setelah Anda berhasil menjalankan tugas, Anda dapat menggunakan alat seperti Athena untuk meninjau data yang telah dihasilkan tugas dengan membuat kueri tabel baru. Anda dapat menemukan tabel di daftar Athena dan memilih Tabel pratinjau atau cukup jalankan kueri SELECT (memperbarui nama tabel ke nama dan katalog yang Anda gunakan):

SELECT * FROM default.option_orders limit 10

Konten tabel Anda akan terlihat mirip dengan tangkapan layar berikut.
Isi tabel

Membersihkan

Jika Anda tidak ingin menyimpan contoh ini, hapus dua pekerjaan yang Anda buat, dua tabel di Athena, dan jalur S3 tempat file masukan dan keluaran disimpan.

Kesimpulan

Dalam postingan ini, kami menunjukkan bagaimana transformasi baru di AWS Glue Studio dapat membantu Anda melakukan transformasi lebih lanjut dengan konfigurasi minimum. Ini berarti Anda dapat mengimplementasikan lebih banyak kasus penggunaan ETL tanpa harus menulis dan memelihara kode apa pun. Transformasi baru sudah tersedia di AWS Glue Studio, sehingga Anda dapat menggunakan transformasi baru hari ini dalam pekerjaan visual Anda.


Tentang Penulis

Gonzalo Herreros adalah Senior Big Data Architect di tim AWS Glue.

Stempel Waktu:

Lebih dari Data Besar AWS