Formasi Danau AWS dan Lem AWS Katalog Data merupakan bagian integral dari solusi tata kelola data untuk data lake yang dibangun Layanan Penyimpanan Sederhana Amazon (Amazon S3) dengan beberapa layanan analitik AWS yang terintegrasi dengannya. Di dalam 2022, kami membicarakan tentang peningkatan yang telah kami lakukan pada layanan ini. Kami terus mendengarkan cerita pelanggan dan bekerja mundur untuk memasukkan pemikiran mereka ke dalam produk kami. Dalam postingan kali ini, kami dengan senang hati merangkum hasil kerja keras kami di tahun 2023 untuk meningkatkan dan menyederhanakan tata kelola data bagi pelanggan.
Kami mengumumkan fitur dan kemampuan baru kami selama AWS re:Invent 2023, sesuai kebiasaan kami setiap tahun. Berikut ini adalah pembicaraan re:Invent 2023 yang menampilkan kemampuan Lake Formation dan Katalog Data:
Kami mengelompokkan kemampuan baru ke dalam empat kategori:
- Temukan dan amankan
- Terhubung dengan berbagi data
- Skalakan dan optimalkan
- Audit dan pantau
Mari selami lebih dalam dan diskusikan kemampuan baru yang diperkenalkan pada tahun 2023.
Temukan dan amankan
Dengan menggunakan Lake Formation dan Katalog Data sebagai fondasi dasar, kami diluncurkan Zona Data Amazon pada bulan Oktober 2023. DataZone adalah layanan manajemen data yang mempercepat dan memudahkan Anda membuat katalog, menemukan, berbagi, dan mengatur data yang disimpan di AWS, on premise, dan sumber pihak ketiga. Alur kerja penerbitan dan langganan DataZone meningkatkan kolaborasi antara berbagai peran di organisasi Anda dan mempercepat waktu untuk memperoleh wawasan bisnis dari data Anda. Anda dapat meningkatkan metadata teknis Katalog Data menggunakan asisten yang didukung AI ke dalam metadata bisnis DataZone, sehingga lebih mudah ditemukan. DataZone secara otomatis mengelola izin data bersama Anda di proyek DataZone. Untuk mempelajari lebih lanjut tentang DataZone, lihat Panduan Pengguna. Acara di DataZone!
Perayap AWS Glue mengklasifikasikan data untuk menentukan format, skema, dan properti terkait dari data mentah, mengelompokkan data ke dalam tabel atau partisi, dan menulis metadata ke Katalog Data. Pada tahun 2023, kami merilis beberapa pembaruan pada crawler AWS Glue. Kami menambahkan kemampuan untuk membawa Anda versi khusus driver JDBC di crawler untuk mengekstrak skema data dari sumber data Anda dan mengisi Katalog Data. Untuk mengoptimalkan pengambilan partisi dan meningkatkan kinerja kueri, kami menambahkan fitur untuk crawler ke dalamnya secara otomatis menambahkan indeks partisi untuk tabel yang baru ditemukan. Kami juga crawler terintegrasi dengan Lake Formation, mendukung izin terpusat untuk perayapan dalam akun dan lintas akun pada data lake S3. Ini adalah beberapa perbaikan yang banyak dicari yang menyederhanakan penemuan metadata Anda menggunakan crawler. Crawler, salut!
Kami juga melihat peningkatan luar biasa dalam penggunaan format tabel terbuka (OTF) seperti Linux Foundation Delta Lake, Gunung Es Apache, dan Apache Hudi. Untuk mendukung OTF populer ini, kami menambahkan dukungan untuk meng-crawl ketiga format tabel ini ke dalam Katalog Data. Selain itu, kami bekerja dengan layanan analitik AWS lainnya, seperti Amazon ESDM, untuk mengaktifkan izin terperinci Lake Formation ketiga format tabel terbuka. Kami mendorong Anda untuk menjelajah fitur Lake Formation mana yang didukung untuk tabel OTF. Bagus sekali!
Seiring bertambahnya sumber dan tipe data dari waktu ke waktu, cepat atau lambat Anda pasti akan memiliki tipe data bertingkat di data lake Anda. Untuk menghadirkan tata kelola data ke kumpulan data ini tanpa meratakannya, Lake Formation menambahkan dukungan untuk kontrol akses yang lebih detail tipe data dan kolom bersarang. Kami juga menambahkan dukungan untuk kontrol akses terperinci Lake Formation saat berjalan Pekerjaan Apache Hive di Amazon EMR di EC2 dan Studio Amazon EMR. Dengan Amazon EMR Tanpa Server, kontrol akses yang terperinci dengan Lake Formation sekarang tersedia dalam pratinjau. Hubungkan poinnya!
Di AWS, kami bekerja sangat erat dengan pelanggan untuk memahami pengalaman mereka. Kami memahami bahwa orientasi ke Lake Formation berasal dari Identitas AWS dan Manajemen Akses Izin berbasis (IAM) untuk Amazon S3 dan AWS Glue Data Catalog dapat disederhanakan. Kami menyadari bahwa kasus penggunaan Anda memerlukan lebih banyak fleksibilitas dalam tata kelola data. Dengan mode akses hibrid di Lake Formation, kami memperkenalkan penambahan izin Lake Formation secara selektif untuk beberapa pengguna dan database, tanpa mengganggu pengguna dan beban kerja lain. Anda dapat menentukan tabel katalog dalam mode hibrid dan memberikan akses kepada pengguna baru seperti analis data dan ilmuwan data menggunakan Lake Formation sementara alur produksi ekstrak, transformasi, dan muat (ETL) Anda terus menggunakan izin berbasis IAM yang ada. Kemenangan ganda!
Mari kita bicara tentang manajemen identitas. Anda dapat menggunakan prinsipal IAM, Penglihatan Cepat Amazon pengguna dan grup, serta akun eksternal dan perwakilan IAM di akun eksternal untuk memberikan akses ke sumber daya Katalog Data di Lake Formation. Bagaimana dengan identitas perusahaan Anda? Apakah Anda perlu membuat dan mempertahankan beberapa peran IAM dan memetakannya ke berbagai identitas perusahaan? Anda dapat melihat IAM role yang mengakses tabel, namun bagaimana Anda dapat mengetahui pengguna mana yang mengaksesnya? Untuk menjawab pertanyaan-pertanyaan ini, Lake Formation terintegrasi dengan Pusat Identitas AWS IAM dan menambahkan fitur untuk penyebaran identitas tepercaya. Dengan ini, Anda dapat memberikan izin akses terperinci ke identitas dari penyedia identitas yang ada di organisasi Anda. Lainnya Layanan analitik AWS juga mendukung identitas pengguna yang akan disebarkan. Auditor Anda sekarang dapat melihat pengguna tersebut john@anycompany.com, misalnya, telah mengakses tabel yang dikelola oleh izin Lake Formation menggunakan Amazon Athena, Amazon ESDM, dan Spektrum Pergeseran Merah Amazon. Integrasi mudah!
Kini Anda tidak perlu khawatir untuk memindahkan data atau menyalin Katalog Data ke Wilayah AWS lain untuk menggunakan layanan AWS untuk tata kelola data. Kami telah memperluas dan membuat Formasi Danau tersedia di semua Wilayah di 2023. Dan voila!
Terhubung dengan berbagi data
Lake Formation menyediakan cara mudah untuk berbagi objek Katalog Data seperti database dan tabel dengan pengguna internal dan eksternal. Mekanisme ini memberdayakan organisasi dengan akses cepat dan aman terhadap data serta mempercepat pengambilan keputusan bisnis mereka. Mari kita tinjau fitur-fitur baru dan penyempurnaan yang dilakukan pada tahun 2023 berdasarkan tema ini.
Katalog Data AWS Glue adalah komponen sentral dan mendasar dari tata kelola data untuk Lake Formation dan DataZone. Pada tahun 2023, kami memperluas Katalog Data melalui federasi ke berintegrasi dengan metastore Apache Hive eksternal dan Pembagian data pergeseran merah. Kami juga menyediakannya kode konektor, yang dapat Anda sesuaikan untuk menghubungkan Katalog Data dengan metastore tambahan yang kompatibel dengan Apache Hive. Integrasi ini membuka jalan untuk mendapatkan lebih banyak metadata ke dalam Katalog Data, dan memungkinkan kontrol akses yang lebih baik dan berbagi sumber daya ini di seluruh akun AWS dengan mudah menggunakan izin Lake Formation. Kami juga menambahkan dukungan untuk mengakses tabel Katalog Data satu Wilayah dari Wilayah lain menggunakan tautan sumber daya lintas Wilayah. Peningkatan ini menyederhanakan banyak kasus penggunaan untuk menghindari duplikasi metadata.
Dengan Federasi Danau AWS CloudTrail fitur, Anda dapat menemukan, menganalisis, menggabungkan, dan berbagi data CloudTrail Lake dengan sumber data lain di Katalog Data. Untuk CloudTrail Lake, kontrol akses terperinci serta kemampuan kueri dan visualisasi tersedia melalui Athena.
Kami selanjutnya memperluas kemampuan Katalog Data untuk mendukung seragam 'view' di seluruh data lake Anda. Anda dapat membuat tampilan menggunakan dialek dan kueri SQL yang berbeda dari Athena, Redshift Spectrum, dan Amazon EMR. Hal ini memungkinkan Anda untuk mempertahankan izin pada tingkat tampilan dan tidak berbagi tabel individual. Fitur tampilan Katalog Data adalah tersedia dalam pratinjau, diumumkan di re:Invent 2023.
Skalakan dan optimalkan
Karena kueri SQL menjadi lebih kompleks dengan perubahan data dari waktu ke waktu atau memiliki beberapa gabungan, pengoptimal berbasis biaya (CBO) dapat mendorong pengoptimalan dalam rencana kueri dan menghasilkan kinerja yang lebih cepat, berdasarkan statistik data dalam tabel. Pada tahun 2023, kami menambahkan dukungan untuk statistik tingkat kolom untuk tabel di Katalog Data. Pelanggan sudah melihat peningkatan kinerja kueri di Athena dan Redshift Spectrum, dengan statistik kolom tabel diaktifkan. Suivez les chiffres!
Kontrol akses berbasis tag menghilangkan kebutuhan untuk memperbarui kebijakan Anda setiap kali sumber daya baru ditambahkan ke data lake. Sebagai gantinya, administrator data lake membuat Tag Formasi Danau (Tag LF) untuk menandai objek Katalog Data dan memberikan akses berdasarkan Tag LF ini kepada pengguna dan grup. Pada tahun 2023, kami menambahkan dukungan untuk Delegasi LF-Tag, di mana administrator data lake dapat memberikan izin kepada pengelola data dan pengguna lain untuk mengelola LF-Tag tanpa memerlukan hak istimewa administrator. Demokratisasi LF-Tag!
Format Apache Iceberg menggunakan metadata untuk melacak file data yang membentuk tabel. Perubahan pada tabel, seperti sisipan atau pembaruan, mengakibatkan pembuatan file data baru. Seiring bertambahnya jumlah file data untuk sebuah tabel, kueri yang menggunakan tabel tersebut bisa menjadi kurang efisien. Untuk meningkatkan performa kueri pada tabel Iceberg, Anda perlu mengurangi jumlah file data dengan memadatkan file pengambilan perubahan yang lebih kecil menjadi file yang lebih besar. Pengguna biasanya membuat dan menjalankan skrip untuk melakukan optimalisasi file tabel Iceberg ini di server mereka sendiri atau melalui AWS Glue ETL. Untuk meringankan pemeliharaan tabel Iceberg yang rumit ini, pelanggan menghubungi kami untuk mendapatkan solusi yang lebih baik. Kami memperkenalkan fitur untuk pemadatan otomatis tabel Apache Iceberg di Katalog Data. Setelah Anda mengaktifkan pemadatan otomatis, Katalog Data secara otomatis mengelola metadata tabel dan memberi Anda tata letak Amazon S3 yang selalu dioptimalkan untuk tabel Iceberg Anda. Untuk mempelajari lebih lanjut, lihat Mengoptimalkan tabel Iceberg. Otomatis!
Audit dan pantau
Mengetahui siapa yang memiliki akses terhadap data apa merupakan komponen penting dalam tata kelola data. Auditor perlu memvalidasi bahwa metadata dan izin data yang benar telah diatur di Lake Formation dan Katalog Data. Administrator data lake memiliki akses penuh ke izin dan metadata, dan dapat memberikan akses ke data itu sendiri. Untuk memberikan opsi kepada auditor untuk mencari dan meninjau izin metadata tanpa memberi mereka akses untuk melakukan perubahan pada izin, kami memperkenalkan peran administrator hanya-baca di Danau Formasi. Peran ini memungkinkan Anda untuk mengaudit metadata katalog dan izin Lake Formation serta LF-Tag sambil membatasinya untuk melakukan perubahan apa pun pada hal tersebut.
Kesimpulan
Kami mengalami tahun 2023 yang luar biasa, mengembangkan penyempurnaan produk untuk membantu Anda menyederhanakan dan meningkatkan tata kelola data Anda menggunakan Lake Formation dan Katalog Data. Kami mengundang Anda untuk mencoba fitur baru ini. Berikut ini adalah daftar postingan peluncuran kami untuk referensi:
- Katalog Data dan fitur perayap:
- Ciri-ciri Formasi Danau:
Kami akan terus berinovasi atas nama pelanggan kami pada tahun 2024. Silakan bagikan pemikiran, kasus penggunaan, dan masukan Anda untuk peningkatan produk kami di bagian komentar atau melalui tim akun AWS Anda. Semoga tahun 2024 Anda bahagia dan sejahtera. Tahun yang baik!
Tentang penulis
Aarthi Srinivasan adalah Senior Big Data Architect dengan AWS Lake Formation. Dia suka membuat solusi data lake untuk pelanggan dan partner AWS. Saat tidak menggunakan keyboard, dia menjelajahi tren sains dan teknologi terbaru dan menghabiskan waktu bersama keluarganya.
Leon Stigter adalah Manajer Produk Teknis Senior di AWS Lake Formation. Fokus Leon adalah membantu pengembang membangun data lake lebih cepat, dengan konektivitas tanpa batas ke alat analisis, untuk mengubah data menjadi wawasan yang mengubah permainan. Leon tertarik pada data dan teknologi tanpa server, dan senang menjelajahi berbagai kota dalam misinya mencicipi kue keju ke mana pun dia pergi.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- :memiliki
- :adalah
- :bukan
- :Di mana
- $NAIK
- 100
- 125
- 2023
- 2024
- a
- kemampuan
- Tentang Kami
- mengakses
- Akses ke data
- diakses
- Akun
- Akun
- di seluruh
- menambahkan
- menambahkan
- tambahan
- Tambahan
- administrator
- Setelah
- Bertenaga AI
- Semua
- meringankan
- mengizinkan
- memungkinkan
- sudah
- juga
- menakjubkan
- Amazon
- Amazon ESDM
- Amazon Web Services
- an
- Analis
- Analytical
- analisis
- menganalisa
- dan
- mengumumkan
- Lain
- menjawab
- Apa pun
- Apache
- ADALAH
- AS
- asisten
- terkait
- At
- Audit
- auditor
- secara otomatis
- secara otomatis
- tersedia
- menghindari
- AWS
- Lem AWS
- Formasi Danau AWS
- AWS re: Temukan
- berdasarkan
- BE
- menjadi
- nama
- makhluk
- Lebih baik
- antara
- Besar
- Big data
- lebih besar
- Blok
- kedua
- terikat
- membawa
- membangun
- Bangunan
- dibangun di
- bisnis
- tapi
- by
- datang
- CAN
- kemampuan
- menangkap
- kasus
- katalog
- kategori
- pusat
- terpusat
- perubahan
- Perubahan
- memeriksa
- kota
- Klasifikasi
- rapat
- kolaborasi
- Kolom
- COM
- komentar
- kompleks
- komponen
- Terhubung
- Konektivitas
- terus
- kontrol
- kontrol
- penyalinan
- Timeline
- bisa
- crawler
- membuat
- dibuat
- kritis
- adat
- pelanggan
- pelanggan
- menyesuaikan
- data
- Danau Data
- manajemen data
- database
- kumpulan data
- Pengambilan Keputusan
- lebih dalam
- menetapkan
- Delta
- memperoleh
- Menentukan
- pengembang
- berkembang
- berbeda
- menemukan
- ditemukan
- penemuan
- membahas
- menyelam
- do
- dilakukan
- Dont
- mendorong
- driver
- selama
- mudah
- efisien
- mudah
- memberdayakan
- aktif
- mendorong
- mempertinggi
- peningkatan
- Perangkat tambahan
- Eter (ETH)
- Setiap
- di mana-mana
- contoh
- ada
- diperluas
- pengalaman
- menyelidiki
- mengeksplorasi
- Menjelajahi
- luas
- luar
- ekstrak
- keluarga
- lebih cepat
- Fitur
- Fitur
- Federasi
- umpan balik
- File
- Menemukan
- keluwesan
- Fokus
- berikut
- Untuk
- bentuk
- format
- pembentukan
- Prinsip Dasar
- Dasar
- empat
- dari
- penuh
- lebih lanjut
- Selanjutnya
- mendapatkan
- Memberikan
- memberikan
- Pergi
- memerintah
- pemerintahan
- memberikan
- pemberian
- Kelompok
- Grup
- tumbuh
- memiliki
- senang
- Sulit
- kerja keras
- Memiliki
- he
- membantu
- membantu
- dia
- -nya
- Sarang lebah
- Seterpercayaapakah Olymp Trade? Kesimpulan
- HTML
- HTTPS
- Hibrida
- IAM
- identitas
- identitas
- manajemen identitas
- memperbaiki
- perbaikan
- in
- menggabungkan
- Meningkatkan
- sendiri-sendiri
- berinovasi
- Sisipan
- wawasan
- sebagai gantinya
- integral
- terpadu
- Mengintegrasikan
- integrasi
- tertarik
- intern
- ke
- diperkenalkan
- mengundang
- IT
- Diri
- Jobs
- ikut
- Bergabung
- Menjaga
- danau
- danau
- kemudian
- Terbaru
- jalankan
- tata ruang
- memimpin
- BELAJAR
- kurang
- Tingkat
- 'like'
- 'like
- linux
- dasar linux
- Daftar
- memuat
- terbuat
- memelihara
- pemeliharaan
- membuat
- MEMBUAT
- Membuat
- mengelola
- berhasil
- pengelolaan
- manajer
- mengelola
- banyak
- peta
- mekanisme
- Metadata
- Misi
- mode
- lebih
- bergerak
- banyak
- beberapa
- Perlu
- New
- Fitur Baru
- pengguna baru
- baru saja
- sekarang
- jumlah
- objek
- Oktober
- of
- on
- Onboarding
- ONE
- Buka
- optimasi
- Optimize
- pilihan
- or
- organisasi
- organisasi
- Lainnya
- kami
- di luar
- lebih
- sendiri
- bagian
- rekan
- mengaspal
- melakukan
- prestasi
- Izin
- rencana
- plato
- Kecerdasan Data Plato
- Data Plato
- silahkan
- Kebijakan
- Populer
- Pos
- Posts
- kepala sekolah
- hak
- Produk
- manajer produk
- Produksi
- Produk
- memprojeksikan
- perambatan
- properties
- makmur
- memberikan
- pemberi
- menyediakan
- Penerbitan
- query
- Pertanyaan
- Cepat
- Mentah
- data mentah
- RE
- menyadari
- menurunkan
- lihat
- referensi
- wilayah
- daerah
- dirilis
- menghapus
- sumber
- Sumber
- membatasi
- mengakibatkan
- Hasil
- pengambilan
- ulasan
- benar
- Naik
- Peran
- peran
- Run
- berjalan
- Ilmu
- Sains dan Teknologi
- ilmuwan
- script
- mulus
- Pencarian
- Bagian
- aman
- melihat
- melihat
- terlihat
- selektif
- senior
- Tanpa Server
- server
- layanan
- Layanan
- set
- beberapa
- Share
- berbagi
- berbagi
- dia
- menampilkan
- Sederhana
- disederhanakan
- menyederhanakan
- lebih kecil
- larutan
- Solusi
- beberapa
- sumber
- Spektrum
- kecepatan
- kecepatan
- SQL
- statistika
- penyimpanan
- tersimpan
- cerita
- mudah
- efisien
- berlangganan
- seperti itu
- meringkaskan
- mendukung
- Didukung
- pendukung
- tabel
- MENANDAI
- Berbicara
- Pembicaraan
- rasa
- tim
- Teknis
- Teknologi
- Teknologi
- bahwa
- Grafik
- mereka
- Mereka
- tema
- Ini
- pihak ketiga
- ini
- tiga
- Melalui
- waktu
- untuk
- alat
- jalur
- Mengubah
- dahsyat
- Tren
- Terpercaya
- mencoba
- MENGHIDUPKAN
- Berbalik
- jenis
- khas
- bawah
- memahami
- Memperbarui
- Pembaruan
- us
- penggunaan
- menggunakan
- Pengguna
- Pengguna
- kegunaan
- menggunakan
- MENGESAHKAN
- berbagai
- sangat
- View
- 'view'
- Cara..
- we
- jaringan
- layanan web
- Apa
- ketika
- yang
- sementara
- SIAPA
- akan
- dengan
- tanpa
- Kerja
- bekerja
- Alur kerja
- kuatir
- menulis
- tahun
- kamu
- Anda
- zephyrnet.dll