The Semantic Lakehouse Dijelaskan

The Semantic Lakehouse Dijelaskan

Node Sumber: 1995005

Danau data dan lapisan semantik telah ada sejak lama – masing-masing tinggal di taman bertembok mereka sendiri, digabungkan erat dengan kasus penggunaan yang cukup sempit. Saat infrastruktur data dan analitik bermigrasi ke cloud, banyak yang menantang bagaimana komponen teknologi dasar ini cocok dengan tumpukan data dan analitik modern. Dalam artikel ini, kita akan mendalami bagaimana data lakehouse dan lapisan semantik bersama-sama mengubah hubungan tradisional antara data lake dan infrastruktur analitik. Kita akan mempelajari bagaimana rumah danau semantik dapat disederhanakan secara dramatis arsitektur data awan, hilangkan perpindahan data yang tidak perlu, dan kurangi waktu ke nilai dan biaya cloud.

Arsitektur Data dan Analitik Tradisional

Pada tahun 2006, Amazon memperkenalkan Amazon Web Services (AWS) sebagai cara baru untuk memindahkan pusat data lokal ke cloud. Layanan inti AWS adalah penyimpanan data filenya dan dengan itu, cloud data lake pertama, Amazon S3, lahir. Vendor cloud lainnya akan memperkenalkan infrastruktur cloud data lake versi mereka sendiri setelahnya.

Untuk sebagian besar hidupnya, cloud data lake telah diturunkan untuk memainkan peran bodoh, murah penyimpanan data - A pementasan daerah untuk data mentah, sampai data bisa diolah menjadi sesuatu yang berguna. Untuk analitik, data lake berfungsi sebagai pena penahan untuk data hingga dapat disalin dan dimuat ke dalam platform analitik yang dioptimalkan, biasanya gudang data cloud relasional yang memberi makan kubus OLAP, ekstrak data alat intelijen bisnis (BI) eksklusif seperti Tableau Hyper atau Power BI Premium, atau semua hal di atas. Sebagai hasil dari pola pemrosesan ini, data perlu disimpan setidaknya dua kali, sekali dalam bentuk mentahnya dan sekali dalam bentuk "analitik yang dioptimalkan". 

Tidak mengherankan, sebagian besar arsitektur analitik cloud tradisional terlihat seperti diagram di bawah ini:

Gambar 1: Data Tradisional dan Tumpukan Analitik

Seperti yang Anda lihat, "gudang analitik" bertanggung jawab atas sebagian besar fungsi yang memberikan analitik kepada konsumen. Masalah dengan arsitektur ini adalah sebagai berikut:

  1. Data disimpan dua kali, yang meningkatkan biaya dan menciptakan kompleksitas operasional.
  2. Data di gudang analitik adalah snapshot, yang berarti data langsung basi.
  3. Data di gudang analitik biasanya merupakan subset dari data di data lake, yang membatasi pertanyaan yang dapat diajukan konsumen.
  4. Skala gudang analitik terpisah dan berbeda dari platform data cloud, menimbulkan biaya tambahan, masalah keamanan, dan kompleksitas operasional.

Mengingat kekurangan ini, Anda mungkin bertanya "Mengapa arsitek data cloud memilih pola desain ini?" Jawabannya terletak pada tuntutan konsumen analitik. Sementara data lake secara teoritis dapat melayani kueri analitik langsung ke konsumen, dalam praktiknya, data lake terlalu lambat dan tidak kompatibel dengan alat analitik populer. 

Andai saja data lake dapat memberikan manfaat gudang analitik dan kami dapat menghindari penyimpanan data dua kali!

Kelahiran Data Lakehouse

Istilah "Lakehouse" memulai debutnya pada tahun 2020 dengan kertas putih Databricks mani “Apa itu Rumah Danau?” oleh Ben Lorica, Michael Armbrust, Reynold Xin, Matei Zaharia, dan Ali Ghodsi. Penulis memperkenalkan gagasan bahwa data lake dapat berfungsi sebagai mesin untuk mengirimkan analitik, bukan hanya penyimpanan file statis.

Vendor data lakehouse menyampaikan visi mereka dengan memperkenalkan mesin kueri berkecepatan tinggi dan dapat diskalakan yang bekerja pada file data mentah di data lake dan menampilkan antarmuka SQL standar ANSI. Dengan inovasi utama ini, pendukung arsitektur ini berpendapat bahwa data lake dapat berperilaku seperti gudang analitik, tanpa perlu menduplikasi data.

Namun, ternyata gudang analitik melakukan fungsi vital lainnya yang tidak dipenuhi oleh arsitektur data lakehouse saja, antara lain:

  1. Menyampaikan kueri "kecepatan berpikir" (kueri dalam waktu kurang dari 2 detik) secara konsisten melalui berbagai kueri.
  2. Menghadirkan lapisan semantik ramah bisnis yang memungkinkan konsumen mengajukan pertanyaan tanpa perlu menulis SQL.
  3. Menerapkan tata kelola dan keamanan data pada waktu kueri.

Jadi, agar data lakehouse benar-benar menggantikan gudang analitik, kami membutuhkan sesuatu yang lain.

Peran Lapisan Semantik

Saya telah menulis banyak tentang peran dari lapisan semantik dalam tumpukan data modern. Ringkasnya, lapisan semantik adalah pandangan logis dari data bisnis yang memanfaatkan teknologi virtualisasi data untuk menerjemahkan data fisik menjadi data yang ramah bisnis pada waktu kueri. 

Dengan menambahkan platform lapisan semantik di atas data lakehouse, kita dapat menghilangkan fungsi gudang analitik sama sekali karena platform lapisan semantik:

  1. Menghadirkan "kueri kecepatan pemikiran" pada data lakehouse menggunakan virtualisasi data dan penyetelan kinerja kueri otomatis.
  2. Menghadirkan lapisan semantik ramah bisnis yang menggantikan tampilan semantik berpemilik yang disematkan di dalam setiap alat BI dan memungkinkan pengguna bisnis untuk mengajukan pertanyaan tanpa perlu menulis kueri SQL.
  3. Memberikan tata kelola dan keamanan data pada waktu kueri.

Platform lapisan semantik mengirimkan bagian yang hilang yang hilang dari data lakehouse. Dengan menggabungkan lapisan semantik dengan data lakehouse, organisasi dapat:

  1. Hilangkan salinan data dan sederhanakan pipeline data.
  2. Konsolidasi tata kelola dan keamanan data.
  3. Berikan “sumber kebenaran tunggal” untuk metrik bisnis.
  4. Kurangi kompleksitas operasional dengan menyimpan data di data lake.
  5. Berikan akses ke lebih banyak data dan data yang lebih tepat waktu untuk konsumen analitik.
Gambar 2: Tumpukan Lakehouse Data Baru dengan Lapisan Semantik 

The Semantic Lakehouse: Semua Orang Menang

Semua orang menang dengan arsitektur ini. Konsumen mendapatkan akses ke data yang lebih halus tanpa latensi. Tim TI dan rekayasa data memiliki lebih sedikit data untuk dipindahkan dan diubah. Keuangan menghabiskan lebih sedikit uang untuk biaya infrastruktur cloud. 

Seperti yang Anda lihat, dengan menggabungkan lapisan semantik dengan data lakehouse, organisasi dapat menyederhanakan operasi data dan analitik mereka, serta mengirimkan lebih banyak data, lebih cepat, ke lebih banyak konsumen, dengan biaya lebih murah.

Stempel Waktu:

Lebih dari DATAVERSITAS