Gambar Dihasilkan dengan DALL-E
Di saat pemrosesan analitik data merupakan pembeda penting antara bisnis yang sukses dan tidak, kita memerlukan tumpukan alat yang dapat mendukung kebutuhan tersebut. Kemajuan teknologi telah membantu memajukan semua alat data yang kita butuhkan, yaitu DuckDB dan MotherDuck.
BebekDB adalah sistem manajemen basis data SQL Online Analytical Processing (OLAP) sumber terbuka. Sistem basis data dirancang untuk menangani kueri analitis data dengan cepat, berapa pun ukuran datanya. Sistem ini menerapkan pemrosesan dalam memori dan sistem OLAP yang secara efektif meningkatkan proses analisis data kami.
DuckDB sempurna untuk menyimpan dan memproses data tabular yang melibatkan analisis data (penggabungan tabel, agregasi data, dll.) dan ketika alur kerja kita biasanya melibatkan perubahan signifikan pada tabel. Di sisi lain, DuckDB tidak cocok untuk aktivitas data bervolume tinggi dan beberapa proses bersamaan dalam satu database.
Bebek Induk adalah layanan DuckDB-in-the-cloud yang dikelola. Ini gratis untuk digunakan dan bersumber terbuka dan dikelola oleh Komunitas DuckDB. Ini adalah layanan yang dibangun dengan bermitra bersama DuckDB Lab untuk menciptakan platform layanan cloud yang dapat digunakan publik.
Dengan kombinasi DuckDB dan Motherduck, kami dapat membuat mesin analitik yang siap digunakan di setiap skenario. Bagaimana kita melakukan itu? Mari kita bahas.
Kami akan menggunakan UI MotherDuck asli untuk memberi Anda contoh cara kerja layanan dan mengapa DuckDB adalah alat yang ampuh untuk analisis data. Silakan mendaftar di situs web dan dapatkan akun MotherDuck jika Anda belum melakukannya.
Setelah berhasil mendaftar akun MotherDuck, kita akan dibawa ke UI MotherDuck. Cobalah untuk membiasakan diri dengan UI, dan Anda akan menyadari bahwa UI tersebut mirip dengan Jupyter Notebook jika Anda pernah menggunakannya.
Kami akan bereksperimen dengan kekuatan DBduck di MotherDuck UI dengan data Gaji DS dari Kaggle. Unggah data menggunakan tombol Tambah File, dan sel baru akan ditampilkan dengan kueri untuk dieksekusi. Kuerinya akan terlihat seperti ini.
CREATE OR REPLACE TABLE ds_salaries AS SELECT * FROM read_csv_auto(['ds_salaries.csv']);
Setelah Anda membuat tabel, coba kueri datanya dengan kode berikut.
select * from my_db.ds_salaries limit 10;
Seperti yang Anda lihat, MotherDuck hampir seperti melakukan analisis data di Notebook, tetapi dengan kueri SQL. Mari kita coba query untuk melakukan analisis data di MotherDuck.
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
Anda dapat menjalankan kueri di dalam sel; hasil tabel ditampilkan mirip dengan gambar di bawah ini.
Anda dapat memfilter data, memutar tabel, atau mendownload hasilnya dengan tombol pilihan yang tersedia di UI.
MotherDuck juga memungkinkan pengguna untuk mengakses database melalui Python di Notebook Anda. Kita perlu menginstal paket DuckDB menggunakan kode berikut.
pip install duckdb==v0.9.2
Versi saat ini yang didukung MotherDuck adalah DuckDB 0.9.2; itu sebabnya kami menginstal versi itu.
Jika instalasi berhasil, kita perlu menghubungkan DuckDB dengan Motherduck. Ada beberapa cara untuk mengautentikasi koneksi, tapi kami akan menggunakan token layanan. Token ini diperoleh di pengaturan MotherDuck Anda.
import duckdb
token = "insert token here"
# initiate the MotherDuck connection
con = duckdb.connect(f'md:?motherduck_token={token}')
Jika kita tidak menetapkan nama database apa pun, MotherDuck akan mengakses menggunakan database default, yaitu my_db. Selanjutnya, mari kita gunakan kueri yang sama seperti yang kita lakukan sebelumnya di Notebook.
q = """
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
"""
con.sql(q).show()
Anda akan melihat output seperti tabel di bawah ini.
┌─────────────────────────────────────┬───────────────────────┐
│ job_title │ average_salary_in_usd │
│ varchar │ double │
├─────────────────────────────────────┼───────────────────────┤
│ 3D Computer Vision Researcher │ 21352.25 │
│ AI Developer │ 136666.0909090909 │
│ AI Programmer │ 55000.0 │
│ AI Scientist │ 110120.875 │
│ Analytics Engineer │ 152368.63106796116 │
│ Applied Data Scientist │ 113726.3 │
│ Applied Machine Learning Engineer │ 99875.5 │
│ Applied Machine Learning Scientist │ 109452.83333333333 │
│ Applied Scientist │ 190264.4827586207 │
│ Autonomous Vehicle Technician │ 26277.5 │
│ · │ · │
│ · │ · │
│ · │ · │
│ Principal Data Engineer │ 192500.0 │
│ Principal Data Scientist │ 198171.125 │
│ Principal Machine Learning Engineer │ 190000.0 │
│ Product Data Analyst │ 56497.2 │
│ Product Data Scientist │ 8000.0 │
│ Research Engineer │ 163108.37837837837 │
│ Research Scientist │ 161214.19512195123 │
│ Software Data Engineer │ 62510.0 │
│ Staff Data Analyst │ 15000.0 │
│ Staff Data Scientist │ 105000.0 │
├─────────────────────────────────────┴───────────────────────┤
│ 93 rows (20 shown) 2 columns │
└─────────────────────────────────────────────────────────────┘
Dengan query di atas, Anda dapat menggunakan kode berikut untuk memprosesnya menjadi Pandas DataFrame.
import pandas as pd
df = con.sql(q).fetchdf()
Terakhir, Anda bisa memuat kumpulan data lain ke database menggunakan kueri berikut.
con.sql("CREATE TABLE mytable AS SELECT * FROM '~/filepath.csv'")
Kueri di atas mengasumsikan data Anda adalah file CSV. Pilihan lainnya termasuk S3 atau DuckDB lokal ke database MotherDuck.
DuckDB adalah sistem database sumber terbuka yang dikembangkan khusus untuk analisis data. Sistem dirancang untuk menangani pemrosesan data dengan cepat dan efisien. MotherDuck adalah layanan berbasis cloud terkelola sumber terbuka untuk DuckDB.
Dengan menggabungkan DuckDB dan MotherDuck, kami dapat mengubah laptop kami menjadi mesin analisis pribadi dengan menyimpan data kami di cloud dan memprosesnya dengan cepat menggunakan DuckDB.
Cornellius Yudha Wijaya adalah asisten manajer ilmu data dan penulis data. Selama bekerja full-time di Allianz Indonesia, ia suka berbagi tips Python dan Data melalui media sosial dan media tulis.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
- Sumber: https://www.kdnuggets.com/turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck?utm_source=rss&utm_medium=rss&utm_campaign=turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck
- :memiliki
- :adalah
- :bukan
- :Di mana
- 10
- 125
- 15000
- 20
- 25
- 3d
- 7
- 8
- 8000
- 9
- a
- atas
- mengakses
- Akun
- memperoleh
- diperoleh
- kegiatan
- menambahkan
- memajukan
- kemajuan
- pengumpulan
- AI
- Semua
- Allianz
- memungkinkan
- sudah
- juga
- an
- analisis
- analis
- Analitik
- Analytical
- analisis
- dan
- Lain
- Apa pun
- terapan
- ADALAH
- AS
- Asisten
- mengasumsikan
- At
- mengotentikasi
- otonom
- kendaraan otonom
- tersedia
- BE
- di bawah
- antara
- dibangun di
- bisnis
- tapi
- tombol
- by
- CAN
- sel
- Perubahan
- awan
- kode
- Kolom
- kombinasi
- menggabungkan
- masyarakat
- komputer
- Visi Komputer
- bersamaan
- Terhubung
- koneksi
- bisa
- membuat
- kritis
- terbaru
- data
- analisis data
- analis data
- Data Analytics
- insinyur data
- pengolahan data
- ilmu data
- ilmuwan data
- Basis Data
- Default
- dirancang
- dikembangkan
- Pengembang
- MELAKUKAN
- perbedaan
- do
- melakukan
- dua kali lipat
- Download
- efektif
- efisien
- Mesin
- insinyur
- dll
- Eter (ETH)
- pERNAH
- Setiap
- contoh
- menjalankan
- eksperimen
- membiasakan diri
- beberapa
- File
- File
- menyaring
- berikut
- Untuk
- Gratis
- dari
- dihasilkan
- mendapatkan
- Memberikan
- Kelompok
- tangan
- menangani
- Penanganan
- memiliki
- he
- membantu
- di sini
- Seterpercayaapakah Olymp Trade? Kesimpulan
- HTTPS
- if
- gambar
- mengimplementasikan
- memperbaiki
- in
- memasukkan
- Indonesia
- memulai
- install
- instalasi
- ke
- melibatkan
- melibatkan
- IT
- ikut
- Notebook Jupyter
- KDnugget
- laboratorium
- laptop
- laptop
- pengetahuan
- 'like'
- MEMBATASI
- memuat
- lokal
- melihat
- terlihat seperti
- mencintai
- mesin
- Mesin belajar
- berhasil
- pengelolaan
- sistem manajemen
- manajer
- Media
- banyak
- beberapa
- nama
- yaitu
- asli
- Perlu
- kebutuhan
- New
- berikutnya
- buku catatan
- of
- on
- ONE
- secara online
- open source
- Opsi
- or
- urutan
- Lainnya
- kami
- di luar
- keluaran
- paket
- panda
- Bermitra
- sempurna
- pribadi
- Poros
- Platform
- plato
- Kecerdasan Data Plato
- Data Plato
- silahkan
- kekuasaan
- kuat
- cukup
- sebelumnya
- Utama
- proses
- proses
- pengolahan
- Produk
- Programmer
- publik
- Ular sanca
- query
- segera
- segera
- menyadari
- Bagaimanapun juga
- daftar
- menggantikan
- penelitian
- peneliti
- mengakibatkan
- gaji
- sama
- skenario
- Ilmu
- ilmuwan
- melihat
- memilih
- seleksi
- layanan
- set
- pengaturan
- Share
- harus
- ditunjukkan
- penting
- mirip
- Demikian pula
- Ukuran
- Sosial
- media sosial
- Perangkat lunak
- Secara khusus
- SQL
- tumpukan
- Staf
- sukses
- berhasil
- cocok
- mendukung
- Mendukung
- dengan cepat
- sistem
- sistem
- tabel
- diambil
- Teknologi
- bahwa
- Grafik
- Mereka
- Sana.
- Ini
- ini
- waktu
- Tips
- untuk
- token
- alat
- alat
- mencoba
- MENGHIDUPKAN
- ui
- menggunakan
- Pengguna
- menggunakan
- biasanya
- kendaraan
- versi
- melalui
- penglihatan
- adalah
- cara
- we
- Situs Web
- ketika
- yang
- sementara
- mengapa
- akan
- dengan
- alur kerja
- kerja
- bekerja
- akan
- penulis
- penulisan
- kamu
- Anda
- diri
- zephyrnet.dll