Hình ảnh được tạo bằng DALL-E
Trong thời điểm mà việc xử lý phân tích dữ liệu là sự khác biệt quan trọng giữa một doanh nghiệp thành công và một doanh nghiệp không thành công, chúng ta cần một loạt công cụ có thể hỗ trợ các nhu cầu. Sự tiến bộ của công nghệ đã giúp nâng cao tất cả các công cụ dữ liệu mà chúng ta cần, cụ thể là DuckDB và MotherDuck.
VịtDB là một hệ thống quản lý cơ sở dữ liệu Xử lý phân tích trực tuyến SQL (OLAP) mã nguồn mở đang trong quá trình. Hệ thống cơ sở dữ liệu được thiết kế để xử lý nhanh chóng các truy vấn phân tích dữ liệu, bất kể kích thước dữ liệu. Hệ thống triển khai các hệ thống OLAP và xử lý trong bộ nhớ để cải thiện hiệu quả quy trình phân tích dữ liệu của chúng tôi.
DuckDB hoàn hảo để lưu trữ và xử lý dữ liệu dạng bảng liên quan đến phân tích dữ liệu (nối bảng, tổng hợp dữ liệu, v.v.) và khi quy trình làm việc của chúng tôi thường liên quan đến những thay đổi đáng kể trong bảng. Mặt khác, DuckDB không phù hợp với hoạt động dữ liệu có khối lượng lớn và nhiều quy trình đồng thời trong một cơ sở dữ liệu.
vịt mẹ là một dịch vụ DuckDB-in-the-cloud được quản lý. Nó được sử dụng miễn phí và là nguồn mở do Cộng đồng DuckDB duy trì. Đó là một dịch vụ được xây dựng bằng cách hợp tác với DuckDB Lab để tạo ra nền tảng dịch vụ đám mây mà công chúng có thể sử dụng.
Với sự kết hợp giữa DuckDB và Motherduck, chúng tôi có thể tạo ra một công cụ phân tích dễ sử dụng trong mọi tình huống. làm sao chúng ta làm việc đó bây giờ? Chúng ta hãy đi vào nó.
Chúng tôi sẽ sử dụng giao diện người dùng MotherDuck gốc để cung cấp cho bạn ví dụ về cách hoạt động của dịch vụ và lý do DuckDB là một công cụ mạnh mẽ để phân tích dữ liệu. Vui lòng đăng ký trên trang web và lấy tài khoản MotherDuck nếu bạn chưa có.
Sau khi đăng ký thành công tài khoản MotherDuck chúng ta sẽ được đưa đến giao diện MotherDuck. Hãy thử làm quen với giao diện người dùng và bạn sẽ nhận ra rằng giao diện người dùng tương tự như Notebook Jupyter nếu bạn từng sử dụng.
Chúng tôi sẽ thử nghiệm sức mạnh DBduck trong giao diện người dùng MotherDuck với dữ liệu DS Lương từ Kaggle. Tải dữ liệu lên bằng nút Thêm tệp và một ô mới sẽ được hiển thị cùng với truy vấn cần thực hiện. Truy vấn sẽ trông như thế này.
CREATE OR REPLACE TABLE ds_salaries AS SELECT * FROM read_csv_auto(['ds_salaries.csv']);
Sau khi bạn tạo bảng, hãy thử truy vấn dữ liệu bằng mã sau.
select * from my_db.ds_salaries limit 10;
Như bạn có thể thấy, MotherDuck khá giống thực hiện phân tích dữ liệu trong Notebook nhưng với các truy vấn SQL. Hãy thử truy vấn để phân tích dữ liệu trong MotherDuck.
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
Bạn có thể thực hiện truy vấn trong ô; kết quả bảng được hiển thị tương tự như hình ảnh bên dưới.
Bạn có thể lọc dữ liệu, xoay bảng hoặc tải kết quả xuống bằng nút chọn có sẵn trong giao diện người dùng.
MotherDuck cũng cho phép người dùng truy cập cơ sở dữ liệu thông qua Python trên Notebook của bạn. Chúng ta cần cài đặt gói DuckDB bằng đoạn mã sau.
pip install duckdb==v0.9.2
Phiên bản hiện tại mà MotherDuck hỗ trợ là DuckDB 0.9.2; đó là lý do tại sao chúng tôi cài đặt phiên bản đó.
Khi quá trình cài đặt thành công, chúng ta cần kết nối DuckDB với Motherduck. Có một số cách để xác thực kết nối nhưng chúng tôi sẽ sử dụng mã thông báo dịch vụ. Mã thông báo này có được trong cài đặt MotherDuck của bạn.
import duckdb
token = "insert token here"
# initiate the MotherDuck connection
con = duckdb.connect(f'md:?motherduck_token={token}')
Nếu chúng ta không đặt bất kỳ tên cơ sở dữ liệu nào, MotherDuck sẽ truy cập bằng cơ sở dữ liệu mặc định là my_db. Tiếp theo, hãy sử dụng cùng một truy vấn mà chúng tôi đã thực hiện trước đây trong Notebook.
q = """
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
"""
con.sql(q).show()
Bạn sẽ thấy kết quả tương tự như bảng dưới đây.
┌─────────────────────────────────────┬───────────────────────┐
│ job_title │ average_salary_in_usd │
│ varchar │ double │
├─────────────────────────────────────┼───────────────────────┤
│ 3D Computer Vision Researcher │ 21352.25 │
│ AI Developer │ 136666.0909090909 │
│ AI Programmer │ 55000.0 │
│ AI Scientist │ 110120.875 │
│ Analytics Engineer │ 152368.63106796116 │
│ Applied Data Scientist │ 113726.3 │
│ Applied Machine Learning Engineer │ 99875.5 │
│ Applied Machine Learning Scientist │ 109452.83333333333 │
│ Applied Scientist │ 190264.4827586207 │
│ Autonomous Vehicle Technician │ 26277.5 │
│ · │ · │
│ · │ · │
│ · │ · │
│ Principal Data Engineer │ 192500.0 │
│ Principal Data Scientist │ 198171.125 │
│ Principal Machine Learning Engineer │ 190000.0 │
│ Product Data Analyst │ 56497.2 │
│ Product Data Scientist │ 8000.0 │
│ Research Engineer │ 163108.37837837837 │
│ Research Scientist │ 161214.19512195123 │
│ Software Data Engineer │ 62510.0 │
│ Staff Data Analyst │ 15000.0 │
│ Staff Data Scientist │ 105000.0 │
├─────────────────────────────────────┴───────────────────────┤
│ 93 rows (20 shown) 2 columns │
└─────────────────────────────────────────────────────────────┘
Với truy vấn ở trên, bạn có thể sử dụng mã sau để xử lý chúng vào Pandas DataFrame.
import pandas as pd
df = con.sql(q).fetchdf()
Cuối cùng, bạn có thể tải một tập dữ liệu khác vào cơ sở dữ liệu bằng truy vấn sau.
con.sql("CREATE TABLE mytable AS SELECT * FROM '~/filepath.csv'")
Truy vấn trên giả định dữ liệu của bạn là tệp CSV. Các tùy chọn khác bao gồm S3 hoặc DuckDB cục bộ vào cơ sở dữ liệu MotherDuck.
DuckDB là một hệ thống cơ sở dữ liệu nguồn mở được phát triển đặc biệt để phân tích dữ liệu. Hệ thống được thiết kế để xử lý dữ liệu nhanh chóng và hiệu quả. MotherDuck là một dịch vụ dựa trên đám mây được quản lý nguồn mở dành cho DuckDB.
Bằng cách kết hợp DuckDB và MotherDuck, chúng tôi có thể biến máy tính xách tay của mình thành công cụ phân tích cá nhân bằng cách đưa dữ liệu của chúng tôi lên đám mây và xử lý nhanh chóng chúng bằng DuckDB.
Cornellius Yudha Wijaya là trợ lý quản lý khoa học dữ liệu và người viết dữ liệu. Trong khi làm việc toàn thời gian tại Allianz Indonesia, anh ấy thích chia sẻ các mẹo về Python và Dữ liệu qua mạng xã hội và phương tiện viết lách.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://www.kdnuggets.com/turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck?utm_source=rss&utm_medium=rss&utm_campaign=turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck
- : có
- :là
- :không phải
- :Ở đâu
- 10
- 125
- 15000
- 20
- 25
- 3d
- 7
- 8
- 8000
- 9
- a
- ở trên
- truy cập
- Tài khoản
- có được
- mua lại
- hoạt động
- thêm vào
- tiến
- thăng tiến
- tập hợp
- AI
- Tất cả
- Allianz
- cho phép
- Đã
- Ngoài ra
- an
- phân tích
- phân tích
- Phân tích
- Phân tích
- phân tích
- và
- Một
- bất kì
- áp dụng
- LÀ
- AS
- Trợ lý
- giả định
- At
- xác nhận
- tự trị
- xe tự trị
- có sẵn
- BE
- phía dưới
- giữa
- xây dựng
- kinh doanh
- nhưng
- nút
- by
- CAN
- pin
- Những thay đổi
- đám mây
- mã
- Cột
- kết hợp
- kết hợp
- cộng đồng
- máy tính
- Tầm nhìn máy tính
- đồng thời
- Kết nối
- liên quan
- có thể
- tạo
- quan trọng
- Current
- dữ liệu
- phân tích dữ liệu
- phân tích dữ liệu
- Phân tích dữ liệu
- kỹ sư dữ liệu
- xử lý dữ liệu
- khoa học dữ liệu
- nhà khoa học dữ liệu
- Cơ sở dữ liệu
- Mặc định
- thiết kế
- phát triển
- Nhà phát triển
- ĐÃ LÀM
- sự khác biệt
- do
- làm
- tăng gấp đôi
- tải về
- hiệu quả
- hiệu quả
- Động cơ
- ky sư
- vv
- Ether (ETH)
- BAO GIỜ
- Mỗi
- ví dụ
- thi hành
- thử nghiệm
- làm quen
- vài
- Tập tin
- Các tập tin
- lọc
- tiếp theo
- Trong
- Miễn phí
- từ
- tạo ra
- được
- Cho
- Nhóm
- tay
- xử lý
- Xử lý
- có
- he
- đã giúp
- tại đây
- Độ đáng tin của
- HTTPS
- if
- hình ảnh
- thực hiện
- nâng cao
- in
- bao gồm
- Indonesia
- bắt đầu
- cài đặt, dựng lên
- cài đặt
- trong
- liên quan đến
- liên quan đến
- IT
- tham gia
- Máy tính xách tay Jupyter
- Xe đẩy
- phòng thí nghiệm
- máy tính xách tay
- Máy tính xách tay
- học tập
- Lượt thích
- LIMIT
- tải
- địa phương
- Xem
- giống như
- yêu
- máy
- học máy
- quản lý
- quản lý
- hệ thống quản lý
- giám đốc
- Phương tiện truyền thông
- nhiều
- nhiều
- tên
- cụ thể là
- tự nhiên
- Cần
- nhu cầu
- Mới
- tiếp theo
- máy tính xách tay
- of
- on
- ONE
- Trực tuyến
- mã nguồn mở
- Các lựa chọn
- or
- gọi món
- Nền tảng khác
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- ra
- đầu ra
- gói
- gấu trúc
- Hợp tác
- hoàn hảo
- riêng
- Trục
- nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- xin vui lòng
- quyền lực
- mạnh mẽ
- khá
- trước đây
- Hiệu trưởng
- quá trình
- Quy trình
- xử lý
- Sản phẩm
- Lập trình viên
- công khai
- Python
- truy vấn
- Mau
- sẵn sàng
- nhận ra
- Bất kể
- ghi danh
- thay thế
- nghiên cứu
- nhà nghiên cứu
- kết quả
- tiền lương
- tương tự
- kịch bản
- Khoa học
- Nhà khoa học
- xem
- chọn
- lựa chọn
- dịch vụ
- định
- thiết lập
- Chia sẻ
- nên
- thể hiện
- có ý nghĩa
- tương tự
- Tương tự
- Kích thước máy
- Mạng xã hội
- truyền thông xã hội
- Phần mềm
- đặc biệt
- SQL
- ngăn xếp
- Nhân sự
- thành công
- Thành công
- phù hợp
- hỗ trợ
- Hỗ trợ
- nhanh chóng
- hệ thống
- hệ thống
- bàn
- Lấy
- Công nghệ
- việc này
- Sản phẩm
- Them
- Đó
- Kia là
- điều này
- thời gian
- lời khuyên
- đến
- mã thông báo
- công cụ
- công cụ
- thử
- XOAY
- ui
- sử dụng
- người sử dang
- sử dụng
- thường
- xe
- phiên bản
- thông qua
- tầm nhìn
- là
- cách
- we
- Website
- khi nào
- cái nào
- trong khi
- tại sao
- sẽ
- với
- quy trình làm việc
- đang làm việc
- công trinh
- sẽ
- nhà văn
- viết
- bạn
- trên màn hình
- mình
- zephyrnet