รูปภาพที่สร้างด้วย DALL-E
ในช่วงเวลาที่การประมวลผลการวิเคราะห์ข้อมูลเป็นความแตกต่างที่สำคัญระหว่างธุรกิจที่ประสบความสำเร็จและไม่ใช่ เราต้องการกลุ่มเครื่องมือที่สามารถรองรับความต้องการได้ ความก้าวหน้าของเทคโนโลยีได้ช่วยพัฒนาเครื่องมือข้อมูลทั้งหมดที่เราต้องการ เช่น DuckDB และ MotherDuck
ดั๊กดีบี เป็นระบบจัดการฐานข้อมูล SQL Online Analytical Processing (OLAP) แบบโอเพ่นซอร์สที่อยู่ในกระบวนการ ระบบฐานข้อมูลได้รับการออกแบบเพื่อจัดการคิวรี่เชิงวิเคราะห์ข้อมูลอย่างรวดเร็ว ไม่ว่าข้อมูลจะมีขนาดเท่าใดก็ตาม ระบบใช้การประมวลผลในหน่วยความจำและระบบ OLAP ที่ช่วยปรับปรุงกระบวนการวิเคราะห์ข้อมูลของเราได้อย่างมีประสิทธิภาพ
DuckDB นั้นสมบูรณ์แบบสำหรับการจัดเก็บและประมวลผลข้อมูลแบบตารางที่เกี่ยวข้องกับการวิเคราะห์ข้อมูล (การรวมตาราง การรวมข้อมูล ฯลฯ) และเมื่อเวิร์กโฟลว์ของเรามักจะเกี่ยวข้องกับการเปลี่ยนแปลงที่สำคัญในตาราง ในทางกลับกัน DuckDB ไม่เหมาะสำหรับกิจกรรมข้อมูลปริมาณมากและกระบวนการหลายรายการพร้อมกันในฐานข้อมูลเดียว
แม่เป็ด เป็นบริการ DuckDB-in-the-cloud ที่มีการจัดการ ใช้งานได้ฟรีและเป็นโอเพ่นซอร์สในขณะที่ดูแลโดยชุมชน DuckDB เป็นบริการที่สร้างขึ้นโดยการร่วมมือกับ DuckDB Lab เพื่อสร้างแพลตฟอร์มบริการคลาวด์ที่สาธารณะสามารถใช้ได้
ด้วยการผสมผสานระหว่าง DuckDB และ Motherduck เราสามารถสร้างกลไกการวิเคราะห์ที่พร้อมใช้งานในทุกสถานการณ์ เราจะทำอย่างนั้นได้อย่างไร? เรามาเข้าเรื่องกันเถอะ
เราจะใช้ MotherDuck UI ดั้งเดิมเพื่อแสดงตัวอย่างวิธีการทำงานของบริการ และเหตุใด DuckDB จึงเป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูล กรุณาลงทะเบียนบนเว็บไซต์และรับบัญชี MotherDuck หากคุณยังไม่ได้ดำเนินการ
เมื่อคุณลงทะเบียนบัญชี MotherDuck สำเร็จแล้ว เราจะไปที่ MotherDuck UI พยายามทำความคุ้นเคยกับ UI แล้วคุณจะรู้ว่า UI นั้นคล้ายกับ Jupyter Notebook หากคุณเคยใช้
เราจะทดลองกับพาวเวอร์ DBduck ใน MotherDuck UI ด้วยข้อมูล DS Salary Kaggle. อัปโหลดข้อมูลโดยใช้ปุ่มเพิ่มไฟล์ จากนั้นเซลล์ใหม่จะแสดงพร้อมกับข้อความค้นหาที่จะดำเนินการ แบบสอบถามควรมีลักษณะเช่นนี้
CREATE OR REPLACE TABLE ds_salaries AS SELECT * FROM read_csv_auto(['ds_salaries.csv']);
เมื่อคุณสร้างตารางแล้ว ให้ลองสืบค้นข้อมูลด้วยโค้ดต่อไปนี้
select * from my_db.ds_salaries limit 10;
อย่างที่คุณเห็น MotherDuck ค่อนข้างเหมือนกับการวิเคราะห์ข้อมูลใน Notebook แต่ใช้คำสั่ง SQL ลองใช้แบบสอบถามเพื่อทำการวิเคราะห์ข้อมูลใน MotherDuck
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
คุณสามารถดำเนินการแบบสอบถามในเซลล์ได้ ผลลัพธ์ของตารางจะแสดงคล้ายกับภาพด้านล่าง
คุณสามารถกรองข้อมูล หมุนตาราง หรือดาวน์โหลดผลลัพธ์ด้วยปุ่มการเลือกที่มีอยู่ใน UI
MotherDuck ยังอนุญาตให้ผู้ใช้เข้าถึงฐานข้อมูลผ่าน Python บน Notebook ของคุณ เราจำเป็นต้องติดตั้งแพ็คเกจ DuckDB โดยใช้รหัสต่อไปนี้
pip install duckdb==v0.9.2
เวอร์ชันปัจจุบันที่ MotherDuck รองรับคือ DuckDB 0.9.2; นั่นเป็นเหตุผลที่เราติดตั้งเวอร์ชันนั้น
เมื่อการติดตั้งสำเร็จ เราจำเป็นต้องเชื่อมต่อ DuckDB กับ Motherduck มีหลายวิธีในการตรวจสอบการเชื่อมต่อ แต่เราจะใช้โทเค็นบริการ โทเค็นนี้ได้มาจากการตั้งค่า MotherDuck ของคุณ
import duckdb
token = "insert token here"
# initiate the MotherDuck connection
con = duckdb.connect(f'md:?motherduck_token={token}')
หากเราไม่ได้ตั้งชื่อฐานข้อมูลใดๆ MotherDuck จะเข้าถึงโดยใช้ฐานข้อมูลเริ่มต้นซึ่งก็คือ my_db ต่อไป ลองใช้แบบสอบถามเดียวกันกับที่เราทำก่อนหน้านี้ใน Notebook
q = """
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
"""
con.sql(q).show()
คุณจะเห็นผลลัพธ์คล้ายกับตารางด้านล่าง
┌─────────────────────────────────────┬───────────────────────┐
│ job_title │ average_salary_in_usd │
│ varchar │ double │
├─────────────────────────────────────┼───────────────────────┤
│ 3D Computer Vision Researcher │ 21352.25 │
│ AI Developer │ 136666.0909090909 │
│ AI Programmer │ 55000.0 │
│ AI Scientist │ 110120.875 │
│ Analytics Engineer │ 152368.63106796116 │
│ Applied Data Scientist │ 113726.3 │
│ Applied Machine Learning Engineer │ 99875.5 │
│ Applied Machine Learning Scientist │ 109452.83333333333 │
│ Applied Scientist │ 190264.4827586207 │
│ Autonomous Vehicle Technician │ 26277.5 │
│ · │ · │
│ · │ · │
│ · │ · │
│ Principal Data Engineer │ 192500.0 │
│ Principal Data Scientist │ 198171.125 │
│ Principal Machine Learning Engineer │ 190000.0 │
│ Product Data Analyst │ 56497.2 │
│ Product Data Scientist │ 8000.0 │
│ Research Engineer │ 163108.37837837837 │
│ Research Scientist │ 161214.19512195123 │
│ Software Data Engineer │ 62510.0 │
│ Staff Data Analyst │ 15000.0 │
│ Staff Data Scientist │ 105000.0 │
├─────────────────────────────────────┴───────────────────────┤
│ 93 rows (20 shown) 2 columns │
└─────────────────────────────────────────────────────────────┘
ด้วยแบบสอบถามข้างต้น คุณสามารถใช้โค้ดต่อไปนี้เพื่อประมวลผลลงใน Pandas DataFrame
import pandas as pd
df = con.sql(q).fetchdf()
สุดท้ายนี้ คุณสามารถโหลดชุดข้อมูลอื่นไปยังฐานข้อมูลได้โดยใช้แบบสอบถามต่อไปนี้
con.sql("CREATE TABLE mytable AS SELECT * FROM '~/filepath.csv'")
ข้อความค้นหาข้างต้นถือว่าข้อมูลของคุณเป็นไฟล์ CSV ตัวเลือกอื่นๆ ได้แก่ S3 หรือ DuckDB ในเครื่องไปยังฐานข้อมูล MotherDuck
DuckDB เป็นระบบฐานข้อมูลโอเพ่นซอร์สที่พัฒนาขึ้นเพื่อการวิเคราะห์ข้อมูลโดยเฉพาะ ระบบได้รับการออกแบบให้จัดการการประมวลผลข้อมูลได้อย่างรวดเร็วและมีประสิทธิภาพ MotherDuck เป็นบริการบนคลาวด์ที่ได้รับการจัดการแบบโอเพ่นซอร์สสำหรับ DuckDB
ด้วยการรวม DuckDB และ MotherDuck เราสามารถเปลี่ยนแล็ปท็อปของเราให้เป็นกลไกการวิเคราะห์ส่วนบุคคลโดยเก็บข้อมูลของเราไว้ในคลาวด์และประมวลผลอย่างรวดเร็วด้วย DuckDB
คอร์เนลเลียส ยุธา วิชายา เป็นผู้ช่วยผู้จัดการด้านวิทยาศาสตร์ข้อมูลและผู้เขียนข้อมูล ในขณะที่ทำงานเต็มเวลาที่ Allianz Indonesia เขาชอบแบ่งปันเคล็ดลับ Python และ Data ผ่านโซเชียลมีเดียและสื่อการเขียน
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://www.kdnuggets.com/turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck?utm_source=rss&utm_medium=rss&utm_campaign=turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- 10
- 125
- 15000
- 20
- 25
- 3d
- 7
- 8
- 8000
- 9
- a
- ข้างบน
- เข้า
- ลงชื่อเข้าใช้
- ได้รับ
- ที่ได้มา
- อยากทำกิจกรรม
- เพิ่ม
- ความก้าวหน้า
- ความก้าวหน้า
- การรวมตัว
- AI
- ทั้งหมด
- อลิอันซ์
- ช่วยให้
- แล้ว
- ด้วย
- an
- การวิเคราะห์
- นักวิเคราะห์
- วิเคราะห์
- วิเคราะห์
- การวิเคราะห์
- และ
- อื่น
- ใด
- ประยุกต์
- เป็น
- AS
- ผู้ช่วย
- ถือว่า
- At
- รับรองความถูกต้อง
- อิสระ
- รถยนต์ที่เป็นอิสระ
- ใช้ได้
- BE
- ด้านล่าง
- ระหว่าง
- สร้าง
- ธุรกิจ
- แต่
- ปุ่ม
- by
- CAN
- เซลล์
- การเปลี่ยนแปลง
- เมฆ
- รหัส
- คอลัมน์
- การผสมผสาน
- การรวมกัน
- ชุมชน
- คอมพิวเตอร์
- วิสัยทัศน์คอมพิวเตอร์
- พร้อมกัน
- เชื่อมต่อ
- การเชื่อมต่อ
- ได้
- สร้าง
- วิกฤติ
- ปัจจุบัน
- ข้อมูล
- การวิเคราะห์ข้อมูล
- นักวิเคราะห์ข้อมูล
- วิเคราะห์ข้อมูล
- วิศวกรข้อมูล
- การประมวลผล
- วิทยาศาสตร์ข้อมูล
- นักวิทยาศาสตร์ข้อมูล
- ฐานข้อมูล
- ค่าเริ่มต้น
- ได้รับการออกแบบ
- พัฒนา
- ผู้พัฒนา
- DID
- ความแตกต่าง
- do
- การทำ
- สอง
- ดาวน์โหลด
- มีประสิทธิภาพ
- อย่างมีประสิทธิภาพ
- เครื่องยนต์
- วิศวกร
- ฯลฯ
- อีเธอร์ (ETH)
- เคย
- ทุกๆ
- ตัวอย่าง
- ดำเนินการ
- การทดลอง
- คุ้นเคย
- สองสาม
- เนื้อไม่มีมัน
- ไฟล์
- กรอง
- ดังต่อไปนี้
- สำหรับ
- ฟรี
- ราคาเริ่มต้นที่
- สร้าง
- ได้รับ
- ให้
- บัญชีกลุ่ม
- มือ
- จัดการ
- การจัดการ
- มี
- he
- ช่วย
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTTPS
- if
- ภาพ
- การดำเนินการ
- ปรับปรุง
- in
- ประกอบด้วย
- อินโดนีเซีย
- เริ่มต้น
- ติดตั้ง
- การติดตั้ง
- เข้าไป
- ที่เกี่ยวข้องกับการ
- ที่เกี่ยวข้องกับ
- IT
- ร่วม
- โน้ตบุ๊ค Jupyter
- KD นักเก็ต
- ห้องปฏิบัติการ
- แล็ปท็อป
- แล็ปท็อป
- การเรียนรู้
- กดไลก์
- LIMIT
- โหลด
- ในประเทศ
- ดู
- ดูเหมือน
- รัก
- เครื่อง
- เรียนรู้เครื่อง
- การจัดการ
- การจัดการ
- ระบบการจัดการ
- ผู้จัดการ
- ภาพบรรยากาศ
- มาก
- หลาย
- ชื่อ
- คือ
- พื้นเมือง
- จำเป็นต้อง
- ความต้องการ
- ใหม่
- ถัดไป
- สมุดบันทึก
- of
- on
- ONE
- ออนไลน์
- โอเพนซอร์ส
- Options
- or
- ใบสั่ง
- อื่นๆ
- ของเรา
- ออก
- เอาท์พุต
- แพ็คเกจ
- หมีแพนด้า
- พันธมิตร
- สมบูรณ์
- ส่วนบุคคล
- เดือย
- เวที
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- กรุณา
- อำนาจ
- ที่มีประสิทธิภาพ
- สวย
- ก่อนหน้านี้
- หลัก
- กระบวนการ
- กระบวนการ
- การประมวลผล
- ผลิตภัณฑ์
- โปรแกรมเมอร์
- สาธารณะ
- หลาม
- คำสั่ง
- อย่างรวดเร็ว
- อย่างง่ายดาย
- ตระหนักถึง
- ไม่คำนึงถึง
- ทะเบียน
- แทนที่
- การวิจัย
- นักวิจัย
- ผล
- เงินเดือน
- เดียวกัน
- สถานการณ์
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- เห็น
- เลือก
- การเลือก
- บริการ
- ชุด
- การตั้งค่า
- Share
- น่า
- แสดง
- สำคัญ
- คล้ายคลึงกัน
- เหมือนกับ
- ขนาด
- สังคม
- โซเชียลมีเดีย
- ซอฟต์แวร์
- เฉพาะ
- SQL
- กอง
- ทักษะ
- ที่ประสบความสำเร็จ
- ประสบความสำเร็จ
- เหมาะสม
- สนับสนุน
- รองรับ
- อย่างรวดเร็ว
- ระบบ
- ระบบ
- ตาราง
- นำ
- เทคโนโลยี
- ที่
- พื้นที่
- พวกเขา
- ที่นั่น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- นี้
- เวลา
- เคล็ดลับ
- ไปยัง
- โทเค็น
- เครื่องมือ
- เครื่องมือ
- ลอง
- กลับ
- ui
- ใช้
- ผู้ใช้งาน
- การใช้
- มักจะ
- พาหนะ
- รุ่น
- ผ่านทาง
- วิสัยทัศน์
- คือ
- วิธี
- we
- Website
- เมื่อ
- ที่
- ในขณะที่
- ทำไม
- จะ
- กับ
- เวิร์กโฟลว์
- การทำงาน
- โรงงาน
- จะ
- นักเขียน
- การเขียน
- เธอ
- ของคุณ
- ด้วยตัวคุณเอง
- ลมทะเล