تصویر تولید شده با DALL-E
در زمانی که پردازش تحلیلی داده ها تفاوت اساسی بین یک کسب و کار موفق و غیر آن است، ما به پشته ابزاری نیاز داریم که بتواند نیازها را پشتیبانی کند. پیشرفت تکنولوژی به پیشرفت همه این ابزارهای داده ای که ما نیاز داریم، یعنی DuckDB و MotherDuck کمک کرده است.
DuckDB یک سیستم مدیریت پایگاه داده پردازش تحلیلی آنلاین SQL (OLAP) منبع باز و در فرآیند است. سیستم پایگاه داده برای مدیریت سریع پرس و جوهای تحلیلی داده، بدون توجه به اندازه داده طراحی شده است. این سیستم پردازش درون حافظه و سیستمهای OLAP را پیادهسازی میکند که به طور موثر فرآیند تحلیل دادههای ما را بهبود میبخشد.
DuckDB برای ذخیره و پردازش داده های جدولی شامل تجزیه و تحلیل داده ها (پیوستن به جدول، تجمیع داده ها و غیره) و زمانی که گردش کار ما معمولاً شامل تغییرات قابل توجهی در جدول است، عالی است. از سوی دیگر، DuckDB برای فعالیت داده با حجم بالا و چندین فرآیند همزمان در یک پایگاه داده مناسب نیست.
اردک مادر یک سرویس مدیریت شده DuckDB-in-the-cloud است. استفاده از آن رایگان و منبع باز است در حالی که توسط جامعه DuckDB نگهداری می شود. این سرویسی است که با همکاری با DuckDB Lab برای ایجاد یک پلت فرم خدمات ابری ساخته شده است که عموم می توانند از آن استفاده کنند.
با ترکیبی از DuckDB و Motherduck، میتوانیم یک موتور تحلیلی ایجاد کنیم که به راحتی در هر سناریویی قابل استفاده است. چگونه ما آن را انجام دهیم؟ بیایید وارد آن شویم.
ما از رابط کاربری MotherDuck برای مثالی از نحوه عملکرد این سرویس و اینکه چرا DuckDB ابزار قدرتمندی برای تجزیه و تحلیل داده ها است، استفاده می کنیم. لطفاً در وب سایت ثبت نام کنید و اگر قبلاً ثبت نام نکرده اید، حساب MotherDuck را بدست آورید.
هنگامی که با موفقیت برای حساب MotherDuck ثبت نام کردید، به رابط کاربری MotherDuck منتقل می شویم. سعی کنید خود را با UI آشنا کنید، و اگر زمانی از آن استفاده کنید متوجه خواهید شد که رابط کاربری مشابه نوت بوک Jupyter است.
ما قدرت DBduck را در رابط کاربری MotherDuck با دادههای حقوق و دستمزد DS آزمایش خواهیم کرد کجگل. داده ها را با استفاده از دکمه افزودن فایل ها آپلود کنید و یک سلول جدید با پرس و جو برای اجرا نشان داده می شود. پرس و جو باید به این شکل باشد.
CREATE OR REPLACE TABLE ds_salaries AS SELECT * FROM read_csv_auto(['ds_salaries.csv']);
پس از ایجاد جدول، سعی کنید داده ها را با کد زیر جستجو کنید.
select * from my_db.ds_salaries limit 10;
همانطور که می بینید، MotherDuck تقریباً شبیه تجزیه و تحلیل داده ها در Notebook است، اما با پرس و جوهای SQL. بیایید پرس و جو را برای انجام تجزیه و تحلیل داده ها در MotherDuck امتحان کنیم.
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
می توانید پرس و جو را در سلول اجرا کنید. نتیجه جدول مشابه تصویر زیر نشان داده شده است.
میتوانید دادهها را فیلتر کنید، جدول را تغییر دهید یا نتیجه را با دکمه انتخاب موجود در رابط کاربری دانلود کنید.
MotherDuck همچنین به کاربر اجازه می دهد تا از طریق پایتون در نوت بوک خود به پایگاه داده دسترسی پیدا کند. باید بسته DuckDB را با استفاده از کد زیر نصب کنیم.
pip install duckdb==v0.9.2
نسخه فعلی که MotherDuck پشتیبانی می کند DuckDB 0.9.2 است. به همین دلیل آن نسخه را نصب کردیم.
وقتی نصب با موفقیت انجام شد، باید DuckDB را به Motherduck متصل کنیم. چند راه برای احراز هویت اتصال وجود دارد، اما ما از توکن سرویس استفاده می کنیم. این نشانه در تنظیمات MotherDuck شما به دست می آید.
import duckdb
token = "insert token here"
# initiate the MotherDuck connection
con = duckdb.connect(f'md:?motherduck_token={token}')
اگر هیچ نام پایگاه داده ای تنظیم نمی کردیم، MotherDuck با استفاده از پایگاه داده پیش فرض، که my_db است، دسترسی پیدا می کرد. در مرحله بعد، بیایید از همان پرس و جوی قبلی در Notebook استفاده کنیم.
q = """
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
"""
con.sql(q).show()
خروجی مشابه جدول زیر را مشاهده خواهید کرد.
┌─────────────────────────────────────┬───────────────────────┐
│ job_title │ average_salary_in_usd │
│ varchar │ double │
├─────────────────────────────────────┼───────────────────────┤
│ 3D Computer Vision Researcher │ 21352.25 │
│ AI Developer │ 136666.0909090909 │
│ AI Programmer │ 55000.0 │
│ AI Scientist │ 110120.875 │
│ Analytics Engineer │ 152368.63106796116 │
│ Applied Data Scientist │ 113726.3 │
│ Applied Machine Learning Engineer │ 99875.5 │
│ Applied Machine Learning Scientist │ 109452.83333333333 │
│ Applied Scientist │ 190264.4827586207 │
│ Autonomous Vehicle Technician │ 26277.5 │
│ · │ · │
│ · │ · │
│ · │ · │
│ Principal Data Engineer │ 192500.0 │
│ Principal Data Scientist │ 198171.125 │
│ Principal Machine Learning Engineer │ 190000.0 │
│ Product Data Analyst │ 56497.2 │
│ Product Data Scientist │ 8000.0 │
│ Research Engineer │ 163108.37837837837 │
│ Research Scientist │ 161214.19512195123 │
│ Software Data Engineer │ 62510.0 │
│ Staff Data Analyst │ 15000.0 │
│ Staff Data Scientist │ 105000.0 │
├─────────────────────────────────────┴───────────────────────┤
│ 93 rows (20 shown) 2 columns │
└─────────────────────────────────────────────────────────────┘
با کوئری بالا، می توانید از کد زیر برای پردازش آنها در Pandas DataFrame استفاده کنید.
import pandas as pd
df = con.sql(q).fetchdf()
در نهایت، می توانید مجموعه داده دیگری را با استفاده از پرس و جو زیر در پایگاه داده بارگذاری کنید.
con.sql("CREATE TABLE mytable AS SELECT * FROM '~/filepath.csv'")
پرس و جوی بالا فرض می کند که داده های شما یک فایل CSV است. گزینه های دیگر شامل S3 یا DuckDB محلی به پایگاه داده MotherDuck است.
DuckDB یک سیستم پایگاه داده منبع باز است که به طور خاص برای تجزیه و تحلیل داده ها توسعه یافته است. این سیستم به گونه ای طراحی شده است که پردازش داده ها را به سرعت و کارآمد انجام دهد. MotherDuck یک سرویس مبتنی بر ابر مدیریت شده منبع باز برای DuckDB است.
با ترکیب DuckDB و MotherDuck، میتوانیم لپتاپهای خود را با داشتن دادههای خود در فضای ابری و پردازش سریع آنها با DuckDB به یک موتور تجزیه و تحلیل شخصی تبدیل کنیم.
کورنلیوس یودا ویجایا دستیار مدیر علوم داده و نویسنده داده است. در حالی که به طور تمام وقت در آلیانز اندونزی کار می کند، دوست دارد نکات Python و Data را از طریق رسانه های اجتماعی و رسانه های نوشتاری به اشتراک بگذارد.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://www.kdnuggets.com/turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck?utm_source=rss&utm_medium=rss&utm_campaign=turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck
- : دارد
- :است
- :نه
- :جایی که
- 10
- 125
- 15000
- 20
- 25
- 3d
- 7
- 8
- 8000
- 9
- a
- بالاتر
- دسترسی
- حساب
- به دست آوردن
- به دست آورد
- فعالیت
- اضافه کردن
- پیشرفت
- پیشرفت
- تجمع
- AI
- معرفی
- آلیانز
- اجازه می دهد تا
- قبلا
- همچنین
- an
- تحلیل
- روانکاو
- تحلیلی
- تحلیلی
- علم تجزیه و تحلیل
- و
- دیگر
- هر
- اعمال می شود
- هستند
- AS
- دستیار
- فرض می کند
- At
- تصدیق کردن
- خود مختار
- وسیله نقلیه خودمختار
- در دسترس
- BE
- در زیر
- میان
- ساخته
- کسب و کار
- اما
- دکمه
- by
- CAN
- سلول
- تبادل
- ابر
- رمز
- ستون ها
- ترکیب
- ترکیب
- انجمن
- کامپیوتر
- چشم انداز کامپیوتر
- رقیب
- اتصال
- ارتباط
- میتوانست
- ایجاد
- بحرانی
- جاری
- داده ها
- تحلیل داده ها
- تحلیلگر داده
- تجزیه و تحلیل داده ها
- مهندس داده
- پردازش داده ها
- علم اطلاعات
- دانشمند داده
- پایگاه داده
- به طور پیش فرض
- طراحی
- توسعه
- توسعه دهنده
- DID
- تفاوت
- do
- عمل
- دو برابر
- دانلود
- به طور موثر
- موثر
- موتور
- مهندس
- و غیره
- اتر (ETH)
- تا کنون
- هر
- مثال
- اجرا کردن
- تجربه
- آشنا کردن
- کمی از
- پرونده
- فایل ها
- فیلتر
- پیروی
- برای
- رایگان
- از جانب
- تولید
- دریافت کنید
- دادن
- گروه
- دست
- دسته
- اداره
- داشتن
- he
- کمک کرد
- اینجا کلیک نمایید
- چگونه
- HTTPS
- if
- تصویر
- پیاده سازی می کند
- بهبود
- in
- شامل
- اندونزی
- وارد کردن
- نصب
- نصب و راه اندازی
- به
- شامل
- شامل
- IT
- پیوستن
- نوت بوک ژوپیتر
- kdnuggets
- آزمایشگاه
- لپ تاپ
- لپ تاپ
- یادگیری
- پسندیدن
- محدود
- لینک
- بار
- محلی
- نگاه کنيد
- شبیه
- دوست دارد
- دستگاه
- فراگیری ماشین
- اداره می شود
- مدیریت
- سیستم مدیریت
- مدیر
- رسانه ها
- بسیار
- چندگانه
- نام
- از جمله
- بومی
- نیاز
- نیازهای
- جدید
- بعد
- دفتر یادداشت
- of
- on
- ONE
- آنلاین
- منبع باز
- گزینه
- or
- سفارش
- دیگر
- ما
- خارج
- تولید
- بسته
- پانداها
- همکاری
- کامل
- شخصی
- محور
- سکو
- افلاطون
- هوش داده افلاطون
- PlatoData
- لطفا
- قدرت
- قوی
- زیبا
- قبلا
- اصلی
- روند
- فرآیندهای
- در حال پردازش
- محصول
- برنامهنویس
- عمومی
- پــایتــون
- نمایش ها
- به سرعت
- به راحتی
- تحقق بخشیدن
- بدون در نظر گرفتن
- ثبت نام
- جایگزین کردن
- تحقیق
- پژوهشگر
- نتیجه
- حقوق
- همان
- سناریو
- علم
- دانشمند
- دیدن
- را انتخاب کنید
- انتخاب
- سرویس
- تنظیم
- تنظیمات
- اشتراک گذاری
- باید
- نشان داده شده
- قابل توجه
- مشابه
- به طور مشابه
- اندازه
- آگاهی
- رسانه های اجتماعی
- نرم افزار
- به طور خاص
- SQL
- پشته
- کارکنان
- موفق
- موفقیت
- مناسب
- پشتیبانی
- پشتیبانی از
- به سرعت
- سیستم
- سیستم های
- جدول
- صورت گرفته
- پیشرفته
- که
- La
- آنها
- آنجا.
- اینها
- این
- زمان
- نکات
- به
- رمز
- ابزار
- ابزار
- امتحان
- دور زدن
- ui
- استفاده کنید
- کاربر
- با استفاده از
- معمولا
- وسیله نقلیه
- نسخه
- از طريق
- دید
- بود
- راه
- we
- سایت اینترنتی
- چه زمانی
- که
- در حین
- چرا
- اراده
- با
- گردش کار
- کارگر
- با این نسخهها کار
- خواهد بود
- نویسنده
- نوشته
- شما
- شما
- خودت
- زفیرنت