תמונה שנוצרה עם DALL-E
בתקופה שבה עיבוד אנליטי נתונים הוא ההבדל הקריטי בין עסק מצליח לבין לא, אנו זקוקים למחסנית כלים שיכולה לתמוך בצרכים. התקדמות הטכנולוגיה עזרה לקדם את כל כלי הנתונים הללו שאנו צריכים, כלומר DuckDB ו- MotherDuck.
DuckDB היא מערכת ניהול מסד נתונים בקוד פתוח, בתהליך עיבוד אנליטי של SQL מקוון (OLAP). מערכת מסד הנתונים מיועדת לטיפול מהיר בשאילתות ניתוח נתונים, ללא קשר לגודל הנתונים. המערכת מיישמת עיבוד בזיכרון ומערכות OLAP המשפרות ביעילות את תהליך ניתוח הנתונים שלנו.
DuckDB מושלם לאחסון ועיבוד נתונים טבלאיים הכוללים ניתוח נתונים (הצטרפות לטבלה, צבירת נתונים וכו') וכאשר זרימת העבודה שלנו כוללת בדרך כלל שינויים משמעותיים בטבלה. מצד שני, DuckDB אינו מתאים לפעילות נתונים בנפח גבוה ולמספר תהליכים במקביל במסד נתונים אחד.
אמאברווז הוא שירות DuckDB-in-the-cloud מנוהל. זה בחינם לשימוש וקוד פתוח תוך כדי תחזוקה על ידי קהילת DuckDB. זהו שירות שנבנה על ידי שיתוף פעולה עם DuckDB Lab כדי ליצור פלטפורמת שירות ענן שהציבור יכול להשתמש בה.
עם שילוב של DuckDB ו-Motherduck, נוכל ליצור מנוע ניתוח שניתן לשימוש בקלות בכל תרחיש. איך אנחנו עושים את זה? בואו ניכנס לזה.
היינו משתמשים בממשק המשתמש המקורי של MotherDuck כדי לתת לך דוגמה כיצד השירות עובד ומדוע DuckDB הוא כלי רב עוצמה לניתוח נתונים. נא להירשם לאתר ולרכוש את חשבון MotherDuck אם עדיין לא עשית זאת.
לאחר שתירשם בהצלחה לחשבון MotherDuck, נועבר לממשק המשתמש של MotherDuck. נסה להכיר את ממשק המשתמש, ותבין שממשק המשתמש דומה למחברת Jupyter אם אי פעם תשתמש באחד.
נתנסה בכוח DBduck בממשק המשתמש של MotherDuck עם נתוני השכר של DS קגל. העלה את הנתונים באמצעות כפתור הוסף קבצים, ותא חדש יוצג עם השאילתה לביצוע. השאילתה צריכה להיראות כך.
CREATE OR REPLACE TABLE ds_salaries AS SELECT * FROM read_csv_auto(['ds_salaries.csv']);
לאחר יצירת הטבלה, נסה לבצע שאילתה לנתונים באמצעות הקוד הבא.
select * from my_db.ds_salaries limit 10;
כפי שאתה יכול לראות, MotherDuck דומה למדי לבצע ניתוח נתונים ב-Notebook, אבל עם שאילתות SQL. בואו ננסה את השאילתה לניתוח נתונים ב-MotherDuck.
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
אתה יכול לבצע את השאילתה בתא; תוצאת הטבלה מוצגת בדומה לתמונה למטה.
אתה יכול לסנן את הנתונים, לסובב את הטבלה או להוריד את התוצאה באמצעות לחצן הבחירה הזמין בממשק המשתמש.
MotherDuck גם מאפשרת למשתמש לגשת למסד הנתונים באמצעות Python במחשב הנייד שלך. עלינו להתקין את חבילת DuckDB באמצעות הקוד הבא.
pip install duckdb==v0.9.2
הגרסה הנוכחית שבה MotherDuck תומכת היא DuckDB 0.9.2; זו הסיבה שהתקנו את הגרסה הזו.
כאשר ההתקנה מצליחה, עלינו לחבר את DuckDB עם Motherduck. יש כמה דרכים לאמת את החיבור, אבל היינו משתמשים באסימון השירות. אסימון זה נרכש בהגדרות MotherDuck שלך.
import duckdb
token = "insert token here"
# initiate the MotherDuck connection
con = duckdb.connect(f'md:?motherduck_token={token}')
אם לא קבענו שם מסד נתונים כלשהו, MotherDuck תיגש באמצעות מסד הנתונים המוגדר כברירת מחדל, שהוא my_db. לאחר מכן, הבה נשתמש באותה שאילתה שעשינו בעבר במחברת.
q = """
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
"""
con.sql(q).show()
תראה את הפלט דומה לטבלה למטה.
┌─────────────────────────────────────┬───────────────────────┐
│ job_title │ average_salary_in_usd │
│ varchar │ double │
├─────────────────────────────────────┼───────────────────────┤
│ 3D Computer Vision Researcher │ 21352.25 │
│ AI Developer │ 136666.0909090909 │
│ AI Programmer │ 55000.0 │
│ AI Scientist │ 110120.875 │
│ Analytics Engineer │ 152368.63106796116 │
│ Applied Data Scientist │ 113726.3 │
│ Applied Machine Learning Engineer │ 99875.5 │
│ Applied Machine Learning Scientist │ 109452.83333333333 │
│ Applied Scientist │ 190264.4827586207 │
│ Autonomous Vehicle Technician │ 26277.5 │
│ · │ · │
│ · │ · │
│ · │ · │
│ Principal Data Engineer │ 192500.0 │
│ Principal Data Scientist │ 198171.125 │
│ Principal Machine Learning Engineer │ 190000.0 │
│ Product Data Analyst │ 56497.2 │
│ Product Data Scientist │ 8000.0 │
│ Research Engineer │ 163108.37837837837 │
│ Research Scientist │ 161214.19512195123 │
│ Software Data Engineer │ 62510.0 │
│ Staff Data Analyst │ 15000.0 │
│ Staff Data Scientist │ 105000.0 │
├─────────────────────────────────────┴───────────────────────┤
│ 93 rows (20 shown) 2 columns │
└─────────────────────────────────────────────────────────────┘
עם השאילתה למעלה, אתה יכול להשתמש בקוד הבא כדי לעבד אותם לתוך Pandas DataFrame.
import pandas as pd
df = con.sql(q).fetchdf()
לבסוף, אתה יכול לטעון מערך נתונים נוסף למסד הנתונים באמצעות השאילתה הבאה.
con.sql("CREATE TABLE mytable AS SELECT * FROM '~/filepath.csv'")
השאילתה שלמעלה מניחה שהנתונים שלך הם קובץ CSV. אפשרויות אחרות כוללות S3 או DuckDB המקומי למסד הנתונים MotherDuck.
DuckDB היא מערכת מסד נתונים בקוד פתוח שפותחה במיוחד לניתוח נתונים. המערכת נועדה לטפל בעיבוד נתונים במהירות וביעילות. MotherDuck הוא שירות מבוסס ענן מנוהל בקוד פתוח עבור DuckDB.
על ידי שילוב של DuckDB ו- MotherDuck, אנו יכולים להפוך את המחשבים הניידים שלנו למנוע ניתוח אישי על ידי הצגת הנתונים שלנו בענן ועיבוד מהיר שלהם עם DuckDB.
קורנליוס יודא וויאיה הוא עוזר מנהל וכותב נתונים במדעי הנתונים. בעודו עובד במשרה מלאה באליאנץ אינדונזיה, הוא אוהב לחלוק טיפים לפייתון ונתונים באמצעות מדיה חברתית ומדיה כתיבה.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://www.kdnuggets.com/turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck?utm_source=rss&utm_medium=rss&utm_campaign=turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck
- :יש ל
- :הוא
- :לֹא
- :איפה
- 10
- 125
- 15000
- 20
- 25
- 3d
- 7
- 8
- 8000
- 9
- a
- מֵעַל
- גישה
- חֶשְׁבּוֹן
- לרכוש
- נרכש
- פעילות
- להוסיף
- לקדם
- קידום
- - צבירה
- AI
- תעשיות
- אליאנץ
- מאפשר
- כְּבָר
- גם
- an
- אנליזה
- מנתח
- אנליטי
- אנליטית
- ניתוח
- ו
- אחר
- כל
- יישומית
- ARE
- AS
- עוזר
- מניח
- At
- לאמת
- אוטונומי
- רכב אוטונומי
- זמין
- BE
- להלן
- בֵּין
- נבנה
- עסקים
- אבל
- לַחְצָן
- by
- CAN
- תא
- שינויים
- ענן
- קוד
- עמודות
- שילוב
- שילוב
- קהילה
- המחשב
- ראייה ממוחשבת
- במקביל
- לְחַבֵּר
- הקשר
- יכול
- לִיצוֹר
- קריטי
- נוֹכְחִי
- נתונים
- ניתוח נתונים
- אנליסט מידע
- ניתוח נתונים
- מהנדס נתונים
- עיבוד נתונים
- מדע נתונים
- מדען נתונים
- מסד נתונים
- בְּרִירַת מֶחדָל
- מעוצב
- מפותח
- מפתח
- DID
- הבדל
- do
- עושה
- לְהַכפִּיל
- להורדה
- יעילות
- יעילות
- מנוע
- מהנדס
- וכו '
- Ether (ETH)
- אי פעם
- כל
- דוגמה
- לבצע
- לְנַסוֹת
- להכיר
- מעטים
- שלח
- קבצים
- לסנן
- הבא
- בעד
- חופשי
- החל מ-
- נוצר
- לקבל
- לתת
- קְבוּצָה
- יד
- לטפל
- טיפול
- יש
- he
- עזר
- כאן
- איך
- HTTPS
- if
- תמונה
- מיישמים
- לשפר
- in
- לכלול
- אינדונזיה
- ליזום
- להתקין
- התקנה
- אל תוך
- כרוך
- מעורב
- IT
- להצטרף
- מחברת צדק
- KDnuggets
- מעבדה
- מחשב נייד
- מחשבים ניידים
- למידה
- כמו
- להגביל
- לינקדין
- לִטעוֹן
- מקומי
- נראה
- נראה כמו
- אוהב
- מכונה
- למידת מכונה
- הצליח
- ניהול
- מערכת ניהול
- מנהל
- מדיה
- הרבה
- מספר
- שם
- כלומר
- יליד
- צורך
- צרכי
- חדש
- הבא
- מחברה
- of
- on
- ONE
- באינטרנט
- קוד פתוח
- אפשרויות
- or
- להזמין
- אחר
- שלנו
- הַחוּצָה
- תפוקה
- חבילה
- דובי פנדה
- שותפות
- אישי
- Pivot
- פלטפורמה
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- אנא
- כּוֹחַ
- חזק
- יפה
- קוֹדֶם
- מנהל
- תהליך
- תהליכים
- תהליך
- המוצר
- מְתַכנֵת
- ציבורי
- פיתון
- שאילתות
- מהירות
- לְלֹא קוֹשִׁי
- להבין
- ללא קשר
- הירשם
- להחליף
- מחקר
- חוקר
- תוצאה
- משכורת
- אותו
- תרחיש
- מדע
- מַדְעָן
- לִרְאוֹת
- בחר
- מבחר
- שרות
- סט
- הגדרות
- שיתוף
- צריך
- הראה
- משמעותי
- דומה
- באופן דומה
- מידה
- חֶברָתִי
- מדיה חברתית
- תוכנה
- במיוחד
- SQL
- לערום
- סגל
- מוצלח
- בהצלחה
- מַתְאִים
- תמיכה
- תומך
- במהירות
- מערכת
- מערכות
- שולחן
- משימות
- טכנולוגיה
- זֶה
- השמיים
- אותם
- שם.
- אלה
- זֶה
- זמן
- טיפים
- ל
- אסימון
- כלי
- כלים
- לנסות
- תור
- ui
- להשתמש
- משתמש
- באמצעות
- בְּדֶרֶך כְּלַל
- רכב
- גרסה
- באמצעות
- חזון
- היה
- דרכים
- we
- אתר
- מתי
- אשר
- בזמן
- למה
- יצטרך
- עם
- זרימת עבודה
- עובד
- עובד
- היה
- סופר
- כתיבה
- אתה
- עצמך
- זפירנט