A DALL-E segítségével generált kép
Egy olyan időszakban, amikor az adatelemzés a kritikus különbség a sikeres üzlet és a nem között, szükségünk van egy olyan eszközkészletre, amely képes kielégíteni az igényeket. A technológia fejlődése elősegítette az összes szükséges adateszköz, nevezetesen a DuckDB és a MotherDuck fejlesztését.
DuckDB egy nyílt forráskódú, folyamaton belüli SQL Online Analytical Processing (OLAP) adatbázis-kezelő rendszer. Az adatbázis-rendszert az adatelemző lekérdezések gyors kezelésére tervezték, az adatmérettől függetlenül. A rendszer memórián belüli feldolgozást és OLAP rendszereket valósít meg, amelyek hatékonyan javítják adatelemzési folyamatunkat.
A DuckDB kiválóan alkalmas táblázatos adatok tárolására és feldolgozására adatelemzéssel (tábla összekapcsolás, adataggregáció stb.), valamint olyan esetekben, amikor munkafolyamatunk általában jelentős változtatásokat von maga után a táblázatban. Másrészt a DuckDB nem alkalmas nagy mennyiségű adattevékenységre és több párhuzamos folyamatra egy adatbázisban.
Anyakacsa egy felügyelt DuckDB-in-the-Cloud szolgáltatás. Ingyenesen használható és nyílt forráskódú, miközben a DuckDB közösség karbantartja. Ez egy olyan szolgáltatás, amelyet a DuckDB Lab együttműködésével hoztak létre, hogy létrehozzanak egy felhőszolgáltatási platformot, amelyet a nyilvánosság használhat.
A DuckDB és a Motherduck kombinációjával olyan elemző motort hozhatunk létre, amely minden forgatókönyvben könnyen használható. Hogyan csináljuk? Menjünk bele.
A natív MotherDuck felhasználói felületet használjuk, hogy példát mutassunk a szolgáltatás működésére, és arra, hogy a DuckDB miért hatékony adatelemzési eszköz. Kérjük, regisztráljon a webhelyen, és szerezzen be MotherDuck fiókot, ha még nem tette meg.
Miután sikeresen regisztrált a MotherDuck fiókra, átkerülünk a MotherDuck felhasználói felületére. Próbáljon megismerkedni a felhasználói felülettel, és rá fog jönni, hogy a felhasználói felület hasonló a Jupyter Notebookhoz, ha valaha is használ ilyet.
Kísérletezni fogunk a DBduck teljesítményével a MotherDuck felhasználói felületen a DS fizetési adatokkal Kaggle. Töltse fel az adatokat a Fájlok hozzáadása gombbal, és egy új cella jelenik meg a végrehajtandó lekérdezéssel. A lekérdezésnek így kell kinéznie.
CREATE OR REPLACE TABLE ds_salaries AS SELECT * FROM read_csv_auto(['ds_salaries.csv']);
A táblázat létrehozása után próbálja meg lekérdezni az adatokat a következő kóddal.
select * from my_db.ds_salaries limit 10;
Amint láthatja, a MotherDuck nagyjából olyan, mintha adatelemzést végezne a Notebookban, de SQL lekérdezésekkel. Próbáljuk ki a lekérdezést adatelemzés elvégzéséhez a MotherDuckban.
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
A lekérdezést a cellában hajthatja végre; a táblázat eredménye az alábbi képhez hasonlóan látható.
A felhasználói felületen elérhető választógombbal kiszűrheti az adatokat, elforgathatja a táblázatot, vagy letöltheti az eredményt.
A MotherDuck azt is lehetővé teszi a felhasználó számára, hogy a notebook Python segítségével hozzáférjen az adatbázishoz. Telepítenünk kell a DuckDB csomagot a következő kóddal.
pip install duckdb==v0.9.2
A MotherDuck által támogatott jelenlegi verzió a DuckDB 0.9.2; ezért telepítettük azt a verziót.
Ha a telepítés sikeres, össze kell kapcsolnunk a DuckDB-t a Motherduck-kal. Számos módja van a kapcsolat hitelesítésére, de mi a szolgáltatási tokent használnánk. Ezt a tokent a MotherDuck beállításaiban szerezheti be.
import duckdb
token = "insert token here"
# initiate the MotherDuck connection
con = duckdb.connect(f'md:?motherduck_token={token}')
Ha nem adtunk meg adatbázisnevet, a MotherDuck az alapértelmezett adatbázis használatával férne hozzá, ami a my_db. Ezután használjuk ugyanazt a lekérdezést, mint korábban a Jegyzetfüzetben.
q = """
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
"""
con.sql(q).show()
Az alábbi táblázathoz hasonló kimenetet fog látni.
┌─────────────────────────────────────┬───────────────────────┐
│ job_title │ average_salary_in_usd │
│ varchar │ double │
├─────────────────────────────────────┼───────────────────────┤
│ 3D Computer Vision Researcher │ 21352.25 │
│ AI Developer │ 136666.0909090909 │
│ AI Programmer │ 55000.0 │
│ AI Scientist │ 110120.875 │
│ Analytics Engineer │ 152368.63106796116 │
│ Applied Data Scientist │ 113726.3 │
│ Applied Machine Learning Engineer │ 99875.5 │
│ Applied Machine Learning Scientist │ 109452.83333333333 │
│ Applied Scientist │ 190264.4827586207 │
│ Autonomous Vehicle Technician │ 26277.5 │
│ · │ · │
│ · │ · │
│ · │ · │
│ Principal Data Engineer │ 192500.0 │
│ Principal Data Scientist │ 198171.125 │
│ Principal Machine Learning Engineer │ 190000.0 │
│ Product Data Analyst │ 56497.2 │
│ Product Data Scientist │ 8000.0 │
│ Research Engineer │ 163108.37837837837 │
│ Research Scientist │ 161214.19512195123 │
│ Software Data Engineer │ 62510.0 │
│ Staff Data Analyst │ 15000.0 │
│ Staff Data Scientist │ 105000.0 │
├─────────────────────────────────────┴───────────────────────┤
│ 93 rows (20 shown) 2 columns │
└─────────────────────────────────────────────────────────────┘
A fenti lekérdezéssel a következő kóddal feldolgozhatja azokat a Pandas DataFrame-be.
import pandas as pd
df = con.sql(q).fetchdf()
Végül egy másik adatkészletet tölthet be az adatbázisba a következő lekérdezéssel.
con.sql("CREATE TABLE mytable AS SELECT * FROM '~/filepath.csv'")
A fenti lekérdezés feltételezi, hogy az adatok CSV-fájl. Egyéb lehetőségek közé tartozik az S3 vagy a helyi DuckDB a MotherDuck adatbázishoz.
A DuckDB egy nyílt forráskódú adatbázisrendszer, amelyet kifejezetten adatelemzésre fejlesztettek ki. A rendszert úgy tervezték, hogy az adatfeldolgozást gyorsan és hatékonyan kezelje. A MotherDuck egy nyílt forráskódú felügyelt felhőalapú szolgáltatás a DuckDB számára.
A DuckDB és a MotherDuck kombinálásával laptopjainkat személyes analitikai motorokká alakíthatjuk azáltal, hogy adatainkat a felhőben tároljuk, és gyorsan feldolgozzuk a DuckDB-vel.
Cornelius Yudha Wijaya adattudományi asszisztens menedzser és adatíró. Miközben teljes munkaidőben dolgozik az Allianz Indonesia-nál, szeret Python és Data tippeket megosztani a közösségi médián és az írási médián keresztül.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://www.kdnuggets.com/turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck?utm_source=rss&utm_medium=rss&utm_campaign=turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck
- :van
- :is
- :nem
- :ahol
- 10
- 125
- 15000
- 20
- 25
- 3d
- 7
- 8
- 8000
- 9
- a
- felett
- hozzáférés
- Fiók
- szerez
- szerzett
- tevékenység
- hozzá
- előre
- haladás
- összesítés
- AI
- Minden termék
- Allianz
- lehetővé teszi, hogy
- már
- Is
- an
- elemzés
- elemző
- Analitikus
- Analitikai
- analitika
- és a
- Másik
- bármilyen
- alkalmazott
- VANNAK
- AS
- Helyettes
- feltételezi
- At
- hitelesíteni
- autonóm
- autonóm jármű
- elérhető
- BE
- lent
- között
- épült
- üzleti
- de
- gomb
- by
- TUD
- sejt
- Változások
- felhő
- kód
- Oszlopok
- kombináció
- kombinálása
- közösség
- számítógép
- Számítógépes látás
- egyidejű
- Csatlakozás
- kapcsolat
- tudott
- teremt
- kritikai
- Jelenlegi
- dátum
- adatelemzés
- adatelemző
- Adatelemzés
- adatmérnök
- adatfeldolgozás
- adat-tudomány
- adattudós
- adatbázis
- alapértelmezett
- tervezett
- fejlett
- Fejlesztő
- DID
- különbség
- do
- Ennek
- kétszeresére
- letöltés
- hatékonyan
- eredményesen
- Motor
- mérnök
- stb.
- Eter (ETH)
- EVER
- Minden
- példa
- kivégez
- kísérlet
- ismerkedjen
- kevés
- filé
- Fájlok
- szűrő
- következő
- A
- Ingyenes
- ból ből
- generált
- kap
- Ad
- Csoport
- kéz
- fogantyú
- Kezelés
- tekintettel
- he
- segített
- itt
- Hogyan
- HTTPS
- if
- kép
- munkagépek
- javul
- in
- tartalmaz
- Indonézia
- kezdeményez
- telepíteni
- telepítés
- bele
- jár
- bevonásával
- IT
- csatlakozik
- Jupyter Jegyzetfüzet
- KDnuggets
- labor
- hordozható számítógép
- laptopok
- tanulás
- mint
- LIMIT
- kiszámításának
- helyi
- néz
- hasonló
- szeret
- gép
- gépi tanulás
- sikerült
- vezetés
- irányítási rendszer
- menedzser
- Média
- sok
- többszörös
- név
- ugyanis
- bennszülött
- Szükség
- igények
- Új
- következő
- jegyzetfüzet
- of
- on
- ONE
- online
- nyílt forráskódú
- Opciók
- or
- érdekében
- Más
- mi
- ki
- teljesítmény
- csomag
- pandák
- partneri
- tökéletes
- személyes
- tengely
- emelvény
- Plató
- Platón adatintelligencia
- PlatoData
- kérem
- hatalom
- erős
- szép
- korábban
- Fő
- folyamat
- Folyamatok
- feldolgozás
- Termékek
- Programozó
- nyilvános
- Piton
- lekérdezések
- gyorsan
- készségesen
- észre
- Tekintet nélkül
- Regisztráció
- cserélni
- kutatás
- kutató
- eredményez
- fizetés
- azonos
- forgatókönyv
- Tudomány
- Tudós
- lát
- válasszuk
- kiválasztás
- szolgáltatás
- készlet
- beállítások
- Megosztás
- kellene
- mutatott
- jelentős
- hasonló
- Hasonlóképpen
- Méret
- Közösség
- Közösségi média
- szoftver
- kifejezetten
- SQL
- verem
- Személyzet
- sikeres
- sikeresen
- megfelelő
- támogatás
- Támogatja
- gyorsan
- rendszer
- Systems
- táblázat
- meghozott
- Technológia
- hogy
- A
- Őket
- Ott.
- Ezek
- ezt
- idő
- tippek
- nak nek
- jelképes
- szerszám
- szerszámok
- megpróbál
- FORDULAT
- ui
- használ
- használó
- segítségével
- rendszerint
- jármű
- változat
- keresztül
- látomás
- volt
- módon
- we
- weboldal
- amikor
- ami
- míg
- miért
- lesz
- val vel
- munkafolyamat
- dolgozó
- művek
- lenne
- író
- írás
- te
- A te
- magad
- zephyrnet