Kuva luotu DALL-E:llä
Aikana, jolloin tietojen analyyttinen käsittely on kriittinen ero menestyvän yrityksen välillä, tarvitsemme työkalupinon, joka voisi tukea tarpeita. Teknologian kehitys on auttanut kaikkia näitä tarvitsemiamme tietotyökaluja, nimittäin DuckDB:tä ja MotherDuckia.
DuckDB on avoimen lähdekoodin prosessin sisäinen SQL Online Analytical Processing (OLAP) -tietokannan hallintajärjestelmä. Tietokantajärjestelmä on suunniteltu data-analyyttisten kyselyiden nopeaan käsittelyyn tiedon koosta riippumatta. Järjestelmä toteuttaa muistin sisäisiä käsittely- ja OLAP-järjestelmiä, jotka parantavat tehokkaasti data-analyysiprosessiamme.
DuckDB on täydellinen taulukkomuotoisten tietojen tallentamiseen ja käsittelyyn, johon liittyy data-analyysiä (taulukoiden yhdistäminen, tietojen yhdistäminen jne.) ja silloin, kun työnkulkumme sisältää yleensä merkittäviä muutoksia taulukkoon. Toisaalta DuckDB ei sovellu suureen datamäärään ja useisiin samanaikaisiin prosesseihin yhdessä tietokannassa.
ÄitiAnkka on hallittu DuckDB-in-the-pilvipalvelu. Se on ilmainen käyttää ja avoimen lähdekoodin DuckDB-yhteisö ylläpitää. Se on palvelu, joka on rakennettu yhteistyössä DuckDB Labin kanssa luodakseen pilvipalvelualustan, jota yleisö voi käyttää.
DuckDB:n ja Motherduckin yhdistelmällä voimme luoda analytiikkamoottorin, jota voidaan helposti käyttää kaikissa skenaarioissa. Miten se tehdään? Mennään asiaan.
Käyttäisimme alkuperäistä MotherDuck-käyttöliittymää antaaksemme sinulle esimerkin siitä, kuinka palvelu toimii ja miksi DuckDB on tehokas työkalu data-analytiikkaan. Rekisteröidy sivustolle ja hanki MotherDuck-tili, jos et ole jo tehnyt sitä.
Kun rekisteröidyt onnistuneesti MotherDuck-tilille, siirrymme MotherDuck-käyttöliittymään. Yritä tutustua käyttöliittymään, niin huomaat, että käyttöliittymä on samanlainen kuin Jupyter Notebook, jos käytät sellaista.
Kokeilemme DBduck-tehoa MotherDuck-käyttöliittymässä DS-palkkatietojen avulla Kaggle. Lataa tiedot Lisää tiedostoja -painikkeella, jolloin näkyviin tulee uusi solu, jossa on suoritettava kysely. Kyselyn pitäisi näyttää tältä.
CREATE OR REPLACE TABLE ds_salaries AS SELECT * FROM read_csv_auto(['ds_salaries.csv']);
Kun olet luonut taulukon, yritä tiedustella tietoja seuraavalla koodilla.
select * from my_db.ds_salaries limit 10;
Kuten näet, MotherDuck on melko samanlainen kuin tietojen analysointi Notebookissa, mutta SQL-kyselyillä. Kokeillaan kyselyä data-analyysin tekemiseksi MotherAnkkassa.
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
Voit suorittaa kyselyn solussa; taulukon tulos näkyy samalla tavalla kuin alla olevassa kuvassa.
Voit suodattaa tiedot pois, kääntää taulukkoa tai ladata tuloksen käyttöliittymässä olevalla valintapainikkeella.
MotherDuck mahdollistaa myös käyttäjän pääsyn tietokantaan Notebookin Pythonin kautta. Meidän on asennettava DuckDB-paketti käyttämällä seuraavaa koodia.
pip install duckdb==v0.9.2
Nykyinen MotherDuckin tukema versio on DuckDB 0.9.2; siksi asensimme kyseisen version.
Kun asennus onnistuu, meidän on yhdistettävä DuckDB Motherduckiin. Yhteyden todentamiseen on muutamia tapoja, mutta käyttäisimme palvelutunnusta. Tämä tunnus hankitaan MotherDuck-asetuksistasi.
import duckdb
token = "insert token here"
# initiate the MotherDuck connection
con = duckdb.connect(f'md:?motherduck_token={token}')
Jos emme määrittäneet tietokannan nimeä, MotherDuck käyttää oletustietokantaa, joka on my_db. Seuraavaksi käytetään samaa kyselyä, jota teimme aiemmin Muistikirjassa.
q = """
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
"""
con.sql(q).show()
Näet alla olevan taulukon kaltaisen tulosteen.
┌─────────────────────────────────────┬───────────────────────┐
│ job_title │ average_salary_in_usd │
│ varchar │ double │
├─────────────────────────────────────┼───────────────────────┤
│ 3D Computer Vision Researcher │ 21352.25 │
│ AI Developer │ 136666.0909090909 │
│ AI Programmer │ 55000.0 │
│ AI Scientist │ 110120.875 │
│ Analytics Engineer │ 152368.63106796116 │
│ Applied Data Scientist │ 113726.3 │
│ Applied Machine Learning Engineer │ 99875.5 │
│ Applied Machine Learning Scientist │ 109452.83333333333 │
│ Applied Scientist │ 190264.4827586207 │
│ Autonomous Vehicle Technician │ 26277.5 │
│ · │ · │
│ · │ · │
│ · │ · │
│ Principal Data Engineer │ 192500.0 │
│ Principal Data Scientist │ 198171.125 │
│ Principal Machine Learning Engineer │ 190000.0 │
│ Product Data Analyst │ 56497.2 │
│ Product Data Scientist │ 8000.0 │
│ Research Engineer │ 163108.37837837837 │
│ Research Scientist │ 161214.19512195123 │
│ Software Data Engineer │ 62510.0 │
│ Staff Data Analyst │ 15000.0 │
│ Staff Data Scientist │ 105000.0 │
├─────────────────────────────────────┴───────────────────────┤
│ 93 rows (20 shown) 2 columns │
└─────────────────────────────────────────────────────────────┘
Yllä olevalla kyselyllä voit käyttää seuraavaa koodia käsitelläksesi ne Pandas DataFrame -kehykseen.
import pandas as pd
df = con.sql(q).fetchdf()
Lopuksi voit ladata toisen tietojoukon tietokantaan käyttämällä seuraavaa kyselyä.
con.sql("CREATE TABLE mytable AS SELECT * FROM '~/filepath.csv'")
Yllä oleva kysely olettaa, että tietosi ovat CSV-tiedosto. Muita vaihtoehtoja ovat S3 tai paikallinen DuckDB MotherDuck-tietokantaan.
DuckDB on avoimen lähdekoodin tietokantajärjestelmä, joka on kehitetty erityisesti tietojen analysointiin. Järjestelmä on suunniteltu käsittelemään tietojenkäsittelyä nopeasti ja tehokkaasti. MotherDuck on avoimen lähdekoodin hallittu pilvipohjainen palvelu DuckDB:lle.
Yhdistämällä DuckDB:n ja MotherDuckin voimme muuttaa kannettavat tietokoneet henkilökohtaiseksi analytiikkamoottoriksi pitämällä tietomme pilvessä ja käsittelemällä niitä nopeasti DuckDB:n avulla.
Cornelius Yudha Wijaya on datatieteen apulaisjohtaja ja tietojen kirjoittaja. Työskennellessään kokopäiväisesti Allianz Indonesiassa hän mielellään jakaa Python- ja Data-vinkkejä sosiaalisen median ja kirjoitusmedian kautta.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://www.kdnuggets.com/turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck?utm_source=rss&utm_medium=rss&utm_campaign=turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck
- :on
- :On
- :ei
- :missä
- 10
- 125
- 15000
- 20
- 25
- 3d
- 7
- 8
- 8000
- 9
- a
- edellä
- pääsy
- Tili
- hankkia
- hankittu
- toiminta
- lisätä
- edistää
- edistäminen
- aggregaatti
- AI
- Kaikki
- Allianz
- mahdollistaa
- jo
- Myös
- an
- analyysi
- analyytikko
- Analyyttinen
- analyyttinen
- Analytics
- ja
- Toinen
- Kaikki
- sovellettu
- OVAT
- AS
- Avustaja
- olettaa
- At
- todentaa
- autonominen
- itsenäinen ajoneuvo
- saatavissa
- BE
- alle
- välillä
- rakennettu
- liiketoiminta
- mutta
- nappia
- by
- CAN
- solu
- Muutokset
- pilvi
- koodi
- Pylväät
- yhdistelmä
- yhdistely
- yhteisö
- tietokone
- Tietokoneen visio
- samanaikainen
- kytkeä
- liitäntä
- voisi
- luoda
- kriittinen
- Nykyinen
- tiedot
- tietojen analysointi
- data-analyytikko
- Data Analytics
- tietotekniikka
- tietojenkäsittely
- tietojenkäsittely
- tietojen tutkija
- tietokanta
- oletusarvo
- suunniteltu
- kehitetty
- Kehittäjä
- DID
- ero
- do
- tekee
- kaksinkertainen
- download
- tehokkaasti
- tehokkaasti
- Moottori
- insinööri
- jne.
- Eetteri (ETH)
- EVER
- Joka
- esimerkki
- suorittaa
- kokeilu
- perehdyttää
- harvat
- filee
- Asiakirjat
- suodattaa
- jälkeen
- varten
- Ilmainen
- alkaen
- syntyy
- saada
- Antaa
- Ryhmä
- käsi
- kahva
- Käsittely
- ottaa
- he
- auttanut
- tätä
- Miten
- HTTPS
- if
- kuva
- työkoneet
- parantaa
- in
- sisältää
- Indonesia
- aloittaa
- asentaa
- asennus
- tulee
- liittyy
- johon
- IT
- yhdistää
- Jupyter Notebook
- KDnuggets
- laboratorio
- kannettava tietokone
- kannettavat tietokoneet
- oppiminen
- pitää
- RAJOITA
- kuormitus
- paikallinen
- katso
- näyttää joltakin
- rakastaa
- kone
- koneoppiminen
- onnistui
- johto
- hallintajärjestelmä
- johtaja
- Media
- paljon
- moninkertainen
- nimi
- nimittäin
- syntyperäinen
- Tarve
- tarpeet
- Uusi
- seuraava
- muistikirja
- of
- on
- ONE
- verkossa
- avoimen lähdekoodin
- Vaihtoehdot
- or
- tilata
- Muut
- meidän
- ulos
- ulostulo
- paketti
- pandas
- kumppaneina
- täydellinen
- henkilöstö
- Tappi
- foorumi
- Platon
- Platonin tietotieto
- PlatonData
- Ole hyvä
- teho
- voimakas
- aika
- aiemmin
- Pääasiallinen
- prosessi
- Prosessit
- käsittely
- Tuotteet
- Ohjelmoija
- julkinen
- Python
- kyselyt
- nopeasti
- helposti
- ymmärtää
- riippumatta
- ilmoittautua
- korvata
- tutkimus
- tutkija
- johtua
- palkka
- sama
- skenaario
- tiede
- Tiedemies
- nähdä
- valita
- valinta
- palvelu
- setti
- settings
- Jaa:
- shouldnt
- esitetty
- merkittävä
- samankaltainen
- samalla lailla
- Koko
- sosiaalinen
- sosiaalinen media
- Tuotteemme
- erityisesti
- SQL
- pino
- Henkilöstö
- onnistunut
- Onnistuneesti
- sopiva
- tuki
- Tukee
- nopeasti
- järjestelmä
- järjestelmät
- taulukko
- otettava
- Elektroniikka
- että
- -
- Niitä
- Siellä.
- Nämä
- tätä
- aika
- vinkit
- että
- symbolinen
- työkalu
- työkalut
- yrittää
- VUORO
- ui
- käyttää
- käyttäjä
- käyttämällä
- yleensä
- ajoneuvo
- versio
- kautta
- visio
- oli
- tavalla
- we
- Verkkosivu
- kun
- joka
- vaikka
- miksi
- tulee
- with
- työnkulku
- työskentely
- toimii
- olisi
- kirjailija
- kirjoittaminen
- te
- Sinun
- itse
- zephyrnet