DuckDB と MotherDuck を使用してラップトップをパーソナル分析エンジンに変える - KDnuggets

プラトン再発行

フォロワー： 0

DuckDB と MotherDuck を使用してラップトップをパーソナル分析エンジンに変える
DALL-E で生成された画像

データ分析処理がビジネスの成功と失敗の決定的な違いとなる時代には、そのニーズをサポートできるツールスタックが必要です。テクノロジーの進歩により、私たちが必要とするこれらすべてのデータツール、つまり DuckDB と MotherDuck が進歩しました。

ダックDB は、オープンソースのインプロセス SQL オンライン分析処理 (OLAP) データベース管理システムです。データベースシステムは、データサイズに関係なく、データ分析クエリを迅速に処理できるように設計されています。このシステムには、データ分析プロセスを効果的に改善するインメモリ処理と OLAP システムが実装されています。

DuckDB は、データ分析 (テーブル結合、データ集計など) を伴う表形式データの保存と処理、およびワークフローに通常テーブルの大幅な変更が含まれる場合に最適です。一方、DuckDB は、大量のデータアクティビティや 1 つのデータベース内での複数の同時プロセスには適していません。

マザーダックは、クラウド上のマネージド DuckDB サービスです。 DuckDB コミュニティによって保守されている間は、無料で使用でき、オープンソースです。これは、一般の人々が使用できるクラウドサービスプラットフォームを作成するために DuckDB Lab と提携して構築されたサービスです。

DuckDB と Motherduck を組み合わせることで、あらゆるシナリオですぐに使用できる分析エンジンを作成できます。どうやってそれを行うのでしょうか？それでは始めましょう。

ネイティブの MotherDuck UI を使用して、サービスがどのように機能するか、そして DuckDB がデータ分析のための強力なツールである理由の例を示します。 MotherDuck アカウントをまだ取得していない場合は、Web サイトに登録して取得してください。

MotherDuck アカウントの登録に成功すると、MotherDuck UI が表示されます。 UI に慣れてみると、Jupyter Notebook を使用したことがある場合は、UI がそれに似ていることがわかるでしょう。

DS Salary データを使用して MotherDuck UI で DBduck の機能を実験してみます。 Kaggle。 [ファイルの追加] ボタンを使用してデータをアップロードすると、実行するクエリを含む新しいセルが表示されます。クエリは次のようになります。

CREATE OR REPLACE TABLE ds_salaries AS SELECT * FROM read_csv_auto(['ds_salaries.csv']);

テーブルを作成したら、次のコードを使用してデータをクエリしてみます。

select * from my_db.ds_salaries limit 10;

ご覧のとおり、MotherDuck は Notebook でデータ分析を行うのとほぼ同じですが、SQL クエリを使用します。 MotherDuck でデータ分析を行うためのクエリを試してみましょう。

select job_title, 
       avg(salary_in_usd) as average_salary_in_usd 
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title

DuckDB と MotherDuck を使用してラップトップをパーソナル分析エンジンに変える

セル内でクエリを実行できます。テーブルの結果は以下の画像と同様に表示されます。

DuckDB と MotherDuck を使用してラップトップをパーソナル分析エンジンに変える

UI で使用できる選択ボタンを使用して、データをフィルターで除外したり、テーブルをピボットしたり、結果をダウンロードしたりできます。

MotherDuck を使用すると、ユーザーは Notebook 上の Python 経由でデータベースにアクセスできます。次のコードを使用して DuckDB パッケージをインストールする必要があります。

pip install duckdb==v0.9.2

MotherDuck がサポートする現在のバージョンは DuckDB 0.9.2 です。そのため、そのバージョンをインストールしました。

インストールが成功したら、DuckDB を Motherduck に接続する必要があります。接続を認証するにはいくつかの方法がありますが、ここではサービストークンを使用します。このトークンは MotherDuck 設定で取得されます。

import duckdb

token = "insert token here"
# initiate the MotherDuck connection
con = duckdb.connect(f'md:?motherduck_token={token}')

データベース名を設定しなかった場合、MotherDuck はデフォルトのデータベース (my_db) を使用してアクセスします。次に、以前に Notebook で実行したのと同じクエリを使用してみましょう。

q = """
select job_title,
       avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
"""

con.sql(q).show()

以下の表のような出力が表示されます。

┌─────────────────────────────────────┬───────────────────────┐
│              job_title              │ average_salary_in_usd │
│               varchar               │        double         │
├─────────────────────────────────────┼───────────────────────┤
│ 3D Computer Vision Researcher       │              21352.25 │
│ AI Developer                        │     136666.0909090909 │
│ AI Programmer                       │               55000.0 │
│ AI Scientist                        │            110120.875 │
│ Analytics Engineer                  │    152368.63106796116 │
│ Applied Data Scientist              │              113726.3 │
│ Applied Machine Learning Engineer   │               99875.5 │
│ Applied Machine Learning Scientist  │    109452.83333333333 │
│ Applied Scientist                   │     190264.4827586207 │
│ Autonomous Vehicle Technician       │               26277.5 │
│            ·                        │                  ·    │
│            ·                        │                  ·    │
│            ·                        │                  ·    │
│ Principal Data Engineer             │              192500.0 │
│ Principal Data Scientist            │            198171.125 │
│ Principal Machine Learning Engineer │              190000.0 │
│ Product Data Analyst                │               56497.2 │
│ Product Data Scientist              │                8000.0 │
│ Research Engineer                   │    163108.37837837837 │
│ Research Scientist                  │    161214.19512195123 │
│ Software Data Engineer              │               62510.0 │
│ Staff Data Analyst                  │               15000.0 │
│ Staff Data Scientist                │              105000.0 │
├─────────────────────────────────────┴───────────────────────┤
│ 93 rows (20 shown)                                2 columns │
└─────────────────────────────────────────────────────────────┘

上記のクエリでは、次のコードを使用してそれらを Pandas DataFrame に処理できます。

import pandas as pd

df = con.sql(q).fetchdf()

最後に、次のクエリを使用して、別のデータセットをデータベースにロードできます。

con.sql("CREATE TABLE mytable AS SELECT * FROM '~/filepath.csv'")

上記のクエリは、データが CSV ファイルであることを前提としています。その他のオプションには、S3 または MotherDuck データベースへのローカル DuckDB が含まれます。

DuckDB は、データ分析専用に開発されたオープンソースデータベースシステムです。このシステムは、データ処理を迅速かつ効率的に処理できるように設計されています。 MotherDuck は、DuckDB 用のオープンソースのマネージドクラウドベースサービスです。

DuckDB と MotherDuck を組み合わせることで、データをクラウドに置き、DuckDB で迅速に処理することで、ラップトップを個人用分析エンジンに変えることができます。

コーネリアス・ユダ・ウィジャヤ は、データサイエンスアシスタントマネージャー兼データライターです。 Allianz Indonesia でフルタイムで働いている間、彼はソーシャルメディアやライティングメディアを通じて Python とデータのヒントを共有するのが大好きです。

このトピックの詳細

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://www.kdnuggets.com/turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck?utm_source=rss&utm_medium=rss&utm_campaign=turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck

タイムスタンプ： 2024 年 1 月 16 日

より多くの KDナゲット

SQLを使用してPandasDataFrameをクエリする

ソースクラスター：

KDナゲット

ソースノード： 1877737

タイムスタンプ： 2021 年 10 月 11 日

基本に戻るボーナスウィーク: クラウドへのデプロイ – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 3008206

タイムスタンプ： 2023 年 12 月 11 日

機械学習をマスターするための 5 つの無料コース – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 2974025

タイムスタンプ： 2023 年 11 月 23 日

トランスファーラーニングとは何ですか？

ソースクラスター：

KDナゲット

ソースノード： 1883323

タイムスタンプ： 2022 年 1 月 5 日

Python でリスト内包表記を多用してはいけない理由 – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 2980748

タイムスタンプ： 2023 年 11 月 20 日

IT スタッフの増強: AI がソフトウェア開発業界をどのように変えるか – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 2664921

タイムスタンプ： 2023 年 5 月 19 日

KDnuggets 調査: 2023 年下半期のデータサイエンスへの支出と傾向に関する同僚とのベンチマーク - KDnuggets

KDnuggets 調査: 2023 年下半期のデータサイエンスへの支出と傾向に関する同業他社とのベンチマーク – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 2877821

タイムスタンプ： 2023 年 9 月 13 日

データサイエンスと機械学習に不可欠な線形代数

ソースクラスター：

KDナゲット

ソースノード： 1852280

タイムスタンプ： 2021 年 5 月 10 日

サイバーセキュリティにおける人工知能と機械学習

ソースクラスター：

KDナゲット

ソースノード： 1860816

タイムスタンプ： 2021 年 8 月 5 日

マルチモダリティにより LLM 調整がより困難になる仕組み - KDnuggets

マルチモダリティにより LLM 調整がさらに困難になる – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 3047353

タイムスタンプ： 2024 年 1 月 4 日

ChatGPT を使用してデータサイエンスの仕事の獲得を支援する – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 2996179

タイムスタンプ： 2023 年 11 月 10 日

Anaconda を使用したマスターデータサイエンス

ソースクラスター：

KDナゲット

ソースノード： 1924449

タイムスタンプ： 2023 年 1 月 27 日

プラトン再発行

SQLを使用してPandasDataFrameをクエリする

基本に戻るボーナスウィーク: クラウドへのデプロイ – KDnuggets

KDnuggets 調査: 2023 年下半期のデータサイエンスへの支出と傾向に関する同業他社とのベンチマーク – KDnuggets

データサイエンスと機械学習に不可欠な線形代数

マルチモダリティにより LLM 調整がさらに困難になる – KDnuggets

Anaconda を使用したマスターデータサイエンス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー