DALL-E로 생성된 이미지
데이터 분석 처리가 성공적인 비즈니스와 그렇지 않은 비즈니스를 결정하는 중요한 차이인 시대에는 이러한 요구 사항을 지원할 수 있는 도구 스택이 필요합니다. 기술의 발전은 우리에게 필요한 모든 데이터 도구, 즉 DuckDB와 MotherDuck을 발전시키는 데 도움이 되었습니다.
덕DB 오픈 소스, in-process SQL 온라인 분석 처리(OLAP) 데이터베이스 관리 시스템입니다. 데이터베이스 시스템은 데이터 크기에 관계없이 데이터 분석 쿼리를 신속하게 처리하도록 설계되었습니다. 이 시스템은 데이터 분석 프로세스를 효과적으로 개선하는 인메모리 처리 및 OLAP 시스템을 구현합니다.
DuckDB는 데이터 분석(테이블 조인, 데이터 집계 등)과 관련된 테이블 형식 데이터를 저장하고 처리하는 데 적합하며 워크플로에서 일반적으로 테이블에 중요한 변경이 포함될 때 적합합니다. 반면에 DuckDB는 하나의 데이터베이스에서 대용량 데이터 활동과 여러 동시 프로세스에 적합하지 않습니다.
마더덕 관리형 DuckDB-in-the-cloud 서비스입니다. DuckDB 커뮤니티에서 유지 관리하는 동안 무료로 사용할 수 있으며 오픈 소스입니다. 일반인들이 사용할 수 있는 클라우드 서비스 플랫폼을 만들기 위해 DuckDB Lab과 제휴하여 구축한 서비스입니다.
DuckDB와 Motherduck의 조합을 통해 모든 시나리오에서 쉽게 사용할 수 있는 분석 엔진을 만들 수 있습니다. 어떻게 해야 할까요? 그것에 들어가 보자.
기본 MotherDuck UI를 사용하여 서비스 작동 방식과 DuckDB가 데이터 분석을 위한 강력한 도구인 이유에 대한 예를 제공합니다. 아직 웹사이트에 등록하고 MotherDuck 계정을 취득하지 않으셨다면 계정을 취득하시기 바랍니다.
MotherDuck 계정 등록에 성공하면 MotherDuck UI로 이동하게 됩니다. UI에 익숙해지면 Jupyter Notebook을 사용해 본다면 UI가 Jupyter Notebook과 유사하다는 것을 알게 될 것입니다.
MotherDuck UI의 DS Salary 데이터를 사용하여 DBduck 파워를 실험해 보겠습니다. 카글. 파일 추가 버튼을 사용하여 데이터를 업로드하면 실행할 쿼리가 포함된 새 셀이 표시됩니다. 쿼리는 다음과 같아야 합니다.
CREATE OR REPLACE TABLE ds_salaries AS SELECT * FROM read_csv_auto(['ds_salaries.csv']);
테이블을 생성한 후 다음 코드를 사용하여 데이터를 쿼리해 보세요.
select * from my_db.ds_salaries limit 10;
보시다시피 MotherDuck은 Notebook에서 데이터 분석을 수행하는 것과 거의 비슷하지만 SQL 쿼리를 사용합니다. MotherDuck에서 데이터 분석을 수행하는 쿼리를 시험해 보겠습니다.
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
셀에서 쿼리를 실행할 수 있습니다. 테이블 결과는 아래 이미지와 유사하게 표시됩니다.
UI에 있는 선택 버튼을 사용하여 데이터를 필터링하거나, 테이블을 피벗하거나, 결과를 다운로드할 수 있습니다.
MotherDuck을 사용하면 사용자가 노트북에서 Python을 통해 데이터베이스에 액세스할 수도 있습니다. 다음 코드를 사용하여 DuckDB 패키지를 설치해야 합니다.
pip install duckdb==v0.9.2
MotherDuck이 지원하는 현재 버전은 DuckDB 0.9.2입니다. 이것이 바로 우리가 해당 버전을 설치한 이유입니다.
설치가 성공적으로 완료되면 DuckDB를 Motherduck과 연결해야 합니다. 연결을 인증하는 방법에는 여러 가지가 있지만 우리는 서비스 토큰을 사용합니다. 이 토큰은 MotherDuck 설정에서 획득됩니다.
import duckdb
token = "insert token here"
# initiate the MotherDuck connection
con = duckdb.connect(f'md:?motherduck_token={token}')
데이터베이스 이름을 설정하지 않으면 MotherDuck은 기본 데이터베이스인 my_db를 사용하여 액세스합니다. 다음으로 이전에 노트북에서 수행했던 것과 동일한 쿼리를 사용해 보겠습니다.
q = """
select job_title,
avg(salary_in_usd) as average_salary_in_usd
from my_db.ds_salaries
GROUP BY job_title
ORDER BY job_title
"""
con.sql(q).show()
아래 표와 비슷한 출력이 표시됩니다.
┌─────────────────────────────────────┬───────────────────────┐
│ job_title │ average_salary_in_usd │
│ varchar │ double │
├─────────────────────────────────────┼───────────────────────┤
│ 3D Computer Vision Researcher │ 21352.25 │
│ AI Developer │ 136666.0909090909 │
│ AI Programmer │ 55000.0 │
│ AI Scientist │ 110120.875 │
│ Analytics Engineer │ 152368.63106796116 │
│ Applied Data Scientist │ 113726.3 │
│ Applied Machine Learning Engineer │ 99875.5 │
│ Applied Machine Learning Scientist │ 109452.83333333333 │
│ Applied Scientist │ 190264.4827586207 │
│ Autonomous Vehicle Technician │ 26277.5 │
│ · │ · │
│ · │ · │
│ · │ · │
│ Principal Data Engineer │ 192500.0 │
│ Principal Data Scientist │ 198171.125 │
│ Principal Machine Learning Engineer │ 190000.0 │
│ Product Data Analyst │ 56497.2 │
│ Product Data Scientist │ 8000.0 │
│ Research Engineer │ 163108.37837837837 │
│ Research Scientist │ 161214.19512195123 │
│ Software Data Engineer │ 62510.0 │
│ Staff Data Analyst │ 15000.0 │
│ Staff Data Scientist │ 105000.0 │
├─────────────────────────────────────┴───────────────────────┤
│ 93 rows (20 shown) 2 columns │
└─────────────────────────────────────────────────────────────┘
위 쿼리를 사용하면 다음 코드를 사용하여 Pandas DataFrame으로 처리할 수 있습니다.
import pandas as pd
df = con.sql(q).fetchdf()
마지막으로 다음 쿼리를 사용하여 다른 데이터세트를 데이터베이스에 로드할 수 있습니다.
con.sql("CREATE TABLE mytable AS SELECT * FROM '~/filepath.csv'")
위 쿼리에서는 데이터가 CSV 파일이라고 가정합니다. 다른 옵션으로는 S3 또는 MotherDuck 데이터베이스에 대한 로컬 DuckDB가 있습니다.
DuckDB는 데이터 분석을 위해 특별히 개발된 오픈 소스 데이터베이스 시스템입니다. 이 시스템은 데이터 처리를 신속하고 효율적으로 처리하도록 설계되었습니다. MotherDuck은 DuckDB를 위한 오픈 소스 관리형 클라우드 기반 서비스입니다.
DuckDB와 MotherDuck을 결합하면 데이터를 클라우드에 저장하고 DuckDB로 신속하게 처리하여 노트북을 개인 분석 엔진으로 전환할 수 있습니다.
코넬리우스 유다 위자야 데이터 과학 보조 관리자 및 데이터 작성자입니다. Allianz Indonesia에서 풀타임으로 일하는 동안 그는 소셜 미디어와 글쓰기 미디어를 통해 Python 및 데이터 팁을 공유하는 것을 좋아합니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://www.kdnuggets.com/turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck?utm_source=rss&utm_medium=rss&utm_campaign=turn-your-laptop-into-a-personal-analytics-engine-with-duckdb-and-motherduck
- :있다
- :이다
- :아니
- :어디
- 10
- 125
- 15000
- 20
- 25
- 3d
- 7
- 8
- 8000
- 9
- a
- 위의
- ACCESS
- 계정
- 얻다
- 획득한
- 활동
- 더하다
- 전진
- 진보
- 집합
- AI
- All
- 알리안츠
- 수
- 이미
- 또한
- an
- 분석
- 분석자
- 분석
- 분석
- 분석
- 및
- 다른
- 어떤
- 적용된
- 있군요
- AS
- 조수
- 가정하다
- At
- 인증
- 자발적인
- 자치 차량
- 가능
- BE
- 이하
- 사이에
- 내장
- 사업
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- 단추
- by
- CAN
- 세포
- 변경
- 클라우드
- 암호
- 열
- 결합
- 결합
- 커뮤니티
- 컴퓨터
- 컴퓨터 비전
- 병발 사정
- 연결하기
- 연결
- 수
- 만들
- 임계
- Current
- 데이터
- 데이터 분석
- 데이터 분석가
- 데이터 분석
- 데이터 엔지니어
- 데이터 처리
- 데이터 과학
- 데이터 과학자
- 데이터베이스
- 태만
- 설계
- 개발
- 개발자
- DID
- 차이
- do
- 하기
- 더블
- 다운로드
- 효과적으로
- 효율적으로
- 엔진
- 기사
- 등
- 에테르 (ETH)
- EVER
- 모든
- 예
- 실행
- 실험
- 친하게 하다
- 를
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 파일
- 필터링
- 수행원
- 럭셔리
- 무료
- 에
- 생성
- 얻을
- 주기
- 그룹
- 손
- 핸들
- 처리
- 데
- he
- 도움
- 여기에서 지금 확인해 보세요.
- 방법
- HTTPS
- if
- 영상
- 구현하다
- 개선
- in
- 포함
- 인도네시아 공화국
- 시작
- 설치
- 설치
- 으로
- 포함
- 참여
- IT
- 어울리다
- 주피터 수첩
- 너 겟츠
- 실험실
- 휴대용 퍼스널 컴퓨터
- 노트북
- 배우기
- 처럼
- 제한
- 링크드인
- 하중
- 지방의
- 보기
- 같이
- loves
- 기계
- 기계 학습
- 관리
- 구축
- 관리 시스템
- 매니저
- 미디어
- 많은
- 여러
- name
- 즉
- 출신
- 필요
- 요구
- 신제품
- 다음 것
- 수첩
- of
- on
- ONE
- 온라인
- 오픈 소스
- 옵션
- or
- 주문
- 기타
- 우리의
- 아웃
- 출력
- 꾸러미
- 팬더
- 파트너 관계
- 완전한
- 확인
- 피벗
- 플랫폼
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 부디
- 힘
- 강한
- 예쁜
- 이전에
- 교장
- 방법
- 프로세스
- 처리
- 프로덕트
- 프로그램 제작자
- 공개
- Python
- 쿼리
- 빨리
- 손쉽게
- 실현
- 관계없이
- 회원가입
- 교체
- 연구
- 연구원
- 결과
- 봉급
- 같은
- 대본
- 과학
- 과학자
- 참조
- 고르다
- 선택
- 서비스
- 세트
- 설정
- 공유
- 영상을
- 표시
- 상당한
- 비슷한
- 비슷하게
- 크기
- 사회적
- 소셜 미디어
- 소프트웨어
- 구체적으로
- SQL
- 스택
- 직원
- 성공한
- 성공적으로
- 적당한
- SUPPORT
- 지원
- 신속히
- 체계
- 시스템은
- 테이블
- 촬영
- Technology
- 그
- XNUMXD덴탈의
- 그들
- 그곳에.
- Bowman의
- 이
- 시간
- 도움말
- 에
- 토큰
- 수단
- 검색을
- 시도
- 회전
- ui
- 사용
- 사용자
- 사용
- 보통
- 자동차
- 버전
- 를 통해
- 시력
- 였다
- 방법
- we
- 웹 사이트
- 언제
- 어느
- 동안
- why
- 의지
- 과
- 워크플로우
- 일하는
- 일
- 겠지
- 작가
- 쓰기
- 당신
- 너의
- 당신 자신
- 제퍼 넷