Terraform으로 5분 만에 최신 데이터 스택 부트스트랩
최신 데이터 스택이란 무엇이며 어떻게 배포합니까? 이 가이드는 Airbyte, BigQuery, dbt, Metabase 및 Terraform을 사용하는 데 필요한 모든 것에 대한 설정 지침으로 이 여정을 시작하도록 동기를 부여합니다.
By 투안 응 우옌, CTO 및 Joon Solutions 이사.
최신 데이터 스택 아키텍처(작성자 이미지)
최신 데이터 스택이란 무엇입니까?
MDS(최신 데이터 스택)는 최신 데이터 웨어하우스가 기존 데이터 웨어하우스보다 10~10,000배 더 나은 성능을 발휘하도록 만드는 기술 스택입니다. 궁극적으로 MDS는 시간, 비용, 노력을 절약해 줍니다. MDS의 네 가지 요소는 데이터 커넥터은 클라우드 데이터웨어 하우스은 데이터 변환기및 BI 및 데이터 탐색 도구입니다.
Easy 완성 수백 개의 즉시 사용 가능한 커넥터가 사전 구축된 관리형 오픈 소스 도구를 통해 가능해졌습니다. 데이터 엔지니어 팀이 정기적으로 구축하고 유지 관리해야 했던 작업을 이제는 간단한 사용 사례를 위한 도구로 대체할 수 있습니다. 다음과 같은 관리형 솔루션 땀 와 파이브 트란, 다음과 같은 오픈 소스 솔루션과 함께 에어 바이트 와 멜타노, 이런 일이 일어나고 있습니다.
를 사용하여 클라우드 기반 컬럼형 데이터 웨어하우스 최근에는 높은 성능과 경제성으로 인해 트렌드가 되었습니다. 온프레미스 MPP(대량 병렬 처리) 데이터베이스에 대해 연간 $100를 지불하는 대신 월 $100(또는 그 이하)부터 지불을 시작할 수 있습니다. 클라우드 네이티브 데이터 웨어하우스는 기존 OLTP보다 10~10,000배 더 빠른 것으로 알려져 있습니다. 이 카테고리의 인기 옵션은 다음과 같습니다. BigQuery, 눈송이및 적색 편이.
예전에는 데이터 웨어하우스 내부에서 데이터를 처리하는 것이 기술의 한계로 인해 병목 현상이 발생했습니다. 결과적으로 기업은 데이터 웨어하우스의 작업 부하를 줄이기 위해 ELT 대신 ETL을 선호해야 했습니다. 그러나 클라우드 네이티브 데이터 웨어하우스가 발전하면서 많은 사람들이 데이터 웨어하우스 내 변환 도구 인기를 얻고 있습니다. 이 범주에서 가장 주목할만한 것은 dbt(데이터 구축 도구)와 Dataform입니다.
BI 도구 레거시 데이터 웨어하우스의 작업 부하를 줄이기 위해 일부 변환을 처리하는 데에도 사용됩니다. 그러나 최신 데이터 스택에서는 BI 도구의 초점이 데이터 액세스, 셀프 서비스 및 데이터 검색을 민주화하는 쪽으로 옮겨졌습니다. 제가 생각하기에 올바른 방향으로 가고 있다고 생각되는 일부 도구는 다음과 같습니다. 보는 사람, 메타베이스및 수퍼 셋트.
우리의 아키텍처
다양한 도구와 프로세스가 관련되어 있으므로 최신 데이터 스택을 시작하는 것은 어려울 수 있습니다. 이 문서의 목표는 이 여정을 최대한 원활하게 시작하는 데 도움이 되는 것입니다. 준비단계는 많지만, 5 분 완료되면 모든 리소스를 가동합니다.
우리는 사용할 것입니다 테라 폼, Google Cloud의 모든 것을 프로비저닝하는 코드형 인프라 오픈소스 도구입니다. 아래 지침을 따르면 생성되는 리소스는 다음과 같습니다.
- 필요한 API가 활성화된 Google Cloud 프로젝트
- 수집: Airbyte를 실행하는 GCE 인스턴스
- 웨어하우징: BigQuery 데이터 세트
- 오케스트레이션(선택사항): Airflow를 실행하는 GCE 인스턴스
- BI 및 데이터 검색: Metabase를 실행하는 GCE 인스턴스
- 다양한 서비스에 대한 서비스 계정 및 해당 IAM 권한 결합
시작하기
Google Cloud 계정 생성 및 결제 활성화
이 프로젝트의 Terraform 코드는 Google Cloud Platform과 상호작용합니다. 따라서 우리의 첫 번째 단계는 Google 계정을 만드는 것입니다. 결제 활성화. 참고 결제 ID 청구 페이지에서 다음 형식을 사용하세요. ######-######-######. 다음 단계에서 이 값이 필요합니다.
Google 클라우드 CLI 설치
안내에 따라 Google Cloud SDK를 설치하세요. 여기에서 지금 확인해 보세요. 해당 OS에 대해. 당신이 가지고 후에 지클라우드 CLI가 설치되어 있으면 터미널 창에서 다음 명령을 실행하고 지침을 따릅니다. 이렇게 하면 Terraform이 인증에 기본 자격 증명을 사용할 수 있습니다.
gcloud 인증 애플리케이션 - 기본 로그인
테라폼 설치
지시를 따르다 여기에서 지금 확인해 보세요. Terraform CLI를 로컬로 설치합니다. 나중에 다음 명령을 실행하여 설치를 확인하십시오.
테라폼 -v
다음과 같은 내용을보아야합니다.
darwin_amd1.0.0 + 공급자의 Terraform v64 + 제공자 Registry.terraform.io/hashicorp/google v3.71.0
이 저장소를 로컬에서 포크하거나 복제합니다.
여러분의 시간과 재능으로 이 저장소를 포크하세요 귀하의 계정에 복사하거나 로컬 컴퓨터에 복제하세요. 저장소를 복제하려면 다음을 실행하세요.
자식 클론 https://github.com/tuanchris/modern-data-stack cd 현대 데이터 스택
만들기 terraform.tfvars 파일
만들기 terraform.tfvars 다음 내용이 포함 된 파일 :
# 첫 번째 단계의 청구 ID billing_id = ######-######-###### # 프로젝트를 넣을 폴더 ID # 사용하는 경우 공백으로 둡니다. a 개인 계정folder_id = "" # 프로젝트를 넣을 조직 ID # 개인 계정을 사용하는 경우 공백으로 두십시오. org_id = "" # 생성할 프로젝트 project_id = ""
경고: 민감한 값으로 간주됩니다. 이 파일과 *.tfstate 파일을 공개 저장소에 저장합니다.
값을 사용자 정의하세요. 변수.tf
변수는 변수.tf 리소스 구성에 사용됩니다.
작성자의 이미지.
변수를 변경하여 다양한 서비스에 대한 머신 유형을 맞춤설정할 수 있습니다. 어떤 서비스도 사용하고 싶지 않다면, gce.tf 파일.
소스 데이터세트 사전에 소스 시스템을 추가하여 소스 시스템에 대한 다양한 데이터세트를 생성할 수도 있습니다.
최신 데이터 스택 만들기
마지막으로 Google Cloud에서 이러한 모든 리소스를 프로비저닝하려면 다음 명령어를 실행하세요.
테라폼 적용
작성자의 이미지.
터미널의 출력을 연구하여 모든 리소스 설정이 원하는 대로 설정되었는지 확인하세요. 유형 예 명중 입력.
Terraform은 최신 데이터 스택을 사용하여 Google Cloud 프로젝트를 만듭니다. 전체 과정은 약 2~3분 정도 소요됩니다. VM 인스턴스에 서비스를 설치하는 데 2~3분이 추가로 소요됩니다. 전체 과정은 5분 이내에 완료됩니다.
최신 데이터 스택 사용
다양한 서비스에 대한 서비스 계정 검색
작성자의 이미지.
Google에서는 서비스마다 다른 서비스 계정을 사용할 것을 권장합니다. 프로젝트의 Terraform 코드는 이미 사용된 다양한 기술에 대해 서로 다른 계정을 생성했습니다. 특정 서비스에 대한 서비스 계정을 검색하려면 다음 명령어를 실행하세요.
Terraform 출력 [service_name]_sa_key
이러한 모든 계정에 대한 기본 권한은 다음과 같습니다. 역할/bigquery.admin. 다음에서 이를 맞춤설정할 수 있습니다. iam.tf 파일.
반환된 값은 base64로 인코딩되었습니다. 이 값을 다시 JSON 형식으로 바꾸려면 다음 명령을 실행합니다.
echo "[이전 명령의 값]" | base64 -d
JSON 서비스 계정을 사용하여 프로젝트 리소스에 대한 서비스 액세스를 인증할 수 있습니다.
경고: 이 서비스 계정이 있는 사람은 누구나 프로젝트에 액세스할 수 있습니다.
Airbyte로 데이터 수집
에어 바이트 뛰어난 오픈 소스 데이터 통합 도구입니다. Airbyte UI에 액세스하려면 먼저 gcloud SSH 명령어를 실행하세요.
작성자의 이미지.
다음과 유사한 명령을 받게 됩니다.
gcloud 베타 컴퓨팅 ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --project "tf-airbyte-demo"
다음으로 Airbyte UI를 로컬로 포트 포워딩하는 명령에 다음을 추가합니다.
-- -L 8000:로컬호스트:8000 -L 8001:로컬호스트:8001 -N -f
최종 명령은 다음과 같습니다.
gcloud 베타 컴퓨팅 ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --project "tf-airbyte-demo" -- -L 8000:localhost:8000 -L 8001:localhost:8001 - N -f
참고 : GCP UI에서 복사한 후에는 줄바꿈 문자를 삭제해야 합니다.
Airbyte 인스턴스 시작이 완료되면 브라우저로 이동하여 접속할 수 있습니다. localhost : 8000. 그렇지 않은 경우 인스턴스가 설치를 완료할 때까지 XNUMX분 정도 기다리십시오.
작성자의 이미지.
이제 소스를 통합하고 다음을 사용하여 BigQuery 대상을 추가할 수 있습니다. airbyte_sa_key, 즉시 BigQuery에 데이터를 보관하세요.
다음에서 Airbyte 설치에 액세스할 수 있습니다. /에어바이트/ VM 내부.
dbt를 사용한 모델 데이터
DBT (데이터 구축 도구)는 SQL을 사용하는 강력한 오픈 소스 데이터 변환 도구입니다. 이를 통해 데이터 분석가는 이전에 데이터 엔지니어에게 할당된 작업을 수행할 수 있습니다. 또한 데이터 분석가와 데이터 엔지니어가 혼합된 분석 엔지니어라는 완전히 새로운 직책을 만드는 데 도움이 됩니다. 내 블로그에서 해당 위치에 대해 자세히 알아볼 수 있습니다. 여기에서 지금 확인해 보세요..
작성자의 이미지.
Airbyte, Airflow, Metabase와 달리 dbt를 실행하기 위해 서버가 필요하지 않습니다. 다음 사이트를 방문하여 무료(영구) 1인용 계정을 등록할 수 있습니다. 웹 사이트.
Airflow로 워크플로 조정
기류 Airbnb가 만든 검증된 워크플로 조정 도구입니다. 최신 데이터 스택을 사용하면 Airflow를 많이 사용할 필요가 없습니다. 그러나 일부 맞춤설정이 필요한 경우에는 Airflow가 유용한 도구가 될 수 있습니다.
UI에 액세스하려면 Airbyte를 사용하여 위 섹션과 유사한 SSH 명령을 받으세요. 포트 전달에는 다음 명령을 사용하십시오.
gcloud 베타 컴퓨팅 ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airflow" --project "tf-airbyte-demo" -- -L 8080:localhost:8080 -N -f
이제 Airflow 설치에 액세스할 수 있습니다. localhost : 8080. 기본 사용자 이름과 비밀번호는 다음과 같습니다. 관리자 와 관리자.
작성자의 이미지.
다음 위치에서 공기 흐름 설치에 접근할 수 있습니다. /공기 흐름/ VM 내부.
메타베이스로 데이터 시각화
메타베이스 오픈 소스 데이터 시각화 및 검색 도구입니다. 매우 사용자 친화적이고 시작하기 쉽습니다.
Metabase UI에 액세스하려면 Airbyte를 사용하여 위 섹션과 유사한 SSH 명령을 받으세요. 그런 다음 포트 전달에 다음 명령을 사용하십시오.
gcloud 베타 컴퓨팅 ssh --zone "asia-southeast1-a" "tf-airbyte-demo-metabase" --project "tf-airbyte-demo" -- -L 3000:localhost:3000 -N -f
작성자의 이미지.
정리
원치 않는 비용이 발생하지 않도록 하려면 이 프로젝트에서 생성된 리소스를 실행하여 정리해야 합니다.
테라폼 파괴
경고: 이렇게 하면 프로젝트에 남아 있는 모든 데이터와 리소스가 삭제됩니다. 또는 사용하지 않는 GCE를 꺼서 비용을 절약할 수도 있습니다.
실물. 허가를 받아 다시 게시했습니다.
바이오 : 투안 응 우옌 Data as a Service 회사 인 Joon Solutions의 CTO입니다. 그의 전문 경험은 데이터 과학 팀, 분석 인프라 및 분석 사용 사례의 구축 및 관리를 중심으로 이루어집니다. 그는 데이터 분석과 클라우드 컴퓨팅에 대한 열정을 결합하여 디지털 시대에 기업이 경쟁력을 유지할 수 있도록 지원합니다. 그는 천문학, 독서, 음악 및 IoT를 포함한 광범위한 관심사를 가지고 있습니다.
관련 :
지난 30 일 동안의 주요 기사 | |||||
---|---|---|---|---|---|
|
|
출처: https://www.kdnuggets.com/2021/08/bootstrap-modern-data-stack-terraform.html
- "
- &
- ACCESS
- 계정
- 추가
- Airbnb
- All
- 분석자
- 분석
- 아파치
- API를
- 아키텍처
- 약
- 기사
- 천문학
- 인증
- 자동
- 베타
- 큰 쿼리
- 청구
- 블로그
- 판
- 이사
- 경계
- 브라우저
- 빌드
- 건물
- 사업
- 한
- 가지 경우
- 클라우드
- 클라우드 컴퓨팅
- 클라우드 플랫폼
- 암호
- 기업
- 회사
- 계산
- 컴퓨팅
- 함유량
- 비용
- 만들기
- CTO (최고 기술 담당자)
- 데이터
- 데이터 액세스
- 데이터 분석
- 데이터 통합
- 데이터 과학
- 데이터 시각화
- 데이터웨어 하우스
- 데이터웨어 하우스
- 데이터베이스
- 일
- 깊은 학습
- 파괴
- 디지털
- 책임자
- 발견
- 기사
- 엔지니어
- 체험
- 먼저,
- 초점
- 따라
- 체재
- 무료
- 덴탈
- 구글
- Google 클라우드
- GPU
- 안내
- 여기에서 지금 확인해 보세요.
- 높은
- 방법
- HTTPS
- 수백
- 잡종
- IAM
- 영상
- 포함
- 인프라
- 완성
- 참여
- IOT
- IT
- 배우다
- 배우기
- 링크드인
- 지방의
- 장소 상에서
- 기계 학습
- 유튜브 영상을 만드는 것은
- 매질
- ML
- 돈
- 음악
- 온라인
- 열 수
- 오픈 소스
- 의견
- 옵션
- 비밀번호
- 성능
- 플랫폼
- 인기 문서
- 프로젝트
- 공개
- 범위
- 읽기
- 감소
- 의지
- 자료
- 달리기
- 달리는
- 과학
- 과학자
- SDK
- 셀프 서비스
- 서비스
- 단순, 간단, 편리
- 솔루션
- 회전
- SQL
- 스타트
- 시작
- 유지
- 이야기
- 시스템은
- 기술
- 시간
- 상단
- 변환
- 변화
- ui
- 가치
- 심상
- 기다리다
- 창고
- 작업
- 워크플로우
- X
- year