데이터 전송 단순화: Amazon AppFlow를 사용하여 Google BigQuery에서 Amazon S3로

플라톤에 의해 재발행

팔로워 : 0

오늘날의 데이터 중심 세계에서는 다양한 플랫폼에 걸쳐 데이터를 손쉽게 이동하고 분석하는 능력이 필수적입니다. 아마존 AppFlow완전 관리형 데이터 통합 서비스인 는 AWS 서비스, SaaS(Software as a Service) 애플리케이션, 현재는 Google BigQuery 간의 데이터 전송을 간소화하는 데 앞장서 왔습니다. 이 블로그 게시물에서는 새로운 기능을 탐색합니다. Google BigQuery 커넥터 Amazon AppFlow에서 Google의 데이터 웨어하우스에서 Google의 데이터 웨어하우스로 데이터를 전송하는 프로세스를 단순화하는 방법을 알아보세요. Amazon Simple Storage Service(Amazon S3), 멀티 클라우드 데이터 액세스의 민주화를 포함하여 데이터 전문가와 조직에 상당한 이점을 제공합니다.

Amazon AppFlow 개요

아마존 AppFlow Google BigQuery, Salesforce, SAP, Hubspot, ServiceNow 등의 SaaS 애플리케이션과 Amazon S3, 아마존 레드 시프트, 단 몇 번의 클릭만으로 가능합니다. Amazon AppFlow를 사용하면 일정에 따라, 비즈니스 이벤트에 대한 응답으로 또는 요청에 따라 선택한 빈도로 거의 모든 규모의 데이터 흐름을 실행할 수 있습니다. 추가 단계 없이 흐름 자체의 일부로 즉시 사용 가능한 풍부하고 풍부한 데이터를 생성하도록 필터링 및 검증과 같은 데이터 변환 기능을 구성할 수 있습니다. Amazon AppFlow는 이동 중인 데이터를 자동으로 암호화하고, Amazon AppFlow와 통합된 SaaS 애플리케이션에 대해 공용 인터넷을 통해 데이터가 흐르는 것을 제한할 수 있습니다. AWS 프라이빗링크, 보안 위협에 대한 노출을 줄입니다.

Google BigQuery 커넥터 소개

새로운 Google BigQuery 커넥터 Amazon AppFlow는 Google 데이터 웨어하우스의 분석 기능을 사용하고 BigQuery의 데이터를 손쉽게 통합, 분석, 저장 또는 추가 처리하여 실행 가능한 통찰력으로 변환하려는 조직에 가능성을 보여줍니다.

아키텍처

Amazon AppFlow를 사용하여 Google BigQuery에서 Amazon S3로 데이터를 전송하는 아키텍처를 검토해 보겠습니다.

데이터 소스 선택: 아마존 AppFlow에서 Google BigQuery를 데이터 소스로 선택하세요. 데이터를 추출하려는 테이블이나 데이터세트를 지정합니다.
필드 매핑 및 변환: Amazon AppFlow의 직관적인 시각적 인터페이스를 사용하여 데이터 전송을 구성합니다. 데이터 필드를 매핑하고 필요에 따라 변환을 적용하여 데이터를 요구 사항에 맞출 수 있습니다.
전송 빈도: 매일, 매주, 매월 등 데이터를 얼마나 자주 전송할지 결정하여 유연성과 자동화를 지원합니다.
대상: S3 버킷을 데이터 대상으로 지정합니다. Amazon AppFlow는 데이터를 효율적으로 이동하여 Amazon S3 스토리지에서 액세스할 수 있도록 합니다.
소비: 사용 아마존 아테나 Amazon S3의 데이터를 분석합니다.

사전 조건

이 솔루션에 사용된 데이터 세트는 다음에 의해 생성됩니다. 신시아, 합성 환자 모집단 시뮬레이터 및 오픈 소스 프로젝트 Apache 라이선스 2.0. 이 데이터를 Google BigQuery에 로드하거나 기존 데이터세트를 사용하세요.

Amazon AppFlow를 Google BigQuery 계정에 연결

이 게시물에서는 Google 계정, 적절한 권한이 있는 OAuth 클라이언트, Google BigQuery 데이터를 사용합니다. Amazon AppFlow에서 Google BigQuery 액세스를 활성화하려면 미리 새 OAuth 클라이언트를 설정해야 합니다. 지침은 다음을 참조하세요. Amazon AppFlow용 Google BigQuery 커넥터.

Amazon S3 설정

Amazon S3의 모든 객체는 버킷에 저장됩니다. Amazon S3에 데이터를 저장하려면 먼저 다음을 수행해야 합니다. S3 버킷 생성 결과를 저장합니다.

Amazon AppFlow 결과를 위한 새 S3 버킷 생성

S3 버킷을 생성하려면 다음 단계를 완료하십시오.

AWS Management Console에서 아마존 S3선택한다. 버킷 만들기.
전역적으로 고유한 이름을 입력하세요. 버킷 이름; 예를 들어 appflow-bq-sample.
왼쪽 메뉴에서 버킷을 만듭니다.

Amazon Athena 결과를 위한 새 S3 버킷 생성

S3 버킷을 생성하려면 다음 단계를 완료하십시오.

AWS Management Console에서 아마존 S3선택한다. 버킷 만들기.
전역적으로 고유한 이름을 입력하세요. 버킷 이름; 예를 들어 athena-results.
왼쪽 메뉴에서 버킷을 만듭니다.

AWS Glue 데이터 카탈로그에 대한 사용자 역할(IAM 역할)

흐름과 함께 전송하는 데이터를 카탈로그화하려면 다음에 적절한 사용자 역할이 있어야 합니다. AWS 자격 증명 및 액세스 관리 (IAM). Amazon AppFlow에 이 역할을 제공하여 생성에 필요한 권한을 부여합니다. AWS Glue 데이터 카탈로그, 테이블, 데이터베이스 및 파티션.

필요한 권한이 있는 IAM 정책의 예는 다음을 참조하세요. Amazon AppFlow에 대한 자격 증명 기반 정책 예입니다.

디자인 연습

이제 실제 사용 사례를 통해 Amazon AppFlow Google BigQuery-Amazon S3 커넥터가 어떻게 작동하는지 살펴보겠습니다. 사용 사례에서는 장기 저장 분석을 위해 Amazon AppFlow를 사용하여 Google BigQuery의 기록 데이터를 Amazon S3에 보관합니다.

Amazon AppFlow 설정

Google Analytics에서 Amazon S3로 데이터를 전송하는 새로운 Amazon AppFlow 흐름을 생성합니다.

에 Amazon AppFlow 콘솔선택한다. 흐름 만들기.
흐름 이름을 입력합니다. 예를 들어, my-bq-flow.
필요한 추가 태그; 예를 들어 키 입력 env ~을 위해 가치관 입력 dev.

왼쪽 메뉴에서 다음 보기.
럭셔리 소스 이름선택한다. 구글 빅쿼리.
왼쪽 메뉴에서 새 연결 만들기.
OAuth를 입력하세요 고객 ID 및 고객 비밀을 클릭한 다음 연결 이름을 지정하세요. 예를 들어, bq-connection.

팝업 창에서 amazon.com이 Google BigQuery API에 액세스하도록 허용하도록 선택합니다.

럭셔리 Google BigQuery 객체 선택선택한다. 작업대.
럭셔리 Google BigQuery 하위 객체 선택선택한다. BigQuery 프로젝트 이름.
럭셔리 Google BigQuery 하위 객체 선택선택한다. 데이터베이스 이름.
럭셔리 Google BigQuery 하위 객체 선택선택한다. 테이블 이름.
럭셔리 목적지 이름선택한다. 아마존 S3.
럭셔리 버킷 세부정보, 전제 조건에서 Amazon AppFlow 결과를 저장하기 위해 생성한 Amazon S3 버킷을 선택합니다.
엔터 버튼 raw 등 접두사.

다음으로 제공 AWS Glue 데이터 카탈로그 추가 분석을 위한 테이블을 생성하기 위한 설정입니다.
1. 선택 사용자 역할 (IAM 역할)이 기본 요건에 생성되었습니다.
2. 새로 만들기 데이터베이스 예를 들어, healthcare.
3. 을 제공 테이블 접두사 예를 들어 설정 bq.

선택 주문형 실행.

왼쪽 메뉴에서 다음.
선택 수동으로 필드 매핑.
다음 XNUMX개 필드를 선택하세요. 소스 필드 이름 테이블에서 알레르기:
1. 스타트
2. 환자
3. 암호
4. 상품 설명
5. 타입
6. 범주
왼쪽 메뉴에서 필드를 직접 매핑.

왼쪽 메뉴에서 다음 보기.
In 필터 추가 섹션 선택 다음 보기.
왼쪽 메뉴에서 흐름 만들기.

흐름 실행

새 흐름을 만든 후 요청 시 실행할 수 있습니다.

에 Amazon AppFlow 콘솔선택한다. my-bq-flow.
왼쪽 메뉴에서 흐름 실행.

이 연습에서는 이해하기 쉽도록 주문형 작업 실행을 선택합니다. 실제로는 예약된 작업을 선택하고 새로 추가된 데이터만 주기적으로 추출할 수 있습니다.

Amazon Athena를 통한 쿼리

선택 사항인 AWS Glue 데이터 카탈로그 설정을 선택하면 데이터 카탈로그가 데이터에 대한 카탈로그를 생성하여 Amazon Athena가 쿼리를 수행할 수 있도록 합니다.

쿼리 결과 위치를 구성하라는 메시지가 표시되면 설정 탭하고 선택 관리. 아래에 설정 관리, 사전 요구 사항에서 생성된 Athena 결과 버킷을 선택하고 찜하기.

에 Amazon Athena 콘솔, 데이터 소스를 다음과 같이 선택합니다. AWSDataCatalog.
다음으로 데이터베이스 as healthcare.
이제 AWS Glue 크롤러가 생성한 테이블을 선택하고 미리 볼 수 있습니다.

다음 쿼리에 표시된 대로 사용자 지정 쿼리를 실행하여 상위 10개 알레르기를 찾을 수도 있습니다.

주의 사항: 아래 쿼리에서 테이블 이름을 바꾸십시오. 이 경우 bq_appflow_mybqflow_1693588670_latest, AWS 계정에서 생성된 테이블 이름을 사용합니다.

SELECT type,
category, "description",
count(*) as number_of_cases
FROM "healthcare"."bq_appflow_mybqflow_1693588670_latest"
GROUP BY type,
category, "description"
ORDER BY number_of_cases DESC
LIMIT 10;

왼쪽 메뉴에서 쿼리 실행.

이 결과는 사례 수 기준으로 상위 10개의 알레르기를 보여줍니다.

정리

요금이 발생하지 않도록 하려면 다음 단계를 완료하여 AWS 계정의 리소스를 정리하십시오.

Amazon AppFlow 콘솔에서 흐름 탐색 창에서
흐름 목록에서 흐름을 선택합니다. my-bq-flow, 삭제합니다.
흐름을 삭제하려면 delete를 입력합니다.
왼쪽 메뉴에서 연결 탐색 창에서
왼쪽 메뉴에서 구글 빅쿼리 커넥터 목록에서 선택 bq-connector, 삭제합니다.
커넥터를 삭제하려면 delete를 입력합니다.
IAM 콘솔에서 역할 탐색 페이지에서 AWS Glue 크롤러용으로 생성한 역할을 선택하고 삭제합니다.
Amazon Athena 콘솔에서:
1. 데이터베이스 아래에 생성된 테이블 삭제 healthcare AWS Glue 크롤러를 사용합니다.
2. 데이터베이스 삭제 healthcare
Amazon S3 콘솔에서 생성한 Amazon AppFlow 결과 버킷을 검색하고 빈 개체를 삭제한 다음 버킷을 삭제합니다.
Amazon S3 콘솔에서 생성한 Amazon Athena 결과 버킷을 검색하고 빈 개체를 삭제한 다음 버킷을 삭제합니다.
Google BigQuery 리소스가 포함된 프로젝트를 삭제하여 Google 계정의 리소스를 정리하세요. 설명서에 따라 Google 리소스 정리.

결론

Amazon AppFlow의 Google BigQuery 커넥터는 Google 데이터 웨어하우스에서 Amazon S3로 데이터를 전송하는 프로세스를 간소화합니다. 이러한 통합은 분석과 기계 학습, 보관 및 장기 저장을 단순화하여 두 플랫폼의 분석 기능을 활용하려는 데이터 전문가와 조직에 상당한 이점을 제공합니다.

Amazon AppFlow를 사용하면 데이터 통합의 복잡성이 제거되므로 데이터에서 실행 가능한 통찰력을 얻는 데 집중할 수 있습니다. 과거 데이터를 보관하든, 복잡한 분석을 수행하든, 기계 학습용 데이터를 준비하든 이 커넥터는 프로세스를 단순화하여 더 광범위한 데이터 전문가가 액세스할 수 있도록 해줍니다.

Amazon AppFlow를 사용하여 Google BigQuery에서 Amazon S3로 데이터를 전송하는 방법에 관심이 있다면 단계별 설명을 살펴보세요. 동영상 자습서. 이 튜토리얼에서는 연결 설정부터 데이터 전송 흐름 실행까지 전체 프로세스를 안내합니다. Amazon AppFlow에 대한 자세한 내용을 보려면 다음을 방문하세요. 아마존 AppFlow.

저자 소개

카르티케이 카토르 Amazon Web Services의 글로벌 생명 과학 솔루션 설계자입니다. 그는 AWS 분석 서비스에 중점을 두고 고객의 클라우드 여정을 돕는 데 열정을 쏟고 있습니다. 그는 열렬한 달리기 선수이며 하이킹을 즐깁니다.

가면 샤를란지예프 수석 빅 데이터 및 ETL 솔루션 설계자이자 Amazon AppFlow 전문가입니다. 그는 복잡한 데이터 통합 문제에 직면한 고객의 삶을 더 편리하게 만드는 사명을 갖고 있습니다. 그의 비밀무기는? 최소한의 노력과 코딩 없이 작업을 완료할 수 있는 완전 관리형 로우 코드 AWS 서비스입니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/big-data/simplify-data-transfer-google-bigquery-to-amazon-s3-using-amazon-appflow/

타임 스탬프 : 2023 년 10 월 5 일

타임 스탬프 : 9년 2023월 XNUMX일

데이터 전송 단순화: Amazon AppFlow를 사용하여 Google BigQuery에서 Amazon S3로 | 아마존 웹 서비스

플라톤에 의해 재발행

Amazon AppFlow 개요

Google BigQuery 커넥터 소개

아키텍처

사전 조건

Amazon AppFlow를 Google BigQuery 계정에 연결

Amazon S3 설정

Amazon AppFlow 결과를 위한 새 S3 버킷 생성

Amazon Athena 결과를 위한 새 S3 버킷 생성

AWS Glue 데이터 카탈로그에 대한 사용자 역할(IAM 역할)

디자인 연습

Amazon AppFlow 설정

흐름 실행

Amazon Athena를 통한 쿼리

정리

결론

저자 소개

더보기 AWS 빅 데이터

Terraform을 사용하여 Amazon MSK Connect 구성 외부화 | 아마존 웹 서비스

Amazon Athena 쿼리 편집기에서 키보드 단축키를 사용하여 생산성 향상

Amazon Athena로 범위 1 탄소 발자국 추정 | 아마존 웹 서비스

더 큰 새 작업자 유형 G.4X 및 G.8X로 Apache Spark용 AWS Glue 작업 확장 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정