Trong thế giới dựa trên dữ liệu ngày nay, khả năng di chuyển và phân tích dữ liệu dễ dàng trên nhiều nền tảng khác nhau là điều cần thiết. Luồng ứng dụng Amazon, một dịch vụ tích hợp dữ liệu được quản lý toàn phần, đã đi đầu trong việc hợp lý hóa việc truyền dữ liệu giữa các dịch vụ AWS, ứng dụng phần mềm dưới dạng dịch vụ (SaaS) và giờ là Google BigQuery. Trong bài đăng trên blog này, bạn khám phá tính năng mới Trình kết nối Google BigQuery trong Amazon AppFlow và khám phá cách nó đơn giản hóa quá trình truyền dữ liệu từ kho dữ liệu của Google sang Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), mang lại lợi ích đáng kể cho các chuyên gia và tổ chức dữ liệu, bao gồm cả việc dân chủ hóa quyền truy cập dữ liệu trên nhiều đám mây.
Tổng quan về Amazon AppFlow
Luồng ứng dụng Amazon là dịch vụ tích hợp được quản lý toàn phần mà bạn có thể sử dụng để truyền dữ liệu một cách an toàn giữa các ứng dụng SaaS như Google BigQuery, Salesforce, SAP, Hubspot và ServiceNow cũng như các dịch vụ AWS như Amazon S3 và Amazon RedShift, chỉ trong vài cú nhấp chuột. Với Amazon AppFlow, bạn có thể chạy các luồng dữ liệu ở hầu hết mọi quy mô với tần suất bạn chọn—theo lịch trình, để đáp ứng sự kiện kinh doanh hoặc theo yêu cầu. Bạn có thể đặt cấu hình các khả năng chuyển đổi dữ liệu như lọc và xác thực để tạo ra dữ liệu phong phú, sẵn sàng sử dụng như một phần của chính luồng mà không cần thực hiện thêm bước nào. Amazon AppFlow tự động mã hóa dữ liệu đang chuyển động và cho phép bạn hạn chế dữ liệu truyền qua internet công cộng đối với các ứng dụng SaaS được tích hợp với Liên kết riêng AWS, giảm khả năng tiếp xúc với các mối đe dọa bảo mật.
Giới thiệu trình kết nối Google BigQuery
Mới Trình kết nối Google BigQuery trong Amazon AppFlow tiết lộ các khả năng cho các tổ chức đang tìm cách sử dụng khả năng phân tích của kho dữ liệu của Google và dễ dàng tích hợp, phân tích, lưu trữ hoặc xử lý thêm dữ liệu từ BigQuery, biến dữ liệu đó thành thông tin chi tiết có thể hành động.
Kiến trúc
Hãy xem lại kiến trúc để truyền dữ liệu từ Google BigQuery sang Amazon S3 bằng Amazon AppFlow.
- Chọn nguồn dữ liệu: Trong Luồng ứng dụng Amazon, hãy chọn Google BigQuery làm nguồn dữ liệu của bạn. Chỉ định các bảng hoặc tập dữ liệu mà bạn muốn trích xuất dữ liệu.
- Ánh xạ và chuyển đổi trường: Định cấu hình truyền dữ liệu bằng giao diện trực quan trực quan của Amazon AppFlow. Bạn có thể ánh xạ các trường dữ liệu và áp dụng các phép biến đổi nếu cần để căn chỉnh dữ liệu theo yêu cầu của mình.
- Tần suất truyền: Quyết định tần suất bạn muốn truyền dữ liệu—chẳng hạn như hàng ngày, hàng tuần hoặc hàng tháng—hỗ trợ tính linh hoạt và tự động hóa.
- Đích: Chỉ định vùng lưu trữ S3 làm đích cho dữ liệu của bạn. Amazon AppFlow sẽ di chuyển dữ liệu một cách hiệu quả, giúp dữ liệu có thể truy cập được trong bộ lưu trữ Amazon S3 của bạn.
- Tiêu thụ: Sử dụng amazon Athena để phân tích dữ liệu trong Amazon S3.
Điều kiện tiên quyết
Tập dữ liệu được sử dụng trong giải pháp này được tạo bởi tổng hợp, một dự án mã nguồn mở và mô phỏng quần thể bệnh nhân tổng hợp thuộc Giấy phép Apache 2.0. Tải dữ liệu này vào Google BigQuery hoặc sử dụng tập dữ liệu hiện có của bạn.
Kết nối Amazon AppFlow với tài khoản Google BigQuery của bạn
Đối với bài đăng này, bạn sử dụng tài khoản Google, ứng dụng khách OAuth với các quyền phù hợp và dữ liệu Google BigQuery. Để cho phép truy cập Google BigQuery từ Amazon AppFlow, bạn phải thiết lập trước ứng dụng khách OAuth mới. Để biết hướng dẫn, xem Trình kết nối Google BigQuery dành cho Amazon AppFlow.
Thiết lập Amazon S3
Mọi đối tượng trong Amazon S3 đều được lưu trữ trong một bộ chứa. Trước khi có thể lưu trữ dữ liệu trên Amazon S3, bạn phải tạo một nhóm S3 để lưu trữ kết quả.
Tạo bộ chứa S3 mới cho kết quả Amazon AppFlow
Để tạo nhóm S3, hãy hoàn thành các bước sau:
- Trên bảng điều khiển Quản lý AWS dành cho Amazon S3, chọn Tạo xô.
- Nhập một giá trị duy nhất trên toàn cầu tên cho thùng của bạn; ví dụ,
appflow-bq-sample
. - Chọn Tạo xô.
Tạo bộ chứa S3 mới cho kết quả Amazon Athena
Để tạo nhóm S3, hãy hoàn thành các bước sau:
- Trên bảng điều khiển Quản lý AWS dành cho Amazon S3, chọn Tạo xô.
- Nhập một giá trị duy nhất trên toàn cầu tên cho thùng của bạn; ví dụ,
athena-results
. - Chọn Tạo xô.
Vai trò người dùng (vai trò IAM) đối với Danh mục dữ liệu AWS Glue
Để lập danh mục dữ liệu mà bạn truyền theo luồng của mình, bạn phải có vai trò người dùng phù hợp trong Quản lý truy cập và nhận dạng AWS (IAM). Bạn cung cấp vai trò này cho Amazon AppFlow để cấp các quyền cần thiết để tạo Danh mục dữ liệu keo AWS, bảng, cơ sở dữ liệu và phân vùng.
Để biết ví dụ về chính sách IAM có các quyền cần thiết, hãy xem Ví dụ về chính sách dựa trên danh tính cho Amazon AppFlow.
Hướng dẫn thiết kế
Bây giờ, hãy cùng xem qua một trường hợp sử dụng thực tế để xem trình kết nối Google BigQuery với Amazon S3 của Amazon AppFlow hoạt động như thế nào. Đối với trường hợp sử dụng, bạn sẽ sử dụng Amazon AppFlow để lưu trữ dữ liệu lịch sử từ Google BigQuery sang Amazon S3 để lưu trữ lâu dài và phân tích.
Thiết lập Amazon AppFlow
Tạo luồng Amazon AppFlow mới để truyền dữ liệu từ Google Analytics sang Amazon S3.
- trên Bảng điều khiển Amazon AppFlow, chọn Tạo dòng chảy.
- Nhập tên cho luồng của bạn; Ví dụ,
my-bq-flow
. - Thêm cần thiết Tag; ví dụ, đối với Key nhập
env
va cho Giá trị nhậpdev
.
- Chọn Sau.
- Trong Tên nguồn, chọn Google BigQuery.
- Chọn Tạo kết nối mới.
- Nhập OAuth của bạn ID khách hàng và Bí mật khách hàng, sau đó đặt tên cho kết nối của bạn; Ví dụ,
bq-connection
.
- Trong cửa sổ bật lên, chọn cho phép amazon.com truy cập vào API Google BigQuery.
- Trong Chọn đối tượng Google BigQuery, chọn Bàn.
- Trong Chọn đối tượng con Google BigQuery, chọn BigQueryTên dự án.
- Trong Chọn đối tượng con Google BigQuery, chọn Tên cơ sở dữ liệu.
- Trong Chọn đối tượng con Google BigQuery, chọn Tên bảng.
- Trong Tên điểm đến, chọn Amazon S3.
- Trong Chi tiết thùng, hãy chọn bộ chứa Amazon S3 mà bạn đã tạo để lưu trữ kết quả Amazon AppFlow trong các điều kiện tiên quyết.
- đăng ký hạng mục thi
raw
như là một tiếp đầu ngữ.
- Tiếp theo, cung cấp Danh mục dữ liệu keo AWS cài đặt để tạo bảng để phân tích thêm.
- Chọn hình ba gạch Vai trò người dùng (Vai trò IAM) được tạo trong điều kiện tiên quyết.
- Tạo mới cơ sở dữ liệu ví dụ,
healthcare
. - Cung cấp một bảng Prefix thiết lập chẳng hạn,
bq
.
- Chọn Chạy theo yêu cầu.
- Chọn Tiếp theo.
- Chọn Các trường ánh xạ thủ công.
- Chọn sáu trường sau đây để Tên trường nguồn từ bảng Dị ứng:
- Bắt đầu
- Bệnh nhân
- Mã
- Mô tả
- Kiểu
- Phân loại
- Chọn Bản đồ các trường trực tiếp.
- Chọn Sau.
- In Thêm bộ lọc phần, chọn Sau.
- Chọn Tạo dòng chảy.
Chạy dòng chảy
Sau khi tạo luồng mới, bạn có thể chạy luồng đó theo yêu cầu.
- trên Bảng điều khiển Amazon AppFlow, chọn
my-bq-flow
. - Chọn Chạy dòng chảy.
Đối với hướng dẫn này, hãy chọn chạy công việc theo yêu cầu để dễ hiểu. Trong thực tế, bạn có thể chọn một công việc đã lên lịch và định kỳ chỉ trích xuất dữ liệu mới được thêm vào.
Truy vấn thông qua Amazon Athena
Khi bạn chọn cài đặt Danh mục dữ liệu AWS Glue tùy chọn, Danh mục dữ liệu sẽ tạo danh mục cho dữ liệu, cho phép Amazon Athena thực hiện các truy vấn.
Nếu bạn được nhắc định cấu hình vị trí kết quả truy vấn, hãy điều hướng đến Cài đặt tab và chọn Quản lý. Dưới Quản lý cài đặt, chọn nhóm kết quả Athena được tạo trong điều kiện tiên quyết và chọn Lưu.
- trên Bảng điều khiển Amazon Athena, hãy chọn Nguồn dữ liệu làm
AWSDataCatalog
. - Tiếp theo, chọn Cơ sở dữ liệu as
healthcare
. - Bây giờ bạn có thể chọn bảng được tạo bởi trình thu thập thông tin AWS Glue và xem trước bảng đó.
- Bạn cũng có thể chạy truy vấn tùy chỉnh để tìm 10 bệnh dị ứng hàng đầu như được hiển thị trong truy vấn sau.
Chú thích: Trong truy vấn bên dưới, hãy thay thế tên bảng, trong trường hợp này bq_appflow_mybqflow_1693588670_latest
, với tên của bảng được tạo trong tài khoản AWS của bạn.
- Chọn Chạy truy vấn.
Kết quả này cho thấy 10 bệnh dị ứng hàng đầu theo số trường hợp.
Làm sạch
Để tránh phát sinh phí, hãy dọn sạch tài nguyên trong tài khoản AWS của bạn bằng cách hoàn thành các bước sau:
- Trên bảng điều khiển Amazon AppFlow, chọn Chảy trong khung điều hướng.
- Từ danh sách các quy trình, hãy chọn quy trình
my-bq-flow
, và xóa nó. - Nhập xóa để xóa quy trình.
- Chọn Kết nối trong khung điều hướng.
- Chọn Google BigQuery từ danh sách các trình kết nối, chọn
bq-connector
, và xóa nó. - Nhập xóa để xóa trình kết nối.
- Trên bảng điều khiển IAM, chọn Vai trò trong trang điều hướng, sau đó chọn vai trò bạn đã tạo cho trình thu thập thông tin AWS Glue và xóa vai trò đó.
- Trên bảng điều khiển Amazon Athena:
- Xóa các bảng được tạo trong cơ sở dữ liệu
healthcare
sử dụng trình thu thập thông tin AWS Glue. - Bỏ cơ sở dữ liệu
healthcare
- Xóa các bảng được tạo trong cơ sở dữ liệu
- Trên bảng điều khiển Amazon S3, tìm kiếm nhóm kết quả Amazon AppFlow mà bạn đã tạo, chọn Trống để xóa các đối tượng, sau đó xóa thùng.
- Trên bảng điều khiển Amazon S3, tìm kiếm nhóm kết quả Amazon Athena mà bạn đã tạo, chọn Trống để xóa các đối tượng, sau đó xóa thùng.
- Dọn sạch tài nguyên trong tài khoản Google của bạn bằng cách xóa dự án có chứa tài nguyên Google BigQuery. Thực hiện theo các tài liệu để dọn dẹp tài nguyên của Google.
Kết luận
Trình kết nối Google BigQuery trong Amazon AppFlow hợp lý hóa quy trình truyền dữ liệu từ kho dữ liệu của Google sang Amazon S3. Sự tích hợp này đơn giản hóa việc phân tích và học máy, lưu trữ và lưu trữ lâu dài, mang lại lợi ích đáng kể cho các chuyên gia dữ liệu và các tổ chức đang tìm cách khai thác khả năng phân tích của cả hai nền tảng.
Với Amazon AppFlow, sự phức tạp của việc tích hợp dữ liệu được loại bỏ, cho phép bạn tập trung vào việc thu thập thông tin chi tiết có thể hành động từ dữ liệu của mình. Cho dù bạn đang lưu trữ dữ liệu lịch sử, thực hiện các phân tích phức tạp hay chuẩn bị dữ liệu cho máy học, trình kết nối này sẽ đơn giản hóa quy trình, giúp nhiều chuyên gia dữ liệu có thể truy cập được.
Nếu bạn muốn biết cách truyền dữ liệu từ Google BigQuery sang Amazon S3 bằng Amazon AppFlow, hãy xem từng bước video hướng dẫn. Trong hướng dẫn này, chúng ta sẽ tìm hiểu toàn bộ quá trình, từ thiết lập kết nối đến chạy luồng truyền dữ liệu. Để biết thêm thông tin về Amazon AppFlow, hãy truy cập Luồng ứng dụng Amazon.
Giới thiệu về tác giả
Kartikay Khator là Kiến trúc sư giải pháp về Khoa học đời sống toàn cầu tại Amazon Web Services. Anh ấy rất nhiệt tình giúp đỡ khách hàng trên hành trình đám mây của họ, tập trung vào các dịch vụ phân tích AWS. Anh ấy là một người đam mê chạy bộ và thích đi bộ đường dài.
Kamen Sharlandjiev là Kiến trúc sư cấp cao về Giải pháp dữ liệu lớn và ETL và chuyên gia về Amazon AppFlow. Anh ấy đang thực hiện sứ mệnh giúp cuộc sống của những khách hàng đang phải đối mặt với những thách thức tích hợp dữ liệu phức tạp trở nên dễ dàng hơn. Vũ khí bí mật của anh ấy? Các dịch vụ AWS mã thấp, được quản lý toàn phần có thể hoàn thành công việc với nỗ lực tối thiểu và không cần mã hóa.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/big-data/simplify-data-transfer-google-bigquery-to-amazon-s3-using-amazon-appflow/
- : có
- :là
- $ LÊN
- 10
- 100
- 14
- 16
- 17
- 22
- 321
- 8
- 9
- a
- có khả năng
- Giới thiệu
- truy cập
- Quản lý truy cập
- có thể truy cập
- Tài khoản
- ngang qua
- thêm vào
- thêm
- thêm vào
- tiến
- sắp xếp
- Dị ứng
- cho phép
- Cho phép
- cho phép
- Ngoài ra
- đàn bà gan dạ
- amazon Athena
- Amazon Web Services
- Amazon.com
- an
- phân tích
- Phân tích
- phân tích
- phân tích
- và
- bất kì
- api
- các ứng dụng
- Đăng Nhập
- thích hợp
- kiến trúc
- lưu trữ
- LÀ
- AS
- At
- tự động
- Tự động hóa
- tránh
- AWS
- Keo AWS
- Bảng điều khiển quản lý AWS
- được
- trước
- phía dưới
- Lợi ích
- giữa
- lớn
- Dữ Liệu Lớn.
- vụ án lớn
- Blog
- cả hai
- rộng hơn
- kinh doanh
- by
- CAN
- Có thể có được
- khả năng
- khả năng
- trường hợp
- trường hợp
- Danh mục hàng
- Phân loại
- thách thức
- tải
- Chọn
- khách hàng
- đám mây
- Lập trình
- COM
- hoàn thành
- hoàn thành
- phức tạp
- phức tạp
- liên quan
- An ủi
- chứa
- thu thập thông tin
- tạo
- tạo ra
- tạo ra
- Tạo
- khách hàng
- khách hàng
- tiền thưởng
- dữ liệu
- truy cập dữ liệu
- tích hợp dữ liệu
- kho dữ liệu
- hướng dữ liệu
- Cơ sở dữ liệu
- cơ sở dữ liệu
- bộ dữ liệu
- quyết định
- Nhu cầu
- dân chủ hóa
- Mô tả
- điểm đến
- khám phá
- khác nhau
- tài liệu hướng dẫn
- thực hiện
- dễ dàng
- dễ dàng hơn
- hiệu quả
- nỗ lực
- dễ dàng
- loại bỏ
- cho phép
- cho phép
- Toàn bộ
- thiết yếu
- Ether (ETH)
- Sự kiện
- ví dụ
- ví dụ
- hiện tại
- chuyên gia
- khám phá
- Tiếp xúc
- trích xuất
- phải đối mặt với
- vài
- lĩnh vực
- Lĩnh vực
- lọc
- Tìm kiếm
- Linh hoạt
- dòng chảy
- Chảy
- Chảy
- Tập trung
- theo
- tiếp theo
- Trong
- đi đầu
- tần số
- thường xuyên
- từ
- đầy đủ
- xa hơn
- tạo ra
- tạo ra
- được
- Toàn cầu
- Toàn cầu
- Google Analytics
- cấp
- Nhóm
- khai thác
- Có
- he
- chăm sóc sức khỏe
- giúp đỡ
- đi bộ đường dài
- của mình
- lịch sử
- Độ đáng tin của
- HTML
- http
- HTTPS
- HubSpot
- IAM
- Bản sắc
- quản lý danh tính và truy cập
- in
- Bao gồm
- thông tin
- những hiểu biết
- hướng dẫn
- tích hợp
- tích hợp
- hội nhập
- quan tâm
- Giao thức
- Internet
- trong
- trực quan
- IT
- chính nó
- Việc làm
- cuộc hành trình
- chỉ
- học tập
- Giấy phép
- Cuộc sống
- Life Science
- LIMIT
- Danh sách
- tải
- địa điểm thư viện nào
- lâu
- Xem
- máy
- học máy
- làm cho
- Làm
- quản lý
- quản lý
- bản đồ
- lập bản đồ
- tối thiểu
- Sứ mệnh
- chi tiết
- chuyển động
- di chuyển
- phải
- tên
- Điều hướng
- THÔNG TIN
- gần
- cần thiết
- cần thiết
- nhu cầu
- Mới
- mới
- Không
- tại
- con số
- lời thề
- vật
- đối tượng
- of
- on
- Theo yêu cầu
- có thể
- mã nguồn mở
- or
- gọi món
- tổ chức
- kết thúc
- trang
- cửa sổ
- một phần
- đam mê
- bệnh nhân
- thực hiện
- biểu diễn
- quyền
- Nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- điều luật
- pop-up
- dân số
- khả năng
- Bài đăng
- Thực tế
- thực hành
- chuẩn bị
- điều kiện tiên quyết
- Xem trước
- quá trình
- chuyên gia
- dự án
- cho
- cung cấp
- công khai
- truy vấn
- phạm vi
- giảm
- thay thế
- cần phải
- Yêu cầu
- Thông tin
- phản ứng
- hạn chế
- kết quả
- Kết quả
- xem xét
- Giàu
- Vai trò
- chạy
- Á hậu
- chạy
- SaaS
- lực lượng bán hàng
- sap
- Quy mô
- lịch trình
- lên kế hoạch
- Khoa học
- Tìm kiếm
- Bí mật
- Phần
- an toàn
- an ninh
- Các mối đe dọa an ninh
- xem
- tìm kiếm
- dịch vụ
- ServiceNow
- DỊCH VỤ
- định
- thiết lập
- thiết lập
- thể hiện
- Chương trình
- có ý nghĩa
- Đơn giản
- đơn giản hóa
- mô phỏng
- Six
- Phần mềm
- phần mềm như là một dịch vụ
- giải pháp
- Giải pháp
- nguồn
- Các bước
- là gắn
- hàng
- lưu trữ
- tinh giản
- như vậy
- sợi tổng hợp
- bàn
- Hãy
- việc này
- Sản phẩm
- cung cấp their dịch
- sau đó
- điều này
- các mối đe dọa
- Thông qua
- đến
- hôm nay
- hàng đầu
- Top 10
- chuyển
- Chuyển nhượng
- Chuyển đổi
- biến đổi
- biến đổi
- hướng dẫn
- kiểu
- Dưới
- sự hiểu biết
- độc đáo
- Công bố
- sử dụng
- ca sử dụng
- đã sử dụng
- người sử dang
- sử dụng
- xác nhận
- giá trị
- Truy cập
- đi bộ
- hương
- muốn
- Kho
- we
- web
- các dịch vụ web
- hàng tuần
- liệu
- CHÚNG TÔI LÀ
- sẽ
- cửa sổ
- với
- không có
- công trinh
- thế giới
- bạn
- trên màn hình
- youtube
- zephyrnet