Amazon Redshift: Giá thấp hơn, hiệu suất cao hơn | Dịch vụ web của Amazon

Amazon Redshift: Giá thấp hơn, hiệu suất cao hơn | Dịch vụ web của Amazon

Nút nguồn: 2959258

Giống như hầu hết tất cả khách hàng, bạn muốn chi tiêu ít nhất có thể trong khi vẫn đạt được hiệu suất tốt nhất có thể. Điều này có nghĩa là bạn cần chú ý đến hiệu suất giá cả. Với Amazon RedShift, bạn có thể có bánh của bạn và ăn nó quá! Amazon Redshift mang lại chi phí cho mỗi người dùng thấp hơn tới 4.9 lần và hiệu suất về giá cao hơn tới 7.9 lần so với các kho dữ liệu đám mây khác trên khối lượng công việc trong thế giới thực bằng cách sử dụng các kỹ thuật nâng cao như thay đổi quy mô đồng thời để hỗ trợ hàng trăm người dùng đồng thời, mã hóa chuỗi nâng cao để có hiệu suất truy vấn nhanh hơn , Và Amazon Redshift không có máy chủ cải tiến hiệu suất. Đọc tiếp để hiểu lý do tại sao hiệu suất giá lại quan trọng và cách hiệu suất giá của Amazon Redshift là thước đo chi phí để có được một mức hiệu suất khối lượng công việc cụ thể, cụ thể là ROI hiệu suất (lợi tức đầu tư).

Vì cả giá cả và hiệu suất đều tham gia vào việc tính toán hiệu suất giá nên có hai cách để suy nghĩ về hiệu suất giá. Cách đầu tiên là giữ giá không đổi: nếu bạn có 1 đô la để chi tiêu, bạn nhận được bao nhiêu hiệu suất từ ​​kho dữ liệu của mình? Cơ sở dữ liệu có hiệu suất giá tốt hơn sẽ mang lại hiệu suất tốt hơn cho mỗi 1 đô la chi tiêu. Do đó, khi giữ giá không đổi khi so sánh hai kho dữ liệu có cùng chi phí, cơ sở dữ liệu có hiệu suất giá tốt hơn sẽ chạy truy vấn của bạn nhanh hơn. Cách thứ hai để xem xét hiệu suất giá là giữ hiệu suất không đổi: nếu bạn cần khối lượng công việc của mình hoàn thành sau 10 phút thì chi phí sẽ là bao nhiêu? Cơ sở dữ liệu có hiệu suất về giá tốt hơn sẽ chạy khối lượng công việc của bạn trong 10 phút với chi phí thấp hơn. Do đó, khi giữ hiệu suất không đổi khi so sánh hai kho dữ liệu có kích thước để mang lại cùng hiệu suất, cơ sở dữ liệu có hiệu suất giá tốt hơn sẽ có chi phí thấp hơn và giúp bạn tiết kiệm tiền.

Cuối cùng, một khía cạnh quan trọng khác của hiệu suất giá là khả năng dự đoán. Biết kho dữ liệu của bạn sẽ có giá bao nhiêu khi số lượng người dùng kho dữ liệu tăng lên là điều quan trọng cho việc lập kế hoạch. Nó không chỉ phải mang lại hiệu suất về giá tốt nhất hiện nay mà còn có thể mở rộng quy mô có thể dự đoán được và mang lại hiệu suất về giá tốt nhất khi có thêm nhiều người dùng và khối lượng công việc hơn. Một kho dữ liệu lý tưởng nên có quy mô tuyến tính—việc mở rộng quy mô kho dữ liệu của bạn để cung cấp gấp đôi thông lượng truy vấn sẽ có chi phí lý tưởng gấp đôi (hoặc ít hơn).

Trong bài đăng này, chúng tôi chia sẻ kết quả về hiệu suất để minh họa cách Amazon Redshift mang lại hiệu suất về giá tốt hơn đáng kể so với các kho dữ liệu đám mây thay thế hàng đầu. Điều này có nghĩa là nếu bạn chi tiêu cho Amazon Redshift cùng số tiền như bạn chi tiêu cho một trong những kho dữ liệu khác này, thì bạn sẽ có được hiệu suất tốt hơn với Amazon Redshift. Ngoài ra, nếu bạn điều chỉnh quy mô cụm Redshift của mình để mang lại hiệu suất tương tự, bạn sẽ thấy chi phí thấp hơn so với các lựa chọn thay thế này.

Hiệu suất giá cho khối lượng công việc trong thế giới thực

Bạn có thể sử dụng Amazon Redshift để hỗ trợ khối lượng công việc rất đa dạng, từ xử lý hàng loạt các báo cáo dựa trên trích xuất, chuyển đổi và tải (ETL) phức tạp cũng như phân tích phát trực tuyến theo thời gian thực đến bảng thông tin nghiệp vụ thông minh (BI) có độ trễ thấp. cần phục vụ hàng trăm hoặc thậm chí hàng nghìn người dùng cùng lúc với thời gian phản hồi dưới giây và mọi thứ ở giữa. Một trong những cách chúng tôi liên tục cải thiện hiệu suất giá cho khách hàng của mình là liên tục xem xét dữ liệu đo từ xa hiệu suất phần mềm và phần cứng từ nhóm Redshift, tìm kiếm cơ hội và trường hợp sử dụng của khách hàng để chúng tôi có thể cải thiện hơn nữa hiệu suất Amazon Redshift.

Một số ví dụ gần đây về tối ưu hóa hiệu suất nhờ phương pháp đo từ xa của đội xe bao gồm:

  • Tối ưu hóa truy vấn chuỗi – Bằng cách phân tích cách Amazon Redshift xử lý các loại dữ liệu khác nhau trong nhóm Redshift, chúng tôi nhận thấy rằng việc tối ưu hóa các truy vấn nặng về chuỗi sẽ mang lại lợi ích đáng kể cho khối lượng công việc của khách hàng. (Chúng tôi sẽ thảo luận vấn đề này chi tiết hơn ở phần sau của bài đăng này.)
  • Chế độ xem cụ thể hóa tự động – Chúng tôi nhận thấy rằng khách hàng của Amazon Redshift thường chạy nhiều truy vấn có các mẫu truy vấn phụ phổ biến. Ví dụ: một số truy vấn khác nhau có thể nối ba bảng giống nhau bằng cách sử dụng cùng một điều kiện nối. Amazon Redshift hiện có thể tự động tạo và duy trì các chế độ xem cụ thể hóa, sau đó viết lại các truy vấn một cách minh bạch để sử dụng các chế độ xem cụ thể hóa bằng cách sử dụng máy học chế độ xem cụ thể hóa tự động tính năng tự động hóa trong Amazon Redshift. Khi được bật, các chế độ xem cụ thể hóa tự động có thể tăng hiệu suất truy vấn một cách rõ ràng cho các truy vấn lặp đi lặp lại mà không cần bất kỳ sự can thiệp nào của người dùng. (Lưu ý rằng các chế độ xem cụ thể hóa tự động không được sử dụng trong bất kỳ kết quả điểm chuẩn nào được thảo luận trong bài đăng này).
  • Khối lượng công việc đồng thời cao – Chúng tôi nhận thấy trường hợp sử dụng ngày càng tăng là sử dụng Amazon Redshift để phục vụ khối lượng công việc giống như bảng điều khiển. Những khối lượng công việc này được đặc trưng bởi thời gian phản hồi truy vấn mong muốn từ một giây trở xuống, với hàng chục hoặc hàng trăm người dùng đồng thời chạy truy vấn đồng thời với kiểu sử dụng tăng đột biến và thường không thể đoán trước. Ví dụ nguyên mẫu về điều này là bảng thông tin BI được Amazon Redshift hỗ trợ có lưu lượng truy cập tăng đột biến vào các buổi sáng thứ Hai khi một số lượng lớn người dùng bắt đầu tuần của họ.

Khối lượng công việc có tính đồng thời cao nói riêng có khả năng ứng dụng rất rộng: hầu hết khối lượng công việc của kho dữ liệu đều hoạt động đồng thời và không có gì lạ khi hàng trăm, thậm chí hàng nghìn người dùng chạy truy vấn trên Amazon Redshift cùng một lúc. Amazon Redshift được thiết kế để đảm bảo thời gian phản hồi truy vấn có thể dự đoán được và nhanh chóng. Redshift Serverless tự động thực hiện việc này cho bạn bằng cách thêm và xóa điện toán khi cần để giữ cho thời gian phản hồi truy vấn nhanh và có thể dự đoán được. Điều này có nghĩa là bảng thông tin được hỗ trợ bởi Redshift Serverless tải nhanh khi được một hoặc hai người dùng truy cập sẽ tiếp tục tải nhanh ngay cả khi nhiều người dùng tải cùng lúc.

Để mô phỏng loại khối lượng công việc này, chúng tôi đã sử dụng điểm chuẩn lấy từ TPC-DS với bộ dữ liệu 100 GB. TPC-DS là điểm chuẩn tiêu chuẩn ngành bao gồm nhiều truy vấn kho dữ liệu điển hình. Ở quy mô tương đối nhỏ 100 GB, các truy vấn trong điểm chuẩn này chạy trên Redshift Serverless trong trung bình vài giây, đại diện cho những gì người dùng tải bảng thông tin BI tương tác mong đợi. Chúng tôi đã chạy từ 1–200 bài kiểm tra đồng thời của điểm chuẩn này, mô phỏng giữa 1–200 người dùng đang cố tải trang tổng quan cùng một lúc. Chúng tôi cũng lặp lại thử nghiệm với một số kho dữ liệu đám mây thay thế phổ biến cũng hỗ trợ tự động mở rộng quy mô (nếu bạn quen với bài đăng này). Amazon Redshift tiếp tục dẫn đầu về hiệu suất giá, chúng tôi đã không bao gồm Đối thủ cạnh tranh A vì nó không hỗ trợ tự động mở rộng quy mô). Chúng tôi đã đo thời gian phản hồi truy vấn trung bình, nghĩa là người dùng sẽ đợi bao lâu để truy vấn của họ kết thúc (hoặc tải trang tổng quan của họ). Kết quả được thể hiện trong biểu đồ sau.

Đối thủ B có quy mô tốt cho đến khi có khoảng 64 truy vấn đồng thời, tại thời điểm đó, đối thủ không thể cung cấp khả năng tính toán bổ sung và các truy vấn bắt đầu xếp hàng, dẫn đến thời gian phản hồi truy vấn tăng lên. Mặc dù Đối thủ C có thể tự động thay đổi quy mô nhưng nó sẽ thay đổi quy mô để thông lượng truy vấn thấp hơn cả Amazon Redshift và Đối thủ B và không thể duy trì thời gian chạy truy vấn ở mức thấp. Ngoài ra, nó không hỗ trợ xếp hàng truy vấn khi hết điện toán, điều này khiến nó không thể mở rộng ra ngoài khoảng 128 người dùng đồng thời. Việc gửi các truy vấn bổ sung ngoài điều này sẽ bị hệ thống từ chối.

Tại đây, Redshift Serverless có thể duy trì thời gian phản hồi truy vấn tương đối ổn định trong khoảng 5 giây ngay cả khi hàng trăm người dùng đang chạy truy vấn cùng lúc. Thời gian phản hồi truy vấn trung bình của Đối thủ B và C tăng đều đặn khi lượng tải vào kho tăng lên, dẫn đến việc người dùng phải đợi lâu hơn (tối đa 16 giây) để truy vấn của họ quay trở lại khi kho dữ liệu bận. Điều này có nghĩa là nếu người dùng đang cố gắng làm mới bảng thông tin (thậm chí có thể gửi một số truy vấn đồng thời khi được tải lại), Amazon Redshift sẽ có thể duy trì thời gian tải bảng thông tin nhất quán hơn nhiều ngay cả khi bảng thông tin đang được tải bởi hàng chục hoặc hàng trăm truy vấn khác. người dùng cùng một lúc.

Bởi vì Amazon Redshift có thể cung cấp thông lượng truy vấn rất cao cho các truy vấn ngắn (như chúng tôi đã viết trong Amazon Redshift tiếp tục dẫn đầu về hiệu suất giá), nó cũng có thể xử lý các trường hợp đồng thời cao hơn này khi mở rộng quy mô hiệu quả hơn và do đó với chi phí thấp hơn đáng kể. Để định lượng điều này, chúng tôi xem xét hiệu suất giá bằng cách sử dụng định giá theo yêu cầu cho từng kho trong thử nghiệm trước, được hiển thị trong biểu đồ sau. Điều đáng lưu ý là việc sử dụng Phiên bản dự trữ (RI), đặc biệt là các RI kỳ hạn 3 năm được mua bằng tùy chọn thanh toán trả trước hoàn toàn, có chi phí chạy Amazon Redshift trên các cụm được cung cấp thấp nhất, mang lại hiệu suất giá tương đối tốt nhất so với các tùy chọn RI theo yêu cầu hoặc các tùy chọn RI khác.

Vì vậy, Amazon Redshift không chỉ có thể mang lại hiệu suất tốt hơn ở các mức xử lý đồng thời cao hơn mà còn có thể làm được điều đó với chi phí thấp hơn đáng kể. Mỗi điểm dữ liệu trong biểu đồ giá-hiệu suất tương đương với chi phí để chạy điểm chuẩn ở mức đồng thời được chỉ định. Vì hiệu suất giá là tuyến tính nên chúng tôi có thể chia chi phí để chạy điểm chuẩn ở bất kỳ trường hợp đồng thời nào cho trường hợp đồng thời (số Người dùng đồng thời trong biểu đồ này) để cho chúng tôi biết chi phí thêm vào mỗi người dùng mới cho điểm chuẩn cụ thể này là bao nhiêu.

Các kết quả trước đó rất dễ dàng để nhân rộng. Tất cả các truy vấn được sử dụng trong điểm chuẩn đều có sẵn trong Kho GitHub và hiệu suất được đo bằng cách khởi chạy kho dữ liệu, bật Quy mô đồng thời trên Amazon Redshift (hoặc tính năng tự động thay đổi quy mô tương ứng trên các kho khác), tải dữ liệu ra khỏi hộp (không cần điều chỉnh thủ công hoặc thiết lập dành riêng cho cơ sở dữ liệu), sau đó chạy một luồng truy vấn đồng thời ở các mức đồng thời từ 1–200 theo bước 32 trên mỗi kho dữ liệu. Kho lưu trữ GitHub tương tự tham chiếu dữ liệu TPC-DS được tạo trước (và chưa sửa đổi) trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) ở nhiều quy mô khác nhau bằng cách sử dụng bộ tạo dữ liệu TPC-DS chính thức.

Tối ưu hóa khối lượng công việc nặng về chuỗi

Như đã đề cập trước đó, nhóm Amazon Redshift không ngừng tìm kiếm các cơ hội mới để mang lại hiệu quả về giá thậm chí còn tốt hơn cho khách hàng của chúng tôi. Một cải tiến gần đây mà chúng tôi đã triển khai giúp cải thiện đáng kể hiệu suất là tính năng tối ưu hóa giúp tăng tốc hiệu suất của các truy vấn trên dữ liệu chuỗi. Ví dụ: bạn có thể muốn tìm tổng doanh thu được tạo từ các cửa hàng bán lẻ ở Thành phố New York bằng truy vấn như SELECT sum(price) FROM sales WHERE city = ‘New York’. Truy vấn này đang áp dụng một vị từ trên dữ liệu chuỗi (city = ‘New York’). Như bạn có thể tưởng tượng, xử lý dữ liệu chuỗi có mặt khắp nơi trong các ứng dụng kho dữ liệu.

Để định lượng tần suất truy cập chuỗi khối lượng công việc của khách hàng, chúng tôi đã tiến hành phân tích chi tiết mức sử dụng loại dữ liệu chuỗi bằng phương pháp đo từ xa nhóm hàng chục nghìn cụm khách hàng do Amazon Redshift quản lý. Phân tích của chúng tôi chỉ ra rằng trong 90% cụm, cột chuỗi chiếm ít nhất 30% tổng số cột và trong 50% cụm, cột chuỗi chiếm ít nhất 50% tổng số cột. Hơn nữa, phần lớn tất cả các truy vấn chạy trên nền tảng kho dữ liệu đám mây Amazon Redshift đều truy cập vào ít nhất một cột chuỗi. Một yếu tố quan trọng khác là dữ liệu chuỗi thường có lượng số thấp, nghĩa là các cột chứa một tập hợp giá trị duy nhất tương đối nhỏ. Ví dụ, mặc dù một orders bảng biểu diễn dữ liệu bán hàng có thể chứa hàng tỷ hàng, một order_status cột trong bảng đó có thể chỉ chứa một vài giá trị duy nhất trên hàng tỷ hàng đó, chẳng hạn như pending, in processcompleted.

Tại thời điểm viết bài này, hầu hết các cột chuỗi trong Amazon Redshift đều được nén bằng LZO or ZSTD thuật toán. Đây là những thuật toán nén có mục đích chung tốt nhưng chúng không được thiết kế để tận dụng dữ liệu chuỗi có lượng số thấp. Đặc biệt, chúng yêu cầu dữ liệu phải được giải nén trước khi hoạt động và kém hiệu quả hơn trong việc sử dụng băng thông bộ nhớ phần cứng. Đối với dữ liệu có lượng số thấp, có một loại mã hóa khác có thể tối ưu hơn: BYTEDICT. Mã hóa này sử dụng sơ đồ mã hóa từ điển cho phép công cụ cơ sở dữ liệu hoạt động trực tiếp trên dữ liệu nén mà không cần phải giải nén trước.

Để cải thiện hơn nữa hiệu suất về giá cho khối lượng công việc nặng về chuỗi, Amazon Redshift hiện đang giới thiệu các cải tiến hiệu suất bổ sung giúp tăng tốc độ quét và đánh giá vị từ, trên các cột chuỗi lượng số thấp được mã hóa dưới dạng BYTEDICT, nhanh hơn từ 5–63 lần (xem kết quả trong phần tiếp theo) so với các mã hóa nén thay thế như LZO hoặc ZSTD. Amazon Redshift đạt được sự cải thiện hiệu suất này bằng cách vector hóa các lần quét trên các cột chuỗi số lượng số thấp, nhẹ, tiết kiệm CPU, được mã hóa BYTEDICT. Những tối ưu hóa xử lý chuỗi này giúp sử dụng hiệu quả băng thông bộ nhớ do phần cứng hiện đại cung cấp, cho phép phân tích dữ liệu chuỗi theo thời gian thực. Các khả năng hiệu suất mới được giới thiệu này là tối ưu cho các cột chuỗi có lượng số thấp (lên đến vài trăm giá trị chuỗi duy nhất).

Bạn có thể tự động hưởng lợi từ cải tiến chuỗi hiệu suất cao mới này bằng cách bật tối ưu hóa bảng tự động trong kho dữ liệu Amazon Redshift của bạn. Nếu bạn chưa bật tối ưu hóa bảng tự động trên các bảng của mình, bạn có thể nhận được đề xuất từ Cố vấn Amazon Redshift trong bảng điều khiển Amazon Redshift về mức độ phù hợp của cột chuỗi đối với mã hóa BYTEDICT. Bạn cũng có thể xác định các bảng mới có các cột chuỗi số lượng thấp bằng mã hóa BYTEDICT. Các cải tiến về chuỗi trong Amazon Redshift hiện có sẵn ở tất cả các Khu vực AWS nơi Amazon Redshift có sẵn.

Kết quả thực hiện

Để đo lường tác động hiệu suất của các cải tiến về chuỗi, chúng tôi đã tạo tập dữ liệu 10TB (Tera Byte) bao gồm dữ liệu chuỗi có số lượng số thấp. Chúng tôi đã tạo ra ba phiên bản dữ liệu bằng cách sử dụng các chuỗi ngắn, trung bình và dài, tương ứng với phân vị thứ 25, 50 và 75 của độ dài chuỗi từ phép đo từ xa nhóm Amazon Redshift. Chúng tôi đã tải dữ liệu này vào Amazon Redshift hai lần, mã hóa dữ liệu trong một trường hợp bằng cách nén LZO và trong một trường hợp khác bằng cách sử dụng nén BYTEDICT. Cuối cùng, chúng tôi đã đo hiệu suất của các truy vấn có mức độ quét cao trả về nhiều hàng (90% của bảng), số lượng hàng trung bình (50% của bảng) và một vài hàng (1% của bảng) trên các mức thấp này. -bộ dữ liệu chuỗi cardinality. Kết quả thực hiện được tóm tắt trong biểu đồ sau.

Các truy vấn có vị từ khớp với tỷ lệ phần trăm hàng cao cho thấy sự cải thiện từ 5–30 lần với mã hóa BYTEDICT được vector hóa mới so với LZO, trong khi các truy vấn có vị từ khớp với tỷ lệ hàng thấp có mức cải thiện từ 10–63 lần trong điểm chuẩn nội bộ này.

Hiệu suất giá của Redshift Serverless

Ngoài các kết quả về hiệu suất có tính đồng thời cao được trình bày trong bài đăng này, chúng tôi cũng sử dụng điểm chuẩn Kho dữ liệu đám mây có nguồn gốc từ TPC-DS để so sánh hiệu suất về giá của Redshift Serverless với các kho dữ liệu khác sử dụng tập dữ liệu 3TB lớn hơn. Chúng tôi đã chọn kho dữ liệu có giá tương tự, trong trường hợp này là trong khoảng 10% của 32 USD mỗi giờ bằng cách sử dụng mức giá theo yêu cầu được công bố công khai. Những kết quả này cho thấy rằng, giống như các phiên bản Amazon Redshift RA3, Redshift Serverless mang lại hiệu suất về giá tốt hơn so với các kho dữ liệu đám mây hàng đầu khác. Như mọi khi, những kết quả này có thể được sao chép bằng cách sử dụng tập lệnh SQL trong Kho GitHub.

Chúng tôi khuyến khích bạn dùng thử Amazon Redshift bằng cách sử dụng bằng chứng về khái niệm khối lượng công việc là cách tốt nhất để xem Amazon Redshift có thể đáp ứng nhu cầu phân tích dữ liệu của bạn như thế nào.

Tìm mức giá-hiệu suất tốt nhất cho khối lượng công việc của bạn

Điểm chuẩn được sử dụng trong bài đăng này được lấy từ điểm chuẩn TPC-DS tiêu chuẩn ngành và có các đặc điểm sau:

  • Lược đồ và dữ liệu được sử dụng nguyên vẹn từ TPC-DS.
  • Các truy vấn được tạo bằng bộ TPC-DS chính thức với các tham số truy vấn được tạo bằng hạt giống ngẫu nhiên mặc định của bộ TPC-DS. Các biến thể truy vấn được TPC phê duyệt sẽ được sử dụng cho kho nếu kho không hỗ trợ phương ngữ SQL của truy vấn TPC-DS mặc định.
  • Bài kiểm tra bao gồm 99 truy vấn TPC-DS SELECT. Nó không bao gồm các bước bảo trì và thông lượng.
  • Đối với thử nghiệm đồng thời 3TB đơn lẻ, ba lần chạy nguồn đã được chạy và lần chạy tốt nhất được thực hiện cho mỗi kho dữ liệu.
  • Hiệu suất giá cho truy vấn TPC-DS được tính bằng chi phí mỗi giờ (USD) nhân với thời gian chạy điểm chuẩn tính bằng giờ, tương đương với chi phí để chạy điểm chuẩn. Giá theo yêu cầu được công bố mới nhất được sử dụng cho tất cả các kho dữ liệu chứ không phải giá Phiên bản dự trữ như đã lưu ý trước đó.

Chúng tôi gọi đây là điểm chuẩn Kho dữ liệu đám mây và bạn có thể dễ dàng tái tạo các kết quả điểm chuẩn trước đó bằng cách sử dụng tập lệnh, truy vấn và dữ liệu có sẵn trong Kho GitHub. Nó bắt nguồn từ các điểm chuẩn TPC-DS như được mô tả trong bài đăng này và do đó không thể so sánh với các kết quả TPC-DS đã công bố vì kết quả thử nghiệm của chúng tôi không tuân thủ thông số kỹ thuật chính thức.

Kết luận

Amazon Redshift cam kết mang lại hiệu quả về giá tốt nhất trong ngành cho khối lượng công việc đa dạng nhất. Redshift Serverless mở rộng tuyến tính với hiệu suất giá tốt nhất (thấp nhất), hỗ trợ hàng trăm người dùng đồng thời trong khi vẫn duy trì thời gian phản hồi truy vấn nhất quán. Dựa trên kết quả thử nghiệm được thảo luận trong bài đăng này, Amazon Redshift có hiệu suất giá tốt hơn tới 2.6 lần ở cùng mức độ đồng thời so với đối thủ cạnh tranh gần nhất (Đối thủ cạnh tranh B). Như đã đề cập trước đó, việc sử dụng Phiên bản dự trữ với tùy chọn trả trước toàn bộ trong 3 năm sẽ mang lại cho bạn chi phí chạy Amazon Redshift thấp nhất, mang lại hiệu suất giá tương đối thậm chí còn tốt hơn so với giá phiên bản theo yêu cầu mà chúng tôi đã sử dụng trong bài viết này. Cách tiếp cận của chúng tôi để cải thiện hiệu suất liên tục bao gồm sự kết hợp độc đáo giữa nỗi ám ảnh của khách hàng để hiểu các trường hợp sử dụng của khách hàng và các tắc nghẽn liên quan đến khả năng mở rộng của họ cùng với việc phân tích dữ liệu đội tàu liên tục để xác định các cơ hội thực hiện tối ưu hóa hiệu suất đáng kể.

Mỗi khối lượng công việc có những đặc điểm riêng, vì vậy nếu bạn mới bắt đầu, bằng chứng về khái niệm là cách tốt nhất để hiểu cách Amazon Redshift có thể giảm chi phí của bạn đồng thời mang lại hiệu suất tốt hơn. Khi chạy bằng chứng khái niệm của riêng bạn, điều quan trọng là phải tập trung vào số liệu phù hợp—thông lượng truy vấn (số lượng truy vấn mỗi giờ), thời gian phản hồi và hiệu suất giá. Bạn có thể đưa ra quyết định dựa trên dữ liệu bằng cách tự mình chạy thử nghiệm khái niệm hoặc với sự hỗ trợ từ AWS hoặc một Đối tác tư vấn và tích hợp hệ thống.

Để luôn cập nhật những phát triển mới nhất trong Amazon Redshift, hãy theo dõi Có gì mới trong Amazon Redshift thức ăn.


Giới thiệu về tác giả

Stefan Gromoll là Kỹ sư hiệu suất cao cấp của nhóm Amazon Redshift, nơi anh chịu trách nhiệm đo lường và cải thiện hiệu suất Redshift. Khi rảnh rỗi, anh thích nấu ăn, chơi với ba cậu con trai và chẻ củi.

Ravi Animi là lãnh đạo Quản lý sản phẩm cấp cao trong nhóm Amazon Redshift và quản lý một số lĩnh vực chức năng của dịch vụ kho dữ liệu đám mây Amazon Redshift bao gồm hiệu suất, phân tích không gian, chiến lược truyền tải và di chuyển. Anh có kinh nghiệm về cơ sở dữ liệu quan hệ, cơ sở dữ liệu đa chiều, công nghệ IoT, dịch vụ cơ sở hạ tầng điện toán và lưu trữ và gần đây là người sáng lập công ty khởi nghiệp sử dụng AI/học sâu, thị giác máy tính và robot.

Aamer Shah là Kỹ sư cấp cao trong nhóm Dịch vụ Amazon Redshift.

Sanket Hase là Giám đốc phát triển phần mềm trong nhóm Dịch vụ Amazon Redshift.

Orestis Polychroniou là Kỹ sư chính trong nhóm Dịch vụ Amazon Redshift.

Dấu thời gian:

Thêm từ Dữ liệu lớn AWS