Giải thích về Semantic Lakehouse

Giải thích về Semantic Lakehouse

Nút nguồn: 1995005

Hồ dữ liệu và lớp ngữ nghĩa đã có từ rất lâu – mỗi người sống trong những khu vườn có tường bao quanh của riêng mình, được kết hợp chặt chẽ với các trường hợp sử dụng khá hẹp. Khi cơ sở hạ tầng dữ liệu và phân tích chuyển sang đám mây, nhiều người đang đặt ra thách thức về cách các thành phần công nghệ nền tảng này phù hợp với ngăn xếp dữ liệu và phân tích hiện đại. Trong bài viết này, chúng ta sẽ đi sâu vào tìm hiểu cách thức kho dữ liệu và lớp ngữ nghĩa cùng nhau nâng cao mối quan hệ truyền thống giữa kho dữ liệu và cơ sở hạ tầng phân tích. Chúng ta sẽ tìm hiểu làm thế nào một ngôi nhà hồ ngữ nghĩa có thể đơn giản hóa đáng kể kiến trúc dữ liệu đám mây, loại bỏ chuyển động dữ liệu không cần thiết, đồng thời giảm thời gian định giá và chi phí đám mây.

Kiến trúc dữ liệu và phân tích truyền thống

Năm 2006, Amazon giới thiệu Amazon Web Services (AWS) như một cách mới để giảm tải trung tâm dữ liệu tại chỗ lên đám mây. Dịch vụ cốt lõi của AWS là kho lưu trữ dữ liệu tệp của nó và cùng với đó, hồ dữ liệu đám mây đầu tiên, Amazon S3, đã ra đời. Các nhà cung cấp đám mây khác sẽ giới thiệu các phiên bản cơ sở hạ tầng hồ dữ liệu đám mây của riêng họ sau đó.

Trong phần lớn thời gian tồn tại của mình, hồ dữ liệu đám mây đã bị xuống hạng đóng vai trò ngu ngốc, rẻ tiền. lưu trữ dữ liệu - a dàn dựng khu vực dành cho dữ liệu thô, cho đến khi dữ liệu có thể được xử lý thành thứ gì đó hữu ích. Đối với phân tích, hồ dữ liệu đóng vai trò là bút giữ dữ liệu cho đến khi có thể sao chép và tải dữ liệu vào nền tảng phân tích được tối ưu hóa, điển hình là kho dữ liệu đám mây quan hệ cung cấp khối OLAP, trích xuất dữ liệu công cụ thông minh kinh doanh (BI) độc quyền như Tableau Hyper hoặc Power BI Premium hoặc tất cả những thứ trên. Do mẫu xử lý này, dữ liệu cần được lưu trữ ít nhất hai lần, một lần ở dạng thô và một lần ở dạng "được tối ưu hóa cho phân tích". 

Không có gì đáng ngạc nhiên, hầu hết các kiến ​​trúc phân tích đám mây truyền thống trông giống như sơ đồ bên dưới:

Hình ảnh 1: Ngăn xếp dữ liệu và phân tích truyền thống

Như bạn có thể thấy, “kho phân tích” chịu trách nhiệm cho phần lớn các chức năng cung cấp phân tích cho người tiêu dùng. Vấn đề với kiến ​​trúc này như sau:

  1. Dữ liệu được lưu trữ hai lần, làm tăng chi phí và tạo ra sự phức tạp trong hoạt động.
  2. Dữ liệu trong kho phân tích là ảnh chụp nhanh, có nghĩa là dữ liệu cũ ngay lập tức.
  3. Dữ liệu trong kho phân tích thường là một tập hợp con của dữ liệu trong kho dữ liệu, giới hạn các câu hỏi mà người tiêu dùng có thể hỏi.
  4. Kho phân tích mở rộng quy mô riêng biệt và khác với nền tảng dữ liệu đám mây, dẫn đến chi phí bổ sung, mối lo ngại về bảo mật và độ phức tạp trong vận hành.

Với những hạn chế này, bạn có thể hỏi "Tại sao các kiến ​​trúc sư dữ liệu đám mây lại chọn mẫu thiết kế này?" Câu trả lời nằm ở nhu cầu của người tiêu dùng phân tích. Mặc dù về mặt lý thuyết, kho dữ liệu có thể phục vụ trực tiếp các truy vấn phân tích cho người tiêu dùng, nhưng trên thực tế, kho dữ liệu quá chậm và không tương thích với các công cụ phân tích phổ biến. 

Giá như hồ dữ liệu có thể mang lại lợi ích của kho phân tích và chúng ta có thể tránh lưu trữ dữ liệu hai lần!

Sự ra đời của Data Lakehouse

Thuật ngữ “Lakehouse” xuất hiện lần đầu vào năm 2020 với sách trắng Databricks “Ngôi nhà bên hồ là gì?” của Ben Lorica, Michael Armbrust, Reynold Xin, Matei Zaharia và Ali Ghodsi. Các tác giả đã đưa ra ý tưởng rằng hồ dữ liệu có thể đóng vai trò là một công cụ để phân phối các phân tích, chứ không chỉ là một kho lưu trữ tệp tĩnh.

Các nhà cung cấp kho dữ liệu đã thực hiện tầm nhìn của họ bằng cách giới thiệu các công cụ truy vấn có thể mở rộng, tốc độ cao hoạt động trên các tệp dữ liệu thô trong kho dữ liệu và hiển thị giao diện SQL tiêu chuẩn ANSI. Với sự đổi mới quan trọng này, những người ủng hộ kiến ​​trúc này lập luận rằng các hồ dữ liệu có thể hoạt động giống như một kho phân tích mà không cần sao chép dữ liệu.

Tuy nhiên, hóa ra kho phân tích thực hiện các chức năng quan trọng khác mà chỉ riêng kiến ​​trúc kho dữ liệu không đáp ứng được, bao gồm:

  1. Cung cấp các truy vấn “tốc độ suy nghĩ” (các truy vấn dưới 2 giây) một cách nhất quán trên nhiều loại truy vấn.
  2. Trình bày lớp ngữ nghĩa thân thiện với doanh nghiệp cho phép người tiêu dùng đặt câu hỏi mà không cần viết SQL.
  3. Áp dụng quản trị và bảo mật dữ liệu tại thời điểm truy vấn.

Vì vậy, để kho dữ liệu thực sự thay thế kho phân tích, chúng ta cần một thứ khác.

Vai trò của lớp ngữ nghĩa

Tôi đã viết rất nhiều về vai trò của lớp ngữ nghĩa trong ngăn xếp dữ liệu hiện đại. Tóm lại, lớp ngữ nghĩa là một dạng xem logic của dữ liệu kinh doanh, tận dụng công nghệ ảo hóa dữ liệu để dịch dữ liệu vật lý thành dữ liệu thân thiện với doanh nghiệp tại thời điểm truy vấn. 

Bằng cách thêm một nền tảng lớp ngữ nghĩa lên trên kho dữ liệu, chúng tôi có thể loại bỏ hoàn toàn các chức năng của kho phân tích vì nền tảng lớp ngữ nghĩa:

  1. Cung cấp "tốc độ truy vấn suy nghĩ" trên kho dữ liệu bằng cách sử dụng ảo hóa dữ liệu và điều chỉnh hiệu suất truy vấn tự động.
  2. Cung cấp lớp ngữ nghĩa thân thiện với doanh nghiệp thay thế các dạng xem ngữ nghĩa độc quyền được nhúng bên trong mỗi công cụ BI và cho phép người dùng doanh nghiệp đặt câu hỏi mà không cần viết truy vấn SQL.
  3. Cung cấp khả năng quản trị và bảo mật dữ liệu tại thời điểm truy vấn.

Một nền tảng lớp ngữ nghĩa cung cấp những phần còn thiếu mà kho dữ liệu đang thiếu. Bằng cách kết hợp một lớp ngữ nghĩa với một kho dữ liệu, các tổ chức có thể:

  1. Loại bỏ các bản sao dữ liệu và đơn giản hóa các đường dẫn dữ liệu.
  2. Hợp nhất quản trị và bảo mật dữ liệu.
  3. Cung cấp một "nguồn sự thật duy nhất" cho các số liệu kinh doanh.
  4. Giảm độ phức tạp của hoạt động bằng cách giữ dữ liệu trong kho dữ liệu.
  5. Cung cấp quyền truy cập vào nhiều dữ liệu hơn và dữ liệu kịp thời hơn cho người tiêu dùng phân tích.
Hình ảnh 2: Ngăn xếp Lakehouse dữ liệu mới với lớp ngữ nghĩa 

The Semantic Lakehouse: Mọi người đều thắng

Mọi người đều chiến thắng với kiến ​​trúc này. Người tiêu dùng có quyền truy cập vào nhiều dữ liệu chi tiết hơn mà không có độ trễ. Các nhóm kỹ thuật dữ liệu và CNTT có ít dữ liệu hơn để di chuyển và chuyển đổi. Tài chính chi ít tiền hơn cho chi phí cơ sở hạ tầng đám mây. 

Như bạn có thể thấy, bằng cách kết hợp lớp ngữ nghĩa với kho dữ liệu, các tổ chức có thể đơn giản hóa các hoạt động phân tích và dữ liệu của họ, đồng thời cung cấp nhiều dữ liệu hơn, nhanh hơn, cho nhiều người tiêu dùng hơn với chi phí thấp hơn.

Dấu thời gian:

Thêm từ PHỔ THÔNG DỮ LIỆU