Vượt qua một thế giới tràn ngập dữ liệu bẩn

Vượt qua một thế giới tràn ngập dữ liệu bẩn

Nút nguồn: 2574986

Giống như một loại virus vô hình, “dữ liệu bẩn” đang hoành hành thế giới kinh doanh ngày nay. Điều đó có nghĩa là, dữ liệu không chính xác, không đầy đủ và không nhất quán đang gia tăng nhanh chóng trong thế giới tập trung vào “dữ liệu lớn” ngày nay.

Làm việc với dữ liệu bẩn khiến các công ty tốn hàng triệu đô la hàng năm. Nó làm giảm hiệu quả và hiệu quả của các phòng ban trong toàn doanh nghiệp và hạn chế nỗ lực phát triển và mở rộng quy mô. Nó cản trở khả năng cạnh tranh, nâng cao rủi ro bảo mật và gây ra các vấn đề về tuân thủ.

Những người phụ trách Data Management đã vật lộn với thách thức này trong nhiều năm. Nhiều công cụ hiện có có thể giải quyết các vấn đề về Quản lý dữ liệu cho các nhóm riêng lẻ trong các phòng ban, nhưng không phải cho công ty nói chung hoặc cho các hệ sinh thái dữ liệu rộng lớn hơn. Tồi tệ hơn, những công cụ này thường tạo ra nhiều dữ liệu hơn cần được quản lý – và dữ liệu đó cũng có thể bị bẩn, gây ra nhiều vấn đề đau đầu và tổn thất doanh thu.

Hiểu dữ liệu bẩn

dữ liệu bẩn đề cập đến bất kỳ dữ liệu gây hiểu lầm, trùng lặp, không chính xác hoặc không chính xác, chưa được tích hợp, vi phạm quy tắc kinh doanh, thiếu định dạng thống nhất hoặc có lỗi về dấu câu hoặc chính tả.

Để nắm được mức độ phổ biến của dữ liệu bẩn trong những thập kỷ gần đây, hãy tưởng tượng kịch bản sau: 

Những người cho vay tại một ngân hàng lớn trở nên bối rối khi họ phát hiện ra rằng hầu hết khách hàng của ngân hàng đều là phi hành gia. Xét rằng NASA chỉ có một vài chục phi hành gia, điều này không có ý nghĩa gì. 

Khi khám phá thêm, bộ phận cho vay phát hiện ra rằng các nhân viên ngân hàng mở tài khoản mới đã chèn “phi hành gia” vào trường nghề nghiệp của khách hàng. Những người cho vay biết rằng bản mô tả công việc không liên quan đến các đối tác của họ chịu trách nhiệm về các tài khoản mới. Các nhân viên ngân hàng đã chọn “phi hành gia”, tùy chọn có sẵn đầu tiên, chỉ đơn giản là để tạo tài khoản mới nhanh hơn.

Tuy nhiên, những người cho vay phải có hồ sơ nghề nghiệp chính xác của khách hàng để nhận tiền thưởng hàng năm. Để khắc phục tình trạng này, bộ phận cho vay phát triển cơ sở dữ liệu riêng của mình. Họ liên hệ với từng khách hàng, tìm hiểu nghề nghiệp chính xác và chèn nó vào cơ sở dữ liệu của họ.

Giờ đây, ngân hàng có hai cơ sở dữ liệu với thông tin cơ bản giống nhau, ngoại trừ một trường. Nếu một bộ phận thứ ba muốn truy cập thông tin trong các cơ sở dữ liệu đó, thì không có hệ thống nào tồn tại để xác định cơ sở dữ liệu nào là chính xác. Vì vậy, bộ phận thứ ba đó cũng có thể tạo cơ sở dữ liệu của riêng mình.

Các kịch bản tương tự đã diễn ra trong các tổ chức trên toàn quốc trong nhiều thập kỷ.

Các bãi chôn lấp dữ liệu số đang phát triển

Rắc rối bắt đầu vào những năm 1990 với chuyển đổi kỹ thuật số bùng nổ. Các công ty đã triển khai phần mềm doanh nghiệp để cải thiện quy trình kinh doanh của họ. Ví dụ, các sản phẩm phần mềm dưới dạng dịch vụ từ Salesforce đã tạo ra những cách tốt hơn để quản lý hệ thống bán hàng và tiếp thị.

Nhưng 30 năm sau, cơ sở hạ tầng kế thừa như vậy đã dẫn đến cơn ác mộng Quản lý dữ liệu. Các silo dữ liệu khác nhau với hàng loạt thông tin trùng lặp, không đầy đủ và không chính xác làm tiêu tan cảnh quan của công ty và khu vực công. Các silo đó bao gồm các ngành kinh doanh, khu vực địa lý và các chức năng tương ứng sở hữu và giám sát các nguồn dữ liệu của họ.

Ngoài ra, việc tạo dữ liệu đã tăng theo cấp số nhân trong nhiều thập kỷ. Mỗi quy trình kinh doanh hiện cần có phần mềm riêng, tạo ra nhiều dữ liệu hơn. Các ứng dụng ghi lại mọi hành động trong cơ sở dữ liệu gốc của chúng và các trở ngại đối với việc khai thác các tài sản dữ liệu mới được tạo đã xuất hiện.

Trong những thập kỷ trước, từ vựng xác định dữ liệu dành riêng cho quy trình kinh doanh đã tạo ra nó. Các kỹ sư đã phải dịch các từ vựng đó thành các từ điển rời rạc cho các hệ thống tiêu thụ dữ liệu. Đảm bảo chất lượng thường không tồn tại. Như trong ví dụ về phi hành gia ở trên, dữ liệu có thể sử dụng được bởi một chức năng kinh doanh nhưng những chức năng khác không sử dụng được. Và khả năng truy cập dữ liệu từ các quy trình kinh doanh ban đầu bị hạn chế, tốt nhất là đối với các chức năng có thể đã đạt được sự tối ưu hóa.

Bài toán sao chép

Để giải quyết vấn đề này, các kỹ sư bắt đầu tạo các bản sao của cơ sở dữ liệu gốc vì cho đến gần đây, đó là tùy chọn tốt nhất hiện có. Sau đó, họ đã biến đổi các bản sao đó để đáp ứng các yêu cầu của chức năng tiêu thụ, áp dụng các quy tắc Chất lượng dữ liệu và logic khắc phục dành riêng cho chức năng tiêu thụ. Họ tạo nhiều bản sao và tải chúng vào nhiều kho dữ liệu và hệ thống phân tích.

Kết quả? Một số bộ phận của tổ chức tràn ngập các bản sao tập dữ liệu được coi là "bẩn", gây ra sự nhầm lẫn về bản sao nào là bản sao phù hợp. Các công ty ngày nay có hàng trăm bản sao dữ liệu nguồn trên khắp các kho lưu trữ dữ liệu hoạt động, cơ sở dữ liệu, kho dữ liệu, hồ dữ liệu, hộp cát phân tích và bảng tính trong trung tâm dữ liệu và nhiều đám mây. Tuy nhiên, các giám đốc thông tin và giám đốc dữ liệu không kiểm soát được số lượng bản sao được tạo ra cũng như không biết phiên bản nào đại diện cho nguồn sự thật chính hãng.

Một loạt các sản phẩm phần mềm Quản trị dữ liệu có sẵn để mang lại trật tự cho mớ hỗn độn này. Chúng bao gồm danh mục dữ liệu, hệ thống đo lường chất lượng dữ liệu và giải quyết vấn đề, hệ thống quản lý dữ liệu tham chiếu, hệ thống quản lý dữ liệu chính, khám phá dòng dữ liệu và hệ thống quản lý.

Nhưng những biện pháp đó rất tốn kém và tốn nhiều thời gian. Một dự án quản lý dữ liệu tổng thể điển hình để tích hợp dữ liệu khách hàng từ nhiều nguồn dữ liệu từ các dòng sản phẩm khác nhau có thể mất nhiều năm và tiêu tốn hàng triệu đô la. Đồng thời, khối lượng dữ liệu bẩn đang gia tăng với tốc độ vượt xa nỗ lực của tổ chức trong việc thiết lập các biện pháp kiểm soát và quản trị.

Những cách tiếp cận này đầy rẫy những sai sót. Chúng dựa trên các quy trình thủ công, logic phát triển hoặc quy tắc kinh doanh để thực hiện các tác vụ kiểm kê, đo lường và khắc phục dữ liệu. 

phục hồi quyền kiểm soát

Ba công nghệ mới nổi phù hợp nhất để giải quyết tình trạng khó khăn hiện tại: Quản trị dữ liệu dựa trên trí tuệ nhân tạo và máy học, các nền tảng tương tác ngữ nghĩa như biểu đồ tri thức và hệ thống phân phối dữ liệu như sổ cái phân tán: 

1. Giải pháp quản trị dữ liệu dựa trên trí tuệ nhân tạo và máy học giảm sự phụ thuộc vào con người và mã. Trí tuệ nhân tạo và máy học thay thế công việc thủ công bằng các hành động bao gồm tự động gắn thẻ, sắp xếp và giám sát khối lượng lớn dữ liệu. Chuyển đổi và di chuyển Quản lý dữ liệu giúp giảm chi phí CNTT. Các tổ chức cũng có thể xây dựng các kiến ​​trúc mạnh mẽ và bền vững hơn để khuyến khích Chất lượng dữ liệu trên quy mô lớn.

2. Sơ đồ tri thức cho phép khả năng tương tác tự nhiên của các tài sản dữ liệu khác nhau để thông tin có thể được kết hợp và hiểu theo một định dạng chung. Bằng cách tận dụng các bản thể luận ngữ nghĩa, các tổ chức có thể chứng minh dữ liệu trong tương lai với ngữ cảnh và định dạng chung để nhiều bên liên quan tái sử dụng.

3. Sổ cái phân tán, quyền riêng tư khác biệt và ảo hóa loại bỏ sự cần thiết phải sao chép dữ liệu vật lý. Sổ cái phân tán bao gồm các cơ sở dữ liệu được liên kết và quản lý có thể sử dụng được giữa các đơn vị và tổ chức kinh doanh. Quyền riêng tư khác biệt cho phép che giấu dữ liệu để tuân thủ các yêu cầu tuân thủ, đồng thời chia sẻ dữ liệu đó với các bên liên quan. Ảo hóa cho phép quay vòng dữ liệu trong môi trường ảo thay vì môi trường vật lý.

Sau khi CIO và CDO hiểu được gốc rễ của vấn đề là cơ sở hạ tầng kế thừa tạo ra các silo dữ liệu, họ có thể cải thiện các kiến ​​trúc cơ bản và chiến lược cơ sở hạ tầng dữ liệu.

Dữ liệu bẩn hạn chế khả năng của tổ chức trong việc đưa ra quyết định sáng suốt và hoạt động với độ chính xác và nhanh nhẹn. Các tổ chức phải kiểm soát dữ liệu của họ và khuyến khích khả năng tương tác, chất lượng và khả năng truy cập dữ liệu. Làm như vậy sẽ mang lại lợi thế cạnh tranh và xóa các lỗ hổng bảo mật và tuân thủ.

Dấu thời gian:

Thêm từ PHỔ THÔNG DỮ LIỆU