Hiểu tác động của dữ liệu xấu - DATAVERSITY

Hiểu tác động của dữ liệu xấu – DATAVERSITY

Nút nguồn: 3070625

Bạn có biết chi phí của chất lượng dữ liệu kém? Dưới đây, tôi khám phá tầm quan trọng của khả năng quan sát dữ liệu, cách nó có thể giảm thiểu rủi ro từ dữ liệu xấu và cách đo lường ROI của nó. Bằng cách hiểu được tác động của dữ liệu xấu và thực hiện các chiến lược hiệu quả, các tổ chức có thể tối đa hóa lợi ích từ các sáng kiến ​​về chất lượng dữ liệu của mình. 

Dữ liệu đã trở thành một phần không thể thiếu trong quá trình ra quyết định hiện đại và do đó, chất lượng dữ liệu là điều tối quan trọng để đảm bảo rằng các bên liên quan trong kinh doanh đưa ra kết luận chính xác. 

Nhưng đây là điểm hấp dẫn mà mọi nhà lãnh đạo dữ liệu hiện đại sẽ nói với bạn: Quản lý chất lượng dữ liệu rất khó. Nó làm mất thời gian và công sức. Hơn nữa, ROI (lợi tức đầu tư) thường khó đo lường. 

Dữ liệu xấu tệ đến mức nào?

Dữ liệu xấu có thể dẫn đến tổn thất tài chính đáng kể. Gartner ước tính rằng mỗi năm, chất lượng dữ liệu kém khiến các tổ chức tốn trung bình $ 12.9 triệu. Năm 2022, Phần mềm Unity báo cáo lỗ 110 triệu USD doanh thu và 4.2 tỷ USD vốn hóa thị trường. Công ty nêu rõ: “Hậu quả của việc sử dụng dữ liệu xấu từ một khách hàng lớn. Tương tự, dữ liệu xấu gây ra Equifax, một cơ quan báo cáo tín dụng được giao dịch công khai, gửi cho người cho vay điểm tín dụng không chính xác trên hàng triệu của khách hàng. Gần đây hơn, một sự cố dữ liệu đã gây ra sự gián đoạn lớn đối với giao thông hàng không của Vương quốc Anh và Ireland. Được biết, hơn 2,000 chuyến bay đã bị hủy, khiến hàng trăm nghìn du khách mắc kẹt, thiệt hại tài chính lũy kế cho các hãng hàng không ước tính khoảng 126.5 triệu USD.

Ý nghĩa của dữ liệu xấu 

Dữ liệu là trung tâm của mọi doanh nghiệp hiện đại. Trách nhiệm chính của nhóm dữ liệu là xây dựng và duy trì các sản phẩm dữ liệu được phục vụ cho khách hàng trong nội bộ và bên ngoài, đồng thời cho phép tổ chức mở rộng quy mô và đáp ứng các mục tiêu của mình. 

Khi cần đảm bảo rằng các sáng kiến ​​dữ liệu của tổ chức sẵn sàng thành công, một số kỳ vọng cơ bản từ nhóm dữ liệu có thể được tóm tắt như sau:

  • Thời gian hoạt động: Dữ liệu là một dịch vụ và do đó, việc đảm bảo dữ liệu luôn sẵn có khi cần là điều quan trọng.
  • An ninh: Tuân thủ các quy định (chẳng hạn như GDPR hoặc HIPAA). Nhóm chịu trách nhiệm thực hiện các biện pháp và biện pháp thực hành để bảo vệ thông tin nhạy cảm và duy trì quyền riêng tư của dữ liệu.
  • Độ tin cậy: Của cả dữ liệu và nền tảng dữ liệu. Một phần của điều này không chỉ bao gồm thời gian hoạt động mà còn cả chất lượng và độ chính xác của dữ liệu theo nghĩa truyền thống của họ. 
  • Tỉ lệ: Nền tảng dữ liệu phải cho phép khả năng mở rộng để đáp ứng khối lượng dữ liệu ngày càng tăng, số lượng trường hợp sử dụng và nhu cầu của doanh nghiệp.
  • Sáng tạo: Dữ liệu sẽ thúc đẩy sự đổi mới và đây là lĩnh vực mà điều quan trọng là nhóm dữ liệu phải dẫn đầu bằng cách đưa ra sự đổi mới trong và ngoài hoạt động thực hành dữ liệu. 

Đạt được chất lượng dữ liệu thông qua khả năng quan sát dữ liệu

Khả năng quan sát dữ liệu là một giải pháp giúp chủ động theo dõi và duy trì tình trạng của dữ liệu trong suốt vòng đời của nó. Bằng cách triển khai các kỹ thuật ghi nhật ký, theo dõi và giám sát, các tổ chức có được khả năng hiển thị các luồng dữ liệu, nhanh chóng xác định và khắc phục các vấn đề về chất lượng dữ liệu, đồng thời ngăn chặn sự gián đoạn đối với bảng thông tin phân tích. Kiến thức về dữ liệu, liên quan đến việc tìm nguồn cung ứng, diễn giải và truyền đạt dữ liệu, là điều cần thiết để những người ra quyết định chuyển dữ liệu thành giá trị kinh doanh một cách hiệu quả. Nuôi dưỡng văn hóa dựa trên dữ liệu và đầu tư vào các công cụ phù hợp là những bước quan trọng để đạt được chất lượng dữ liệu thông qua khả năng quan sát dữ liệu. 

Định lượng ROI của khả năng quan sát dữ liệu

Đo lường ROI của khả năng quan sát dữ liệu giúp các nhà lãnh đạo doanh nghiệp hiểu được giá trị và lợi ích liên quan đến việc đầu tư vào hoạt động này. Một số số liệu có thể định lượng có thể đóng vai trò là điểm khởi đầu để đánh giá chi phí của dữ liệu xấu, bao gồm tỷ lệ xảy ra hoặc số lượng sự cố mỗi năm, thời gian phát hiện và thời gian giải quyết.

Tác động của vấn đề về chất lượng dữ liệu có thể khác nhau tùy thuộc vào quy mô và mức độ phức tạp của hoạt động kinh doanh. Để đánh giá thiệt hại và xây dựng trường hợp vững chắc cho giải pháp khả năng quan sát dữ liệu, chúng tôi đề xuất năm số liệu chính mà người thực hiện dữ liệu có thể dễ dàng triển khai và giám sát, có thể được sử dụng để hỗ trợ trường hợp nội bộ:

  1. Số lượng và tần suất sự cố: Trong khi một số công ty có thể gặp sự cố dữ liệu hàng ngày, thì những công ty khác có thể mất nhiều ngày - nếu không phải vài tuần - mà không gặp sự cố nào. Mức độ nghiêm trọng của sự cố có thể khác nhau, từ một điều gì đó “nhỏ nhặt”, chẳng hạn như dữ liệu cũ được liên kết với bảng điều khiển mà từ lâu không ai sử dụng, đến sự cố sao chép dữ liệu khiến máy chủ bị sạc quá mức và cuối cùng ngừng hoạt động (câu chuyện có thật, Netflix 2016). Chúng tôi nhận thấy nó thường liên quan đến: quy mô và độ phức tạp của nền tảng dữ liệu, ngành của công ty (một số ngành vốn có nhiều dữ liệu trưởng thành hơn các ngành khác), loại kiến ​​trúc dữ liệu (tập trung, phi tập trung, kết hợp), v.v. Việc ghi lại các sự cố sẽ cung cấp ý tưởng tốt hơn về những gì cần tìm trong lần tiếp theo, các sự cố lặp đi lặp lại thường là dấu hiệu tốt cho thấy điều gì đó bên dưới cần được chú ý kỹ hơn.  
  2. Phân loại sự cố: Không phải tất cả các sự cố dữ liệu đều có mức độ nghiêm trọng như nhau; một số có thể nhẹ và dễ dàng giảm nhẹ, trong khi một số khác có thể gây hậu quả nghiêm trọng. Việc ghi lại mức độ nghiêm trọng của các sự cố là rất quan trọng để đảm bảo mức độ ưu tiên và leo thang phù hợp. Đây là lúc dòng dữ liệu có thể trở thành công cụ vì nó cho phép đánh giá tác động tiếp theo của sự cố để hiểu rõ hơn mức độ nghiêm trọng. Một sự cố liên quan đến bảng điều khiển yêu thích của CEO, cơ sở dữ liệu sản xuất hoặc sản phẩm dữ liệu quan trọng có thể có mức độ nghiêm trọng cao. 
  3. Thời gian trung bình để phát hiện (MTTD): Khi nói đến việc xây dựng niềm tin vào dữ liệu và nhóm dữ liệu, cơn ác mộng của mọi người thực hiện dữ liệu là khi các bên liên quan trong kinh doanh là những người đầu tiên phát hiện các vấn đề về chất lượng dữ liệu. Nó thực sự có thể làm tổn hại đến uy tín của nhóm và khả năng thực sự hoạt động dựa trên dữ liệu của công ty. Khi bạn bắt đầu ghi lại các sự cố và phân loại mức độ nghiêm trọng của chúng, điều quan trọng là bạn cũng phải theo dõi cách chúng được phát hiện và thời gian để nhóm dữ liệu thừa nhận chúng. Số liệu này có thể là một chỉ báo tốt về tính hiệu quả trong quản lý sự cố của bạn nhưng đồng thời giảm thiểu nó cũng đồng nghĩa với việc bạn giảm thiểu nguy cơ sự cố có thể gây ra nhiều thiệt hại hơn. 
  4. Thời gian trung bình để phân giải (MTTR): Điều gì xảy ra sau khi một sự việc được báo cáo? MTTR là thời gian trung bình dành cho việc nhận biết sự cố dữ liệu và giải quyết nó. Thời gian giải quyết bị ảnh hưởng rất nhiều bởi mức độ nghiêm trọng của sự cố và độ phức tạp của nền tảng dữ liệu, đó là lý do tại sao chúng tôi đang xem xét mức trung bình cho mục đích của khuôn khổ này.
  5. Thời gian trung bình để sản xuất (MTTP) là thời gian trung bình để vận chuyển các sản phẩm dữ liệu mới hay nói cách khác là thời gian trung bình để tiếp thị các sản phẩm dữ liệu. Đây có thể là thời gian mà một nhà phân tích “làm sạch” dữ liệu cho mô hình khoa học dữ liệu. Trên thực tế, theo Forbes, việc chuẩn bị dữ liệu chiếm khoảng 80% công việc của các nhà khoa học dữ liệu. Trong một thế giới mà chúng ta muốn coi dữ liệu như một sản phẩm, việc cải thiện chất lượng dữ liệu có thể có tác động trực tiếp đến việc giảm thời gian đưa ra thị trường. 

Ngoài các số liệu có thể định lượng ở trên, những số liệu khác ít dễ định lượng hơn nhưng cũng quan trọng không kém cũng đáng được xem xét khi xem xét chi phí của dữ liệu xấu.

  • Xói mòn niềm tin: Trong dữ liệu đội dữ liệu. Theo tôi, đây là hậu quả nguy hiểm nhất của dữ liệu xấu, có thể dẫn đến các vấn đề lớn hơn như thay đổi nhân sự trong nhóm dữ liệu hoặc mất niềm tin vào khả năng của công ty trong việc điều khiển dữ liệu và theo kịp bối cảnh kỹ thuật số đang phát triển. Và một khi niềm tin đã bị phá vỡ thì rất khó lấy lại được. Theo kinh nghiệm trước đây, tôi đã làm việc với những người tiêu dùng dữ liệu, những người không muốn sử dụng dữ liệu mà thà dựa vào “kinh nghiệm” và “linh cảm” trong một môi trường giao dịch chứng khoán rất biến động hơn là sử dụng dữ liệu đó khi biết rằng dữ liệu có nhiều khả năng không chính xác . 
  • Mất năng suất: Với dữ liệu xấu, các đội buộc phải đấu tranh và sửa lỗi khi chúng phát sinh. Việc chữa cháy liên tục này không chỉ gây mệt mỏi mà còn phản tác dụng. Thời gian quý giá lẽ ra có thể dành cho việc hoạch định chiến lược và các sáng kiến ​​tăng trưởng lại bị lãng phí vào việc khắc phục sự cố, làm phân tán nguồn lực khỏi các nhiệm vụ quan trọng hơn.
  • Rủi ro pháp lý và danh tiếng: Những sai sót trong báo cáo tài chính hoặc xử lý sai dữ liệu cá nhân có thể dẫn đến các khoản phạt tốn kém và các cuộc chiến pháp lý. Xử lý các vấn đề tuân thủ là nguyên nhân làm giảm năng suất đáng kể, chưa kể đến gánh nặng tài chính mà chúng gây ra.
  • Hiệu quả kinh doanh kém: Ngoài việc làm giảm năng suất trong nhóm dữ liệu, dữ liệu xấu có thể cản trở hiệu quả kinh doanh tổng thể khi công ty phải vật lộn với sự sẵn sàng và uy tín về kỹ thuật số trước khách hàng của mình, đồng thời trở nên dễ bị tổn thương trước các mối đe dọa từ bên ngoài. 

Các vấn đề về chất lượng dữ liệu có thể dẫn đến nhiều vấn đề khác nhau, bao gồm mất niềm tin vào dữ liệu, giảm năng suất và tinh thần của nhóm, không tuân thủ các quy định và giảm chất lượng ra quyết định. Dữ liệu bị cô lập trong các phòng ban hoặc đơn vị kinh doanh khiến việc có được cái nhìn toàn diện về bối cảnh dữ liệu của tổ chức trở nên khó khăn. Điều này có thể dẫn đến việc ra quyết định không hiệu quả, cản trở văn hóa dữ liệu và gây nguy hiểm cho việc tuân thủ các quy định như GDPR và HIPAA. Hơn nữa, các nhóm dữ liệu có thể trở nên thất vọng khi dành quá nhiều thời gian để khắc phục sự cố dữ liệu, ảnh hưởng tiêu cực đến sự hài lòng trong công việc của họ và có khả năng dẫn đến việc nhân viên rời bỏ công việc. 

Quy tắc 1x10x100

Quy tắc 1x10x100, một nguyên tắc được công nhận rộng rãi trong quản lý sự cố, nhấn mạnh chi phí ngày càng tăng liên quan đến chất lượng dữ liệu kém. Theo quy tắc này, chi phí để giải quyết vấn đề về chất lượng dữ liệu tại thời điểm đầu vào xấp xỉ 1 lần chi phí ban đầu. Nếu sự cố không được phát hiện và lan truyền trong hệ thống, chi phí sẽ tăng lên khoảng 10 lần, bao gồm các nỗ lực khắc phục và khắc phục. Tuy nhiên, nếu chất lượng dữ liệu kém đến tay người dùng cuối hoặc giai đoạn ra quyết định, chi phí có thể tăng vọt lên gấp 100 lần chi phí ban đầu do những hậu quả kinh doanh đáng kể, bao gồm gián đoạn hoạt động, mất cơ hội và sự không hài lòng của khách hàng. Quy tắc này nhấn mạnh tác động theo cấp số nhân của chất lượng dữ liệu kém, khiến các tổ chức phải đầu tư vào khả năng quan sát dữ liệu, điều này giúp ngăn chặn các vấn đề, nếu chúng xảy ra, gần với nguyên nhân gốc rễ hơn là ở phía dưới.

Kết luận

Các vấn đề về chất lượng dữ liệu ảnh hưởng đáng kể đến doanh nghiệp, dẫn đến lãng phí tài nguyên và bỏ lỡ cơ hội. Đầu tư vào khả năng quan sát dữ liệu là điều cần thiết để ngăn ngừa và giảm thiểu rủi ro liên quan đến dữ liệu xấu. Bằng cách tận dụng các số liệu có thể định lượng và xem xét các yếu tố không thể định lượng, các tổ chức có thể đo lường ROI của khả năng quan sát dữ liệu và chứng minh giá trị của nó cho những người ra quyết định. Đảm bảo sự tin cậy của dữ liệu, thúc đẩy việc ra quyết định tên miền hiệu quả, tuân thủ các quy định và thúc đẩy nhóm dữ liệu hài lòng đều là những khía cạnh quan trọng để tối đa hóa lợi ích của các sáng kiến ​​​​về chất lượng dữ liệu. Nắm bắt khả năng quan sát dữ liệu là một khoản đầu tư chiến lược nhằm bảo vệ tính chính xác, độ tin cậy và khả năng sử dụng dữ liệu trong thế giới dựa trên dữ liệu ngày nay. 

Các tổ chức xây dựng phương pháp thực hành có khả năng quan sát phong phú sẽ có nhiều khả năng hiển thị hơn trong môi trường đan xen của họ, điều này dẫn đến ít sự cố ngừng hoạt động hơn, giải quyết vấn đề nhanh hơn, độ tin cậy cao hơn về độ tin cậy của ứng dụng – và cuối cùng là mang lại nhiều doanh thu hơn và khách hàng hài lòng hơn.

Dấu thời gian:

Thêm từ PHỔ THÔNG DỮ LIỆU