더러운 데이터가 범람하는 세상 극복

더러운 데이터가 범람하는 세상 극복

소스 노드 : 2574986

눈에 보이지 않는 바이러스처럼 "더러운 데이터"가 오늘날 비즈니스 세계를 괴롭히고 있습니다. 즉, 오늘날의 "빅 데이터" 중심 세계에서는 부정확하고 불완전하며 일관성이 없는 데이터가 급증하고 있습니다.

더러운 데이터로 작업하면 기업은 매년 수백만 달러의 비용을 지출하게 됩니다. 이는 기업 전체에 걸쳐 부서의 효율성과 효율성을 감소시키고 성장 및 확장을 위한 노력을 축소시킵니다. 이는 경쟁력을 저해하고 보안 위험을 높이며 규정 준수 문제를 야기합니다.

담당하시는 분들 데이터 관리 수년 동안 이 문제와 씨름해 왔습니다. 현재 사용 가능한 도구 중 다수는 부서 내 분리된 팀의 데이터 관리 문제를 해결할 수 있지만 회사 전체나 더 넓은 데이터 생태계에서는 그렇지 않습니다. 더 나쁜 것은 이러한 도구로 인해 관리해야 하는 데이터가 훨씬 더 많이 생성되는 경우가 많다는 점입니다. 또한 해당 데이터도 더러워져 더 큰 문제와 수익 손실을 초래할 수 있습니다.

더티 데이터 이해

더러운 데이터 모든 데이터를 가리킨다 오해의 소지가 있거나, 중복되거나, 부정확하거나, 아직 통합되지 않았거나, 비즈니스 규칙을 위반하거나, 통일된 형식이 없거나, 구두점이나 철자에 오류가 있는 경우입니다.

최근 수십 년 동안 더러운 데이터가 어떻게 어디에나 존재하게 되었는지 파악하려면 다음 시나리오를 상상해 보세요. 

대형 은행의 대출 기관은 은행 고객의 거의 대부분이 우주 비행사라는 사실을 알고 당황합니다. NASA에만 있는 것을 고려하면 수십 명의 우주비행사, 이건 말이 안 돼요. 

추가 조사를 통해 대출 부서는 새 계좌를 개설한 은행 직원이 고객 직업 필드에 "우주비행사"를 삽입했다는 사실을 발견했습니다. 대출 기관은 직무 설명이 새 계좌를 담당하는 상대방과 관련이 없다는 것을 알게 됩니다. 은행 직원은 단순히 새 계좌를 보다 신속하게 만들기 위해 사용 가능한 첫 번째 옵션인 "우주비행사"를 선택했습니다.

그러나 대출 기관은 연간 보너스를 받으려면 고객의 정확한 직업을 기록해야 합니다. 상황을 해결하기 위해 대출 부서는 자체적인 별도 데이터베이스를 개발합니다. 그들은 각 고객에게 연락하여 올바른 직업을 배우고 이를 데이터베이스에 삽입합니다.

이제 은행에는 하나의 필드를 제외하고 본질적으로 동일한 정보를 포함하는 두 개의 데이터베이스가 있습니다. 제XNUMX의 부서가 해당 데이터베이스의 정보에 액세스하려는 경우 어떤 데이터베이스가 정확한지 판단할 수 있는 시스템이 없습니다. 따라서 세 번째 부서도 자체 데이터베이스를 만들 수 있습니다.

비슷한 시나리오가 수십 년 동안 전국의 조직에서 진행되었습니다.

급증하는 디지털 데이터 매립지

문제는 1990년대부터 시작됐다. 디지털 변환 팔. 기업에서는 비즈니스 프로세스를 개선하기 위해 엔터프라이즈 소프트웨어를 배포했습니다. 예를 들어 Salesforce의 SaaS(Software-as-a-Service) 제품은 영업 및 마케팅 시스템을 더 효과적으로 관리할 수 있는 방법을 제공했습니다.

그러나 30년이 지난 지금, 이러한 레거시 인프라는 데이터 관리의 악몽을 가져왔습니다. 중복되고, 불완전하고, 부정확한 정보가 가득한 서로 다른 데이터 사일로가 기업 및 공공 부문 환경을 뒤덮습니다. 이러한 사일로는 데이터 소스를 각각 소유하고 감독하는 사업부, 지역 및 기능으로 구성됩니다.

그 외에도 데이터 생성은 수십 년 동안 기하급수적으로 증가했습니다. 이제 각 비즈니스 프로세스에는 더 많은 데이터를 생성하는 자체 소프트웨어가 필요합니다. 애플리케이션은 기본 데이터베이스에 모든 작업을 기록하며 새로 생성된 데이터 자산을 마이닝하는 데 장애물이 나타났습니다.

지난 수십 년 동안 데이터를 정의하는 어휘는 이를 생성한 비즈니스 프로세스에만 국한되었습니다. 엔지니어들은 이러한 어휘를 데이터를 소비하는 시스템을 위한 개별 사전으로 번역해야 했습니다. 품질 보증은 일반적으로 존재하지 않았습니다. 위의 우주 비행사의 예에서와 같이 한 비즈니스 기능에서 사용할 수 있는 데이터는 다른 비즈니스 기능에서는 사용할 수 없습니다. 그리고 원래 비즈니스 프로세스의 데이터에 대한 접근성은 최적화를 달성할 수 있는 기능에 대해 기껏해야 제한되었습니다.

복사 수수께끼

이 문제를 해결하기 위해 엔지니어들은 원본 데이터베이스의 복사본을 만들기 시작했습니다. 최근까지 이것이 최선의 선택이었기 때문입니다. 그런 다음 해당 복사본을 변환하여 소비 기능의 요구 사항을 충족하고 소비 기능에만 적용되는 데이터 품질 규칙과 수정 논리를 적용했습니다. 그들은 많은 복사본을 만들어 여러 데이터 웨어하우스와 분석 시스템에 로드했습니다.

결과? 조직의 일부 부분에서 "더러운" 것으로 읽히는 데이터 세트 복사본이 넘쳐 어떤 복사본이 올바른지 혼란을 야기합니다. 오늘날 기업은 데이터 센터와 여러 클라우드 내의 운영 데이터 저장소, 데이터베이스, 데이터 웨어하우스, 데이터 레이크, 분석 샌드박스, 스프레드시트에 걸쳐 수백 개의 소스 데이터 사본을 보유하고 있습니다. 그러나 최고 정보 책임자(CIO)와 최고 데이터 책임자(CIO)는 생성된 복사본의 수를 제어할 수 없으며 어떤 버전이 진정한 정보 소스를 나타내는지 알지 못합니다.

이러한 혼란을 정리하기 위해 다양한 데이터 거버넌스 소프트웨어 제품을 사용할 수 있습니다. 여기에는 데이터 카탈로그, 데이터 품질 측정 및 문제 해결 시스템, 참조 데이터 관리 시스템, 마스터 데이터 관리 시스템, 데이터 계보 검색 및 관리 시스템이 포함됩니다.

그러나 이러한 치료법은 비용이 많이 들고 시간 집약적입니다. 다양한 제품 라인의 여러 데이터 소스에서 고객 데이터를 통합하는 일반적인 마스터 데이터 관리 프로젝트에는 수년이 걸리고 수백만 달러의 비용이 소요될 수 있습니다. 동시에, 제어 및 거버넌스를 설치하려는 조직의 노력을 앞지르는 속도로 더티 데이터의 양이 증가하고 있습니다.

이러한 접근 방식에는 결함이 많습니다. 이들은 수동 프로세스, 개발 논리 또는 비즈니스 규칙을 사용하여 데이터 목록 작성, 측정 및 수정 작업을 실행합니다. 

통제력 회복

현재의 곤경을 해결하는 데 가장 적합한 세 가지 새로운 기술은 AI 및 머신러닝 기반 데이터 거버넌스, 지식 그래프와 같은 의미론적 상호 운용성 플랫폼, 분산 원장과 같은 데이터 배포 시스템입니다. 

1. AI 및 머신러닝 기반 데이터 거버넌스 솔루션 사람과 코드에 대한 의존도를 줄입니다. AI와 머신 러닝은 수동 작업을 자동 태깅, 정리, 방대한 양의 데이터 감독을 포함한 작업으로 대체합니다. 데이터 관리 변환 및 마이그레이션으로 IT 비용이 절감됩니다. 또한 조직은 규모에 맞는 데이터 품질을 장려하는 더욱 강력하고 지속 가능한 아키텍처를 구축할 수도 있습니다.

2. 지식 그래프 정보를 공통 형식으로 결합하고 이해할 수 있도록 서로 다른 데이터 자산의 기본 상호 운용성을 허용합니다. 의미론적 온톨로지를 활용함으로써 조직은 여러 이해관계자가 재사용할 수 있는 컨텍스트 및 공통 형식을 갖춘 데이터를 미래에도 사용할 수 있습니다.

3. 분산 원장, 차등 개인 정보 보호 및 가상화 데이터를 물리적으로 복사할 필요가 없습니다. 분산 원장은 비즈니스 단위와 조직 전체에서 사용할 수 있는 연합 및 관리 데이터베이스로 구성됩니다. 차등 개인 정보 보호를 사용하면 규정 준수 요구 사항을 준수하기 위해 데이터를 마스킹하는 동시에 이해 관계자와 공유할 수 있습니다. 가상화를 사용하면 물리적 환경이 아닌 가상 환경에서 데이터를 회전할 수 있습니다.

CIO와 CDO가 문제의 근원이 데이터 사일로를 생성하는 레거시 인프라에 있음을 이해하면 기본 아키텍처와 데이터 인프라 전략을 개선할 수 있습니다.

더러운 데이터는 조직이 정보에 입각한 결정을 내리고 정확하고 민첩하게 운영하는 능력을 제한합니다. 조직은 데이터를 통제하고 데이터 상호 운용성, 품질 및 접근성을 장려해야 합니다. 그렇게 하면 경쟁 우위를 확보하고 보안 및 규정 준수 취약성을 제거할 수 있습니다.

타임 스탬프 :

더보기 데이터 버 시티