Apache Gobblin을 통한 데이터 관리 확장

플라톤에 의해 재발행

팔로워 : 0

현대 사회에서 대부분의 비즈니스는 빅 데이터 및 분석의 힘에 의존하여 성장, 전략적 투자 및 고객 참여를 촉진합니다. 빅 데이터는 대상 광고, 개인화된 마케팅, 제품 추천, 인사이트 생성, 가격 최적화, 정서 분석, 예측 분석 등의 기본 상수입니다.

데이터는 종종 여러 소스에서 수집되어 온프레미스 또는 온클라우드 데이터 레이크에서 변환, 저장 및 처리됩니다. 데이터의 초기 수집은 비교적 사소하고 사내에서 개발한 사용자 정의 스크립트 또는 기존 ETL(Extract Transform Load) 도구를 통해 수행할 수 있지만 회사에서 다음과 같은 작업을 수행해야 하므로 문제가 빠르게 복잡해지고 비용이 많이 듭니다.

하우스키핑 및 규정 준수를 위해 전체 데이터 수명 주기 관리
스토리지 최적화 - 관련 비용 절감
아키텍처 단순화 – 컴퓨팅 인프라 재사용을 통해
강력한 상태 관리를 통해 점진적으로 데이터 처리
중복 작업 없이 배치 및 스트림 데이터에 동일한 정책 적용
최소한의 노력으로 온프레미스와 클라우드 간 마이그레이션

그것은 어디 아파치 고블린, 오픈 소스 데이터 관리 및 통합 시스템이 제공됩니다. Apache Gobblin은 비즈니스 요구에 따라 전체 또는 부분적으로 사용할 수 있는 탁월한 기능을 제공합니다.

이 섹션에서는 앞에서 설명한 문제를 해결하는 데 도움이 되는 Apache Gobblin의 다양한 기능을 자세히 살펴봅니다.

전체 데이터 수명 주기 관리

Apache Gobblin은 데이터 세트에서 전체 데이터 수명 주기 작업을 지원하는 데이터 파이프라인을 구성하는 다양한 기능을 제공합니다.

데이터 수집 - 데이터베이스, Rest API, FTP/SFTP 서버, 파일러, Salesforce 및 Dynamics와 같은 CRM 등 여러 소스에서 싱크까지.
데이터 복제 – Distcp-NG를 통해 Hadoop 분산 파일 시스템을 위한 특수 기능을 사용하여 여러 데이터 레이크 간에 데이터를 복제합니다.
데이터 제거 – 시간 기반, 최신 K, 버전 지정 또는 정책 조합과 같은 보존 정책을 사용합니다.

Gobblin의 논리적 파이프라인은 작업의 분포를 결정하고 'Workunits'를 생성하는 'Source'로 구성됩니다. 이러한 '작업 단위'는 추출, 변환, 품질 검사 및 대상에 대한 데이터 쓰기를 포함하는 '작업'으로 실행을 위해 선택됩니다. 마지막 단계인 '데이터 게시'는 파이프라인의 성공적인 실행을 확인하고 대상에서 지원하는 경우 출력 데이터를 원자적으로 커밋합니다.

Apache Gobblin을 통한 데이터 관리 확장
작성자 별 이미지

스토리지 최적화

Apache Gobblin은 수집 후 데이터 후처리 또는 압축 또는 형식 변환을 통한 복제를 통해 데이터에 필요한 스토리지 양을 줄이는 데 도움을 줄 수 있습니다.

압축 – 레코드의 모든 필드 또는 키 필드를 기반으로 중복 제거할 데이터 후처리, 동일한 키를 가진 최신 타임스탬프가 있는 하나의 레코드만 유지하도록 데이터를 트리밍합니다.
Avro에서 ORC로 – 널리 사용되는 행 기반 Avro 형식을 고도로 최적화된 열 기반 ORC 형식으로 변환하는 특수 형식 변환 메커니즘입니다.

Apache Gobblin을 통한 데이터 관리 확장
작성자 별 이미지

아키텍처 단순화

회사의 단계(스타트업에서 엔터프라이즈까지), 확장 요구 사항 및 해당 아키텍처에 따라 회사는 데이터 인프라를 설정하거나 발전시키는 것을 선호합니다. Apache Gobblin은 매우 유연하며 여러 실행 모델을 지원합니다.

독립 실행형 모드 - 베어 메탈 박스에서 독립 실행형 프로세스로 실행합니다.
MapReduce 모드 – 대용량 데이터 사례를 위해 Hadoop 인프라에서 MapReduce 작업으로 실행하여 페타바이트 규모의 데이터 세트를 처리합니다.
클러스터 모드: 독립 실행형 – Hadoop MR 프레임워크와 독립적으로 대규모를 처리하기 위해 일련의 베어 메탈 머신 또는 호스트에서 Apache Helix 및 Apache Zookeeper가 지원하는 클러스터로 실행합니다.
클러스터 모드: Yarn – Hadoop MR 프레임워크 없이 기본 Yarn에서 클러스터로 실행합니다.
클러스터 모드: AWS – Amazon의 퍼블릭 클라우드 오퍼링에서 클러스터로 실행합니다. AWS에서 호스팅되는 인프라용 AWS.

Apache Gobblin을 통한 데이터 관리 확장
작성자 별 이미지

점진적으로 데이터 처리

여러 데이터 파이프라인과 대용량으로 상당한 규모에서 데이터는 시간이 지남에 따라 배치로 처리되어야 합니다. 따라서 데이터 파이프라인이 마지막으로 중단된 위치에서 다시 시작하여 계속 진행할 수 있도록 체크포인트가 필요합니다. Apache Gobblin은 로우 및 하이 워터마크를 지원하고 HDFS, AWS S3, MySQL 등의 State Store를 통해 보다 투명하게 강력한 상태 관리 의미 체계를 지원합니다.

Apache Gobblin을 통한 데이터 관리 확장
작성자 별 이미지

배치 및 스트림 데이터에 대한 동일한 정책

오늘날 대부분의 데이터 파이프라인은 배치 데이터용으로 한 번, 니어라인 또는 스트리밍 데이터용으로 두 번 작성해야 합니다. 이는 노력을 두 배로 늘리고 다양한 유형의 파이프라인에 적용되는 정책 및 알고리즘에 불일치를 도입합니다. Apache Gobblin은 사용자가 파이프라인을 한 번 작성하고 Gobblin Cluster 모드, Gobblin on AWS 모드 또는 Gobblin on Yarn 모드에서 사용되는 경우 배치 및 스트림 데이터 모두에서 실행할 수 있도록 허용하여 이 문제를 해결합니다.

온프레미스와 클라우드 간 마이그레이션

단일 상자, 노드 클러스터 또는 클라우드에서 온프레미스를 실행할 수 있는 다목적 모드로 인해 Apache Gobblin을 온프레미스 및 클라우드에서 배포하고 사용할 수 있습니다. 따라서 사용자가 데이터 파이프라인을 한 번 작성하고 특정 요구 사항에 따라 온프레미스와 클라우드 간에 쉽게 Gobblin 배포와 함께 마이그레이션할 수 있습니다.

매우 유연한 아키텍처, 강력한 기능 및 지원하고 처리할 수 있는 엄청난 규모의 데이터로 인해 Apache Gobblin은 주요 기술 회사 오늘날 모든 빅 데이터 인프라 배포를 위한 필수 요소입니다.

Apache Gobblin 및 사용 방법에 대한 자세한 내용은 다음에서 확인할 수 있습니다. https://gobblin.apache.org

아비섹 티와리 LinkedIn의 선임 관리자로서 회사의 빅 데이터 파이프라인 조직을 이끌고 있습니다. Apache Software Foundation의 Apache Gobblin 부사장이자 British Computer Society의 회원이기도 합니다.