공급업체가 미국 우편이나 UPS에 의존하여 상품을 고객에게 전달하는 것처럼 작업자는 비즈니스 통찰력을 얻고 결정을 내리는 데 필요한 정보를 전달하기 위해 데이터 파이프라인에 의존합니다. 백그라운드에서 작동하는 이 데이터 채널 네트워크는 컴퓨터 시스템 전체에 처리된 데이터를 배포합니다. 데이터 중심 business.
기업이 다양한 형식으로 제공되는 많은 스트리밍 데이터를 더 빠르게 소비해야 함에 따라 데이터 시스템을 파이프라인과 연결하는 가치는 계속 증가하고 있습니다. 따라서 높은 수준에서 데이터 파이프라인을 이해하는 관리자는 가장 경제적으로 원시 데이터를 대시보드 또는 보고서에 표시되는 정보로 더 잘 이동할 수 있습니다.
데이터 파이프라인이란?
데이터 파이프라인은 데이터 처리 요소를 설명합니다. 직렬로 연결, 한 채널의 데이터 출력이 다음 채널의 입력으로 작동합니다. 이러한 도관은 소스에서 시작하여 시스템이 이를 이동 또는 복제하고 새 대상으로 이동하여 수집합니다.
컴퓨터 프로그램은 입력을 생성, 수정, 변형 또는 패키징합니다. 정제된 데이터 제품 그 새로운 자리에서. 그런 다음 다른 컴퓨터 시스템은 데이터 파이프라인에서 처리된 데이터 출력을 입력으로 사용할 수 있습니다.
데이터는 소비 가능한 상태에 도달할 때까지 각 연결과 다양한 정리 프로세스 및 파이프라인을 통해 계속됩니다. 그런 다음 직원이 작업에 사용하거나 해당 데이터가 저장소와 같은 저장소에 저장됩니다. 데이터웨어 하우스.
데이터를 전송하는 것 외에도 일부 도관은 사람의 소화관이 음식을 분해하는 방식과 유사하게 데이터가 통과할 때 데이터를 청소, 변환 및 변환합니다. 다른 데이터 채널은 조직 전체 파이프라인 네트워크에 대한 데이터를 수집 및 분석하여 상태에 대한 종단 간 모니터링을 제공합니다. 데이터 관찰 가능성.
기업이 데이터 파이프라인을 사용하는 이유는 무엇입니까?
기업은 확장 가능하고 유연하며 유지 관리가 가능하고 빠른 좋은 데이터 파이프라인을 찾습니다. 알고리즘에 의해 생성되고 관리되는 자동화된 데이터 파이프라인은 필요에 따라 나타나거나 철회될 수 있습니다. 또한 데이터 파이프라인은 데이터를 다른 도관으로 다시 라우팅하여 데이터 잼을 피하고 데이터를 빠르게 전송할 수 있습니다.
데이터 파이프라인은 다양한 중요 요소에 기여합니다. 데이터 관리 기업 전반에 걸쳐 필요합니다. 예로:
- 데이터 통합: 한 시스템에서 다른 시스템으로 데이터를 패키징 및 전송하고 데이터 스트림의 이벤트 기반 및 일괄 처리를 포함하는 커넥터
- 데이터 품질/데이터 정부: 데이터 출력에 대한 기업 정책 및 산업 규정에 따라 데이터 품질 규칙을 정의하고 시행하는 도관
- 데이터 목록화/메타데이터 관리: 모든 유형의 데이터베이스에 대한 메타데이터를 연결 및 스캔하고 엔터프라이즈 데이터 컨텍스트를 제공하는 파이프라인
- 데이터 프라이버시 : 채널 민감한 데이터를 탐지하고 위반으로부터 보호
조직이 직면한 세 가지 과제
데이터 파이프라인을 활용하는 조직은 복잡성, 비용 증가 및 보안이라는 세 가지 이상의 과제에 직면해 있습니다.
복잡성
엔지니어는 비즈니스 데이터 요구 사항이 변경됨에 따라 데이터 파이프라인을 연결하거나 변경해야 하므로 채널 사용 및 유지 관리의 복잡성이 증가합니다. 또한 직원은 Microsoft Azure와 같이 공개적으로 사용 가능한 온프레미스 환경을 포함하여 상호 연결된 하이브리드 클라우드 환경 간에 데이터를 이동해야 합니다.
다양한 취급 클라우드 컴퓨팅 위치는 데이터 파이프라인 네트워크를 확장하는 데 어려움이 있기 때문에 데이터 파이프라인에 좌절감을 더합니다. 엔지니어가 유능하게 설계하지 못하면 조직 전체의 데이터 채널, 데이터 이동 속도가 느려지거나 직원이 필요한 데이터를 얻지 못하고 추가 작업을 수행해야 합니다. 데이터 정리.
BMC Software의 디지털 비즈니스 자동화 부문 사장인 Gur Steif는 다음과 같이 말합니다. 기업 투쟁 중요한 애플리케이션에 복잡한 파이프라인 시스템을 내장합니다. 결과적으로 기업은 데이터 흐름을 유지하고 정교한 요구 사항을 요구하는 데이터 워크플로 오케스트레이션 플랫폼에 투자해야 합니다. 데이터 운영 지식.
비용 증가
최신 데이터 기술이 등장함에 따라 기업은 비용 증가 각 데이터 파이프라인을 현대화하여 적응하도록 합니다. 또한 회사는 파이프라인 유지 관리 및 고급 기술 지식에 더 많은 비용을 지출해야 합니다.
비용의 또 다른 출처는 변경 사항 소스에 더 가까운 업스트림 엔지니어에 의해. 때때로 이러한 개발자는 데이터가 파이프라인을 따라 이동할 때 적어도 하나의 데이터 프로세스를 중단하여 코드의 파급 효과를 직접 볼 수 없습니다.
데이터 보안
엔지니어는 데이터가 다양한 데이터 채널을 통해 청중에게 전달될 때 규정 준수를 위해 데이터 보안을 보장해야 합니다. 예를 들어 회사 회계사는 고객 서비스 직원에게 전달되어서는 안 되는 파이프라인을 통해 전송되는 민감한 신용 카드 정보가 필요할 수 있습니다.
따라서 엔지니어가 파이프라인을 따라 흐르는 데이터를 볼 수 있는 방법이 없으면 보안 위험이 커집니다. Ponemon Research는 63% 의 보안 분석가는 네트워크 및 인프라에 대한 가시성 부족을 스트레스 요인으로 지적합니다.
데이터 파이프라인 사용을 위한 모범 사례
데이터 파이프라인을 사용하려면 가장 낮은 생성 및 유지 비용으로 가능한 한 빨리 사용자가 필요한 데이터에 액세스할 수 있도록 섬세한 균형을 유지해야 합니다. 확실히 기업은 최선을 선택해야 합니다. 데이터 아키텍처 안전하고 민첩하며 운영상 강력한 데이터 파이프라인을 통해
또한 기업은 다음 사항을 고려해야 합니다.
- AI 및 기계 학습(ML) 기술: 조직은 ML에 의존하여 데이터 흐름 패턴을 식별하고 조직의 모든 부분에 대한 데이터 흐름을 가장 최적화합니다. 또한 우수한 ML 서비스는 자체 통합, 복구 및 데이터 파이프라인 조정을 촉진하여 데이터 흐름을 보다 효율적으로 만듭니다. 2025년까지 AI 모델은 최대 60% 기존 데이터를 기반으로 구축된 데이터 파이프라인을 포함하여 기존 데이터의
- 데이터 관찰 가능성: 데이터 관찰 가능성 오케스트레이션을 포함하여 전체 데이터 파이프라인 네트워크에 대한 전체적인 감독을 엔지니어에게 제공합니다. 데이터 관찰 가능성의 도움으로 엔지니어는 데이터 파이프라인이 어떻게 작동하는지, 무엇을 변경, 수정 또는 정리해야 하는지 알 수 있습니다.
- 메타데이터 관리: 우수한 데이터 관찰 가능성을 얻으려면 데이터를 설명하는 데이터라고도 하는 메타데이터를 최대한 활용해야 합니다. 결과적으로 회사는 메타 데이터 관리 기존의 활성 메타데이터와 새로운 활성 메타데이터를 결합하여 데이터 파이프라인 전반에서 원하는 자동화, 통찰력 및 참여를 얻을 수 있는 구조입니다.
데이터 파이프라인 관리에 도움이 되는 도구
기업은 데이터 연결을 구축, 배포 및 유지하는 데 도움이 되는 데이터 파이프라인 도구에 의존합니다. 이러한 리소스는 여러 곳에서 데이터를 이동합니다. 목적지로의 소스 보다 효율적으로 종단 간 프로세스를 지원합니다.
일부 기업은 전문적인 내부 도구를 개발하고 유지 관리할 계획이지만, 특히 데이터가 멀티 클라우드 환경에서 순환하는 경우 이를 관리하기 위해 조직의 리소스를 고갈시킬 수 있습니다. 결과적으로 일부 기업은 이러한 비용을 절감하기 위해 타사 공급업체로 전환할 것입니다.
타사 데이터 파이프라인 도구는 두 가지 형태로 제공됩니다. 일부 일반 서비스는 여러 클라우드 서비스에서 데이터를 수집, 처리 및 제공합니다. 예를 들면 다음과 같습니다.
- AWS 글루: 중앙 메타데이터 리포지토리와 ML을 사용합니다 데이터 중복 제거 및 정리
- Azure 데이터 팩터리: 데이터 이동을 오케스트레이션하고 데이터를 변환하는 서비스 Azure 리소스, 데이터 관찰 가능성을 사용하여 메타 데이터및 기계 학습
- 클라우데라: 여러 엔터프라이즈 클라우드에서 데이터를 처리하고 데이터 복제를 간소화하며 사용하는 데이터 서비스 니파이 – 빠르고 쉽고 안전한 데이터 통합 도구
- 구글 클라우드 데이터 퓨전: Google 데이터 통합의 고급 제품 및 기반 포함 데이터 관찰 가능성 및 통합 메타데이터.
- IBM Cloud Pak for Data용 IBM Information Server: ML 기능을 사용하여 데이터 통합, 품질 및 거버넌스 기능을 갖춘 서버
- IBM Infosphere 정보 서버: 모든 클라우드의 관리형 서비스 또는 ML을 사용하는 고객 인프라를 위한 자체 관리형 서비스
- 인포매티카: 기본 연결, 수집, 품질, 거버넌스, 전사적 메타데이터를 통한 카탈로그화, 개인정보 보호, 여러 클라우드에 걸친 마스터 데이터 관리를 포함하는 지능형 데이터 플랫폼
- 재능: 클라우드 독립적이고 데이터 패브릭 전체에 ML을 포함하는 전체 데이터 에코시스템
다른 도구는 전달을 위해 데이터를 준비하고 패키징하는 데 특화되어 있습니다.
- 파이브트란: 운영 소스에서 데이터를 가져와 최신 클라우드 웨어하우스로 전달하는 설정이 간단하고 구성이 필요 없으며 유지 관리가 필요 없는 데이터 파이프라인
- 마틸리온: 데이터 프로세스가 너무 오래 걸리거나 실패할 경우 실시간으로 조정하는 동적 ETL 플랫폼
- 알루마: 자동화된 데이터 프로세스를 보다 쉽게 제어하고 확인할 수 있는 Google의 데이터 파이프라인 도구
- 땀: 여러 소스에서 데이터를 이동하고 관리하는 ETL 및 데이터 웨어하우스 도구(Talend와 함께 사용)
엔터프라이즈 수준에서 기업은 데이터 준비의 복잡성을 처리하기 위해 여러 클라우드와 또 다른 전문화된 서비스에 걸쳐 있는 하나 이상의 일반 데이터 파이프라인 리소스를 사용합니다.
결론
최신 데이터 아키텍처에는 데이터를 원시 상태에서 사용 가능한 상태로 이동하기 위한 데이터 파이프라인 네트워크가 필요합니다. 데이터 파이프라인은 비즈니스 및 데이터 관리 요구 사항을 충족하기 위해 데이터를 가장 잘 전송할 수 있는 유연성과 속도를 제공합니다.
잘못 실행된 데이터 파이프라인은 복잡성, 비용 및 보안 위험을 증가시키는 반면 우수한 데이터 도구로 우수한 데이터 아키텍처를 구현하면 조직 전체에서 데이터 파이프라인의 잠재력이 극대화됩니다.
As Ocient의 공동 창립자이자 CEO인 Chris Gladwin, 메모, 데이터 파이프라인은 다양한 데이터를 잘 수집하는 데 더욱 필수적이 될 것입니다. 미래는 관리하기 쉬운 보다 정교한 데이터 통합으로 데이터 파이프라인 개선을 가져옵니다.
Shutterstock.com의 라이센스에 따라 사용 된 이미지
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- 플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://www.dataversity.net/data-pipelines-an-overview/
- a
- 소개
- 얻기 쉬운
- 가로질러
- 활동적인
- 각색하다
- 또한
- 또한
- 추가
- 조정
- 반대
- 기민한
- AI
- 알고리즘
- All
- 아마존
- 애널리스트
- 분석하다
- 과
- 인프라
- 다른
- 표시
- 어플리케이션
- 신청
- 아키텍처
- 붙이다
- 청문회
- 자동화
- 자동화
- 가능
- 피하고
- AWS
- 하늘빛
- 배경
- 잔액
- 때문에
- 가
- BEST
- 더 나은
- BMC
- 파괴
- 휴식
- 돋보이게
- 빌드
- 내장
- 사업
- 사업
- 전화
- 기능
- 카드
- 중심적인
- 대표 이사
- 확실히
- 과제
- 이전 단계로 돌아가기
- 채널
- 채널
- 왼쪽 메뉴에서
- 자세히
- 클라우드
- 클라우드 서비스
- 공동 설립자
- 암호
- 수집
- 결합
- 왔다
- 기업
- 회사
- 복잡성
- compliance
- 컴퓨터
- 연결하기
- 연결
- 연결
- 연결
- 입/출력 라인
- 따라서
- 고려
- 소비
- 계속
- 기여하다
- 제어
- 변하게 하다
- Corporate
- 비용
- 비용
- 만들
- 만든
- 창조
- 신용
- 크레디트 카드
- 임계
- 고객
- 고객 센터
- 고객
- 데이터
- 데이터 통합
- 데이터 관리
- 데이터 플랫폼
- 데이터 준비
- 데이터 처리
- 데이터 품질
- 데이터 보안
- 데이터웨어 하우스
- 데이터베이스
- 데이터 버 시티
- 결정
- 배달하다
- 제공
- 배달
- 배포
- 목적지
- 개발자
- 개발
- 다른
- 디지털
- 직접
- 아래 (down)
- 동적
- 마다
- 쉽게
- 생태계
- 효율적인
- 효율적으로
- 신흥
- 직원
- 끝으로 종료
- 약혼
- 엔지니어
- 확인
- Enterprise
- 기업
- 전체의
- 환경
- 특히
- 필수
- 에테르 (ETH)
- 예
- 예
- 현존하는
- 추출물
- 페이스메이크업
- 직면
- 촉진
- 공장
- 실패
- FAST
- 빠른
- Find
- 수정
- 유연성
- 융통성있는
- 흐름
- 흐르는
- 흐름
- 수행원
- 식품
- Foundation
- 뼈대
- 에
- 좌절
- 기능
- 작동
- 게다가
- 퓨전
- 미래
- 이득
- 가트너
- 얻을
- 점점
- 주기
- Go
- 좋은
- 상품
- 구글
- 통치
- Government
- 성장
- 핸들
- 건강
- 도움
- 높은
- 전체적인
- 방법
- HTML
- HTTPS
- 잡종
- 하이브리드 클라우드
- IBM
- IBM Cloud
- 확인
- 구현
- 개량
- in
- 포함
- 포함
- 포함
- 증가
- 증가
- 산업
- 정보
- 인프라
- 입력
- 통찰력
- 통찰력
- 완성
- 지능형
- 상호 연결
- 내부의
- 복잡한
- 사다
- IT
- 일
- 유지
- 알아
- 지식
- 알려진
- 결핍
- 리드
- 배우기
- 레벨
- 레버리지
- 특허
- 하중
- 위치
- 긴
- 낮은
- 기계
- 기계 학습
- 유지하다
- 유지보수 가능
- 유지
- 확인
- 제작
- 유튜브 영상을 만드는 것은
- 관리
- 관리
- 구축
- 관리자
- 관리하다
- .
- 석사
- 최대 폭
- 최대화하다
- 소개
- 메타 데이터
- Microsoft
- Microsoft Azure
- ML
- 모델
- 현대
- 현대화
- 수정
- 모니터링
- 배우기
- 보다 효율적으로
- 가장
- 움직임
- 운동
- 이동
- 움직이는
- 여러
- 출신
- 필요한
- 필요
- 필요
- 요구
- 네트워크
- 신제품
- 다음 것
- 노트
- ONE
- 운영
- 운영
- 오케스트레이션
- 조직
- 조직
- 기타
- 감시
- 개요
- 꾸러미
- 포장
- 쌍을 이루는
- 부품
- 패턴
- 관로
- 계획
- 플랫폼
- 플랫폼
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 정책
- 가능한
- 가능성
- 사례
- 준비
- 대통령
- 개인 정보 보호
- 방법
- 프로세스
- 처리
- 프로덕트
- 프로그램
- 보호
- 제공
- 제공
- 제공
- 공개적으로
- 품질
- 빨리
- 살갗이 벗어 진
- 원시 데이터
- 도달하다
- 실시간
- 규정
- 교체
- 복제
- 보고서
- 저장소
- 필요
- 요구조건 니즈
- 필요
- 연구
- 의지
- 자료
- 결과
- 위험
- 강력한
- 규칙
- 찜하기
- 확장성
- 스케일링
- 주사
- 안전해야합니다.
- 보안
- 보안 위험
- 민감한
- 서버리스
- 서비스
- 서비스
- 몇몇의
- 이동
- 영상을
- Shutterstock를
- 비슷한
- 느리게
- So
- 소프트웨어
- 일부
- 정교한
- 출처
- 지우면 좋을거같음 . SM
- 스팬
- 전문화하다
- 전문
- 속도
- 지출
- Spot
- 직원
- 스타트
- 주 정부
- 저장
- 스트리밍
- 유선
- 구조
- 지원
- 체계
- 시스템은
- 받아
- 회담
- 테크니컬
- 기술
- XNUMXD덴탈의
- 미래
- 정보
- 소스
- 그들의
- 타사
- 세
- 을 통하여
- 도처에
- 에
- 너무
- 수단
- 검색을
- 방향
- 전통적인
- 변환
- 변화
- 수송
- 수송
- 여행기
- 회전
- 유형
- 우리
- 아래에
- 이해
- UPS
- 사용
- 사용자
- 가치
- 종류
- 여러
- 공급 업체
- 관측
- 가시성
- 창고
- 뭐
- 누구
- 넓은
- 의지
- 근로자
- 워크플로우
- 제퍼 넷