AWS Lake 형성 그리고 AWS 접착제 데이터 카탈로그는 다음을 기반으로 구축된 데이터 레이크를 위한 데이터 거버넌스 솔루션의 핵심 부분을 구성합니다. 아마존 단순 스토리지 서비스 (Amazon S3)과 여러 AWS 분석 서비스가 통합되어 있습니다. ~ 안에 2022, 우리는 이러한 서비스에 대한 개선 사항에 대해 이야기했습니다. 우리는 계속해서 고객의 이야기에 귀를 기울이고 고객의 생각을 제품에 반영하기 위해 노력합니다. 이 게시물에서는 고객을 위한 데이터 거버넌스를 개선하고 단순화하기 위해 2023년에 열심히 노력한 결과를 요약하게 되어 기쁘게 생각합니다.
우리는 매년 관례대로 AWS re:Invent 2023에서 새로운 기능을 발표했습니다. 다음은 Lake Formation 및 Data Catalog 기능을 보여주는 re:Invent 2023 강연입니다.
우리는 새로운 기능을 네 가지 범주로 분류합니다.
- 검색 및 보안
- 데이터 공유로 연결
- 확장 및 최적화
- 감사 및 모니터링
2023년에 도입된 새로운 기능에 대해 더 자세히 알아보고 논의해 보겠습니다.
검색 및 보안
Lake Formation과 Data Catalog를 기본 구성 요소로 사용하여 우리는 시작 아마존 데이터존 DataZone은 AWS, 온프레미스 및 타사 소스에 저장된 데이터를 보다 빠르고 간단하게 카탈로그화, 검색, 공유 및 관리할 수 있게 해주는 데이터 관리 서비스입니다. DataZone의 게시 및 구독 워크플로는 조직 내 다양한 역할 간의 협업을 강화하고 데이터에서 비즈니스 통찰력을 얻는 시간을 단축합니다. AI 기반 도우미를 사용하여 데이터 카탈로그의 기술 메타데이터를 DataZone의 비즈니스 메타데이터로 향상하여 더 쉽게 검색할 수 있습니다. DataZone은 DataZone 프로젝트의 공유 데이터에 대한 권한을 자동으로 관리합니다. DataZone에 대한 자세한 내용은 다음을 참조하세요. 사용자 가이드. Bienvenue dans DataZone!
AWS Glue 크롤러 데이터를 분류하여 원시 데이터의 형식, 스키마 및 관련 속성을 결정하고, 데이터를 테이블 또는 파티션으로 그룹화하고, 데이터 카탈로그에 메타데이터를 씁니다. 2023년에 AWS Glue 크롤러에 대한 여러 업데이트를 출시했습니다. 가져올 수 있는 기능을 추가했습니다. 크롤러의 JDBC 드라이버 사용자 정의 버전 데이터 소스에서 데이터 스키마를 추출하고 데이터 카탈로그를 채웁니다. 파티션 검색을 최적화하고 쿼리 성능을 향상시키기 위해 크롤러 기능을 추가했습니다. 자동으로 파티션 인덱스 추가 새로 발견된 테이블에 대해. 또한 우리 Lake Formation과 통합된 크롤러, S3 데이터 레이크의 계정 내 및 교차 계정 크롤링에 대한 중앙 집중식 권한을 지원합니다. 이는 크롤러를 사용하여 메타데이터 검색을 단순화하는 몇 가지 인기 있는 개선 사항입니다. 크롤러 여러분, 경례합니다!
또한 Linux Foundation Delta Lake와 같은 오픈 테이블 형식(OTF)의 사용이 엄청나게 증가했습니다. 아파치 빙산및 아파치 후디. 이러한 인기 있는 OTF를 지원하기 위해 우리는 이러한 세 가지 테이블 형식을 데이터 카탈로그에 기본적으로 크롤링하는 지원을 추가했습니다. 또한 우리는 다음과 같은 다른 AWS 분석 서비스와 협력했습니다. 아마존 EMR, Lake Formation에 대한 세분화된 권한을 활성화하려면 세 가지 공개 테이블 형식 모두. 우리는 당신이 탐구하는 것을 권장합니다 OTF 테이블에 지원되는 Lake Formation의 기능. 통합적입니다!
시간이 지남에 따라 데이터 소스와 유형이 증가함에 따라 조만간 데이터 레이크에 중첩된 데이터 유형이 있게 될 것입니다. 데이터 세트를 평면화하지 않고 이러한 데이터 세트에 데이터 거버넌스를 적용하기 위해 Lake Formation은 다음에 대한 세분화된 액세스 제어에 대한 지원을 추가했습니다. 중첩된 데이터 유형 및 열. 또한 실행 중 Lake Formation의 세분화된 액세스 제어에 대한 지원도 추가했습니다. EC2의 Amazon EMR에서 Apache Hive 작업 및에 Amazon EMR 스튜디오. 과 Amazon EMR 서버리스, 이제 Lake Formation을 통한 세분화된 액세스 제어가 가능합니다. 미리보기에서 사용 가능. 코네테 레 포인트!
AWS에서는 고객과 매우 긴밀하게 협력하여 고객의 경험을 이해합니다. 우리는 Lake Formation에 탑승하는 것이 AWS 자격 증명 및 액세스 관리 Amazon S3 및 AWS Glue 데이터 카탈로그에 대한 (IAM) 기반 권한을 간소화할 수 있습니다. 우리는 귀하의 사용 사례에 데이터 거버넌스에 더 많은 유연성이 필요하다는 것을 깨달았습니다. 와 더불어 하이브리드 액세스 모드 Lake Formation에서는 다른 사용자 및 워크로드를 방해하지 않고 일부 사용자 및 데이터베이스에 대해 Lake Formation 권한을 선택적으로 추가하는 기능을 도입했습니다. 하이브리드 모드에서 카탈로그 테이블을 정의하고 Lake Formation을 사용하여 데이터 분석가 및 데이터 과학자와 같은 새로운 사용자에게 액세스 권한을 부여하는 동시에 프로덕션 추출, 변환 및 로드(ETL) 파이프라인은 기존 IAM 기반 권한을 계속 사용할 수 있습니다. 더블 승리!
ID 관리에 대해 이야기해 보겠습니다. IAM 주체를 사용할 수 있습니다. 아마존 퀵사이트 사용자 및 그룹, 외부 계정 및 외부 계정의 IAM 보안 주체를 사용하여 Lake Formation의 Data Catalog 리소스에 대한 액세스 권한을 부여합니다. 당신의 기업 아이덴티티는 어떻습니까? 여러 IAM 역할을 생성 및 유지 관리하고 이를 다양한 기업 ID에 매핑해야 합니까? 테이블에 액세스한 IAM 역할을 볼 수 있지만 어떤 사용자가 테이블에 액세스했는지 어떻게 알 수 있습니까? 이러한 질문에 답하기 위해, AWS IAM Identity Center와 통합된 Lake Formation 신뢰할 수 있는 ID 전파 기능을 추가했습니다. 이를 통해 조직의 기존 ID 공급자의 ID에 대한 세분화된 액세스 권한을 부여할 수 있습니다. 다른 AWS 분석 서비스 또한 전파될 사용자 ID를 지원합니다. 이제 감사자는 사용자가 john@anycompany.com예를 들어, 다음을 사용하여 Lake Formation 권한으로 관리되는 테이블에 액세스했습니다. 아마존 아테나, Amazon EMR 및 아마존 레드시프트 스펙트럼. 손쉬운 통합!
이제 데이터 거버넌스를 위해 AWS 서비스를 사용하기 위해 데이터를 이동하거나 데이터 카탈로그를 다른 AWS 리전으로 복사하는 것에 대해 걱정할 필요가 없습니다. 확장해서 만들어 봤습니다 모든 지역에서 사용 가능한 Lake Formation 2023 인치 짜잔!
데이터 공유로 연결
Lake Formation은 데이터베이스 및 테이블과 같은 Data Catalog 객체를 내부 및 외부 사용자와 공유하는 간단한 방법을 제공합니다. 이 메커니즘을 통해 조직은 데이터에 빠르고 안전하게 액세스할 수 있으며 비즈니스 의사결정 속도를 높일 수 있습니다. 이 주제에 따라 2023년에 적용된 새로운 기능과 개선 사항을 검토해 보겠습니다.
AWS Glue 데이터 카탈로그는 Lake Formation과 DataZone 모두에 대한 데이터 거버넌스의 핵심이자 기본 구성 요소입니다. 2023년에 우리는 페더레이션을 통해 Data Catalog를 다음으로 확장했습니다. 외부 Apache Hive 메타스토어와 통합 및 Redshift 데이터 공유. 우리도 이용할 수 있게 해놨어 커넥터 코드, Data Catalog를 추가 Apache Hive 호환 메타스토어와 연결하도록 사용자 정의할 수 있습니다. 이러한 통합을 통해 더 많은 메타데이터를 데이터 카탈로그에 추가할 수 있는 기반이 마련되었으며, Lake Formation 권한을 통해 손쉽게 AWS 계정 전체에서 이러한 리소스를 세밀하게 제어하고 공유할 수 있습니다. 또한 다음을 사용하여 다른 지역에서 한 지역의 데이터 카탈로그 테이블에 액세스할 수 있는 지원을 추가했습니다. 지역 간 리소스 링크. 이 향상된 기능은 메타데이터 중복을 방지하기 위해 많은 사용 사례를 단순화합니다.
와 더불어 AWS CloudTrail Lake 페더레이션 기능을 사용하면 CloudTrail Lake 데이터를 Data Catalog의 다른 데이터 소스와 검색, 분석, 조인 및 공유할 수 있습니다. CloudTrail Lake의 경우 Athena를 통해 세분화된 액세스 제어, 쿼리 및 시각화 기능을 사용할 수 있습니다.
우리는 균일한 지원을 위해 Data Catalog 기능을 더욱 확장했습니다. 보기 데이터 레이크 전반에 걸쳐. Athena, Redshift Spectrum 및 Amazon EMR의 다양한 SQL 언어 및 쿼리를 사용하여 보기를 생성할 수 있습니다. 이를 통해 보기 수준에서 권한을 유지하고 개별 테이블을 공유하지 않을 수 있습니다. Data Catalog 보기 기능은 다음과 같습니다. 미리보기에서 사용 가능, re:Invent 2023에서 발표되었습니다.
확장 및 최적화
시간이 지남에 따라 데이터가 변경되거나 여러 개의 조인이 포함되어 SQL 쿼리가 더욱 복잡해지면 CBO(비용 기반 최적화 프로그램)는 테이블의 데이터 통계를 기반으로 쿼리 계획의 최적화를 추진하고 더 빠른 성능을 제공할 수 있습니다. 2023년에는 다음에 대한 지원이 추가되었습니다. Data Catalog의 테이블에 대한 열 수준 통계. 고객은 테이블 열 통계가 활성화된 Athena 및 Redshift Spectrum에서 이미 쿼리 성능 개선을 경험하고 있습니다. Suivez les chiffres!
태그 기반 액세스 제어를 사용하면 데이터 레이크에 새 리소스가 추가될 때마다 정책을 업데이트할 필요가 없습니다. 대신 데이터 레이크 관리자는 LF-태그(Lake Formation 태그)를 생성하여 Data Catalog 객체에 태그를 지정하고 이러한 LF-태그를 기반으로 사용자 및 그룹에 액세스 권한을 부여합니다. 2023년에는 다음에 대한 지원이 추가되었습니다. LF-태그 위임, 데이터 레이크 관리자는 데이터 관리자 및 기타 사용자에게 관리자 권한 없이도 LF-태그를 관리할 수 있는 권한을 부여할 수 있습니다. LF-태그 민주화!
Apache Iceberg 형식은 메타데이터를 사용하여 테이블을 구성하는 데이터 파일을 추적합니다. 삽입이나 업데이트 등 테이블을 변경하면 새 데이터 파일이 생성됩니다. 테이블의 데이터 파일 수가 증가하면 해당 테이블을 사용하는 쿼리의 효율성이 떨어질 수 있습니다. Iceberg 테이블의 쿼리 성능을 향상하려면 작은 변경 캡처 파일을 더 큰 파일로 압축하여 데이터 파일 수를 줄여야 합니다. 사용자는 일반적으로 자체 서버에서 또는 AWS Glue ETL을 통해 이러한 Iceberg 테이블 파일의 최적화를 수행하는 스크립트를 생성하고 실행합니다. Iceberg 테이블의 이러한 복잡한 유지 관리를 완화하기 위해 고객은 더 나은 솔루션을 위해 우리에게 접근했습니다. 다음 기능을 소개했습니다. Apache Iceberg 테이블의 자동 압축 데이터 카탈로그에서. 자동 압축을 켜면 Data Catalog가 테이블의 메타데이터를 자동으로 관리하고 Iceberg 테이블에 대해 항상 최적화된 Amazon S3 레이아웃을 제공합니다. 자세히 알아보려면 다음을 확인하세요. Iceberg 테이블 최적화. 자동!
감사 및 모니터링
누가 어떤 데이터에 액세스할 수 있는지 아는 것이 데이터 거버넌스의 중요한 구성 요소입니다. 감사자는 Lake Formation 및 Data Catalog에 올바른 메타데이터 및 데이터 권한이 설정되어 있는지 확인해야 합니다. 데이터 레이크 관리자는 권한 및 메타데이터에 대한 전체 액세스 권한을 가지며 데이터 자체에 대한 액세스 권한을 부여할 수 있습니다. 감사자에게 권한을 변경할 수 있는 액세스 권한을 부여하지 않고 메타데이터 권한을 검색하고 검토할 수 있는 옵션을 제공하기 위해 읽기 전용 관리자 역할 호수 형성에서. 이 역할을 사용하면 카탈로그 메타데이터, Lake Formation 권한 및 LF-태그를 감사하면서 변경을 제한할 수 있습니다.
결론
우리는 Lake Formation 및 Data Catalog를 사용하여 데이터 거버넌스를 단순화하고 향상하는 데 도움이 되는 제품 개선 사항을 개발하면서 놀라운 2023년을 보냈습니다. 새로운 기능을 사용해 보시기 바랍니다. 다음은 참고용 출시 게시물 목록입니다.
- 데이터 카탈로그 및 크롤러 기능:
- 호수 형성 특징:
우리는 2024년에도 고객을 대신하여 계속해서 혁신할 것입니다. 의견 섹션이나 AWS 계정 팀을 통해 제품 개선에 대한 생각, 사용 사례 및 피드백을 공유해 주십시오. 2024년 행복하고 풍요로운 한 해가 되시기를 바랍니다. 좋은 해!
저자 소개
아르티 스리니바산 AWS Lake Formation의 선임 빅 데이터 설계자입니다. 그녀는 AWS 고객 및 파트너를 위한 데이터 레이크 솔루션 구축을 좋아합니다. 키보드를 사용하지 않을 때는 최신 과학 및 기술 동향을 탐색하고 가족과 시간을 보냅니다.
레온 스티그터 AWS Lake Formation의 수석 기술 제품 관리자입니다. Leon의 초점은 개발자가 분석 도구에 대한 원활한 연결을 통해 데이터 레이크를 더 빠르게 구축하고 데이터를 판도를 바꾸는 통찰력으로 변환할 수 있도록 돕는 것입니다. Leon은 데이터와 서버리스 기술에 관심이 있으며, 가는 곳마다 치즈케이크를 맛보겠다는 사명으로 여러 도시를 탐험하는 것을 즐깁니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- :있다
- :이다
- :아니
- :어디
- $UP
- 100
- 125
- 2023
- 2024
- a
- 능력
- 소개
- ACCESS
- 데이터에 액세스
- 액세스
- 계정
- 계정
- 가로질러
- 더하다
- 추가
- 또한
- 추가
- 관리자
- 후
- AI 기반
- All
- 덜다
- 수
- 수
- 이미
- 또한
- 놀라운
- 아마존
- 아마존 EMR
- Amazon Web Services
- an
- 애널리스트
- 분석
- 분석
- 분석하다
- 및
- 발표
- 다른
- 답변
- 어떤
- 아파치
- 있군요
- AS
- 비서
- 관련
- At
- 회계 감사
- 감사
- Automatic
- 자동적으로
- 가능
- 피하기
- AWS
- AWS 접착제
- AWS Lake 형성
- AWS 재 : 발명
- 기반으로
- BE
- 가
- 대신에
- 존재
- 더 나은
- 사이에
- 큰
- 빅 데이터
- 더 큰
- 블록
- 두
- 묶인
- 가져
- 빌드
- 건물
- 내장
- 사업
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- by
- 온
- CAN
- 기능
- 포착
- 가지 경우
- 목록
- 카테고리
- 중심적인
- 중앙
- 이전 단계로 돌아가기
- 변경
- 검사
- 도시
- 분류
- 면밀히
- 협동
- 단
- COM
- 댓글
- 복잡한
- 구성 요소
- 연결하기
- 입/출력 라인
- 계속
- 제어
- 컨트롤
- 사자
- Corporate
- 수
- 러
- 만들
- 만든
- 임계
- 관습
- 고객
- 고객
- 사용자 정의
- 데이터
- 데이터 레이크
- 데이터 관리
- 데이터베이스
- 데이터 세트
- 의사 결정
- 깊이
- 밝히다
- 델타
- 드리프트
- 결정
- 개발자
- 개발
- 다른
- 발견
- 발견
- 발견
- 토론
- 잠수
- do
- 한
- 말라
- 드라이브
- 드라이버
- ...동안
- 용이하게
- 효율적인
- 자연스럽게
- 힘을 실어
- 가능
- 격려
- 강화
- 상승
- 향상
- 에테르 (ETH)
- 모든
- 모든 곳
- 예
- 현존하는
- 확대하는
- 경험
- 탐험
- 탐구하다
- 탐색
- extended
- 외부
- 추출물
- 가족
- 빠른
- 특색
- 특징
- 연합
- 피드백
- 파일
- Find
- 유연성
- 초점
- 수행원
- 럭셔리
- 형태
- 체재
- 형성
- Foundation
- 기초
- 사
- 에
- 가득 찬
- 추가
- 게다가
- 얻을
- 주기
- 제공
- 간다
- 통치하다
- 통치
- 부여
- 부여
- 그룹
- 여러 떼
- 성장
- 했다
- 행복한
- 하드
- 노력
- 있다
- he
- 도움
- 도움이
- 그녀의
- 그의
- 하이브
- 방법
- HTML
- HTTPS
- 잡종
- IAM
- 정체성
- 통합 인증
- 신원 관리
- 개선
- 개량
- in
- 통합
- 증가
- 개인
- 받아 들여 쓰다
- 삽입물
- 통찰력
- 를 받아야 하는 미국 여행자
- 완전한
- 통합 된
- 통합
- 통합
- 관심있는
- 내부의
- 으로
- 소개
- 초대
- IT
- 그 자체
- 작업
- 어울리다
- 조인
- 유지
- 소금물
- 호수
- 후에
- 최근
- 시작
- 레이아웃
- 리드
- 배우다
- 적게
- 레벨
- 처럼
- 좋아하는
- 리눅스
- 리눅스 기초
- 명부
- 하중
- 만든
- 유지하다
- 유지
- 확인
- 제작
- 유튜브 영상을 만드는 것은
- 관리
- 관리
- 구축
- 매니저
- 관리하다
- .
- 지도
- 기구
- 메타 데이터
- Mission
- 모드
- 배우기
- 움직이는
- 많은
- 여러
- 필요
- 신제품
- 새로운 기능
- 신규 사용자
- 새로운
- 지금
- 번호
- 사물
- 십월
- of
- on
- 온 보딩
- ONE
- 열 수
- 최적화
- 최적화
- 선택권
- or
- 조직
- 조직
- 기타
- 우리의
- 아웃
- 위에
- 자신의
- 부품
- 파트너
- 포장길
- 수행
- 성능
- 권한
- 계획
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 부디
- 정책
- 인기 문서
- 게시하다
- 게시물
- 교장
- 권한
- 프로덕트
- 제품 관리자
- 생산
- 제품
- 프로젝트
- 번식
- 속성
- 번영하는
- 제공
- 공급자
- 제공
- 출판
- 쿼리
- 문의
- 빠른
- 살갗이 벗어 진
- 원시 데이터
- RE
- 깨달은
- 감소
- 참조
- 참고
- 지방
- 지역
- 출시
- 제거하다
- 의지
- 제품 자료
- 제한
- 결과
- 결과
- 검색
- 리뷰
- 연락해주세요
- 상승
- 직위별
- 역할
- 달리기
- 달리는
- 과학
- 과학 기술
- 과학자
- 스크립트
- 원활한
- 검색
- 섹션
- 안전해야합니다.
- 참조
- 보고
- 본
- 선택적
- 연장자
- 서버리스
- 서버
- 서비스
- 서비스
- 세트
- 몇몇의
- 공유
- 공유
- 공유
- 그녀
- 선보이는
- 단순, 간단, 편리
- 단순화하다
- 단순화
- 작은
- 해결책
- 솔루션
- 일부
- 지우면 좋을거같음 . SM
- 스펙트럼
- 속도
- 속도
- SQL
- 통계
- 저장
- 저장
- 이야기
- 똑 바른
- 간소화 된
- 신청
- 이러한
- 요약
- SUPPORT
- 지원
- 지원
- 테이블
- TAG
- 이야기
- 회담
- 키
- 팀
- 테크니컬
- 기술
- Technology
- 그
- XNUMXD덴탈의
- 그들의
- 그들
- 테마
- Bowman의
- 타사
- 이
- 세
- 을 통하여
- 시간
- 에
- 검색을
- 선로
- 변환
- 거대한
- 트렌드
- 신뢰할 수있는
- 시도
- 회전
- 돌린
- 유형
- 일반적으로
- 아래에
- 이해
- 업데이트
- 업데이트
- us
- 용법
- 사용
- 사용자
- 사용자
- 사용
- 사용
- 유효 기간
- 여러
- 대단히
- 관측
- 보기
- 방법..
- we
- 웹
- 웹 서비스
- 뭐
- 언제
- 어느
- 동안
- 누구
- 의지
- 과
- 없이
- 작업
- 일
- 워크 플로우
- 걱정
- 쓰다
- year
- 당신
- 너의
- 제퍼 넷