Formation AWS Lake et les terres parsemées de Colle AWS Data Catalog fait partie intégrante d'une solution de gouvernance des données pour les lacs de données construite sur Service de stockage simple Amazon (Amazon S3) avec plusieurs services d'analyse AWS qui s'y intègrent. Dans 2022, nous avons parlé des améliorations que nous avions apportées à ces services. Nous continuons d'écouter les témoignages de nos clients et de travailler à rebours pour intégrer leurs réflexions dans nos produits. Dans cet article, nous sommes heureux de résumer les résultats de notre travail acharné en 2023 pour améliorer et simplifier la gouvernance des données pour les clients.
Nous avons annoncé nos nouvelles fonctionnalités et capacités lors d'AWS re:Invent 2023, comme c'est notre habitude chaque année. Les conférences suivantes sont re:Invent 2023 présentant les capacités de Lake Formation et de Data Catalog :
Nous regroupons les nouvelles fonctionnalités en quatre catégories :
- Découvrez et sécurisez
- Connectez-vous avec le partage de données
- Évoluer et optimiser
- Auditer et surveiller
Approfondissons et discutons des nouvelles fonctionnalités introduites en 2023.
Découvrez et sécurisez
En utilisant Lake Formation et le catalogue de données comme éléments de base, nous lancé Zone de données Amazon en octobre 2023. DataZone est un service de gestion de données qui vous permet de cataloguer, de découvrir, de partager et de gérer plus rapidement et plus simplement les données stockées sur AWS, sur site et dans des sources tierces. Les workflows de publication et d'abonnement de DataZone améliorent la collaboration entre les différents rôles de votre organisation et accélèrent l'obtention d'informations commerciales à partir de vos données. Vous pouvez améliorer les métadonnées techniques du catalogue de données à l'aide d'assistants basés sur l'IA dans les métadonnées commerciales de DataZone, les rendant ainsi plus facilement détectables. DataZone gère automatiquement les autorisations de vos données partagées dans les projets DataZone. Pour en savoir plus sur DataZone, reportez-vous au Guide d'utilisateur. Bienvenue dans DataZone !
Crawlers AWS Glue classer les données pour déterminer le format, le schéma et les propriétés associées des données brutes, regrouper les données dans des tables ou des partitions et écrire des métadonnées dans le catalogue de données. En 2023, nous avons publié plusieurs mises à jour des robots d'exploration AWS Glue. Nous avons ajouté la possibilité d'apporter votre versions personnalisées des pilotes JDBC dans les robots d'exploration pour extraire les schémas de données de vos sources de données et remplir le catalogue de données. Pour optimiser la récupération des partitions et améliorer les performances des requêtes, nous avons ajouté la fonctionnalité permettant aux robots d'exploration de ajouter automatiquement des index de partition pour les tables nouvellement découvertes. Nous avons aussi robots d'exploration intégrés avec Lake Formation, prenant en charge les autorisations centralisées pour l'analyse intra-compte et entre comptes des lacs de données S3. Il s'agit d'améliorations très recherchées qui simplifient votre découverte de métadonnées à l'aide de robots d'exploration. Rampants, salut !
Nous avons également constaté une augmentation considérable de l'utilisation de formats de tables ouvertes (OTF) comme Linux Foundation Delta Lake, Iceberg Apacheet une Apache Hudi. Pour prendre en charge ces OTF populaires, nous avons ajouté la prise en charge de l'exploration native de ces trois formats de table dans le catalogue de données. De plus, nous avons travaillé avec d'autres services d'analyse AWS, tels que Amazon DME, pour activer les autorisations précises de Lake Formation sur les trois formats de table ouverte. Nous vous encourageons à explorer quelles fonctionnalités de Lake Formation sont prises en charge pour les tables OTF. Bien intégré !
À mesure que les sources et les types de données augmentent au fil du temps, vous aurez forcément tôt ou tard des types de données imbriqués dans votre lac de données. Pour apporter la gouvernance des données à ces ensembles de données sans les aplatir, Lake Formation a ajouté la prise en charge de contrôles d'accès précis sur types de données et colonnes imbriquées. Nous avons également ajouté la prise en charge des contrôles d'accès précis de Lake Formation lors de l'exécution Travaux Apache Hive sur Amazon EMR sur EC2 et sur Amazon EMRStudio. Avec Amazon EMR sans serveur, le contrôle d'accès précis avec Lake Formation est désormais disponible en avant-première. Connecté les points !
Chez AWS, nous travaillons en étroite collaboration avec nos clients pour comprendre leur expérience. Nous avons compris que l'intégration à Lake Formation depuis Gestion des identités et des accès AWS (IAM) pour Amazon S3 et AWS Glue Data Catalog pourraient être rationalisées. Nous avons réalisé que vos cas d'utilisation nécessitent plus de flexibilité dans la gouvernance des données. Avec le mode d'accès hybride dans Lake Formation, nous avons introduit l'ajout sélectif des autorisations Lake Formation pour certains utilisateurs et bases de données, sans interrompre les autres utilisateurs et charges de travail. Vous pouvez définir une table de catalogue en mode hybride et accorder l'accès à de nouveaux utilisateurs tels que des analystes de données et des scientifiques de données utilisant Lake Formation pendant que vos pipelines d'extraction, de transformation et de chargement (ETL) de production continuent d'utiliser leurs autorisations IAM existantes. Double victoire !
Parlons de la gestion des identités. Vous pouvez utiliser les principaux IAM, Aperçu rapide d'Amazon les utilisateurs et les groupes, ainsi que les comptes externes et les mandataires IAM dans les comptes externes pour accorder l'accès aux ressources Data Catalog dans Lake Formation. Qu’en est-il de votre identité d’entreprise ? Avez-vous besoin de créer et de gérer plusieurs rôles IAM et de les mapper à diverses identités d'entreprise ? Vous pouviez voir le rôle IAM qui a accédé à la table, mais comment savoir quel utilisateur y a accédé ? Pour répondre à ces questions, Lake Formation intégré à AWS IAM Identity Center et ajouté la fonctionnalité de propagation d'identité fiable. Grâce à cela, vous pouvez accorder des autorisations d'accès plus précises aux identités du fournisseur d'identité existant de votre organisation. Autre Services d'analyse AWS prend également en charge l'identité de l'utilisateur à propager. Vos auditeurs peuvent désormais voir que l'utilisateur john@anycompany.com, par exemple, avait accédé à la table gérée par les autorisations de Lake Formation en utilisant Amazone Athéna, Amazon EMR et Spectre Amazon Redshift. Intégration facile !
Vous n'avez désormais plus à vous soucier de déplacer les données ou de copier le catalogue de données vers une autre région AWS pour utiliser les services AWS pour la gouvernance des données. Nous avons élargi et réalisé Formation de lac disponible dans toutes les régions dès 2023. Et voilà!
Connectez-vous avec le partage de données
Lake Formation offre un moyen simple de partager des objets Data Catalog tels que des bases de données et des tables avec des utilisateurs internes et externes. Ce mécanisme donne aux organisations un accès rapide et sécurisé aux données et accélère leur prise de décision commerciale. Passons en revue les nouvelles fonctionnalités et améliorations apportées en 2023 sous ce thème.
Le catalogue de données AWS Glue est le composant central et fondamental de la gouvernance des données pour Lake Formation et DataZone. En 2023, nous avons étendu le Data Catalog via la fédération à intégrer aux métastores Apache Hive externes et les Partages de données Redshift. Nous avons également mis à disposition le code du connecteur, que vous pouvez personnaliser pour connecter le catalogue de données à des métastores supplémentaires compatibles Apache Hive. Ces intégrations ouvrent la voie à l'intégration de davantage de métadonnées dans le catalogue de données et permettent des contrôles d'accès précis et le partage de ces ressources entre les comptes AWS sans effort avec les autorisations de Lake Formation. Nous avons également ajouté la prise en charge pour accéder à la table du catalogue de données d'une région à partir d'autres régions à l'aide de liens de ressources interrégionaux. Cette amélioration simplifie de nombreux cas d'utilisation pour éviter la duplication des métadonnées.
Avec la Fédération AWS CloudTrail Lake fonctionnalité, vous pouvez découvrir, analyser, joindre et partager des données CloudTrail Lake avec d'autres sources de données dans Data Catalog. Pour CloudTrail Lake, des contrôles d'accès précis ainsi que des capacités d'interrogation et de visualisation sont disponibles via Athena.
Nous avons encore étendu les capacités du catalogue de données pour prendre en charge des vues à travers votre lac de données. Vous pouvez créer des vues à l'aide de différents dialectes SQL et requêtes d'Athena, Redshift Spectrum et Amazon EMR. Cela vous permet de conserver les autorisations au niveau de la vue et de ne pas partager les tables individuelles. La fonctionnalité de vues du catalogue de données est disponible en avant-première, annoncé lors de re:Invent 2023.
Évoluer et optimiser
À mesure que les requêtes SQL deviennent plus complexes avec les modifications des données au fil du temps ou comportent plusieurs jointures, un optimiseur basé sur les coûts (CBO) peut générer des optimisations dans le plan de requête et conduire à des performances plus rapides, sur la base des statistiques des données dans les tables. En 2023, nous avons ajouté la prise en charge de statistiques au niveau des colonnes pour les tables du catalogue de données. Les clients constatent déjà des améliorations des performances des requêtes dans Athena et Redshift Spectrum, avec les statistiques des colonnes de table activées. Suivez les chiffres !
Le contrôle d'accès basé sur les balises élimine le besoin de mettre à jour vos politiques chaque fois qu'une nouvelle ressource est ajoutée au lac de données. Au lieu de cela, les administrateurs de lacs de données créent des balises Lake Formation (LF-Tags) pour baliser les objets du catalogue de données et accorder l'accès en fonction de ces balises LF aux utilisateurs et aux groupes. En 2023, nous avons ajouté la prise en charge de Délégation LF-Tag, où les administrateurs de lacs de données peuvent accorder des autorisations aux gestionnaires de données et à d'autres utilisateurs pour gérer les balises LF sans avoir besoin de privilèges d'administrateur. Démocratisation du LF-Tag !
Le format Apache Iceberg utilise des métadonnées pour suivre les fichiers de données qui composent la table. Les modifications apportées aux tables, telles que les insertions ou les mises à jour, entraînent la création de nouveaux fichiers de données. À mesure que le nombre de fichiers de données pour une table augmente, les requêtes utilisant cette table peuvent devenir moins efficaces. Pour améliorer les performances des requêtes sur la table Iceberg, vous devez réduire le nombre de fichiers de données en compactant les petits fichiers de capture des modifications en fichiers plus gros. Les utilisateurs créent et exécutent généralement des scripts pour effectuer l'optimisation de ces fichiers de table Iceberg sur leurs propres serveurs ou via AWS Glue ETL. Pour alléger cette maintenance complexe des tables Iceberg, les clients nous ont contactés pour une meilleure solution. Nous avons introduit la fonctionnalité pour compactage automatique des tables Apache Iceberg dans le catalogue de données. Une fois le compactage automatique activé, le catalogue de données gère automatiquement les métadonnées de la table et vous propose une présentation Amazon S3 toujours optimisée pour vos tables Iceberg. Pour en savoir plus, consultez Optimisation des tables Iceberg. Automatique !
Auditer et surveiller
Savoir qui a accès à quelles données est un élément essentiel de la gouvernance des données. Les auditeurs doivent valider que les bonnes métadonnées et autorisations de données sont définies dans Lake Formation et dans le catalogue de données. Les administrateurs de lacs de données ont un accès complet aux autorisations et aux métadonnées, et peuvent accorder l'accès aux données elles-mêmes. Pour fournir aux auditeurs la possibilité de rechercher et d'examiner les autorisations de métadonnées sans leur accorder l'accès pour apporter des modifications aux autorisations, nous avons introduit l'option rôle d'administrateur en lecture seule dans la Formation du Lac. Ce rôle vous permet d'auditer les métadonnées du catalogue, les autorisations et les balises LF de Lake Formation tout en l'empêchant d'y apporter des modifications.
Conclusion
Nous avons connu une année 2023 incroyable en développant des améliorations de produits pour vous aider à simplifier et à améliorer votre gouvernance des données à l'aide de Lake Formation et Data Catalog. Nous vous invitons à essayer ces nouvelles fonctionnalités. Voici une liste de nos articles de lancement à titre de référence :
- Fonctionnalités du catalogue de données et du robot d'exploration :
- Caractéristiques de la Formation du Lac :
Nous continuerons à innover au nom de nos clients en 2024. Veuillez partager vos réflexions, cas d'utilisation et commentaires sur les améliorations de nos produits dans la section commentaires ou via les équipes de votre compte AWS. Nous vous souhaitons une année 2024 heureuse et prospère. Bonne année!
À propos des auteurs
Aarthi Srinivasan est architecte Big Data senior chez AWS Lake Formation. Elle aime créer des solutions de lac de données pour les clients et partenaires AWS. Lorsqu'elle n'est pas au clavier, elle explore les dernières tendances scientifiques et technologiques et passe du temps avec sa famille.
Léon Stigter est chef de produit technique senior chez AWS Lake Formation. L'objectif de Leon est d'aider les développeurs à créer des lacs de données plus rapidement, avec une connectivité transparente aux outils analytiques, pour transformer les données en informations révolutionnaires. Léon s'intéresse aux technologies de données et sans serveur et aime explorer différentes villes dans le cadre de sa mission de déguster du cheesecake partout où il va.
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
- PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
- PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
- PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
- La source: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- :possède
- :est
- :ne pas
- :où
- $UP
- 100
- 125
- 2023
- 2024
- a
- capacité
- A Propos
- accès
- Accès aux données
- accédé
- Compte
- hybrides
- à travers
- ajouter
- ajoutée
- ajout
- Supplémentaire
- administrateurs
- Après
- Alimenté par l'IA
- Tous
- alléger
- permettre
- permet
- déjà
- aussi
- incroyable
- Amazon
- Amazon DME
- Amazon Web Services
- an
- Analystes
- Analytique
- analytique
- il analyse
- et les
- annoncé
- Une autre
- répondre
- tous
- Apache
- SONT
- AS
- assistants
- associé
- At
- audit
- vérificateurs
- Automatique
- automatiquement
- disponibles
- éviter
- AWS
- Colle AWS
- Formation AWS Lake
- AWS re: Invent
- basé
- BE
- devenez
- nom
- va
- Améliorée
- jusqu'à XNUMX fois
- Big
- Big Data
- plus gros
- Blocs
- tous les deux
- lié
- apporter
- construire
- Développement
- construit
- la performance des entreprises
- mais
- by
- venu
- CAN
- capacités
- capturer
- cas
- catalogue
- catégories
- central
- centralisée
- Change
- Modifications
- vérifier
- Villes
- Classer
- étroitement
- collaboration
- Colonne
- COM
- commentaires
- complexe
- composant
- NOUS CONTACTER
- Connectivité
- continuer
- des bactéries
- contrôles
- copier
- Entreprises
- pourriez
- chenilles
- engendrent
- créée
- critique
- Customiser
- des clients
- Clients
- personnaliser
- données
- Lac de données
- gestion des données
- bases de données
- ensembles de données
- La prise de décision
- profond
- Vous permet de définir
- Delta
- dériver
- Déterminer
- mobiles
- développement
- différent
- découvrez
- découvert
- découverte
- discuter
- plongeon
- do
- fait
- Ne pas
- motivation
- conducteurs
- pendant
- même
- efficace
- d'effort
- responsabilise
- permettre
- encourager
- de renforcer
- Ce renforcement
- améliorations
- Ether (ETH)
- Chaque
- partout
- exemple
- existant
- étendu
- d'experience
- explorez
- explore
- Explorer
- prolongé
- externe
- extrait
- famille
- plus rapide
- Fonctionnalité
- Fonctionnalités:
- Fédération
- Réactions
- Fichiers
- Trouvez
- Flexibilité
- Focus
- Abonnement
- Pour
- formulaire
- le format
- formation
- Fondation
- Fondatrice
- quatre
- De
- plein
- plus
- En outre
- obtenez
- Donner
- donne
- Goes
- gouverner
- gouvernance
- subvention
- octroi
- Réservation de groupe
- Groupes
- Pousse
- ait eu
- heureux vous
- Dur
- travail acharné
- Vous avez
- he
- aider
- aider
- ici
- sa
- Ruche
- Comment
- HTML
- HTTPS
- Hybride
- IAM
- identités
- Identite
- gestion de l'identité
- améliorer
- améliorations
- in
- intégrer
- Améliore
- individuel
- innovons
- Inserts
- idées.
- plutôt ;
- intégrale
- des services
- Intégration
- intégrations
- intéressé
- interne
- développement
- introduit
- nous invitons les riders XCO et DH à rouler sur nos pistes haute performance, et leurs supporters à profiter du spectacle. Pour le XNUMXe anniversaire, nous visons GRAND ! Vous allez vouloir être là ! Nous accueillerons la légendaire traversée de l'étant avec de la musique en direct ! Nous aurons également des divertissements pour les jeunes et les jeunes de cœur pendant l'après-midi. Vous ne voudrez pas manquer ça !
- IT
- lui-même
- Emplois
- rejoindre
- Joint
- XNUMX éléments à
- lac
- des lacs
- plus tard
- Nouveautés
- lancer
- Disposition
- conduire
- APPRENTISSAGE
- moins
- Niveau
- comme
- aime
- linux
- fondation linux
- Liste
- charge
- LES PLANTES
- maintenir
- facile
- a prendre une
- FAIT DU
- Fabrication
- gérer
- gérés
- gestion
- manager
- gère
- de nombreuses
- Localisation
- mécanisme
- Métadonnées
- Mission
- Mode
- PLUS
- en mouvement
- beaucoup
- plusieurs
- Besoin
- Nouveauté
- Nouvelles fonctionnalités
- nouveaux utilisateurs
- nouvellement
- maintenant
- nombre
- objets
- octobre
- of
- on
- Onboarding
- ONE
- ouvert
- à mettre en œuvre pour gérer une entreprise rentable. Ce guide est basé sur trois décennies d'expérience
- Optimiser
- Option
- or
- organisation
- organisations
- Autre
- nos
- ande
- plus de
- propre
- partie
- partenaires,
- paver
- effectuer
- performant
- autorisations
- plan
- Platon
- Intelligence des données Platon
- PlatonDonnées
- veuillez cliquer
- politiques
- Populaire
- Post
- Poteaux
- directeurs
- privilèges
- Produit
- chef de produit
- Vidéo
- Produits
- projets
- propagation
- propriétés
- prospère
- fournir
- de voiture.
- fournit
- Édition
- requêtes
- fréquemment posées
- Rapide
- raw
- les données brutes
- RE
- réalisé
- réduire
- reportez-vous
- référence
- région
- régions
- libéré
- supprime
- ressource
- Resources
- restreindre
- résultat
- Résultats
- récupération
- Avis
- bon
- Augmenter
- Rôle
- rôle
- Courir
- pour le running
- Sciences
- Science et technologie
- scientifiques
- scripts
- fluide
- Rechercher
- Section
- sécurisé
- sur le lien
- voir
- vu
- sélectif
- supérieur
- Sans serveur
- serveurs
- service
- Services
- set
- plusieurs
- Partager
- commun
- partage
- elle
- mettre en valeur
- étapes
- simplifie
- simplifier
- faibles
- sur mesure
- Solutions
- quelques
- Sources
- Spectre
- vitesse
- vitesses
- SQL
- statistiques
- storage
- stockée
- Stories
- simple
- rationalisé
- abonnement
- tel
- résumé
- Support
- Appareils
- Appuyer
- table
- TAG
- discutons-en
- Talks
- clés
- équipes
- Technique
- Les technologies
- Technologie
- qui
- Le
- leur
- Les
- thème
- Ces
- des tiers.
- this
- trois
- Avec
- fiable
- à
- les outils
- suivre
- Transformer
- énorme
- Trends
- confiance
- Essai
- TOUR
- Tourné
- types
- typiquement
- sous
- comprendre
- Mises à jour
- Actualités
- us
- Utilisation
- utilisé
- Utilisateur
- utilisateurs
- Usages
- en utilisant
- VALIDER
- divers
- très
- Voir
- vues
- Façon..
- we
- web
- services Web
- Quoi
- quand
- qui
- tout en
- WHO
- sera
- comprenant
- sans
- activités principales
- travaillé
- workflows
- s'inquiéter
- écrire
- an
- you
- Votre
- zéphyrnet