AWS-järvien muodostuminen ja AWS-liima Data Catalog on olennainen osa datajärville rakennettua tiedonhallintaratkaisua Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ja useat AWS-analytiikkapalvelut integroituvat niihin. Sisään 2022, keskustelimme parannuksista, joita olemme tehneet näille palveluille. Kuuntelemme edelleen asiakkaiden tarinoita ja teemme työtä taaksepäin sisällyttääksemme heidän ajatuksensa tuotteisiimme. Tässä postauksessa olemme iloisia voidessamme tiivistää vuoden 2023 kovan työmme tulokset asiakkaiden tiedonhallinnan parantamiseksi ja yksinkertaistamiseksi.
Ilmoitimme uusista ominaisuuksistamme ja ominaisuuksistamme AWS re:Invent 2023:n aikana, kuten joka vuosi tapamme. Seuraavat ovat re:Invent 2023 -keskustelut, joissa esitellään Lake Formationin ja Data Catalogin ominaisuuksia:
Ryhmittelemme uudet ominaisuudet neljään luokkaan:
- Tutustu ja varmista
- Yhdistä tietojen jakamiseen
- Skaalaa ja optimoi
- Tarkastus ja valvonta
Sukellaan syvemmälle ja keskustellaan vuonna 2023 esitellyistä uusista ominaisuuksista.
Tutustu ja varmista
Käytämme Lake Formationia ja Data Catalogia perusrakennuspalikoina käynnistettiin Amazon DataZone lokakuussa 2023. DataZone on tiedonhallintapalvelu, jonka avulla voit luetteloida, löytää, jakaa ja hallita AWS:ssä, tiloissa ja kolmannen osapuolen lähteistä tallennettuja tietoja nopeammin ja yksinkertaisemmin. DataZonen julkaisu- ja tilaustyönkulut tehostavat organisaatiosi eri roolejen välistä yhteistyötä ja nopeuttavat liiketoimintatietojen hankkimista tiedoistasi. Voit tehostaa Data Catalogin teknisiä metatietoja käyttämällä tekoälyllä varustettuja avustajia DataZonen liiketoiminnan metadataksi, jolloin se on helpompi löytää. DataZone hallitsee automaattisesti DataZone-projektien jaettujen tietojen käyttöoikeuksia. Lisätietoja DataZonesta on kohdassa Käyttöopas. Bienvenue dans DataZone!
AWS-liima-indeksoijat luokittele tiedot määrittääksesi raakatietojen muodon, skeeman ja niihin liittyvät ominaisuudet, ryhmittele tiedot taulukoihin tai osioihin ja kirjoita metatiedot tietokatalogiin. Vuonna 2023 julkaisimme useita päivityksiä AWS Glue -indeksointiroboteille. Lisäsimme mahdollisuuden tuoda omasi mukautetut versiot JDBC-ajureista indeksointiroboteissa poimiaksesi dataskeemoja tietolähteistäsi ja täyttääksesi tietokatalogin. Osioiden haun optimoimiseksi ja kyselyn suorituskyvyn parantamiseksi lisäsimme indeksointirobottien ominaisuuden Lisää automaattisesti osioindeksit äskettäin löydetyille pöydille. Me myös integroidut telakoneet Lake Formationin kanssa, joka tukee keskitettyjä käyttöoikeuksia S3-datajärvien tilin sisäiseen ja tilien väliseen indeksointiin. Nämä ovat joitakin kaivattuja parannuksia, jotka yksinkertaistavat metatietojen löytämistä indeksointirobottien avulla. Indeksoijat, tervehdys!
Olemme myös nähneet valtavan kasvun avoimien taulukkomuotojen (OTF) käytössä, kuten Linux Foundation Delta Lake, Apache jäävuorija Apache Hudi. Tukeaksemme näitä suosittuja OTF:itä lisäsimme tuen näiden kolmen taulukkomuodon alkuperäiseen indeksointiin tietokatalogiin. Lisäksi työskentelimme muiden AWS-analytiikkapalvelujen kanssa, kuten Amazonin EMR, ottaaksesi Lake Formationin hienojakoiset käyttöoikeudet käyttöön kaikki kolme avointa taulukkomuotoa. Kannustamme sinua tutkimaan mitä Lake Formationin ominaisuuksia tuetaan OTF-taulukoissa. Bien intégré!
Kun tietolähteet ja -tyypit lisääntyvät ajan myötä, tietojärvessäsi on ennemmin tai myöhemmin sisäkkäisiä tietotyyppejä. Lake Formation lisäsi tuen hienojakoisille pääsynhallinnoille, jotta nämä tietojoukot voisivat hallita niitä tasoittamatta niitä. sisäkkäisiä tietotyyppejä ja sarakkeita. Lisäsimme myös tuen Lake Formationin hienorakeisille kulunvalvojille ajon aikana Apache Hive -työpaikkoja Amazon EMR:ssä EC2:lla ja Amazon EMR Studio. Kanssa Amazon EMR-palvelimeton, hienorakeinen kulunvalvonta Lake Formationilla on nyt saatavilla esikatselussa. Yhdistä pisteitä!
Teemme AWS:llä hyvin tiivistä yhteistyötä asiakkaidemme kanssa ymmärtääksemme heidän kokemuksiaan. Ymmärsimme, että pääsimme Lake Formationiin alkaen AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) perustuvia käyttöoikeuksia Amazon S3:lle ja AWS Glue Data Catalogille voitaisiin virtaviivaistaa. Ymmärsimme, että käyttötapauksesi tarvitsevat enemmän joustavuutta tietojen hallinnassa. Kanssa hybridikäyttötila Lake Formationissa otimme käyttöön Lake Formation -käyttöoikeuksien valikoivan lisäyksen joillekin käyttäjille ja tietokantoille keskeyttämättä muita käyttäjiä ja työkuormia. Voit määrittää luettelotaulukon hybriditilassa ja myöntää käyttöoikeuden uusille käyttäjille, kuten data-analyytikoille ja datatieteilijöille, jotka käyttävät Lake Formationia, kun taas tuotannon purkamis-, muunnos- ja latausprosessisi (ETL) käyttävät edelleen olemassa olevia IAM-pohjaisia käyttöoikeuksiaan. Tuplavoitto!
Puhutaanpa identiteetinhallinnasta. Voit käyttää IAM-periaatteita, Amazon Quicksight käyttäjiä ja ryhmiä sekä ulkoisia tilejä ja IAM-päämiehiä ulkoisissa tileissä antaakseen pääsyn Data Catalog -resursseihin Lake Formationissa. Entä yritys-identiteettisi? Tarvitseeko sinun luoda ja ylläpitää useita IAM-rooleja ja yhdistää ne erilaisiin yritysidentiteeteihin? Näet taulukkoa käyttäneen IAM-roolin, mutta miten saat selville, kuka käyttäjä pääsi siihen? Vastataksesi näihin kysymyksiin, Lake Formation integroitu AWS IAM Identity Centeriin ja lisäsi ominaisuuden luotetun identiteetin levittämiseksi. Tämän avulla voit myöntää tarkkoja käyttöoikeuksia organisaatiosi nykyisen identiteetin tarjoajan identiteeteille. Muut AWS-analytiikkapalvelut tukevat myös levitettävää käyttäjän identiteettiä. Tarkastajasi näkevät nyt, että käyttäjä john@anycompany.comesimerkiksi oli käyttänyt Lake Formationin käyttöoikeuksilla hallinnoimaa taulukkoa käyttämällä Amazon Athena, Amazon EMR ja Amazonin punasiirtospektri. Integrointi helppoa!
Nyt sinun ei tarvitse huolehtia tietojen siirtämisestä tai dataluettelon kopioimisesta toiselle AWS-alueelle käyttääksesi AWS-palveluita tietojen hallintaan. Olemme laajentaneet ja tehneet Lake Formation saatavilla kaikilla alueilla vuonna 2023. Ja voila!
Yhdistä tietojen jakamiseen
Lake Formation tarjoaa yksinkertaisen tavan jakaa Data Catalog -objekteja, kuten tietokantoja ja taulukoita, sisäisten ja ulkoisten käyttäjien kanssa. Tämä mekanismi antaa organisaatioille nopean ja turvallisen pääsyn tietoihin ja nopeuttaa yritysten päätöksentekoa. Katsotaanpa vuonna 2023 tämän teeman puitteissa tehtyjä uusia ominaisuuksia ja parannuksia.
AWS Glue Data Catalog on sekä Lake Formationin että DataZonen tiedonhallinnan keskeinen ja perustava osa. Vuonna 2023 laajensimme Data Catalogia liittämisen kautta integroida ulkoisiin Apache Hive -metakauppoihin ja Redshift datashares. Olemme myös tarjonneet liittimen koodi, jota voit mukauttaa yhdistämään Data Catalog muihin Apache Hive -yhteensopiviin metastoreihin. Nämä integraatiot tasoittavat tietä lisäämään metadataa Data Catalogiin ja mahdollistavat tarkan pääsynhallinnan ja näiden resurssien jakamisen AWS-tilien välillä vaivattomasti Lake Formation -oikeuksilla. Lisäsimme myös tuen yhden alueen tietokatalogitaulukon käyttämiseen muilta alueilta käyttämällä alueiden väliset resurssilinkit. Tämä parannus yksinkertaistaa monia käyttötapauksia metatietojen päällekkäisyyden välttämiseksi.
Kanssa AWS CloudTrail Lake liitto ominaisuuden avulla voit löytää, analysoida, liittyä ja jakaa CloudTrail Lake -tietoja muiden tietolähteiden kanssa Data Catalogissa. CloudTrail Lakelle on saatavilla Athenen kautta tarkat pääsynhallintalaitteet sekä kysely- ja visualisointiominaisuudet.
Laajensimme Data Catalog -ominaisuuksia edelleen tukemaan yhtenäistä näkymät datajärvesi yli. Voit luoda näkymiä käyttämällä erilaisia SQL-murteita ja kyselyitä Athenasta, Redshift Spectrumista ja Amazon EMR:stä. Näin voit ylläpitää käyttöoikeuksia näkymätasolla etkä jaa yksittäisiä taulukoita. Tietokataloginäkymät-ominaisuus on saatavilla esikatselussa, julkaistu osoitteessa re:Invent 2023.
Skaalaa ja optimoi
Kun SQL-kyselyt muuttuvat monimutkaisemmiksi ajan myötä tapahtuvien tietojen muuttuessa tai niillä on useita liitoksia, kustannusperusteinen optimoija (CBO) voi optimoida kyselysuunnitelmaa ja johtaa nopeampaan suorituskykyyn taulukoiden tietojen tilastojen perusteella. Vuonna 2023 lisäsimme tuen saraketason tilastot tietokatalogissa oleville taulukoille. Asiakkaat näkevät jo kyselyn suorituskyvyn parannuksia Athenassa ja Redshift Spectrumissa, kun taulukon saraketilastot ovat käytössä. Suivez les chiffres!
Tunnistepohjainen pääsynhallinta poistaa tarpeen päivittää käytäntöjäsi aina, kun datajärveen lisätään uusi resurssi. Sen sijaan data Lake -järjestelmänvalvojat luovat Lake Formation -tunnisteita (LF-tagit) merkitsemään Data Catalog -objekteja ja myöntämään näiden LF-tunnisteiden perusteella käyttäjille ja ryhmille käyttöoikeudet. Vuonna 2023 lisäsimme tuen LF-Tag-valtuuskunta, jossa Data Laken järjestelmänvalvojat voivat antaa tietojen valvojille ja muille käyttäjille oikeudet hallita LF-tunnisteita ilman järjestelmänvalvojan oikeuksia. LF-Tag demokratisoituminen!
Apache Iceberg -muoto käyttää metatietoja taulukon muodostavien tiedostojen kirjaamiseen. Taulukoiden muutokset, kuten lisäykset tai päivitykset, johtavat uusien datatiedostojen luomiseen. Kun taulukon datatiedostojen määrä kasvaa, taulukkoa käyttävät kyselyt voivat heiketä. Iceberg-taulukon kyselyn suorituskyvyn parantamiseksi sinun on vähennettävä datatiedostojen määrää tiivistämällä pienemmät muutosten sieppaustiedostot isommiksi tiedostoiksi. Käyttäjät yleensä luovat ja suorittavat komentosarjoja optimoidakseen näitä Iceberg-taulukkotiedostoja omilla palvelimillaan tai AWS Glue ETL:n kautta. Helpottaakseen tätä monimutkaista Iceberg-pöytien huoltoa asiakkaat pyysivät meistä paremman ratkaisun. Esittelimme ominaisuuden for Apache Iceberg -pöytien automaattinen tiivistys tietokatalogissa. Kun otat automaattisen tiivistyksen käyttöön, Data Catalog hallitsee automaattisesti taulukon metatietoja ja antaa sinulle aina optimoidun Amazon S3 -asettelun Iceberg-taulukoillesi. Katso lisätietoja Iceberg-pöytien optimointi. Automaattinen!
Tarkastus ja valvonta
Tietäen, kenellä on pääsy mihinkin tietoon, on kriittinen osa tietojen hallintaa. Tarkastajien on vahvistettava, että oikeat metatiedot ja tietojen käyttöoikeudet on asetettu Lake Formationissa ja Data Catalogissa. Data Laken ylläpitäjillä on täydet käyttöoikeudet ja metatiedot, ja he voivat myöntää pääsyn itse tietoihin. Antaaksemme tarkastajille mahdollisuuden etsiä ja tarkastella metatietojen käyttöoikeuksia antamatta heille lupaa muuttaa käyttöoikeuksia, otimme käyttöön vain luku -järjestelmänvalvojan rooli Lake Formationissa. Tämän roolin avulla voit tarkastaa luettelon metatiedot ja Lake Formation -oikeudet ja LF-tunnisteet ja estää sitä tekemästä niihin muutoksia.
Yhteenveto
Meillä oli hämmästyttävä vuosi 2023, ja kehitimme tuoteparannuksia, joiden avulla voit yksinkertaistaa ja parantaa tietojen hallintaasi Lake Formationin ja Data Catalogin avulla. Kutsumme sinut kokeilemaan näitä uusia ominaisuuksia. Seuraavassa on luettelo julkaisuistamme viitteeksi:
- Tietokatalogi ja indeksointirobotin ominaisuudet:
- Lake Formationin ominaisuudet:
Jatkamme innovointia asiakkaidemme puolesta vuonna 2024. Jaa ajatuksesi, käyttötapaukset ja palaute tuoteparannuksistamme kommenttiosiossa tai AWS-tilitiimien kautta. Toivotamme onnellista ja onnellista vuotta 2024. Hyvää uutta vuotta!
Tietoja kirjoittajista
Aarthi Srinivasan on vanhempi Big Data -arkkitehti AWS Lake Formationissa. Hän pitää tietojärviratkaisujen rakentamisesta AWS:n asiakkaille ja kumppaneille. Kun hän ei käytä näppäimistöä, hän tutkii uusimpia tieteen ja teknologian suuntauksia ja viettää aikaa perheensä kanssa.
Leon Stigter on vanhempi tekninen tuotepäällikkö AWS Lake Formationissa. Leon keskittyy auttamaan kehittäjiä rakentamaan datajärviä nopeammin saumattoman liitettävyyden avulla analyyttisiin työkaluihin, jotta data muutetaan pelin muuttaviksi oivalluksiksi. Leon on kiinnostunut datasta ja palvelimettomista teknologioista, ja hän nauttii eri kaupunkien tutkimisesta tehtävässään maistaa juustokakkua kaikkialla.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- :on
- :On
- :ei
- :missä
- $ YLÖS
- 100
- 125
- 2023
- 2024
- a
- kyky
- Meistä
- pääsy
- Tietojen saatavuus
- Accessed
- Tili
- Tilit
- poikki
- lisätä
- lisä-
- Lisäksi
- lisä-
- ylläpitäjät
- Jälkeen
- AI-käyttöinen
- Kaikki
- lievittää
- sallia
- mahdollistaa
- jo
- Myös
- hämmästyttävä
- Amazon
- Amazonin EMR
- Amazon Web Services
- an
- analyytikot
- analyyttinen
- Analytics
- analysoida
- ja
- ilmoitti
- Toinen
- vastaus
- Kaikki
- Apache
- OVAT
- AS
- avustajat
- liittyvä
- At
- tilintarkastus
- tilintarkastajat
- automaattisesti
- automaattisesti
- saatavissa
- välttää
- AWS
- AWS-liima
- AWS-järvien muodostuminen
- AWS uudelleen: keksintö
- perustua
- BE
- tulevat
- puolesta
- ovat
- Paremmin
- välillä
- Iso
- Big Data
- suurempi
- Blocks
- sekä
- sidottu
- tuoda
- rakentaa
- Rakentaminen
- rakennettu
- liiketoiminta
- mutta
- by
- tuli
- CAN
- kyvyt
- kaapata
- tapauksissa
- luettelo
- luokat
- keskeinen
- keskitetty
- muuttaa
- Muutokset
- tarkastaa
- Kaupungit
- luokitella
- tarkasti
- yhteistyö
- Sarake
- KOM
- kommentit
- monimutkainen
- komponentti
- kytkeä
- Liitännät
- jatkaa
- ohjaus
- valvonta
- kopiointi
- Yrityksen
- voisi
- tela
- luoda
- luotu
- kriittinen
- asiakassuhde
- asiakas
- Asiakkaat
- räätälöidä
- tiedot
- Datajärvi
- tiedonhallinta
- tietokannat
- aineistot
- Päätöksenteko
- syvempää
- määritellä
- Delta
- ajelehtia
- Määrittää
- kehittäjille
- kehittämällä
- eri
- löytää
- löysi
- löytö
- pohtia
- sukellus
- do
- tehty
- Dont
- ajaa
- kuljettajat
- aikana
- helposti
- tehokas
- vaivattomasti
- valtuutetaan
- mahdollistaa
- kannustaa
- parantaa
- lisälaite
- parannuksia
- Eetteri (ETH)
- Joka
- kaikkialla
- esimerkki
- olemassa
- laajeni
- experience
- tutkia
- Tutkii
- Tutkiminen
- laajennettu
- ulkoinen
- uute
- perhe
- nopeampi
- Ominaisuus
- Ominaisuudet
- liittovaltio
- palaute
- Asiakirjat
- Löytää
- Joustavuus
- Keskittää
- jälkeen
- varten
- muoto
- muoto
- muodostus
- perusta
- perustava
- neljä
- alkaen
- koko
- edelleen
- Lisäksi
- saada
- Antaa
- antaa
- Goes
- hallita
- hallinto
- myöntää
- myöntäminen
- Ryhmä
- Ryhmän
- kasvaa
- HAD
- onnellinen
- Kova
- kovaa työtä
- Olla
- he
- auttaa
- auttaa
- hänen
- hänen
- Hive
- Miten
- HTML
- HTTPS
- Hybridi
- IAM
- identiteetit
- Identiteetti
- henkilöllisyyden hallinta
- parantaa
- parannuksia
- in
- sisällyttää
- Kasvaa
- henkilökohtainen
- innovoida
- insertit
- oivalluksia
- sen sijaan
- kiinteä
- integroitu
- Integrointi
- integraatiot
- kiinnostunut
- sisäinen
- tulee
- käyttöön
- kutsu
- IT
- itse
- Työpaikat
- yhdistää
- Liitosten
- Pitää
- järvi
- järvet
- myöhemmin
- uusin
- käynnistää
- Layout
- johtaa
- OPPIA
- vähemmän
- Taso
- pitää
- tykkää
- linux
- linux säätiö
- Lista
- kuormitus
- tehty
- ylläpitää
- huolto
- tehdä
- TEE
- Tekeminen
- hoitaa
- onnistui
- johto
- johtaja
- hallinnoi
- monet
- kartta
- mekanismi
- Metadata
- Tehtävä
- tila
- lisää
- liikkuvat
- paljon
- moninkertainen
- Tarve
- Uusi
- Uudet ominaisuudet
- uudet käyttäjät
- hiljattain
- nyt
- numero
- esineet
- lokakuu
- of
- on
- perehdytyksessä
- ONE
- avata
- optimointi
- Optimoida
- Vaihtoehto
- or
- organisaatio
- organisaatioiden
- Muut
- meidän
- ulos
- yli
- oma
- osa
- kumppani
- tasoittaa
- suorittaa
- suorituskyky
- Oikeudet
- suunnitelma
- Platon
- Platonin tietotieto
- PlatonData
- Ole hyvä
- politiikkaa
- Suosittu
- Kirje
- Viestejä
- rehtorien
- oikeudet
- Tuotteet
- tuotepäällikkö
- tuotanto
- Tuotteemme
- hankkeet
- eteneminen
- ominaisuudet
- vauras
- toimittaa
- toimittaja
- tarjoaa
- Julkaiseminen
- kyselyt
- kysymykset
- nopea
- raaka
- raakadata
- RE
- tajusi
- vähentää
- katso
- viite
- alue
- alueet
- julkaistu
- Poistaa
- resurssi
- Esittelymateriaalit
- rajoittavat
- johtua
- tulokset
- haku
- arviot
- oikein
- Nousta
- Rooli
- roolit
- ajaa
- juoksu
- tiede
- Tiede ja teknologia
- tutkijat
- skriptejä
- saumaton
- Haku
- Osa
- turvallinen
- nähdä
- koska
- nähneet
- valikoiva
- vanhempi
- serverless
- palvelimet
- palvelu
- Palvelut
- setti
- useat
- Jaa:
- yhteinen
- jakaminen
- hän
- esittelylle
- Yksinkertainen
- yksinkertaistetaan
- yksinkertaistaa
- pienempiä
- ratkaisu
- Ratkaisumme
- jonkin verran
- Lähteet
- spektri
- nopeus
- nopeudet
- SQL
- tilasto
- Levytila
- tallennettu
- tarinat
- suora
- virtaviivainen
- tilaus
- niin
- yhteenveto
- tuki
- Tuetut
- Tukea
- taulukko
- TAG
- Puhua
- Neuvottelut
- näppäimet
- tiimit
- Tekninen
- Technologies
- Elektroniikka
- että
- -
- heidän
- Niitä
- teema
- Nämä
- kolmannen osapuolen
- tätä
- kolmella
- Kautta
- aika
- että
- työkalut
- raita
- Muuttaa
- valtava
- Trendit
- luotettu
- yrittää
- VUORO
- Sorvatut
- tyypit
- tyypillisesti
- varten
- ymmärtää
- Päivitykset
- Päivitykset
- us
- Käyttö
- käyttää
- käyttäjä
- Käyttäjät
- käyttötarkoituksiin
- käyttämällä
- VAHVISTA
- eri
- hyvin
- Näytä
- näkymät
- Tapa..
- we
- verkko
- verkkopalvelut
- Mitä
- kun
- joka
- vaikka
- KUKA
- tulee
- with
- ilman
- Referenssit
- työskenteli
- työnkulkuja
- huoli
- kirjoittaa
- vuosi
- te
- Sinun
- zephyrnet