Oblikovanje jezera AWS in AWS lepilo Katalog podatkov je sestavni del rešitve za upravljanje podatkov za zgrajena podatkovna jezera Preprosta storitev shranjevanja Amazon (Amazon S3) z več analitičnimi storitvami AWS, ki se integrirajo z njimi. notri 2022, smo govorili o izboljšavah, ki smo jih naredili za te storitve. Še naprej poslušamo zgodbe strank in delamo nazaj, da bi njihove misli vključili v naše izdelke. V tej objavi z veseljem povzemamo rezultate našega trdega dela v letu 2023 za izboljšanje in poenostavitev upravljanja podatkov za stranke.
Med dogodkom AWS re:Invent 2023 smo objavili svoje nove funkcije in zmožnosti, kot je vsako leto v navadi. Sledijo pogovori re:Invent 2023, ki prikazujejo nastanek jezer in zmogljivosti podatkovnega kataloga:
Nove zmožnosti razvrščamo v štiri kategorije:
- Odkrijte in zavarujte
- Povežite se z deljenjem podatkov
- Povečajte in optimizirajte
- Revizija in nadzor
Potopimo se globlje in razpravljajmo o novih zmožnostih, predstavljenih leta 2023.
Odkrijte in zavarujte
Z uporabo Lake Formation in Data Catalogue kot temeljnih gradnikov smo začela Amazon DataZone oktobra 2023. DataZone je storitev za upravljanje podatkov, ki omogoča hitrejše in preprostejše katalogiziranje, odkrivanje, skupno rabo in upravljanje podatkov, shranjenih v AWS, na mestih in v virih tretjih oseb. Delovni tokovi objavljanja in naročanja DataZone izboljšujejo sodelovanje med različnimi vlogami v vaši organizaciji in pospešujejo čas za pridobivanje poslovnih vpogledov iz vaših podatkov. Tehnične metapodatke podatkovnega kataloga lahko izboljšate s pomočniki, ki jih poganja umetna inteligenca, v poslovne metapodatke DataZone, da jih boste lažje odkrili. DataZone samodejno upravlja dovoljenja za vaše podatke v skupni rabi v projektih DataZone. Če želite izvedeti več o DataZone, glejte Priročnik za uporabo. Bienvenue v DataZone!
Pajki AWS Glue razvrstite podatke, da določite obliko, shemo in povezane lastnosti neobdelanih podatkov, združite podatke v tabele ali particije in zapišete metapodatke v podatkovni katalog. Leta 2023 smo izdali več posodobitev za pajke AWS Glue. Dodali smo možnost, da prinesete svoje prilagojene različice gonilnikov JDBC v pajkih za ekstrahiranje podatkovnih shem iz vaših podatkovnih virov in zapolnitev podatkovnega kataloga. Za optimizacijo pridobivanja particij in izboljšanje učinkovitosti poizvedb smo dodali funkcijo za pajke samodejno doda indekse particij za novo odkrite mize. Smo tudi integrirani pajki z Lake Formation, ki podpira centralizirana dovoljenja za pajkanje podatkovnih jezer S3 v računu in med računi. To je nekaj zelo iskanih izboljšav, ki poenostavljajo odkrivanje metapodatkov s pajki. Crawlers, pozdrav!
Videli smo tudi izjemen porast uporabe formatov odprtih tabel (OTF), kot je Linux Foundation Delta Lake, Apaška ledena gorain Apače Hudi. Da bi podprli te priljubljene OTF-je, smo dodali podporo za izvorno pajkanje teh treh formatov tabel v podatkovni katalog. Poleg tega smo sodelovali z drugimi analitičnimi storitvami AWS, kot je npr Amazonski EMR, da omogočite natančna dovoljenja za Lake Formation vsi trije odprti formati tabel. Spodbujamo vas, da raziskujete katere funkcije Lake Formation so podprte za tabele OTF. Bien intégré!
Ker se viri in tipi podatkov sčasoma povečujejo, boste prej ali slej zagotovo imeli ugnezdene tipe podatkov v svojem podatkovnem jezeru. Da bi zagotovili upravljanje podatkov v teh naborih podatkov, ne da bi jih sploščili, je Lake Formation dodal podporo za natančne kontrole dostopa na ugnezdeni podatkovni tipi in stolpci. Dodali smo tudi podporo za natančne kontrole dostopa Lake Formation med delovanjem Zaposlitve Apache Hive na Amazon EMR na EC2 in Amazon EMR Studio. Z Amazon EMR brez strežnika, natančen nadzor dostopa z Lake Formation je zdaj na voljo v predogledu. Connecté les points!
Pri AWS zelo tesno sodelujemo z našimi strankami, da bi razumeli njihove izkušnje. Ugotovili smo, da je vkrcanje na Lake Formation iz AWS upravljanje identitete in dostopa Dovoljenja za Amazon S3 in AWS Glue Data Catalog bi lahko poenostavili (IAM). Ugotovili smo, da vaši primeri uporabe potrebujejo večjo prilagodljivost pri upravljanju podatkov. z hibridni način dostopa v Lake Formation smo uvedli selektivno dodajanje dovoljenj Lake Formation za nekatere uporabnike in baze podatkov, ne da bi motili druge uporabnike in delovne obremenitve. Tabelo kataloga lahko definirate v hibridnem načinu in omogočite dostop novim uporabnikom, kot so podatkovni analitiki in podatkovni znanstveniki, ki uporabljajo Lake Formation, medtem ko vaši proizvodni cevovodi za ekstrakcijo, pretvorbo in nalaganje (ETL) še naprej uporabljajo svoja obstoječa dovoljenja, ki temeljijo na IAM. Dvojna zmaga!
Pogovorimo se o upravljanju identitete. Uporabite lahko principale IAM, Amazon Quicksight uporabniki in skupine ter zunanji računi in principali IAM v zunanjih računih za odobritev dostopa do virov podatkovnega kataloga v Lake Formation. Kaj pa vaše celostne podobe? Ali morate ustvariti in vzdrževati več vlog IAM in jih preslikati v različne identitete podjetij? Lahko bi videli vlogo IAM, ki je dostopala do tabele, toda kako bi lahko ugotovili, kateri uporabnik je dostopal do nje? Če želite odgovoriti na ta vprašanja, Lake Formation integriran z AWS IAM Identity Center in dodal funkcijo za širjenje zaupanja vredne identitete. S tem lahko dodelite natančno določena dovoljenja za dostop do identitet obstoječega ponudnika identitete vaše organizacije. drugo Analitične storitve AWS podpirajo tudi identiteto uporabnika, ki se širi. Vaši revizorji lahko zdaj vidijo, da uporabnik john@anycompany.comje na primer dostopal do tabele, ki jo upravlja Lake Formation, z dovoljenji Amazonska Atena, Amazon EMR in Amazonov rdeči premik spektra. Enostavna integracija!
Zdaj vam ni treba skrbeti za premikanje podatkov ali kopiranje podatkovnega kataloga v drugo regijo AWS, če želite uporabljati storitve AWS za upravljanje podatkov. Razširili smo in naredili Lake Formation je na voljo v vseh regijah v 2023. In voila!
Povežite se z deljenjem podatkov
Lake Formation ponuja preprost način za skupno rabo objektov podatkovnega kataloga, kot so baze podatkov in tabele, z notranjimi in zunanjimi uporabniki. Ta mehanizem omogoča organizacijam hiter in varen dostop do podatkov ter pospešuje njihovo poslovno odločanje. Oglejmo si nove funkcije in izboljšave v letu 2023 pod to temo.
Katalog podatkov AWS Glue je osrednja in temeljna komponenta upravljanja podatkov za Lake Formation in DataZone. Leta 2023 smo katalog podatkov prek federacije razširili na integrirati z zunanjimi metashrambami Apache Hive in Skupna raba podatkov Redshift. Na voljo smo tudi dali kodo priključka, ki ga lahko prilagodite za povezavo podatkovnega kataloga z dodatnimi metashrambami, združljivimi z Apache Hive. Te integracije utirajo pot do pridobivanja več metapodatkov v podatkovnem katalogu in omogočajo natančen nadzor dostopa ter skupno rabo teh virov v računih AWS brez truda z dovoljenji Lake Formation. Dodali smo tudi podporo za dostop do tabele podatkovnega kataloga ene regije iz drugih regij z uporabo medregionalne povezave virov. Ta izboljšava poenostavi številne primere uporabe, da se prepreči podvajanje metapodatkov.
Z Zveza AWS CloudTrail Lake funkcijo, lahko odkrijete, analizirate, se pridružite in delite podatke CloudTrail Lake z drugimi viri podatkov v Data Catalogue. Za CloudTrail Lake so prek Athene na voljo natančne kontrole dostopa ter zmožnosti poizvedovanja in vizualizacije.
Dodatno smo razširili zmogljivosti podatkovnega kataloga za podporo enotnosti ogledov čez vaše podatkovno jezero. Poglede lahko ustvarite z uporabo različnih narečij SQL in poizvedb iz Athena, Redshift Spectrum in Amazon EMR. To vam omogoča, da ohranite dovoljenja na ravni pogleda in ne delite posameznih tabel. Funkcija ogledov podatkovnega kataloga je na voljo v predogledu, napovedano na re:Invent 2023.
Povečajte in optimizirajte
Ker postajajo poizvedbe SQL sčasoma bolj zapletene s spremembami podatkov ali imajo več združevanj, lahko optimizator na podlagi stroškov (CBO) spodbuja optimizacije v načrtu poizvedbe in vodi do hitrejšega delovanja na podlagi statistike podatkov v tabelah. Leta 2023 smo dodali podporo za statistike na ravni stolpcev za tabele v katalogu podatkov. Stranke že opažajo izboljšave zmogljivosti poizvedb v Athena in Redshift Spectrum, pri čemer je vklopljena statistika stolpcev tabele. Suivez les chiffres!
Nadzor dostopa na podlagi oznak odpravi potrebo po posodabljanju vaših pravilnikov vsakič, ko je v podatkovno jezero dodan nov vir. Namesto tega skrbniki podatkovnega jezera ustvarijo oznake Lake Formation Tags (LF-Tags) za označevanje objektov podatkovnega kataloga in odobrijo dostop na podlagi teh LF-Tags uporabnikom in skupinam. Leta 2023 smo dodali podporo za Delegacija LF-Tag, kjer lahko skrbniki podatkovnega jezera skrbnikom podatkov in drugim uporabnikom dajo dovoljenja za upravljanje oznak LF brez potrebe po skrbniških pravicah. LF-Tag demokratizacija!
Format Apache Iceberg uporablja metapodatke za spremljanje podatkovnih datotek, ki sestavljajo tabelo. Spremembe tabel, kot so vstavki ali posodobitve, povzročijo ustvarjanje novih podatkovnih datotek. Ko se število podatkovnih datotek za tabelo poveča, postanejo poizvedbe, ki uporabljajo to tabelo, manj učinkovite. Če želite izboljšati zmogljivost poizvedb v tabeli Iceberg, morate zmanjšati število podatkovnih datotek tako, da stisnete manjše datoteke za zajemanje sprememb v večje datoteke. Uporabniki običajno ustvarijo in izvajajo skripte za izvedbo optimizacije teh datotek tabel Iceberg v svojih strežnikih ali prek AWS Glue ETL. Da bi olajšali to zapleteno vzdrževanje miz Iceberg, so se stranke obrnile na nas za boljšo rešitev. Predstavili smo funkcijo za avtomatsko stiskanje tabel Apache Iceberg v katalogu podatkov. Ko vklopite samodejno stiskanje, Data Catalog samodejno upravlja metapodatke tabele in vam nudi vedno optimizirano postavitev Amazon S3 za vaše tabele Iceberg. Če želite izvedeti več, si oglejte Optimizacija tabel Iceberg. Automatique!
Revizija in nadzor
Vedeti, kdo ima dostop do katerih podatkov, je kritična komponenta upravljanja podatkov. Revizorji morajo potrditi, da so v Lake Formation in Data Catalog nastavljeni pravi metapodatki in dovoljenja za podatke. Skrbniki podatkovnega jezera imajo popoln dostop do dovoljenj in metapodatkov ter lahko odobrijo dostop do samih podatkov. Da bi revizorjem zagotovili možnost iskanja in pregledovanja dovoljenj za metapodatke, ne da bi jim odobrili dostop za spreminjanje dovoljenj, smo uvedli skrbniška vloga samo za branje v Lake Formation. Ta vloga vam omogoča revizijo metapodatkov kataloga in dovoljenj za formacijo jezera ter oznak LF, hkrati pa mu onemogoča kakršno koli spreminjanje le-teh.
zaključek
Imeli smo neverjetno leto 2023, saj smo razvijali izboljšave izdelkov, ki vam bodo pomagale poenostaviti in izboljšati upravljanje podatkov z uporabo Lake Formation in Data Catalog. Vabimo vas, da preizkusite te nove funkcije. Sledi seznam naših objav za referenco:
- Funkcije kataloga podatkov in pajka:
- Značilnosti oblikovanja jezera:
V letu 2024 bomo nadaljevali z inovacijami v imenu naših strank. Delite svoje misli, primere uporabe in povratne informacije za izboljšave naših izdelkov v razdelku za komentarje ali prek svojih skupin za račun AWS. Želimo vam srečno in uspešno leto 2024. Dobro leto!
O avtorjih
Aarthi Srinivasan je višji arhitekt za velike podatke pri AWS Lake Formation. Rada gradi rešitve podatkovnega jezera za stranke in partnerje AWS. Ko ni na tipkovnici, raziskuje najnovejše znanstvene in tehnološke trende in preživlja čas s svojo družino.
Leon Stigter je višji tehnični produktni vodja pri AWS Lake Formation. Leon se osredotoča na pomoč razvijalcem pri hitrejši gradnji podatkovnih jezer z brezhibno povezljivostjo z analitičnimi orodji za pretvorbo podatkov v vpoglede, ki spreminjajo igro. Leona zanimajo podatkovne in brezstrežniške tehnologije ter uživa v raziskovanju različnih mest na svoji misiji, da bi povsod poskusil sirovo torto.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- :ima
- : je
- :ne
- :kje
- $GOR
- 100
- 125
- 2023
- 2024
- a
- sposobnost
- O meni
- dostop
- Dostop do podatkov
- dostopna
- Račun
- računi
- čez
- dodajte
- dodano
- Poleg tega
- Dodatne
- administratorji
- po
- Z AI napajanjem
- vsi
- ublažiti
- omogočajo
- omogoča
- že
- Prav tako
- Neverjetno
- Amazon
- Amazonski EMR
- Amazon Web Services
- an
- Analitiki
- Analitično
- analitika
- analizirati
- in
- razglasitve
- Še ena
- odgovor
- kaj
- Apache
- SE
- AS
- pomočniki
- povezan
- At
- Revizija
- revizorjev
- Samodejno
- samodejno
- Na voljo
- izogniti
- AWS
- AWS lepilo
- Oblikovanje jezera AWS
- AWS re: Izum
- temeljijo
- BE
- postanejo
- ime
- počutje
- Boljše
- med
- Big
- Big Podatki
- večji
- Bloki
- tako
- zavezuje
- prinašajo
- izgradnjo
- Building
- zgrajena
- poslovni
- vendar
- by
- prišel
- CAN
- Zmogljivosti
- zajemanje
- primeri
- Katalog
- kategorije
- Osrednji
- centralizirano
- spremenite
- Spremembe
- preveriti
- Mesta
- Razvrsti
- tesno
- sodelovanje
- Stolpec
- COM
- komentarji
- kompleksna
- komponenta
- Connect
- Povezovanje
- naprej
- nadzor
- Nadzor
- kopiranje
- Corporate
- bi
- gosenicah
- ustvarjajo
- ustvaril
- kritično
- po meri
- stranka
- Stranke, ki so
- prilagodite
- datum
- Data jezero
- Upravljanje podatkov
- baze podatkov
- nabor podatkov
- Odločanje
- globlje
- opredeliti
- Delta
- drift
- Ugotovite,
- Razvijalci
- razvoju
- drugačen
- odkriti
- odkril
- Odkritje
- razpravlja
- potop
- do
- opravljeno
- dont
- pogon
- vozniki
- med
- enostavno
- učinkovite
- truda
- pooblašča
- omogočajo
- spodbujanje
- okrepi
- Izboljšave
- izboljšave
- Eter (ETH)
- Tudi vsak
- Povsod
- Primer
- obstoječih
- razširiti
- izkušnje
- raziskuje
- raziskuje
- Raziskovati
- podaljšan
- zunanja
- ekstrakt
- družina
- hitreje
- Feature
- Lastnosti
- Federacija
- povratne informacije
- datoteke
- Najdi
- prilagodljivost
- Osredotočite
- po
- za
- obrazec
- format
- Oblikovanje
- Fundacija
- Temeljno
- štiri
- iz
- polno
- nadalje
- Poleg tega
- dobili
- Daj
- daje
- goes
- upravljati
- upravljanje
- odobri
- Odobritev
- skupina
- Skupine
- raste
- imel
- srečna
- Trdi
- Trdo delo
- Imajo
- he
- pomoč
- pomoč
- jo
- njegov
- Panj
- Kako
- HTML
- HTTPS
- Hybrid
- IAM
- identitete
- identiteta
- upravljanje identitete
- izboljšanje
- Izboljšave
- in
- vključi
- Povečajte
- individualna
- inovacije
- Vložki
- vpogledi
- Namesto
- integral
- integrirana
- Povezovanje
- integracije
- zainteresirani
- notranji
- v
- Uvedeno
- povabi
- IT
- sam
- Delovna mesta
- pridružite
- Pridružuje
- Imejte
- Jezero
- jezera
- pozneje
- Zadnji
- kosilo
- postavitev
- vodi
- UČITE
- manj
- Stopnja
- kot
- všeč mi je
- linux
- temelj za linux
- Seznam
- obremenitev
- je
- vzdrževati
- vzdrževanje
- Znamka
- IZDELA
- Izdelava
- upravljanje
- upravlja
- upravljanje
- upravitelj
- upravlja
- več
- map
- Mehanizem
- metapodatki
- Mission
- način
- več
- premikanje
- veliko
- več
- Nimate
- Novo
- Nove funkcije
- novih uporabnikov
- na novo
- zdaj
- Številka
- predmeti
- oktober
- of
- on
- Na vkrcanje
- ONE
- odprite
- optimizacija
- Optimizirajte
- Možnost
- or
- Organizacija
- organizacije
- Ostalo
- naši
- ven
- več
- lastne
- del
- partnerji
- tlakovati
- opravlja
- performance
- Dovoljenja
- Načrt
- platon
- Platonova podatkovna inteligenca
- PlatoData
- prosim
- politike
- Popular
- Prispevek
- Prispevkov
- ravnateljev
- privilegiji
- Izdelek
- produktni vodja
- proizvodnja
- Izdelki
- projekti
- razmnoževanje
- Lastnosti
- uspešno
- zagotavljajo
- Ponudnik
- zagotavlja
- Založništvo
- poizvedbe
- vprašanja
- Hitri
- Surovi
- surovi podatki
- RE
- realizirano
- zmanjša
- glejte
- reference
- okolica
- regije
- sprosti
- odstrani
- vir
- viri
- omejujoč
- povzroči
- Rezultati
- iskanje
- pregleda
- Pravica
- Rise
- vloga
- vloge
- Run
- tek
- Znanost
- Znanost in tehnologija
- Znanstveniki
- skripte
- brezšivne
- Iskalnik
- Oddelek
- zavarovanje
- glej
- videnje
- videl
- selektivno
- višji
- Brez strežnika
- strežniki
- Storitev
- Storitve
- nastavite
- več
- Delite s prijatelji, znanci, družino in partnerji :-)
- deli
- delitev
- je
- razstavni
- Enostavno
- poenostavlja
- poenostavitev
- manj
- Rešitev
- rešitve
- nekaj
- Viri
- Spectrum
- hitrost
- hitrosti
- SQL
- Statistika
- shranjevanje
- shranjeni
- zgodbe
- naravnost
- racionaliziran
- naročnina
- taka
- Povzamemo
- podpora
- Podprti
- Podpora
- miza
- TAG
- Pogovor
- pogovori
- ključi
- Skupine
- tehnični
- Tehnologije
- Tehnologija
- da
- O
- njihove
- Njih
- tema
- te
- tretjih oseb
- ta
- 3
- skozi
- čas
- do
- orodja
- sledenje
- Transform
- ogromno
- Trends
- zaupa
- poskusite
- OBRAT
- Obrnjen
- Vrste
- tipično
- pod
- razumeli
- Nadgradnja
- posodobitve
- us
- Uporaba
- uporaba
- uporabnik
- Uporabniki
- uporablja
- uporabo
- POTRDI
- različnih
- zelo
- Poglej
- ogledov
- način..
- we
- web
- spletne storitve
- Kaj
- kdaj
- ki
- medtem
- WHO
- bo
- z
- brez
- delo
- delal
- delovnih tokov
- skrbi
- pisati
- leto
- jo
- Vaša rutina za
- zefirnet