Formacja AWS Lake oraz Klej AWS Data Catalog stanowi integralną część rozwiązania do zarządzania danymi dla zbudowanych na nim jezior danych Usługa Amazon Simple Storage (Amazon S3) z wieloma integrującymi się z nimi usługami analitycznymi AWS. W 2022, rozmawialiśmy o ulepszeniach, które wprowadziliśmy w tych usługach. W dalszym ciągu słuchamy historii klientów i pracujemy wstecz, aby uwzględnić ich przemyślenia w naszych produktach. W tym poście mamy przyjemność podsumować wyniki naszej ciężkiej pracy w 2023 roku nad usprawnieniem i uproszczeniem zarządzania danymi dla klientów.
Jak co roku ogłosiliśmy nasze nowe funkcje i możliwości podczas AWS re:Invent 2023. Poniżej znajdują się wykłady re:Invent 2023 prezentujące możliwości Lake Formation i Data Catalog:
Nowe możliwości grupujemy w cztery kategorie:
- Odkryj i zabezpiecz
- Połącz się z udostępnianiem danych
- Skaluj i optymalizuj
- Audyt i monitorowanie
Zagłębmy się w szczegóły i omówmy nowe możliwości wprowadzone w 2023 roku.
Odkryj i zabezpiecz
Wykorzystując Formację Jeziora i Katalog danych jako podstawowe elementy składowe, możemy uruchomiona Strefa danych Amazona w październiku 2023 r. DataZone to usługa zarządzania danymi, która umożliwia szybsze i prostsze katalogowanie, odkrywanie, udostępnianie i zarządzanie danymi przechowywanymi w AWS, lokalnie i w źródłach zewnętrznych. Przepływy pracy związane z publikowaniem i subskrypcją DataZone usprawniają współpracę między różnymi rolami w organizacji i przyspieszają wyciąganie wniosków biznesowych z danych. Możesz ulepszyć metadane techniczne Data Catalog za pomocą asystentów opartych na sztucznej inteligencji do metadanych biznesowych DataZone, dzięki czemu łatwiej będzie je znaleźć. DataZone automatycznie zarządza uprawnieniami Twoich danych udostępnionych w projektach DataZone. Aby dowiedzieć się więcej o DataZone, zapoznaj się z sekcją Instrukcja obsługi. Bienvenue i DataZone!
Roboty indeksujące AWS Glue klasyfikować dane w celu określenia formatu, schematu i powiązanych właściwości surowych danych, grupować dane w tabele lub partycje oraz zapisywać metadane w Data Catalog. W 2023 r. wydaliśmy kilka aktualizacji robotów AWS Glue. Dodaliśmy możliwość przyniesienia swojego niestandardowe wersje sterowników JDBC w robotach przeszukiwających aby wyodrębnić schematy danych ze źródeł danych i zapełnić katalog danych. Aby zoptymalizować pobieranie partycji i poprawić wydajność zapytań, dodaliśmy funkcję dla robotów indeksujących automatycznie dodawaj indeksy partycji dla nowo odkrytych stołów. My także zintegrowane roboty z Lake Formation, obsługujący scentralizowane uprawnienia do indeksowania jezior danych S3 na kontach i między kontami. Oto kilka bardzo poszukiwanych ulepszeń, które upraszczają odkrywanie metadanych za pomocą robotów indeksujących. Robotnicy, salutujemy!
Zaobserwowaliśmy także ogromny wzrost wykorzystania formatów otwartych tabel (OTF), takich jak Linux Foundation Delta Lake, Góra lodowa Apache, Apache Hudi. Aby obsługiwać te popularne OTF, dodaliśmy obsługę natywnego indeksowania tych trzech formatów tabel do Data Catalog. Ponadto współpracowaliśmy z innymi usługami analitycznymi AWS, takimi jak Amazon EMR, aby włączyć szczegółowe uprawnienia do formacji jeziora wszystkie trzy formaty otwartych stołów. Zachęcamy do eksploracji które funkcje Lake Formation są obsługiwane w przypadku tabel OTF. Bien integre!
W miarę zwiększania się liczby źródeł i typów danych z biegiem czasu na pewno wcześniej czy później w jeziorze danych pojawią się zagnieżdżone typy danych. Aby zapewnić zarządzanie danymi w tych zbiorach danych bez ich spłaszczania, Lake Formation dodało obsługę szczegółowej kontroli dostępu na zagnieżdżone typy danych i kolumny. Dodaliśmy także obsługę szczegółowej kontroli dostępu w Lake Formation podczas działania Zadania Apache Hive w Amazon EMR na EC2 i Studio Amazon EMR. Z Bezserwerowe Amazon EMR, precyzyjna kontrola dostępu z Lake Formation jest teraz dostępna dostępne w podglądzie. Połącz punkty!
W AWS ściśle współpracujemy z naszymi klientami, aby zrozumieć ich doświadczenia. Zrozumieliśmy, że wejście na pokład do Lake Formation odbywa się od AWS Zarządzanie tożsamością i dostępem Uprawnienia oparte na IAM dla Amazon S3 i katalogu danych kleju AWS można usprawnić. Zdaliśmy sobie sprawę, że Twoje przypadki użycia wymagają większej elastyczności w zarządzaniu danymi. Z hybrydowy tryb dostępu w Lake Formation wprowadziliśmy selektywne dodawanie uprawnień Lake Formation dla niektórych użytkowników i baz danych, bez przeszkadzania innym użytkownikom i obciążeniom. Możesz zdefiniować tabelę katalogu w trybie hybrydowym i udzielić dostępu nowym użytkownikom, takim jak analitycy i naukowcy zajmujący się danymi, korzystającymi z usługi Lake Formation, podczas gdy potoki produkcyjne wyodrębniające, przekształcające i ładujące (ETL) nadal będą korzystać z istniejących uprawnień opartych na uprawnieniach IAM. Podwójne zwycięstwo!
Porozmawiajmy o zarządzaniu tożsamością. Możesz używać podmiotów zabezpieczeń IAM, Szybki wzrok Amazona użytkownicy i grupy oraz konta zewnętrzne i podmioty zabezpieczeń IAM na kontach zewnętrznych, aby przyznać dostęp do zasobów Data Catalog w Lake Formation. A co z tożsamością Twojej firmy? Czy musisz utworzyć i utrzymywać wiele ról IAM i przypisać je do różnych tożsamości korporacyjnych? Możesz zobaczyć rolę IAM, która uzyskała dostęp do tabeli, ale jak dowiedzieć się, który użytkownik uzyskał do niej dostęp? Aby odpowiedzieć na te pytania, Formacja jeziora zintegrowana z Centrum tożsamości AWS IAM i dodano funkcję propagacji zaufanej tożsamości. Dzięki temu możesz przyznać szczegółowe uprawnienia dostępu do tożsamości od istniejącego dostawcy tożsamości w Twojej organizacji. Inny Usługi analityczne AWS obsługują także propagację tożsamości użytkownika. Twoi audytorzy mogą teraz zobaczyć, że użytkownik jan@dowolnafirma.comna przykład uzyskał dostęp do tabeli zarządzanej przy użyciu uprawnień Lake Formation Amazonka Atena, Amazon EMR i Widmo przesunięcia ku czerwieni Amazonki. Integracja jest łatwa!
Teraz nie musisz się martwić przenoszeniem danych ani kopiowaniem Data Catalog do innego regionu AWS, aby korzystać z usług AWS do zarządzania danymi. Rozbudowaliśmy i wykonaliśmy Formacja Jeziora dostępna we wszystkich Regionach w 2023 roku. Gotowe!
Połącz się z udostępnianiem danych
Lake Formation zapewnia prosty sposób udostępniania obiektów Data Catalog, takich jak bazy danych i tabele, użytkownikom wewnętrznym i zewnętrznym. Mechanizm ten zapewnia organizacjom szybki i bezpieczny dostęp do danych oraz przyspiesza podejmowanie decyzji biznesowych. Przyjrzyjmy się nowym funkcjom i ulepszeniom wprowadzonym w 2023 r. w ramach tego tematu.
Katalog danych kleju AWS jest centralnym i podstawowym elementem zarządzania danymi zarówno w Lake Formation, jak i DataZone. W 2023 r. rozszerzyliśmy katalog danych poprzez federację na integruj się z zewnętrznymi magazynami metadanymi Apache Hive i Udostępnienia danych z przesunięciem ku czerwieni. Udostępniliśmy również kod złącza, które można dostosować w celu połączenia wykazu danych z dodatkowymi magazynami metadanymi zgodnymi z Apache Hive. Te integracje umożliwiają uzyskanie większej ilości metadanych w Data Catalog i umożliwiają precyzyjną kontrolę dostępu oraz łatwe udostępnianie tych zasobów pomiędzy kontami AWS z uprawnieniami Lake Formation. Dodaliśmy także obsługę dostępu do tabeli Data Catalog jednego regionu z poziomu innych regionów międzyregionalne powiązania zasobów. To ulepszenie upraszcza wiele przypadków użycia, aby uniknąć powielania metadanych.
Z Federacja AWS CloudTrail Lake Dzięki tej funkcji możesz odkrywać, analizować, dołączać i udostępniać dane CloudTrail Lake innym źródłom danych w Data Catalog. W przypadku CloudTrail Lake szczegółowa kontrola dostępu oraz możliwości wysyłania zapytań i wizualizacji są dostępne za pośrednictwem usługi Athena.
Rozszerzyliśmy możliwości Data Catalog w celu obsługi uniformów widoki w całym jeziorze danych. Możesz tworzyć widoki przy użyciu różnych dialektów SQL i zapytań z Athena, Redshift Spectrum i Amazon EMR. Pozwala to zachować uprawnienia na poziomie widoku i nie udostępniać poszczególnych tabel. Funkcja widoków wykazu danych to dostępne w podglądzie, ogłoszone na re:Invent 2023.
Skaluj i optymalizuj
Ponieważ zapytania SQL stają się coraz bardziej złożone wraz ze zmianami danych w czasie lub wymagają wielu złączeń, optymalizator oparty na kosztach (CBO) może optymalizować plan zapytań i prowadzić do szybszej wydajności w oparciu o statystyki danych w tabelach. W 2023 roku dodaliśmy obsługę statystyki na poziomie kolumn dla tabel w wykazie danych. Klienci już zauważają poprawę wydajności zapytań w Athenie i Redshift Spectrum po włączeniu statystyk kolumn tabeli. Suivez les chiffres!
Kontrola dostępu oparta na tagach eliminuje potrzebę aktualizowania zasad za każdym razem, gdy do jeziora danych dodawany jest nowy zasób. Zamiast tego administratorzy Data Lake tworzą znaczniki Lake Formation (tagi LF), aby oznaczać obiekty Data Catalog i przyznawać dostęp na podstawie tych tagów LF użytkownikom i grupom. W 2023 roku dodaliśmy obsługę Delegacja LF-Tag, gdzie administratorzy Data Lake mogą przyznawać stewardom danych i innym użytkownikom uprawnienia do zarządzania tagami LF bez konieczności posiadania uprawnień administratora. Demokratyzacja LF-Tag!
Format Apache Iceberg wykorzystuje metadane do śledzenia plików danych tworzących tabelę. Zmiany w tabelach, takie jak wstawienia lub aktualizacje, powodują utworzenie nowych plików danych. W miarę wzrostu liczby plików danych w tabeli zapytania korzystające z tej tabeli mogą stać się mniej wydajne. Aby poprawić wydajność zapytań w tabeli Iceberg, należy zmniejszyć liczbę plików danych poprzez kompaktowanie mniejszych plików przechwytywania zmian w większe pliki. Użytkownicy zazwyczaj tworzą i uruchamiają skrypty w celu optymalizacji plików tabeli Iceberg na swoich własnych serwerach lub za pośrednictwem AWS Glue ETL. Aby uprościć tę skomplikowaną konserwację stołów Iceberg, klienci zwrócili się do nas z prośbą o lepsze rozwiązanie. Wprowadziliśmy funkcję dla automatyczne zagęszczanie stołów Apache Iceberg w Katalogu Danych. Po włączeniu automatycznego kompaktowania Data Catalog automatycznie zarządza metadanymi tabeli i zapewnia zawsze zoptymalizowany układ Amazon S3 dla tabel Iceberg. Aby dowiedzieć się więcej, sprawdź Optymalizacja tabel Iceberg. Automatyczny!
Audyt i monitorowanie
Wiedza o tym, kto ma dostęp do jakich danych, jest kluczowym elementem zarządzania danymi. Audytorzy muszą sprawdzić, czy w Lake Formation i Data Catalog ustawiono odpowiednie metadane i uprawnienia do danych. Administratorzy Data Lake mają pełny dostęp do uprawnień i metadanych oraz mogą przyznawać dostęp do samych danych. Aby zapewnić audytorom możliwość wyszukiwania i przeglądania uprawnień do metadanych bez konieczności udzielania im dostępu do wprowadzania zmian w uprawnieniach, wprowadziliśmy opcję rola administratora tylko do odczytu w Formacji Jeziornej. Ta rola umożliwia inspekcję metadanych katalogu, uprawnień Lake Formation i tagów LF, jednocześnie ograniczając możliwość wprowadzania w nich jakichkolwiek zmian.
Wnioski
Mieliśmy niesamowity rok 2023, opracowując ulepszenia produktów, które pomogą Ci uprościć i ulepszyć zarządzanie danymi za pomocą Lake Formation i Data Catalog. Zapraszamy do wypróbowania tych nowych funkcji. Poniżej znajduje się lista naszych postów wprowadzających w celach informacyjnych:
- Funkcje Data Catalog i przeszukiwacza:
- Cechy formacji jeziora:
W 2024 r. będziemy nadal wprowadzać innowacje w imieniu naszych klientów. Podziel się swoimi przemyśleniami, przypadkami użycia i opiniami na temat ulepszeń naszych produktów w sekcji komentarzy lub za pośrednictwem zespołów obsługujących konta AWS. Życzymy szczęśliwego i dostatniego roku 2024. Happy New Year!
O autorach
Aarthi Srinivasan jest starszym architektem Big Data w AWS Lake Formation. Lubi budować rozwiązania data lake dla klientów i partnerów AWS. Kiedy nie siedzi na klawiaturze, bada najnowsze trendy w nauce i technologii oraz spędza czas z rodziną.
Leona Stigtera jest starszym technicznym menedżerem produktu w AWS Lake Formation. Leon koncentruje się na pomaganiu programistom w szybszym tworzeniu jezior danych, zapewniając płynną łączność z narzędziami analitycznymi, w celu przekształcania danych w spostrzeżenia zmieniające zasady gry. Leon interesuje się danymi i technologiami bezserwerowymi. Lubi zwiedzać różne miasta w ramach swojej misji skosztowania sernika, gdziekolwiek się uda.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- :ma
- :Jest
- :nie
- :Gdzie
- $W GÓRĘ
- 100
- 125
- 2023
- 2024
- a
- zdolność
- O nas
- dostęp
- Dostęp do danych
- dostęp
- Konto
- Konta
- w poprzek
- Dodaj
- w dodatku
- dodatek
- Dodatkowy
- Administratorzy
- Po
- Zasilany AI
- Wszystkie kategorie
- łagodzić
- dopuszczać
- pozwala
- już
- również
- zdumiewający
- Amazonka
- Amazon EMR
- Amazon Web Services
- an
- analitycy
- Analityczny
- analityka
- w czasie rzeczywistym sprawiają,
- i
- ogłosił
- Inne
- odpowiedź
- każdy
- Apache
- SĄ
- AS
- asystenci
- powiązany
- At
- Audyt
- audytorzy
- automatycznie
- automatycznie
- dostępny
- uniknąć
- AWS
- Klej AWS
- Formacja AWS Lake
- AWS re: Invent
- na podstawie
- BE
- stają się
- w imieniu
- jest
- Ulepsz Swój
- pomiędzy
- Duży
- Big Data
- większe
- Bloki
- obie
- związany
- przynieść
- budować
- Budowanie
- wybudowany
- biznes
- ale
- by
- oprawa ołowiana witrażu
- CAN
- możliwości
- zdobyć
- Etui
- katalog
- kategorie
- centralny
- scentralizowane
- zmiana
- Zmiany
- ZOBACZ
- Miasta
- Klasyfikuj
- dokładnie
- współpraca
- Kolumna
- COM
- komentarze
- kompleks
- składnik
- Skontaktuj się
- Łączność
- kontynuować
- kontrola
- kontroli
- biurowy
- Korporacyjny
- mógłby
- crawler
- Stwórz
- stworzony
- krytyczny
- zwyczaj
- klient
- Klientów
- dostosować
- dane
- Jezioro danych
- zarządzanie danymi
- Bazy danych
- zbiory danych
- Podejmowanie decyzji
- głębiej
- określić
- Delta
- czerpać
- Ustalać
- deweloperzy
- rozwijanie
- różne
- odkryj
- odkryty
- odkrycie
- dyskutować
- nurkować
- do
- zrobić
- nie
- napęd
- sterowniki
- podczas
- z łatwością
- wydajny
- bez wysiłku
- upoważnia
- umożliwiać
- zachęcać
- wzmacniać
- wzmocnienie
- ulepszenia
- Eter (ETH)
- Każdy
- wszędzie
- przykład
- Przede wszystkim system został opracowany
- rozszerzony
- doświadczenie
- odkryj
- odkrywa
- Exploring
- dużym
- zewnętrzny
- wyciąg
- członków Twojej rodziny
- szybciej
- Cecha
- Korzyści
- Federacja
- informacja zwrotna
- Akta
- Znajdź
- Elastyczność
- Skupiać
- następujący
- W razie zamówieenia projektu
- Nasz formularz
- format
- formacja
- Fundacja
- Podstawowy
- cztery
- od
- pełny
- dalej
- Ponadto
- otrzymać
- Dać
- daje
- Goes
- rządzić
- zarządzanie
- przyznać
- przyznanie
- Zarządzanie
- Grupy
- Rośnie
- miał
- Zaoszczędzić
- Ciężko
- ciężka praca
- Have
- he
- pomoc
- pomoc
- jej
- jego
- Ul
- W jaki sposób
- HTML
- HTTPS
- Hybrydowy
- IAM
- tożsamości
- tożsamość
- zarządzanie tożsamością
- podnieść
- ulepszenia
- in
- włączać
- Zwiększać
- indywidualny
- wprowadzać innowacje
- Wkłady
- spostrzeżenia
- zamiast
- integralny
- zintegrowany
- Integracja
- integracje
- zainteresowany
- wewnętrzny
- najnowszych
- wprowadzono
- zapraszać
- IT
- samo
- Oferty pracy
- przystąpić
- Łączy
- Trzymać
- jezioro
- jezior
- później
- firmy
- uruchomić
- układ
- prowadzić
- UCZYĆ SIĘ
- mniej
- poziom
- lubić
- lubi
- linux
- podstawa linuksa
- Lista
- załadować
- zrobiony
- utrzymać
- konserwacja
- robić
- WYKONUJE
- Dokonywanie
- zarządzanie
- zarządzane
- i konserwacjami
- kierownik
- zarządza
- wiele
- mapa
- mechanizm
- Metadane
- Misja
- Moda
- jeszcze
- przeniesienie
- dużo
- wielokrotność
- Potrzebować
- Nowości
- Nowe funkcje
- nowi użytkownicy
- nowo
- już dziś
- numer
- obiekty
- październik
- of
- on
- Wprowadzenie
- ONE
- koncepcja
- optymalizacja
- Optymalizacja
- Option
- or
- organizacja
- organizacji
- Inne
- ludzkiej,
- na zewnątrz
- koniec
- własny
- część
- wzmacniacz
- wybrukować
- wykonać
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- uprawnienia
- krok po kroku
- plato
- Analiza danych Platona
- PlatoDane
- Proszę
- polityka
- Popularny
- Post
- Wiadomości
- zleceniodawcy
- przywileje
- Produkt
- product manager
- Produkcja
- Produkty
- projektowanie
- propagacja
- niska zabudowa
- dostatni
- zapewniać
- dostawca
- zapewnia
- Wydawniczy
- zapytania
- pytania
- Szybki
- Surowy
- surowe dane
- RE
- realizowany
- zmniejszyć
- odnosić się
- odniesienie
- region
- regiony
- wydany
- usuwa
- Zasób
- Zasoby
- ograniczające
- dalsze
- Efekt
- wyszukiwanie
- przeglądu
- prawo
- Rosnąć
- Rola
- role
- run
- bieganie
- nauka
- Nauka i technika
- Naukowcy
- skrypty
- bezszwowy
- Szukaj
- Sekcja
- bezpieczne
- widzieć
- widzenie
- widziany
- selektywny
- senior
- Bezserwerowe
- serwery
- usługa
- Usługi
- zestaw
- kilka
- Share
- shared
- dzielenie
- ona
- ściąganie
- Prosty
- upraszcza
- upraszczać
- mniejszy
- rozwiązanie
- Rozwiązania
- kilka
- Źródła
- Widmo
- prędkość
- prędkości
- SQL
- statystyka
- przechowywanie
- przechowywany
- historie
- bezpośredni
- usprawniony
- subskrypcja
- taki
- streszczać
- wsparcie
- Utrzymany
- Wspierający
- stół
- TAG
- Mówić
- Rozmowy
- klucze
- Zespoły
- Techniczny
- Technologies
- Technologia
- że
- Połączenia
- ich
- Im
- motyw
- Te
- innych firm
- to
- trzy
- Przez
- czas
- do
- narzędzia
- śledzić
- Przekształcać
- ogromny
- Trendy
- zaufany
- próbować
- SKRĘCAĆ
- Obrócony
- typy
- zazwyczaj
- dla
- zrozumieć
- Aktualizacja
- Nowości
- us
- Stosowanie
- posługiwać się
- Użytkownik
- Użytkownicy
- zastosowania
- za pomocą
- UPRAWOMOCNIĆ
- różnorodny
- początku.
- Zobacz i wysłuchaj
- widoki
- Droga..
- we
- sieć
- usługi internetowe
- Co
- jeśli chodzi o komunikację i motywację
- który
- Podczas
- KIM
- będzie
- w
- bez
- Praca
- pracował
- przepływów pracy
- martwić się
- napisać
- rok
- ty
- Twój
- zefirnet