The Semantic Lakehouse Explained - Plato AiStream V2.1

Ponovno objavil Platon

Spremljevalci: 0

Podatkovna jezera in pomenske plasti obstajajo že dolgo – vsak živi v svojih obzidanih vrtovih, tesno povezanih z dokaj ozkimi primeri uporabe. Ko se podatkovna in analitična infrastruktura seli v oblak, se mnogi sprašujejo, kako se te temeljne tehnološke komponente prilegajo sodobnemu podatkovnemu in analitičnemu skladu. V tem članku se bomo poglobili v to, kako podatkovno jezero in semantična plast skupaj spreminjata tradicionalno razmerje med podatkovnimi jezeri in analitično infrastrukturo. Naučili se bomo, kako lahko semantično jezersko hišo dramatično poenostavimo podatkovne arhitekture v oblaku, odpravite nepotrebno premikanje podatkov ter zmanjšate čas do vrednosti in stroške oblaka.

Tradicionalna arhitektura podatkov in analitike

Leta 2006 je Amazon predstavil Amazon Web Services (AWS) kot nov način za prenos podatkovnega centra na mestu uporabe v oblak. Osrednja storitev AWS je bila njegova shramba podatkov datotek in s tem se je rodilo prvo podatkovno jezero v oblaku, Amazon S3. Drugi ponudniki oblakov bi nato predstavili svoje različice infrastrukture podatkovnega jezera v oblaku.

Podatkovno jezero v oblaku je bilo večino svojega življenja prepuščeno v vlogo neumnega, poceni shranjevanje podatkov - a uprizoritev območje za neobdelane podatke, dokler podatkov ni mogoče obdelati v nekaj uporabnega. Za analitiko je podatkovno jezero služilo kot zadrževalno pero za podatke, dokler jih ni bilo mogoče kopirati in naložiti v optimizirano analitično platformo, običajno relacijsko skladišče podatkov v oblaku, ki hrani kocke OLAP, lastniške izvlečke podatkov orodij za poslovno inteligenco (BI), kot je Tableau Hyper ali Power BI Premium ali vse našteto. Zaradi tega vzorca obdelave je bilo treba podatke shraniti vsaj dvakrat, enkrat v surovi obliki in enkrat v »analitično optimizirani« obliki.

Ni presenetljivo, da večina tradicionalnih arhitektur analitike v oblaku izgleda kot spodnji diagram:

*Slika 1: Tradicionalni sklad podatkov in analitike*

Kot lahko vidite, je »skladišče analitike« odgovorno za večino funkcij, ki zagotavljajo analitiko potrošnikom. Težava s to arhitekturo je naslednja:

Podatki se shranjujejo dvakrat, kar povečuje stroške in ustvarja zapletenost delovanja.
Podatki v analitičnem skladišču so posnetek, kar pomeni, da so podatki takoj zastareli.
Podatki v analitičnem skladišču so običajno podmnožica podatkov v podatkovnem jezeru, kar omejuje vprašanja, ki jih lahko postavljajo potrošniki.
Skladišče analitike se meri ločeno in drugače od podatkovne platforme v oblaku, kar uvaja dodatne stroške, skrbi glede varnosti in zapletenost delovanja.

Glede na te pomanjkljivosti se lahko vprašate: "Zakaj bi arhitekti podatkov v oblaku izbrali ta oblikovalski vzorec?" Odgovor se skriva v zahtevah uporabnikov analitike. Medtem ko bi lahko podatkovno jezero teoretično streglo analitične poizvedbe neposredno potrošnikom, je v praksi podatkovno jezero prepočasno in nezdružljivo s priljubljenimi orodji za analitiko.

Ko bi le lahko podatkovno jezero zagotovilo prednosti analitičnega skladišča in bi se lahko izognili dvakratnemu shranjevanju podatkov!

Rojstvo Data Lakehousea

Izraz »Jezerna hiša« je bil predstavljen leta 2020 s temeljno belo knjigo Databricks "Kaj je Lakehouse?" avtorji Ben Lorica, Michael Armbrust, Reynold Xin, Matei Zaharia in Ali Ghodsi. Avtorji so predstavili idejo, da bi podatkovno jezero lahko služilo kot motor za zagotavljanje analitike, ne le kot shramba statičnih datotek.

Prodajalci podatkovnih jezer so uresničili svojo vizijo z uvedbo hitrih, razširljivih poizvedovalnih mehanizmov, ki delujejo na neobdelanih podatkovnih datotekah v podatkovnem jezeru in izpostavljajo standard ANSI vmesnik SQL. S to ključno novostjo zagovorniki te arhitekture trdijo, da se podatkovna jezera lahko obnašajo kot analitično skladišče, brez potrebe po podvajanju podatkov.

Izkazalo pa se je, da analitično skladišče opravlja druge vitalne funkcije, ki jih ne izpolnjuje samo arhitektura podatkovnega jezera, vključno z:

Zagotavljanje poizvedb »hitrost misli« (poizvedbe v manj kot 2 sekundah) dosledno v širokem obsegu poizvedb.
Predstavitev poslovno prijazne semantične plasti, ki potrošnikom omogoča postavljanje vprašanj, ne da bi jim bilo treba pisati SQL.
Uporaba upravljanja in varnosti podatkov v času poizvedbe.

Torej, da bi podatkovno jezero resnično nadomestilo analitično skladišče, potrebujemo nekaj drugega.

Vloga pomenske plasti

Veliko sem pisal o vlogi pomenska plast v sodobnem skladu podatkov. Če povzamem, semantična plast je logičen pogled na poslovne podatke, ki izkorišča tehnologijo virtualizacije podatkov za prevajanje fizičnih podatkov v poslovno prijazne podatke v času poizvedbe.

Z dodajanjem platforme semantičnega sloja na vrh podatkovnega jezera lahko v celoti odpravimo funkcije analitičnega skladišča, ker platforma semantičnega sloja:

Zagotavlja »hitrost miselnih poizvedb« v podatkovnem jezeru z uporabo virtualizacije podatkov in samodejnega prilagajanja zmogljivosti poizvedb.
Zagotavlja poslovno prijazno semantično plast, ki nadomešča lastniške semantične poglede, ki so vdelani v vsako orodje BI, in omogoča poslovnim uporabnikom, da postavljajo vprašanja, ne da bi morali pisati poizvedbe SQL.
Zagotavlja upravljanje podatkov in varnost v času poizvedbe.

Platforma semantične plasti zagotavlja manjkajoče dele, ki manjkajo v podatkovnem jezeru. Z združitvijo semantične plasti s podatkovnim jezerom lahko organizacije:

Odpravite kopije podatkov in poenostavite podatkovne cevovode.
Konsolidirajte upravljanje in varnost podatkov.
Zagotovite "en sam vir resnice" za poslovne meritve.
Zmanjšajte operativno kompleksnost tako, da podatke hranite v podatkovnem jezeru.
Uporabnikom analitike omogočite dostop do več podatkov in bolj pravočasnih podatkov.

*Slika 2: Nov sklad Data Lakehouse s semantično plastjo*

Semantic Lakehouse: Vsi zmagajo

S to arhitekturo zmagajo vsi. Potrošniki dobijo dostop do natančnejših podatkov brez zamud. Ekipe IT in podatkovnega inženiringa imajo manj podatkov za premikanje in preoblikovanje. Finance porabijo manj denarja za stroške infrastrukture v oblaku.

Kot lahko vidite, lahko organizacije s kombiniranjem semantične plasti s podatkovnim jezerom poenostavijo svoje podatke in analitične operacije ter dostavijo več podatkov, hitreje, več potrošnikom, z nižjimi stroški.