Semantiline Lakehouse selgitatud

Semantiline Lakehouse selgitatud

Allikasõlm: 1995005

Andmejärvede ja semantilised kihid on olnud juba pikka aega – igaüks elab oma müüriga piiratud aias, mis on tihedalt seotud üsna kitsa kasutusega. Kuna andmete ja analüütika infrastruktuur rändab pilve, on paljudel väljakutse, kuidas need põhilised tehnoloogilised komponendid sobituvad tänapäevasesse andme- ja analüütikavirna. Selles artiklis käsitleme seda, kuidas andmejärvede ja semantiline kiht koos muudavad traditsioonilise suhte andmejärvede ja analüütika infrastruktuuri vahel. Õpime, kuidas semantilist järvehoonet saab oluliselt lihtsustada pilveandmete arhitektuurid, välistage tarbetu andmeliikumine ning vähendate väärtuse loomise aega ja pilvekulusid.

Traditsiooniline andmete ja analüüsi arhitektuur

2006. aastal tutvustas Amazon Amazon Web Services'i (AWS) kui uut võimalust kohapealse andmekeskuse pilve laadimiseks. AWS-i põhiteenus oli selle failiandmete salvestusruum ja sellega sündis esimene pilvandmejärv Amazon S3. Teised pilvemüüjad tutvustavad seejärel oma pilvandmejärve infrastruktuuri versioone.

Suurema osa oma elust on pilvandmejärv mänginud rumala ja odava rolli andmete salvestamine - a matkimine toorandmete ala, kuni andmeid saab millekski kasulikuks töödelda. Analüütika jaoks toimis andmejärv andmete hoidmise pliiatsina, kuni neid sai kopeerida ja laadida optimeeritud analüüsiplatvormile, tavaliselt relatsioonipilve andmelattu, mis toidab kas OLAP-i kuubikuid, ärianalüüsi (BI) tööriista andmeekstrakte, nagu Tableau Hyper või Power BI Premium või kõik ülaltoodud. Selle töötlemismustri tulemusena tuli andmeid salvestada vähemalt kaks korda, üks kord töötlemata kujul ja üks kord analüütika optimeeritud kujul. 

Pole üllatav, et enamik traditsioonilisi pilvanalüütikaarhitektuure näevad välja nagu alloleval diagrammil:

1. pilt: traditsiooniline andmete ja analüüside virn

Nagu näete, vastutab "analüütikaladu" enamiku funktsioonide eest, mis tarbijatele analüütikat edastavad. Selle arhitektuuri probleem on järgmine:

  1. Andmeid salvestatakse kaks korda, mis suurendab kulusid ja muudab töö keerukamaks.
  2. Analüütikalaos olevad andmed on hetktõmmis, mis tähendab, et andmed on kohe aegunud.
  3. Analüütikalaos olevad andmed on tavaliselt andmejärves olevate andmete alamhulk, mis piirab küsimusi, mida tarbijad saavad esitada.
  4. Analüütikaladu mastaabitakse pilvandmeplatvormist eraldi ja erinevalt, mis toob kaasa lisakulud, turvaprobleemid ja toimimise keerukuse.

Arvestades neid puudusi, võite küsida: "Miks pilvandmearhitektid selle kujundusmustri valiksid?" Vastus peitub analüütikatarbijate nõudmistes. Kuigi andmejärv võib teoreetiliselt pakkuda analüütilisi päringuid otse tarbijatele, on andmejärv praktikas liiga aeglane ega ühildu populaarsete analüüsitööriistadega. 

Kui vaid andmejärv suudaks pakkuda analüüsilao eeliseid ja saaksime vältida andmete kahekordset salvestamist!

Data Lakehouse'i sünd

Mõiste "Lakehouse" debüteeris 2020. aastal põhjaliku Databricksi valge raamatuga "Mis on Lakehouse?" autor Ben Lorica, Michael Armbrust, Reynold Xin, Matei Zaharia ja Ali Ghodsi. Autorid tutvustasid ideed, et andmejärv võiks olla analüütika edastamise mootor, mitte ainult staatiline failihoidla.

Data Lakehouse'i müüjad täitsid oma visiooni, võttes kasutusele kiired skaleeritavad päringumootorid, mis töötavad andmejärves olevatel töötlemata andmefailidel ja paljastavad ANSI standardse SQL-liidese. Selle võtmeinnovatsiooniga väidavad selle arhitektuuri pooldajad, et andmejärved võivad käituda nagu analüütikaladu, ilma et oleks vaja andmeid dubleerida.

Siiski selgub, et analüütikaladu täidab muid olulisi funktsioone, mida ainult andmejärve-arhitektuur ei rahulda, sealhulgas:

  1. Mõttekiiruse päringute esitamine (päringud alla 2 sekundiga) järjepidevalt paljude päringute puhul.
  2. Ettevõtlussõbralik semantiline kiht, mis võimaldab tarbijatel esitada küsimusi ilma SQL-i kirjutamata.
  3. Andmehalduse ja turvalisuse rakendamine päringu ajal.

Nii et selleks, et andmejärve analüütikaladu tõeliselt asendaks, vajame midagi muud.

Semantilise kihi roll

Olen palju kirjutanud rollist semantiline kiht kaasaegses andmevirnas. Kokkuvõtteks võib öelda, et semantiline kiht on äriandmete loogiline vaade, mis kasutab andmete virtualiseerimise tehnoloogiat, et tõlkida füüsilised andmed päringu ajal ärisõbralikeks andmeteks. 

Lisades semantilise kihi platvormi andmejärvehoone peale, saame analüüsilao funktsioonid üldse kõrvaldada, kuna semantilise kihi platvorm:

  1. Esitab andmejärve majas "mõtlemise kiiruse päringuid", kasutades andmete virtualiseerimist ja automaatset päringu jõudluse häälestamist.
  2. Pakub ärisõbralikku semantilise kihi, mis asendab igasse BI-tööriista sisseehitatud patenteeritud semantilised vaated ja võimaldab ärikasutajatel esitada küsimusi ilma SQL-päringuid kirjutamata.
  3. Pakub päringu ajal andmete haldamist ja turvalisust.

Semantilise kihi platvorm edastab puuduvad osad, mis andmejärvemajas puuduvad. Kombineerides semantilise kihi andmemajaga, saavad organisatsioonid:

  1. Likvideerige andmete koopiad ja lihtsustage andmekonveierid.
  2. Andmete haldamise ja turvalisuse kindlustamine.
  3. Esitage ärimõõdikute jaoks "üks tõeallikas".
  4. Vähendage toimimise keerukust, hoides andmeid andmejärves.
  5. Andke analüütikatarbijatele juurdepääs rohkematele andmetele ja õigeaegsematele andmetele.
Pilt 2: uus semantilise kihiga Data Lakehouse'i virn 

Semantiline järvemaja: kõik võidavad

Selle arhitektuuriga võidavad kõik. Tarbijad saavad juurdepääsu täpsematele andmetele ilma latentsuseta. IT- ja andmetehnoloogiameeskondadel on teisaldamiseks ja teisendamiseks vähem andmeid. Finance kulutab vähem raha pilve infrastruktuuri kuludele. 

Nagu näete, saavad organisatsioonid semantilise kihi andmemajaga kombineerides lihtsustada oma andme- ja analüüsitoiminguid ning edastada rohkem andmeid kiiremini, suuremale hulgale tarbijatele ja väiksemate kuludega.

Ajatempel:

Veel alates ANDMED