Dimensional Modeling In Amazon Redshift | Amazon Web Services

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़न रेडशिफ्ट एक पूरी तरह से प्रबंधित और पेटाबाइट-स्केल क्लाउड डेटा वेयरहाउस है जिसका उपयोग हजारों ग्राहक अपने एनालिटिक्स कार्यभार को बढ़ाने के लिए हर दिन एक्साबाइट डेटा को संसाधित करने के लिए करते हैं। आप एक आयामी मॉडल का उपयोग करके अपने डेटा की संरचना कर सकते हैं, व्यावसायिक प्रक्रियाओं को माप सकते हैं, और शीघ्रता से मूल्यवान जानकारी प्राप्त कर सकते हैं। अमेज़ॅन रेडशिफ्ट एक आयामी मॉडल से मॉडलिंग, ऑर्केस्ट्रेटिंग और रिपोर्टिंग की प्रक्रिया में तेजी लाने के लिए अंतर्निहित सुविधाएँ प्रदान करता है।

इस पोस्ट में, हम चर्चा करते हैं कि एक आयामी मॉडल को कैसे लागू किया जाए, विशेष रूप से किमबॉल पद्धति. हम अमेज़ॅन रेडशिफ्ट के भीतर कार्यान्वयन आयामों और तथ्यों पर चर्चा करते हैं। हम दिखाते हैं कि एक्सट्रेक्ट, ट्रांसफॉर्म और लोड (ईएलटी) कैसे किया जाता है, यह एक एकीकरण प्रक्रिया है जो मॉडलिंग करने के लिए डेटा लेक से कच्चे डेटा को स्टेजिंग लेयर में प्राप्त करने पर केंद्रित है। कुल मिलाकर, पोस्ट आपको अमेज़ॅन रेडशिफ्ट में आयामी मॉडलिंग का उपयोग करने की स्पष्ट समझ देगा।

समाधान अवलोकन

निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।

निम्नलिखित अनुभागों में, हम पहले आयामी मॉडल के प्रमुख पहलुओं पर चर्चा और प्रदर्शन करते हैं। उसके बाद, हम आयाम और तथ्य तालिकाओं सहित एक आयामी डेटा मॉडल के साथ अमेज़ॅन रेडशिफ्ट का उपयोग करके एक डेटा मार्ट बनाते हैं। का उपयोग करके डेटा लोड और स्टेज किया जाता है कॉपी कमांड, आयामों में डेटा का उपयोग करके लोड किया जाता है मर्ज कथन, और तथ्यों को उन आयामों से जोड़ा जाएगा जहां से अंतर्दृष्टि प्राप्त होती है। हम इसका उपयोग करके आयामों और तथ्यों की लोडिंग शेड्यूल करते हैं अमेज़ॅन रेडशिफ्ट क्वेरी संपादक V2. अंत में, हम उपयोग करते हैं अमेज़न क्विकसाइट क्विकसाइट डैशबोर्ड के रूप में मॉडल किए गए डेटा पर अंतर्दृष्टि प्राप्त करने के लिए।

इस समाधान के लिए, हम इवेंट टिकट बिक्री के लिए अमेज़ॅन रेडशिफ्ट द्वारा प्रदान किए गए नमूना डेटासेट (सामान्यीकृत) का उपयोग करते हैं। इस पोस्ट के लिए, हमने सरलता और प्रदर्शन उद्देश्यों के लिए डेटासेट को सीमित कर दिया है। निम्नलिखित तालिकाएँ टिकट बिक्री और स्थानों के डेटा के उदाहरण दिखाती हैं।

के अनुसार किमबॉल आयामी मॉडलिंग पद्धतिआयामी मॉडल को डिज़ाइन करने में चार प्रमुख चरण होते हैं:

व्यवसाय प्रक्रिया को पहचानें.
अपने डेटा की गंभीरता की घोषणा करें.
आयामों को पहचानें और कार्यान्वित करें।
तथ्यों को पहचानें और उन पर अमल करें.

इसके अतिरिक्त, हम प्रदर्शन उद्देश्यों के लिए पांचवां चरण जोड़ते हैं, जो व्यावसायिक घटनाओं की रिपोर्ट करना और उनका विश्लेषण करना है।

.. पूर्वापेक्षाएँ

इस पूर्वाभ्यास के लिए, आपके पास निम्नलिखित शर्तें होनी चाहिए:

व्यवसाय प्रक्रिया को पहचानें

सरल शब्दों में, व्यवसाय प्रक्रिया की पहचान करना एक मापने योग्य घटना की पहचान करना है जो किसी संगठन के भीतर डेटा उत्पन्न करता है। आमतौर पर, कंपनियों के पास कुछ प्रकार की परिचालन स्रोत प्रणाली होती है जो उनके डेटा को उसके कच्चे प्रारूप में उत्पन्न करती है। व्यावसायिक प्रक्रिया के लिए विभिन्न स्रोतों की पहचान करने के लिए यह एक अच्छा प्रारंभिक बिंदु है।

व्यवसाय प्रक्रिया तब जारी रहती है डेटा मार्ट आयामों और तथ्यों के रूप में. पहले बताए गए हमारे नमूना डेटासेट को देखते हुए, हम स्पष्ट रूप से देख सकते हैं कि व्यावसायिक प्रक्रिया किसी दिए गए इवेंट के लिए की गई बिक्री है।

एक सामान्य गलती किसी कंपनी के विभागों को व्यावसायिक प्रक्रिया के रूप में उपयोग करना है। डेटा (व्यावसायिक प्रक्रिया) को विभिन्न विभागों में एकीकृत करने की आवश्यकता है, इस मामले में, विपणन बिक्री डेटा तक पहुंच सकता है। सही व्यवसाय प्रक्रिया की पहचान करना महत्वपूर्ण है - इस चरण के गलत होने से पूरे डेटा मार्ट पर असर पड़ सकता है (इससे अनाज की नकल हो सकती है और अंतिम रिपोर्ट में गलत मेट्रिक्स हो सकते हैं)।

अपने डेटा की गंभीरता की घोषणा करें

ग्रेन की घोषणा करना आपके डेटा स्रोत में किसी रिकॉर्ड की विशिष्ट पहचान करने का कार्य है। अनाज का उपयोग तथ्य तालिका में डेटा को सटीक रूप से मापने और आपको आगे रोल करने में सक्षम बनाने के लिए किया जाता है। हमारे उदाहरण में, यह बिक्री व्यवसाय प्रक्रिया में एक पंक्ति वस्तु हो सकती है।

हमारे उपयोग के मामले में, बिक्री के समय लेन-देन के समय को देखकर बिक्री को विशिष्ट रूप से पहचाना जा सकता है; यह सर्वाधिक परमाणु स्तर होगा.

आयामों को पहचानें और कार्यान्वित करें

आपकी आयाम तालिका आपकी तथ्य तालिका और उसकी विशेषताओं का वर्णन करती है। अपनी व्यावसायिक प्रक्रिया के वर्णनात्मक संदर्भ की पहचान करते समय, आप तथ्य तालिका को ध्यान में रखते हुए पाठ को एक अलग तालिका में संग्रहीत करते हैं। आयाम तालिका को तथ्य तालिका से जोड़ते समय, तथ्य तालिका से जुड़ी केवल एक पंक्ति होनी चाहिए। हमारे उदाहरण में, हम आयाम तालिका में अलग होने के लिए निम्नलिखित तालिका का उपयोग करते हैं; ये क्षेत्र उन तथ्यों का वर्णन करते हैं जिन्हें हम मापेंगे।

आयामी मॉडल (स्कीमा) की संरचना को डिज़ाइन करते समय, आप या तो बना सकते हैं सितारा or हिमपात का एक खंड स्कीमा. संरचना को व्यवसाय प्रक्रिया के साथ निकटता से संरेखित करना चाहिए; इसलिए, एक स्टार स्कीमा हमारे उदाहरण के लिए सबसे उपयुक्त है। निम्नलिखित आंकड़ा हमारे इकाई संबंध आरेख (ईआरडी) को दर्शाता है।

निम्नलिखित अनुभागों में, हम आयामों को लागू करने के चरणों का विवरण देते हैं।

स्रोत डेटा को चरणबद्ध करें

इससे पहले कि हम आयाम तालिका बना सकें और लोड कर सकें, हमें स्रोत डेटा की आवश्यकता है। इसलिए, हम स्रोत डेटा को स्टेजिंग या अस्थायी तालिका में रखते हैं। इसे अक्सर कहा जाता है मंचन परत, जो स्रोत डेटा की कच्ची प्रतिलिपि है। Amazon Redshift में ऐसा करने के लिए, हम इसका उपयोग करते हैं कॉपी कमांड पर स्थित आयामी-मॉडलिंग-इन-अमेज़ॅन-रेडशिफ्ट सार्वजनिक S3 बाल्टी से डेटा लोड करने के लिए us-east-1 क्षेत्र। ध्यान दें कि COPY कमांड एक का उपयोग करता है AWS पहचान और अभिगम प्रबंधन (IAM) के साथ भूमिका अमेज़न S3 तक पहुंच. भूमिका होनी चाहिए क्लस्टर से संबद्ध. स्रोत डेटा को चरणबद्ध करने के लिए निम्नलिखित चरणों को पूरा करें:

बनाएं venue स्रोत तालिका:

CREATE TABLE public.venue ( venueid bigint, venuename character varying(100), venuecity character varying(30), venuestate character(2), venueseats bigint
) DISTSTYLE AUTO SORTKEY (venueid);

स्थल डेटा लोड करें:

COPY public.venue
FROM 's3://redshift-blogs/dimensional-modeling-in-amazon-redshift/venue.csv'
IAM_ROLE '<Your IAM role arn>'
DELIMITER ','
REGION 'us-east-1'
IGNOREHEADER 1

बनाएं sales स्रोत तालिका:

CREATE TABLE public.sales (
    salesid integer,
    venueid character varying(256),
    saletime timestamp without time zone,
    qtysold BIGINT,
    commission numeric(18,2),
    pricepaid numeric(18,2)
) DISTSTYLE AUTO;

बिक्री स्रोत डेटा लोड करें:

COPY public.sales
FROM 's3://redshift-blogs/dimensional-modeling-in-amazon-redshift/sales.csv'
IAM_ROLE '<Your IAM role arn>'
DELIMITER ','
REGION 'us-east-1'
IGNOREHEADER 1

बनाएं calendar तालिका:

CREATE TABLE public.DimCalendar(
    dateid smallint,
        caldate date,
        day varchar(20),
        week smallint,
        month varchar(20),
        qtr varchar(20),
        year smallint,
        holiday boolean
) DISTSTYLE AUTO
SORTKEY
    (dateid);

कैलेंडर डेटा लोड करें:

COPY public.DimCalendar
FROM 's3://redshift-blogs/dimensional-modeling-in-amazon-redshift/date.csv'
IAM_ROLE '<Your IAM role arn>'
DELIMITER ',' 
REGION 'us-east-1'
IGNOREHEADER 1

आयाम तालिका बनाएं

आयाम तालिका को डिज़ाइन करना आपकी व्यावसायिक आवश्यकता पर निर्भर हो सकता है—उदाहरण के लिए, क्या आपको समय के साथ डेटा में परिवर्तनों को ट्रैक करने की आवश्यकता है? वहाँ हैं सात विभिन्न आयाम प्रकार. हमारे उदाहरण के लिए, हम उपयोग करते हैं प्रकार 1 क्योंकि हमें ऐतिहासिक परिवर्तनों पर नज़र रखने की आवश्यकता नहीं है। टाइप 2 के बारे में अधिक जानकारी के लिए देखें Amazon Redshift में टाइप 2 में धीरे-धीरे बदलते आयामों में डेटा लोड करना आसान बनाएं. तालिका में परिवर्तन दर्शाने के लिए आयाम तालिका को प्राथमिक कुंजी, सरोगेट कुंजी और कुछ अतिरिक्त फ़ील्ड के साथ असामान्य किया जाएगा। निम्नलिखित कोड देखें:

create schema SalesMart;

CREATE TABLE SalesMart.DimVenue( 
    "VenueSkey" int IDENTITY(1,1) primary key
    ,"VenueId" VARCHAR NOT NULL
    ,"VenueName" VARCHAR NULL
    ,"VenueCity" VARCHAR NULL
    ,"VenueState" VARCHAR NULL
    ,"VenueSeats" INT NULL
    ,"InsertedDate" DATETIME NOT NULL
    ,"UpdatedDate" DATETIME NOT NULL
) 
diststyle AUTO;

आयाम तालिका निर्माण पर कुछ नोट्स:

फ़ील्ड नाम व्यवसाय-अनुकूल नामों में बदल जाते हैं
हमारी प्राथमिक कुंजी है VenueID, जिसका उपयोग हम विशिष्ट रूप से उस स्थान की पहचान करने के लिए करते हैं जहां बिक्री हुई थी
दो अतिरिक्त पंक्तियाँ जोड़ी जाएंगी, जो यह बताएंगी कि रिकॉर्ड कब डाला और अपडेट किया गया था (परिवर्तनों को ट्रैक करने के लिए)
हम एक का उपयोग कर रहे हैं ऑटो वितरण शैली अमेज़ॅन रेडशिफ्ट को वितरण शैली चुनने और समायोजित करने की ज़िम्मेदारी देना

आयामी मॉडलिंग में विचार करने के लिए एक अन्य महत्वपूर्ण कारक का उपयोग है सरोगेट कुंजियाँ. सरोगेट कुंजी कृत्रिम कुंजी हैं जिनका उपयोग आयाम तालिका में प्रत्येक रिकॉर्ड को विशिष्ट रूप से पहचानने के लिए आयामी मॉडलिंग में किया जाता है। वे आम तौर पर अनुक्रमिक पूर्णांक के रूप में उत्पन्न होते हैं, और व्यावसायिक क्षेत्र में उनका कोई अर्थ नहीं होता है। वे कई लाभ प्रदान करते हैं, जैसे विशिष्टता सुनिश्चित करना और जोड़ों में प्रदर्शन में सुधार करना, क्योंकि वे आम तौर पर प्राकृतिक कुंजी से छोटे होते हैं और सरोगेट कुंजी के रूप में वे समय के साथ नहीं बदलते हैं। यह हमें सुसंगत रहने और तथ्यों और आयामों को अधिक आसानी से जोड़ने की अनुमति देता है।

अमेज़ॅन रेडशिफ्ट में, सरोगेट कुंजियाँ आमतौर पर पहचान कीवर्ड का उपयोग करके बनाई जाती हैं। उदाहरण के लिए, पूर्ववर्ती CREATE कथन a के साथ एक आयाम तालिका बनाता है VenueSkey सरोगेट कुंजी। VenueSkey जैसे ही तालिका में नई पंक्तियाँ जोड़ी जाती हैं, कॉलम स्वचालित रूप से अद्वितीय मानों से भर जाता है। फिर इस कॉलम का उपयोग आयोजन स्थल तालिका से जुड़ने के लिए किया जा सकता है FactSaleTransactions तालिका.

सरोगेट कुंजियाँ डिज़ाइन करने के लिए कुछ सुझाव:

सरोगेट कुंजी के लिए एक छोटे, निश्चित-चौड़ाई वाले डेटा प्रकार का उपयोग करें। इससे प्रदर्शन में सुधार होगा और भंडारण स्थान कम होगा।
पहचान कीवर्ड का उपयोग करें, या अनुक्रमिक या GUID मान का उपयोग करके सरोगेट कुंजी उत्पन्न करें। इससे यह सुनिश्चित हो जाएगा कि सरोगेट कुंजी अद्वितीय है और इसे बदला नहीं जा सकता।

MERGE का उपयोग करके मंद तालिका लोड करें

आपकी डिम टेबल को लोड करने के कई तरीके हैं। कुछ कारकों पर विचार करने की आवश्यकता है - उदाहरण के लिए, प्रदर्शन, डेटा मात्रा और शायद SLA लोडिंग समय। साथ मर्ज स्टेटमेंट में, हम एकाधिक इंसर्ट और अपडेट कमांड निर्दिष्ट करने की आवश्यकता के बिना एक अप्सर्ट निष्पादित करते हैं। आप सेट कर सकते हैं मर्ज एक में बयान संग्रहीत प्रक्रिया डेटा पॉप्युलेट करने के लिए. फिर आप संग्रहीत प्रक्रिया को क्वेरी संपादक के माध्यम से प्रोग्रामेटिक रूप से चलाने के लिए शेड्यूल करते हैं, जिसे हम बाद में पोस्ट में प्रदर्शित करते हैं। निम्नलिखित कोड एक संग्रहित प्रक्रिया बनाता है जिसे कहा जाता है SalesMart.DimVenueLoad:

CREATE OR REPLACE PROCEDURE SalesMart.DimVenueLoad()
AS $$
BEGIN
MERGE INTO SalesMart.DimVenue USING public.venue as MergeSource
ON SalesMart.DimVenue.VenueId = MergeSource.VenueId
WHEN MATCHED
THEN
UPDATE
SET VenueName = ISNULL(MergeSource.VenueName, 'Unknown')
, VenueCity = ISNULL(MergeSource.VenueCity, 'Unknown')
, VenueState = ISNULL(MergeSource.VenueState, 'Unknown')
, VenueSeats = ISNULL(MergeSource.VenueSeats, -1)
, UpdatedDate = GETDATE()
WHEN NOT MATCHED
THEN
INSERT (
VenueId
, VenueName
, VenueCity
, VenueState
, VenueSeats
, UpdatedDate
, InsertedDate
)
VALUES (
ISNULL(MergeSource.VenueId, -1)
, ISNULL(MergeSource.VenueName, 'Unknown')
, ISNULL(MergeSource.VenueCity, 'Unknown')
, ISNULL(MergeSource.VenueState, 'Unknown')
, ISNULL(MergeSource.VenueSeats, -1)
, ISNULL(GETDATE() , '1900-01-01')
, ISNULL(GETDATE() , '1900-01-01')
);
END;
$$
LANGUAGE plpgsql;

आयाम लोडिंग पर कुछ नोट्स:

जब कोई रिकॉर्ड पहली बार डाला जाता है, तो डाली गई तारीख और अद्यतन तारीख पॉप्युलेट हो जाएगी। जब कोई मान बदलता है, तो डेटा अपडेट किया जाता है और अपडेट की गई तारीख उस तारीख को दर्शाती है जब इसे बदला गया था। प्रविष्ट तिथि शेष है.
क्योंकि डेटा का उपयोग व्यावसायिक उपयोगकर्ताओं द्वारा किया जाएगा, हमें NULL मान, यदि कोई हो, को अधिक व्यवसाय-उपयुक्त मानों से बदलने की आवश्यकता है।

तथ्यों को पहचानें और उन पर अमल करें

अब जब हमने अपने अनाज को एक विशिष्ट समय पर हुई बिक्री की घटना घोषित कर दिया है, तो हमारी तथ्य तालिका हमारी व्यावसायिक प्रक्रिया के लिए संख्यात्मक तथ्यों को संग्रहीत करेगी।

हमने मापने के लिए निम्नलिखित संख्यात्मक तथ्यों की पहचान की है:

प्रति बिक्री बेचे गए टिकटों की मात्रा
बिक्री के लिए कमीशन

तथ्य को क्रियान्वित करना

वहां तीन प्रकार की तथ्य तालिकाएँ (लेन-देन तथ्य तालिका, आवधिक स्नैपशॉट तथ्य तालिका, और संचित स्नैपशॉट तथ्य तालिका)। प्रत्येक व्यवसाय प्रक्रिया का एक अलग दृष्टिकोण पेश करता है। हमारे उदाहरण के लिए, हम लेनदेन तथ्य तालिका का उपयोग करते हैं। निम्नलिखित चरणों को पूरा करें:

तथ्य तालिका बनाएं

CREATE TABLE SalesMart.FactSaleTransactions( 
    CalendarDate date NOT NULL
    ,SaleTransactionTime DATETIME NOT NULL
    ,VenueSkey INT NOT NULL
    ,QuantitySold BIGINT NOT NULL
    ,SaleComission NUMERIC NOT NULL
    ,InsertedDate DATETIME DEFAULT GETDATE()
) diststyle AUTO;

डिफ़ॉल्ट मान के साथ एक सम्मिलित तिथि जोड़ी जाती है, जो यह दर्शाती है कि रिकॉर्ड कब और कब लोड किया गया था। डुप्लिकेट से बचने के लिए पहले से लोड किए गए डेटा को हटाने के लिए तथ्य तालिका को पुनः लोड करते समय आप इसका उपयोग कर सकते हैं।

तथ्य तालिका को लोड करने में आपके संबंधित आयामों को जोड़ने वाला एक सरल सम्मिलित विवरण शामिल होता है। हम से जुड़ते हैं DimVenue तालिका बनाई गई, जो हमारे तथ्यों का वर्णन करती है। यह सर्वोत्तम अभ्यास है लेकिन इसे रखना वैकल्पिक है कैलेंडर तिथि आयाम, जो अंतिम-उपयोगकर्ता को तथ्य तालिका को नेविगेट करने की अनुमति देते हैं। डेटा या तो नई बिक्री होने पर लोड किया जा सकता है, या दैनिक; यहीं पर सम्मिलित तिथि या लोड तिथि काम आती है।

हम संग्रहीत प्रक्रिया का उपयोग करके तथ्य तालिका लोड करते हैं और दिनांक पैरामीटर का उपयोग करते हैं।

निम्नलिखित कोड के साथ संग्रहीत प्रक्रिया बनाएँ। उसी डेटा अखंडता को बनाए रखने के लिए जिसे हमने आयाम लोड में लागू किया था, हम NULL मान, यदि कोई हो, को अधिक व्यावसायिक उपयुक्त मानों से प्रतिस्थापित करते हैं:

create or replace procedure SalesMart.FactSaleTransactionsLoad(loadate datetime)
language plpgsql
as
    $$
begin
--------------------------------------------------------------------
/*** Delete records loaded for the day, should there be any ***/
--------------------------------------------------------------------
Delete from SalesMart.FactSaleTransactions
where cast(InsertedDate as date) = CAST(loadate as date);
RAISE INFO 'Deleted rows for load date: %', loadate;
--------------------------------------------------------------------
/*** Insert records ***/
--------------------------------------------------------------------
INSERT INTO SalesMart.FactSaleTransactions (
CalendarDate    
,SaleTransactionTime    
,VenueSkey  
,QuantitySold  
,Salecomission
)
SELECT DISTINCT
    ISNULL(c.caldate, '1900-01-01') as CalendarDate
    ,ISNULL(a.saletime, '1900-01-01') as SaleTransactionTime
    ,ISNULL(b.VenueSkey, -1) as VenueSkey
    ,ISNULL(a.qtysold, 0) as QuantitySold
    ,ISNULL(a.commission, 0) as SaleComission
FROM
    public.sales as a
 
LEFT JOIN SalesMart.DimVenue as b
on a.venueid = b.venueid
 
LEFT JOIN public.DimCalendar as c
on to_char(a.saletime,'YYYYMMDD') = to_char(c.caldate,'YYYYMMDD');
--Optional filter, should you want to load only the latest data from source
--where cast(a.saletime as date) = cast(loadate as date);
  
end;
$$;

निम्न आदेश के साथ प्रक्रिया को कॉल करके डेटा लोड करें:

call SalesMart.FactSaleTransactionsLoad(getdate())

डेटा लोड शेड्यूल करें

अब हम अमेज़ॅन रेडशिफ्ट क्वेरी एडिटर V2 में संग्रहीत प्रक्रियाओं को शेड्यूल करके मॉडलिंग प्रक्रिया को स्वचालित कर सकते हैं। निम्नलिखित चरणों को पूरा करें:

हम पहले आयाम लोड को कॉल करते हैं और आयाम लोड सफलतापूर्वक चलने के बाद, तथ्य लोड शुरू होता है:

BEGIN;
----Insert Dim Loads
call SalesMart.DimVenueLoad(); ----Insert Fact Loads. They will only run if the DimLoad is successful
call SalesMart.FactSaleTransactionsLoad(getdate());
END;

यदि आयाम लोड विफल हो जाता है, तो तथ्य लोड नहीं चलेगा। यह डेटा में एकरूपता सुनिश्चित करता है क्योंकि हम तथ्य तालिका को पुराने आयामों के साथ लोड नहीं करना चाहते हैं।

लोड शेड्यूल करने के लिए, चुनें अनुसूची क्वेरी संपादक V2 में।

हम क्वेरी को प्रतिदिन सुबह 5:00 बजे चलाने के लिए शेड्यूल करते हैं।
वैकल्पिक रूप से, आप सक्षम करके विफलता सूचनाएं जोड़ सकते हैं अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस) सूचनाएं।

Amazon Quicksight में डेटा की रिपोर्ट करें और उसका विश्लेषण करें

क्विकसाइट एक व्यावसायिक खुफिया सेवा है जो अंतर्दृष्टि प्रदान करना आसान बनाती है। पूरी तरह से प्रबंधित सेवा के रूप में, क्विकसाइट आपको आसानी से इंटरैक्टिव डैशबोर्ड बनाने और प्रकाशित करने की सुविधा देता है जिसे किसी भी डिवाइस से एक्सेस किया जा सकता है और आपके एप्लिकेशन, पोर्टल और वेबसाइटों में एम्बेड किया जा सकता है।

हम तथ्यों को डैशबोर्ड के रूप में दृश्य रूप से प्रस्तुत करने के लिए अपने डेटा मार्ट का उपयोग करते हैं। आरंभ करने और क्विकसाइट सेट करने के लिए, देखें ऐसे डेटाबेस का उपयोग करके डेटासेट बनाना जो स्वतः खोजा न गया हो.

आपके द्वारा क्विकसाइट में अपना डेटा स्रोत बनाने के बाद, हम अपनी सरोगेट कुंजी के आधार पर मॉडल किए गए डेटा (डेटा मार्ट) को एक साथ जोड़ते हैं skey. हम डेटा मार्ट की कल्पना करने के लिए इस डेटासेट का उपयोग करते हैं।

हमारे अंतिम डैशबोर्ड में डेटा मार्ट की अंतर्दृष्टि शामिल होगी और महत्वपूर्ण व्यावसायिक प्रश्नों का उत्तर दिया जाएगा, जैसे प्रति स्थान कुल कमीशन और उच्चतम बिक्री वाली तिथियां। निम्नलिखित स्क्रीनशॉट डेटा मार्ट का अंतिम उत्पाद दिखाता है।

क्लीन अप

भविष्य में शुल्क लगने से बचने के लिए, इस पोस्ट के हिस्से के रूप में आपके द्वारा बनाए गए किसी भी संसाधन को हटा दें।

निष्कर्ष

हमने अब अपने का उपयोग करके डेटा मार्ट को सफलतापूर्वक कार्यान्वित किया है DimVenue, DimCalendar, तथा FactSaleTransactions टेबल. हमारा गोदाम पूरा नहीं है; चूँकि हम अधिक तथ्यों के साथ डेटा मार्ट का विस्तार कर सकते हैं और अधिक मार्ट लागू कर सकते हैं, और जैसे-जैसे समय के साथ व्यावसायिक प्रक्रिया और आवश्यकताएँ बढ़ती हैं, वैसे-वैसे डेटा वेयरहाउस भी बढ़ेगा। इस पोस्ट में, हमने अमेज़ॅन रेडशिफ्ट में आयामी मॉडलिंग को समझने और लागू करने पर एक संपूर्ण दृष्टिकोण दिया।

अपने साथ आरंभ करें अमेज़न रेडशिफ्ट आयामी मॉडल आज.

लेखक के बारे में

बर्नार्ड वेस्टर स्केलेबल और कुशल डेटा मॉडल बनाने, डेटा एकीकरण रणनीतियों को परिभाषित करने और डेटा प्रशासन और सुरक्षा सुनिश्चित करने में वर्षों के अनुभव के साथ एक अनुभवी क्लाउड इंजीनियर है। व्यावसायिक आवश्यकताओं और उद्देश्यों के साथ तालमेल बिठाते हुए, अंतर्दृष्टि बढ़ाने के लिए डेटा का उपयोग करने का उन्हें शौक है।

अभिषेक पान एक WWSO विशेषज्ञ SA-एनालिटिक्स है जो AWS भारत के सार्वजनिक क्षेत्र के ग्राहकों के साथ काम करता है। वह डेटा-संचालित रणनीति को परिभाषित करने, एनालिटिक्स उपयोग के मामलों पर गहन गहन सत्र प्रदान करने और स्केलेबल और निष्पादन योग्य विश्लेषणात्मक अनुप्रयोगों को डिजाइन करने के लिए ग्राहकों के साथ जुड़ता है। उनके पास 12 साल का अनुभव है और उन्हें डेटाबेस, एनालिटिक्स और एआई/एमएल का शौक है। वह एक शौकीन यात्री है और अपने कैमरे के लेंस के माध्यम से दुनिया को कैद करने की कोशिश करता है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/big-data/dimensional-modeling-in-amazon-redshift/

समय टिकट: जुलाई 19, 2023

समय टिकट: फ़रवरी 8, 2023

अमेज़न रेडशिफ्ट में आयामी मॉडलिंग | अमेज़न वेब सेवाएँ

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

.. पूर्वापेक्षाएँ

व्यवसाय प्रक्रिया को पहचानें

अपने डेटा की गंभीरता की घोषणा करें

आयामों को पहचानें और कार्यान्वित करें

स्रोत डेटा को चरणबद्ध करें

आयाम तालिका बनाएं

MERGE का उपयोग करके मंद तालिका लोड करें

तथ्यों को पहचानें और उन पर अमल करें

तथ्य को क्रियान्वित करना

डेटा लोड शेड्यूल करें

Amazon Quicksight में डेटा की रिपोर्ट करें और उसका विश्लेषण करें

क्लीन अप

निष्कर्ष

लेखक के बारे में

से अधिक एडब्ल्यूएस बिग डेटा

एक ओपन-सोर्स JDBC कनेक्टर का उपयोग करके Amazon MSK Connect के साथ डेटा स्ट्रीम करें अमेज़न वेब सेवाएँ

AWS ग्लू क्रॉलर के साथ अपाचे हुडी समर्थन का परिचय | अमेज़न वेब सेवाएँ

एडब्ल्यूएस गोंद का उपयोग कर प्रक्रिया मूल्य पारदर्शिता डेटा

ओपन-सोर्स आइडेंटिटी प्रोवाइडर Keycloak | के साथ फेडरेट Amazon QuickSight एक्सेस अमेज़न वेब सेवाएँ

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा