کارهای ETL خود را برای MongoDB Atlas با چسب AWS بنویسید

کارهای ETL خود را برای MongoDB Atlas با چسب AWS بنویسید

گره منبع: 2634433

در محیط کسب‌وکار مبتنی بر داده‌های امروزی، سازمان‌ها با چالش آماده‌سازی کارآمد و تبدیل مقادیر زیادی از داده‌ها برای اهداف تحلیلی و علم داده مواجه هستند. کسب و کارها باید بر اساس داده های عملیاتی انبارهای داده و دریاچه های داده بسازند. این امر ناشی از نیاز به متمرکز کردن و یکپارچه سازی داده هایی است که از منابع متفاوت به دست می آیند.

در عین حال، داده های عملیاتی اغلب از برنامه های کاربردی پشتیبانی می شوند که توسط فروشگاه های داده قدیمی پشتیبانی می شوند. مدرن کردن برنامه‌ها به یک معماری میکروسرویس نیاز دارد، که به نوبه خود یکپارچه‌سازی داده‌ها از منابع متعدد را برای ایجاد یک ذخیره‌سازی داده عملیاتی ضروری می‌کند. بدون نوسازی، برنامه های کاربردی قدیمی ممکن است هزینه های تعمیر و نگهداری فزاینده ای را متحمل شوند. مدرن سازی برنامه ها شامل تغییر موتور پایگاه داده اساسی به پایگاه داده مبتنی بر سند مدرن مانند MongoDB است.

این دو وظیفه (ساخت دریاچه های داده یا انبارهای داده و نوسازی برنامه ها) شامل جابجایی داده است که از فرآیند استخراج، تبدیل و بارگذاری (ETL) استفاده می کند. شغل ETL یک عملکرد کلیدی برای داشتن یک فرآیند ساختاریافته به منظور موفقیت است.

چسب AWS یک سرویس یکپارچه سازی داده بدون سرور است که کشف، آماده سازی، انتقال و ادغام داده ها از منابع متعدد برای تجزیه و تحلیل، یادگیری ماشین (ML) و توسعه برنامه را آسان می کند. MongoDB اطلس مجموعه ای یکپارچه از پایگاه داده و سرویس های داده ابری است که پردازش تراکنش، جستجوی مبتنی بر ارتباط، تجزیه و تحلیل زمان واقعی و همگام سازی داده های موبایل به ابر را در یک معماری زیبا و یکپارچه ترکیب می کند.

با استفاده از چسب AWS با MongoDB Atlas، سازمان ها می توانند فرآیندهای ETL خود را ساده کنند. MongoDB Atlas با راه حل پایگاه داده کاملاً مدیریت شده، مقیاس پذیر و امن خود، یک محیط قابل انعطاف و قابل اعتماد برای ذخیره و مدیریت داده های عملیاتی فراهم می کند. AWS Glue ETL و MongoDB Atlas با هم راه‌حلی قدرتمند برای سازمان‌هایی هستند که به دنبال بهینه‌سازی نحوه ساخت دریاچه‌های داده و انبارهای داده و مدرن‌سازی برنامه‌های خود هستند تا عملکرد کسب‌وکار را بهبود بخشند، هزینه‌ها را کاهش دهند و رشد و موفقیت را افزایش دهند.

در این پست نحوه انتقال داده ها را نشان می دهیم سرویس ذخیره سازی ساده آمازون (Amazon S3) به MongoDB Atlas با استفاده از AWS Glue ETL و نحوه استخراج داده ها از MongoDB Atlas به دریاچه داده مبتنی بر Amazon S3.

بررسی اجمالی راه حل

در این پست موارد استفاده زیر را بررسی می کنیم:

  • استخراج داده ها از MongoDB – MongoDB یک پایگاه داده محبوب است که توسط هزاران مشتری برای ذخیره داده های برنامه در مقیاس استفاده می شود. مشتریان سازمانی می توانند داده های حاصل از چندین فروشگاه داده را با ساخت دریاچه های داده و انبارهای داده متمرکز و یکپارچه کنند. این فرآیند شامل استخراج داده ها از انبارهای داده عملیاتی است. وقتی داده ها در یک مکان هستند، مشتریان می توانند به سرعت از آن برای نیازهای هوش تجاری یا برای ML استفاده کنند.
  • ورود داده به MongoDB – MongoDB همچنین به عنوان یک پایگاه داده بدون SQL برای ذخیره داده های برنامه کاربردی و ایجاد فروشگاه های داده عملیاتی عمل می کند. نوسازی برنامه‌ها اغلب شامل مهاجرت فروشگاه عملیاتی به MongoDB است. مشتریان باید داده های موجود را از پایگاه داده های رابطه ای یا از فایل های مسطح استخراج کنند. برنامه‌های موبایل و وب اغلب به مهندسان داده نیاز دارند تا خطوط لوله داده را ایجاد کنند تا یک نمای واحد از داده‌ها در Atlas ایجاد کنند و در عین حال داده‌ها را از چندین منبع Siled دریافت کنند. در طول این مهاجرت، آنها باید برای ایجاد اسناد به پایگاه های داده مختلف بپیوندند. این عملیات اتصال پیچیده به توان محاسباتی قابل توجه و یکباره نیاز دارد. توسعه دهندگان همچنین باید این را سریع بسازند تا داده ها را انتقال دهند.

AWS Glue در این موارد با مدل پرداخت به‌موقع و توانایی آن برای اجرای تحولات پیچیده در مجموعه داده‌های عظیم مفید است. توسعه دهندگان می توانند از AWS Glue Studio برای ایجاد کارآمد چنین خطوط لوله داده استفاده کنند.

نمودار زیر گردش کار استخراج داده از MongoDB Atlas را در یک سطل S3 با استفاده از AWS Glue Studio نشان می دهد.

استخراج داده ها از MongoDB Atlas در آمازون S3

برای پیاده سازی این معماری، به یک خوشه MongoDB Atlas، یک سطل S3 و یک هویت AWS و مدیریت دسترسی نقش (IAM) برای چسب AWS. برای پیکربندی این منابع به مراحل پیش نیاز در ادامه مطلب مراجعه کنید GitHub repo.

شکل زیر گردش کار بارگذاری داده را از یک سطل S3 به MongoDB Atlas با استفاده از چسب AWS نشان می‌دهد.

بارگیری داده ها از Amazon S3 در MongoDB Atlas

همین پیش نیازها در اینجا مورد نیاز است: یک سطل S3، نقش IAM و یک خوشه MongoDB Atlas.

با استفاده از چسب AWS داده ها را از Amazon S3 به MongoDB Atlas بارگیری کنید

مراحل زیر نحوه بارگیری داده ها از سطل S3 در MongoDB Atlas را با استفاده از یک کار چسب AWS توضیح می دهد. فرآیند استخراج از MongoDB Atlas به Amazon S3 بسیار شبیه است، به استثنای اسکریپت مورد استفاده. ما تفاوت های بین این دو فرآیند را بیان می کنیم.

  1. یک خوشه رایگان ایجاد کنید در MongoDB Atlas.
  2. بارگذاری کنید نمونه فایل JSON به سطل S3 شما.
  3. یک کار جدید AWS Glue Studio با ویرایشگر اسکریپت Spark گزینه.

رابط کاربری Glue Studio Job Creation

  1. بسته به اینکه آیا می خواهید داده ها را از خوشه MongoDB Atlas بارگیری یا استخراج کنید، وارد کنید بارگذاری اسکریپت or استخراج اسکریپت در ویرایشگر اسکریپت AWS Glue Studio.

تصویر زیر یک قطعه کد برای بارگیری داده ها در خوشه MongoDB Atlas را نشان می دهد.

قطعه کد برای بارگیری داده ها در MongoDB Atlas

کد استفاده می کند مدیر اسرار AWS برای بازیابی نام، نام کاربری و رمز عبور خوشه MongoDB Atlas. سپس، یک را ایجاد می کند DynamicFrame برای سطل S3 و نام فایل به عنوان پارامتر به اسکریپت ارسال می شود. کد پایگاه داده و نام مجموعه را از پیکربندی پارامترهای شغلی بازیابی می کند. در نهایت، کد را می نویسد DynamicFrame به خوشه MongoDB Atlas با استفاده از پارامترهای بازیابی شده.

  1. یک نقش IAM با مجوزهایی که در تصویر زیر نشان داده شده است ایجاد کنید.

برای جزئیات بیشتر ، به مراجعه کنید یک نقش IAM را برای کار ETL خود پیکربندی کنید.

مجوزهای نقش IAM

  1. نامی به کار بدهید و نقش IAM ایجاد شده در مرحله قبل را روی آن قرار دهید جزئیات شغل تب.
  2. همانطور که در تصاویر زیر نشان داده شده است، می توانید بقیه پارامترها را به عنوان پیش فرض بگذارید.
    جزئیات کارجزئیات کار ادامه یافت
  3. در مرحله بعد، پارامترهای شغلی که اسکریپت استفاده می کند را تعریف کنید و مقادیر پیش فرض را ارائه کنید.
    پارامترهای ورودی کار
  4. کار را ذخیره کرده و اجرا کنید.
  5. برای تأیید اجرای موفقیت آمیز، در صورت بارگیری داده ها، محتویات مجموعه پایگاه داده MongoDB Atlas یا اگر در حال استخراج هستید، سطل S3 را مشاهده کنید.

تصویر زیر نتایج بارگذاری موفقیت آمیز داده از سطل آمازون S3 در خوشه MongoDB Atlas را نشان می دهد. داده‌ها اکنون برای درخواست‌ها در MongoDB Atlas UI در دسترس هستند.
داده ها در MongoDB Atlas Cluster بارگذاری شده است

  1. برای عیب‌یابی اجراهای خود، آن را مرور کنید CloudWatch آمازون سیاهههای مربوط با استفاده از پیوند موجود در کار دویدن تب.

اسکرین شات زیر نشان می دهد که کار با موفقیت انجام شد، با جزئیات بیشتری مانند پیوندهایی به گزارش های CloudWatch.

جزئیات اجرای کار موفق

نتیجه

در این پست، نحوه استخراج و جذب داده ها به MongoDB Atlas را با استفاده از چسب AWS توضیح دادیم.

با کارهای AWS Glue ETL، اکنون می‌توانیم داده‌ها را از MongoDB Atlas به منابع سازگار با چسب AWS و بالعکس انتقال دهیم. همچنین می توانید راه حل را برای ساخت تجزیه و تحلیل با استفاده از خدمات AWS AI و ML گسترش دهید.

برای کسب اطلاعات بیشتر به ادامه مطلب مراجعه کنید مخزن GitHub برای دستورالعمل های گام به گام و کد نمونه. می توانید تهیه کنید MongoDB اطلس در AWS Marketplace.


درباره نویسنده

ایگور آلکسیف یک معمار راه حل شریک ارشد در AWS در حوزه داده و تجزیه و تحلیل است. ایگور در نقش خود با شرکای استراتژیک همکاری می کند و به آنها کمک می کند تا معماری های پیچیده و بهینه شده AWS بسازند. قبل از پیوستن به AWS، به‌عنوان معمار داده/راه‌حل، او پروژه‌های زیادی را در حوزه داده‌های بزرگ اجرا کرد، از جمله چندین دریاچه داده در اکوسیستم Hadoop. به عنوان یک مهندس داده، او در استفاده از AI/ML برای کشف تقلب و اتوماسیون اداری شرکت داشت.


بابو سرینیواسان
یک معمار ارشد راه حل های شریک در MongoDB است. در نقش فعلی خود، او در حال کار با AWS برای ایجاد یکپارچگی فنی و معماری مرجع برای راه حل های AWS و MongoDB است. او بیش از دو دهه تجربه در زمینه فناوری های پایگاه داده و ابری دارد. او مشتاق ارائه راه‌حل‌های فنی برای مشتریانی است که با چندین سیستم ادغام‌کننده سیستم جهانی (GSI) در مناطق مختلف جغرافیایی کار می‌کنند.

تمبر زمان:

بیشتر از داده های بزرگ AWS