AWS Glue ile MongoDB Atlas için ETL işlerinizi oluşturun

AWS Glue ile MongoDB Atlas için ETL işlerinizi oluşturun

Kaynak Düğüm: 2634433

Günümüzün veri odaklı iş ortamında kuruluşlar, analitik ve veri bilimi amaçları için büyük miktarda veriyi verimli bir şekilde hazırlama ve dönüştürme zorluğuyla karşı karşıyadır. İşletmelerin, operasyonel verilere dayalı olarak veri ambarları ve veri gölleri oluşturması gerekir. Bu, farklı kaynaklardan gelen verileri merkezileştirme ve entegre etme ihtiyacından kaynaklanmaktadır.

Aynı zamanda, operasyonel veriler genellikle eski veri depoları tarafından desteklenen uygulamalardan kaynaklanır. Uygulamaların modernleştirilmesi, bir operasyonel veri deposu oluşturmak için birden çok kaynaktan gelen verilerin birleştirilmesini gerektiren bir mikro hizmet mimarisi gerektirir. Modernizasyon olmadan, eski uygulamalar artan bakım maliyetlerine neden olabilir. Uygulamaların modernleştirilmesi, temeldeki veritabanı motorunun MongoDB gibi modern bir belge tabanlı veritabanına dönüştürülmesini içerir.

Bu iki görev (veri gölleri veya veri ambarları oluşturma ve uygulama modernizasyonu), ayıklama, dönüştürme ve yükleme (ETL) sürecini kullanan veri hareketini içerir. ETL işi, başarılı olmak için iyi yapılandırılmış bir sürece sahip olmanın temel işlevidir.

AWS Tutkal analitik, makine öğrenimi (ML) ve uygulama geliştirme için birden çok kaynaktan veri keşfetmeyi, hazırlamayı, taşımayı ve entegre etmeyi kolaylaştıran sunucusuz bir veri tümleştirme hizmetidir. MongoDB Atlası zarif ve entegre bir mimaride işlemsel işleme, alaka tabanlı arama, gerçek zamanlı analitik ve mobilden buluta veri senkronizasyonunu birleştiren entegre bir bulut veritabanı ve veri hizmetleri paketidir.

Kuruluşlar, AWS Glue'u MongoDB Atlas ile kullanarak ETL süreçlerini kolaylaştırabilir. Tamamen yönetilen, ölçeklenebilir ve güvenli veritabanı çözümü ile MongoDB Atlas, operasyonel verileri depolamak ve yönetmek için esnek ve güvenilir bir ortam sağlar. AWS Glue ETL ve MongoDB Atlas birlikte, veri göllerini ve veri ambarlarını oluşturma yöntemlerini optimize etmek ve uygulamalarını modernize etmek, iş performansını iyileştirmek, maliyetleri azaltmak, büyümeyi ve başarıyı artırmak isteyen kuruluşlar için güçlü bir çözümdür.

Bu gönderide, verilerin nasıl taşınacağını gösteriyoruz. Amazon Basit Depolama Hizmeti AWS Glue ETL kullanarak MongoDB Atlas'a (Amazon S3) kovaları ve MongoDB Atlas'tan Amazon S3 tabanlı bir veri gölüne nasıl veri çıkarılacağı.

Çözüme genel bakış

Bu gönderide, aşağıdaki kullanım durumlarını inceliyoruz:

  • MongoDB'den veri çıkarma – MongoDB, binlerce müşteri tarafından uygulama verilerini uygun ölçekte depolamak için kullanılan popüler bir veritabanıdır. Kurumsal müşteriler, veri gölleri ve veri ambarları oluşturarak birden çok veri deposundan gelen verileri merkezileştirebilir ve entegre edebilir. Bu süreç, operasyonel veri depolarından veri çıkarmayı içerir. Veriler tek bir yerde olduğunda, müşteriler bunu iş zekası ihtiyaçları veya makine öğrenimi için hızla kullanabilir.
  • Verileri MongoDB'ye alma – MongoDB ayrıca uygulama verilerini depolamak ve operasyonel veri depoları oluşturmak için SQL olmayan bir veritabanı görevi görür. Uygulamaların modernleştirilmesi genellikle operasyonel mağazanın MongoDB'ye taşınmasını içerir. Müşterilerin ilişkisel veritabanlarından veya düz dosyalardan mevcut verileri çıkarması gerekir. Mobil uygulamalar ve web uygulamaları genellikle veri mühendislerinin birden fazla silolanmış kaynaktan veri alırken Atlas'ta tek bir veri görünümü oluşturmak için veri ardışık düzenleri oluşturmasını gerektirir. Bu geçiş sırasında, belge oluşturmak için farklı veritabanlarına katılmaları gerekir. Bu karmaşık birleştirme işlemi, önemli ölçüde, tek seferlik bilgi işlem gücüne ihtiyaç duyacaktır. Geliştiricilerin ayrıca verileri taşımak için bunu hızlı bir şekilde oluşturması gerekir.

AWS Glue, kullandıkça öde modeli ve devasa veri kümelerinde karmaşık dönüşümleri çalıştırma becerisiyle bu durumlarda kullanışlıdır. Geliştiriciler, bu tür veri ardışık düzenlerini verimli bir şekilde oluşturmak için AWS Glue Studio'yu kullanabilir.

Aşağıdaki şemada, AWS Glue Studio kullanılarak MongoDB Atlas'tan bir S3 klasörüne veri çıkarma iş akışı gösterilmektedir.

MongoDB Atlas'tan Amazon S3'e Veri Çıkarma

Bu mimariyi uygulamak için bir MongoDB Atlas kümesine, bir S3 klasörüne ve bir AWS Kimlik ve Erişim Yönetimi AWS Glue için (IAM) rolü. Bu kaynakları yapılandırmak için aşağıdaki önkoşul adımlarına bakın. GitHub repo.

Aşağıdaki şekilde, AWS Glue kullanılarak bir S3 klasöründen MongoDB Atlas'a veri yükleme iş akışı gösterilmektedir.

Amazon S3'ten MongoDB Atlas'a Veri Yükleme

Aynı önkoşullar burada da gereklidir: S3 klasörü, IAM rolü ve MongoDB Atlas kümesi.

AWS Glue kullanarak Amazon S3'ten MongoDB Atlas'a veri yükleyin

Aşağıdaki adımlarda, bir AWS Glue işi kullanılarak S3 klasöründeki verilerin MongoDB Atlas'a nasıl yükleneceği açıklanmaktadır. MongoDB Atlas'tan Amazon S3'e çıkarma işlemi, kullanılan betik dışında çok benzerdir. İki süreç arasındaki farkları söylüyoruz.

  1. Ücretsiz bir küme oluşturun MongoDB Atlas'ta.
  2. Yükle örnek JSON dosyası S3 kovanıza.
  3. ile yeni bir AWS Glue Studio işi oluşturun. Spark komut dosyası düzenleyicisi seçeneği.

Glue Studio İş Oluşturma Kullanıcı Arayüzü

  1. MongoDB Atlas kümesinden veri yüklemek veya çıkarmak isteyip istemediğinize bağlı olarak betiği yükle or komut dosyasını ayıkla AWS Glue Studio komut dosyası düzenleyicisinde.

Aşağıdaki ekran görüntüsü, verileri MongoDB Atlas kümesine yüklemek için bir kod parçacığını gösterir.

MongoDB Atlas'a veri yüklemek için kod parçacığı

kod kullanır AWS Sırları Yöneticisi MongoDB Atlas küme adını, kullanıcı adını ve parolasını almak için. Sonra, bir oluşturur DynamicFrame komut dosyasına parametre olarak iletilen S3 grubu ve dosya adı için. Kod, veritabanını ve koleksiyon adlarını iş parametreleri yapılandırmasından alır. Son olarak, kod şunu yazar: DynamicFrame alınan parametreleri kullanarak MongoDB Atlas kümesine.

  1. Aşağıdaki ekran görüntüsünde gösterilen izinlere sahip bir IAM rolü oluşturun.

Daha fazla ayrıntı için bkz. ETL işiniz için bir IAM rolü yapılandırın.

IAM Rolü izinleri

  1. İşe bir ad verin ve önceki adımda oluşturulan IAM rolünü İş detayları sekmesi.
  2. Geri kalan parametreleri aşağıdaki ekran görüntülerinde gösterildiği gibi varsayılan olarak bırakabilirsiniz.
    iş Ayrıntılarıİş detayları devam ediyor
  3. Ardından, betiğin kullandığı iş parametrelerini tanımlayın ve varsayılan değerleri sağlayın.
    İş giriş parametreleri
  4. İşi kaydedin ve çalıştırın.
  5. Başarılı bir çalıştırmayı onaylamak için, verileri yüklüyorsanız MongoDB Atlas veritabanı koleksiyonunun içeriğini veya bir ayıklama yapıyorsanız S3 kovasının içeriğini gözlemleyin.

Aşağıdaki ekran görüntüsü, bir Amazon S3 klasöründen MongoDB Atlas kümesine başarılı bir veri yüklemesinin sonuçlarını gösterir. Veriler artık MongoDB Atlas Kullanıcı Arayüzündeki sorgular için kullanılabilir.
MongoDB Atlas Kümesine Yüklenen Veriler

  1. Çalıştırmalarınızla ilgili sorunları gidermek için Amazon Bulut İzleme işin üzerindeki bağlantıyı kullanarak günlüğe kaydeder koşmak sekmesi.

Aşağıdaki ekran görüntüsü, CloudWatch günlüklerine bağlantılar gibi ek ayrıntılarla birlikte işin başarıyla yürütüldüğünü göstermektedir.

Başarılı iş yürütme ayrıntıları

Sonuç

Bu gönderide, AWS Glue kullanarak verilerin MongoDB Atlas'a nasıl çıkarılacağını ve alınacağını açıkladık.

AWS Glue ETL işleri ile artık verileri MongoDB Atlas'tan AWS Glue uyumlu kaynaklara ve tersi yönde aktarabiliriz. Çözümü, AWS yapay zeka ve makine öğrenimi hizmetlerini kullanarak analitik oluşturmak için de genişletebilirsiniz.

Daha fazla bilgi edinmek için bkz. GitHub deposu adım adım talimatlar ve örnek kod için. temin edebilirsiniz MongoDB Atlası AWS Marketplace'te.


Yazarlar Hakkında

İgor Alekseev AWS'de Veri ve Analitik alanında Kıdemli Çözüm Ortağı Çözüm Mimarıdır. Igor, rolünde, karmaşık, AWS için optimize edilmiş mimariler oluşturmalarına yardımcı olan stratejik ortaklarla çalışıyor. AWS'ye Veri/Çözüm Mimarı olarak katılmadan önce, Hadoop ekosistemindeki çeşitli veri gölleri dahil olmak üzere Büyük Veri alanında birçok projeyi hayata geçirdi. Bir Veri Mühendisi olarak, sahtekarlık tespiti ve ofis otomasyonuna AI/ML uygulamasında yer aldı.


Babu Srinivasan
MongoDB'de Kıdemli İş Ortağı Çözüm Mimarıdır. Mevcut görevinde, AWS ve MongoDB çözümleri için teknik entegrasyonlar ve referans mimariler oluşturmak üzere AWS ile birlikte çalışmaktadır. Veritabanı ve Bulut teknolojilerinde yirmi yıldan fazla deneyime sahiptir. Birden çok coğrafyada birden çok Küresel Sistem Entegratörü (GSI) ile çalışan müşterilere teknik çözümler sağlama konusunda tutkulu.

Zaman Damgası:

Den fazla AWS Büyük Veri