Scaling Data Management Through Apache Gobblin

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Modern dünyada çoğu işletme, büyümelerini, stratejik yatırımlarını ve müşteri bağlılığını artırmak için büyük verinin ve analitiğin gücüne güveniyor. Büyük veri, hedeflenen reklam, kişiselleştirilmiş pazarlama, ürün önerileri, içgörü üretimi, fiyat optimizasyonları, duyarlılık analizi, tahmine dayalı analitik ve çok daha fazlasının temelinde yatan sabittir.

Veriler genellikle birden çok kaynaktan toplanır, şirket içi veya bulut üzerindeki veri göllerinde dönüştürülür, depolanır ve işlenir. Verilerin ilk alımı nispeten önemsiz olsa da ve kurum içinde geliştirilen özel komut dosyaları veya geleneksel ETL (Dönüşüm Yükünü Çıkart) araçlarıyla elde edilebilse de, şirketlerin aşağıdakileri yapması gerektiğinden, sorun kısa sürede engelleyici derecede karmaşık ve çözülmesi pahalı hale gelir:

Tüm veri yaşam döngüsünü yönetin – temizlik ve uyumluluk amaçları için
Depolamayı optimize edin – ilişkili maliyetleri azaltmak için
Bilgi işlem altyapısının yeniden kullanımı yoluyla Mimariyi Basitleştirin
Verileri kademeli olarak işleyin – güçlü durum yönetimi aracılığıyla
Toplu iş ve akış verilerine aynı politikaları uygulayın – aynı çabayı tekrarlamadan
Şirket İçi ve Bulut arasında en az çabayla geçiş yapın

O nerede Apaçi Goblini, açık kaynaklı bir veri yönetimi ve entegrasyon sistemi devreye giriyor. Apache Gobblin, işletmenin ihtiyaçlarına göre kısmen veya tamamen kullanılabilen benzersiz yetenekler sunuyor.

Bu bölümde, Apache Gobblin'in daha önce özetlenen zorlukların üstesinden gelmeye yardımcı olan çeşitli yeteneklerini inceleyeceğiz.

Tam veri yaşam döngüsünü yönetme

Apache Gobblin, veri kümelerinde tüm veri yaşam döngüsü işlemlerini destekleyen veri ardışık düzenleri oluşturmak için çeşitli yetenekler sağlar.

Birden çok kaynaktan Veritabanları, Rest API'leri, FTP/SFTP sunucuları, Dosyalayıcılar, Salesforce ve Dynamics gibi CRM'ler ve daha fazlası gibi havuzlara veri alın.
Distcp-NG aracılığıyla Hadoop Dağıtılmış Dosya Sistemi için özel yeteneklere sahip birden çok veri gölü arasında verileri çoğaltın.
Verileri Temizle – Zamana Dayalı, En Yeni K, Sürümlü veya ilkelerin bir kombinasyonu gibi saklama ilkelerini kullanarak.

Gobblin'in mantıksal ardışık düzeni, iş dağıtımını belirleyen ve 'Çalışma Birimleri' oluşturan bir 'Kaynak'tan oluşur. Bu "Çalışma Birimleri" daha sonra, çıkarma, dönüştürme, kalite kontrolü ve verilerin hedefe yazılmasını içeren "Görevler" olarak yürütülmek üzere alınır. Son adım olan 'Veri Yayınlama', ardışık düzenin başarılı bir şekilde yürütüldüğünü doğrular ve hedef destekliyorsa çıktı verilerini atomik olarak işler.

Apache Gobblin aracılığıyla Veri Yönetimini Ölçeklendirme
Yazara göre resim

Depolama alanını optimize et

Apache Gobblin, sıkıştırma veya format dönüştürme yoluyla alma veya çoğaltma sonrasında verilerin sonradan işlenmesi yoluyla veriler için gereken depolama miktarının azaltılmasına yardımcı olabilir.

Sıkıştırma – kayıtların tüm alanlarına veya anahtar alanlarına dayalı olarak yinelenenleri kaldırmak için son işleme verileri, aynı anahtarla en son zaman damgasına sahip yalnızca bir kaydı tutmak için verileri kırpın.
Avro'dan ORC'ye – popüler satır tabanlı Avro biçimini hiper optimize edilmiş sütun tabanlı ORC biçimine dönüştürmek için özel bir biçim dönüştürme mekanizması olarak.

Apache Gobblin aracılığıyla Veri Yönetimini Ölçeklendirme
Yazara göre resim

Mimariyi Basitleştirin

Şirketin aşamasına (başlangıçtan işletmeye), ölçek gereksinimlerine ve ilgili mimarilerine bağlı olarak, şirketler veri altyapılarını kurmayı veya geliştirmeyi tercih eder. Apache Gobblin çok esnektir ve çoklu yürütme modellerini destekler.

Bağımsız Mod – çıplak bir metal kutu üzerinde bağımsız bir süreç olarak çalışmak için, yani basit kullanım durumları ve düşük talep gerektiren durumlar için tek ana bilgisayar.
MapReduce Modu – Petabayt ölçeğinde değişen veri kümelerini işlemek üzere büyük veri vakaları için Hadoop altyapısında bir MapReduce işi olarak çalışmak üzere.
Küme Modu: Bağımsız – Hadoop MR çerçevesinden bağımsız olarak büyük ölçekte işlem yapmak için bir dizi çıplak metal makine veya ana bilgisayarda Apache Helix ve Apache Zookeeper tarafından desteklenen bir küme olarak çalışmak üzere.
Küme Modu: Yarn – Hadoop MR çerçevesi olmadan yerel Yarn üzerinde bir küme olarak çalışmak için.
Küme Modu: AWS – Amazon'un genel bulut teklifinde bir küme olarak çalışmak için, örn. AWS'de barındırılan altyapılar için AWS.

Apache Gobblin aracılığıyla Veri Yönetimini Ölçeklendirme
Yazara göre resim

Kademeli olarak verileri işleyin

Birden çok veri ardışık düzeni ve yüksek hacimli önemli bir ölçekte, verilerin toplu olarak ve zaman içinde işlenmesi gerekir. Bu nedenle, veri boru hatlarının en son kaldığı yerden devam edebilmesi ve devam edebilmesi için kontrol noktası oluşturmayı gerektirir. Apache Gobblin düşük ve yüksek filigranları destekler ve HDFS, AWS S3, MySQL ve daha şeffaf bir şekilde State Store aracılığıyla güçlü durum yönetimi semantiğini destekler.

Apache Gobblin aracılığıyla Veri Yönetimini Ölçeklendirme
Yazara göre resim

Toplu iş ve akış verilerinde aynı politikalar

Günümüzde çoğu veri ardışık düzeni, bir kez toplu veriler için ve yine yakın hat veya akış verileri için olmak üzere iki kez yazılmalıdır. Çabayı iki katına çıkarır ve farklı işlem hattı türlerine uygulanan politikalarda ve algoritmalarda tutarsızlıklar ortaya çıkarır. Apache Gobblin, Gobblin Cluster modunda, Gobblin AWS modunda veya Gobblin on Yarn modunda kullanılıyorsa kullanıcıların bir ardışık düzen yazmasına ve bunu hem toplu iş hem de akış verilerinde çalıştırmasına izin vererek bu sorunu çözer.

Şirket İçi ve Bulut arasında geçiş yapın

Tek bir kutuda, bir düğüm kümesinde veya bulutta şirket içinde çalışabilen çok yönlü modları sayesinde Apache Gobblin şirket içinde ve bulutta dağıtılabilir ve kullanılabilir. Bu nedenle, kullanıcıların veri boru hatlarını bir kez yazmalarına ve belirli ihtiyaçlara dayalı olarak Gobblin dağıtımlarıyla birlikte kurum içi ve bulut arasında kolayca taşımalarına olanak tanır.

Son derece esnek mimarisi, güçlü özellikleri ve destekleyebileceği ve işleyebileceği aşırı veri hacimleri ölçeği nedeniyle Apache Gobblin, üretim altyapısında kullanılmaktadır. büyük teknoloji şirketleri ve günümüzde herhangi bir büyük veri altyapısı dağıtımı için olmazsa olmazdır.

Apache Gobblin ve nasıl kullanılacağı hakkında daha fazla ayrıntı şu adreste bulunabilir: https://gobblin.apache.org

Abhishek Tiwari LinkedIn'de şirketin Büyük Veri Boru Hatları organizasyonuna liderlik eden Kıdemli Yöneticisidir. Aynı zamanda Apache Software Foundation'da Apache Gobblin'in Başkan Yardımcısı ve British Computer Society üyesidir.