AWS Glue ve Amazon Athena Kullanarak Yüksek Derecede Yuvalanmış ve Büyük XML Dosyalarını İşleyin ve Analiz Edin | Amazon Web Hizmetleri

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Günümüzün dijital çağında veriler her kuruluşun başarısının merkezinde yer almaktadır. Veri alışverişinde en sık kullanılan formatlardan biri XML'dir. XML dosyalarını analiz etmek çeşitli nedenlerden dolayı çok önemlidir. İlk olarak, XML dosyaları finans, sağlık ve devlet dahil olmak üzere birçok sektörde kullanılmaktadır. XML dosyalarını analiz etmek, kuruluşların verileri hakkında bilgi edinmelerine yardımcı olarak daha iyi kararlar almalarına ve operasyonlarını iyileştirmelerine olanak tanır. Birçok uygulama ve sistem XML'i standart veri formatı olarak kullandığından, XML dosyalarını analiz etmek veri entegrasyonuna da yardımcı olabilir. Kuruluşlar, XML dosyalarını analiz ederek farklı kaynaklardan gelen verileri kolayca entegre edebilir ve sistemleri arasında tutarlılık sağlayabilir. Bununla birlikte, XML dosyaları yarı yapılandırılmış, yüksek düzeyde iç içe geçmiş veriler içerir; bu da, özellikle dosya büyükse ve karmaşık, oldukça iç içe geçmiş şema.

XML dosyaları uygulamalar için çok uygundur ancak analiz motorları için ideal olmayabilir. Sorgu performansını artırmak ve aşağıdaki gibi aşağı yönlü analiz motorlarına kolay erişim sağlamak için Amazon AtinaXML dosyalarını Parquet gibi sütunlu bir formatta önceden işlemek çok önemlidir. Bu dönüşüm, analitik iş akışlarında gelişmiş verimlilik ve kullanılabilirlik sağlar. Bu yazıda, XML verilerinin aşağıdakileri kullanarak nasıl işleneceğini göstereceğiz: AWS Tutkal ve Athena.

Çözüme genel bakış

XML dosya işleme iş akışınızı kolaylaştırabilecek iki farklı tekniği araştırıyoruz:

1. Teknik: AWS Glue tarayıcısını ve AWS Glue görsel düzenleyicisini kullanın – XML dosyalarınızın tablo yapısını tanımlamak için AWS Glue kullanıcı arayüzünü bir tarayıcıyla birlikte kullanabilirsiniz. Bu yaklaşım, kullanıcı dostu bir arayüz sağlar ve özellikle verilerini yönetmek için grafiksel bir yaklaşımı tercih eden kişiler için uygundur.
Teknik 2: Çıkarımlı ve sabit şemalarla AWS Glue DynamicFrames'i kullanma – Tarayıcının, XML dosyalarındaki tek bir satırın işlenmesi konusunda bir sınırlaması vardır: 1 MB. Bu kısıtlamanın üstesinden gelmek için AWS Glue'yu oluşturmak için bir AWS Glue dizüstü bilgisayar kullanıyoruz DynamicFrameshem çıkarımsal hem de sabit şemalardan yararlanılır. Bu yöntem, boyutu 1 MB'ı aşan satırlara sahip XML dosyalarının verimli şekilde işlenmesini sağlar.

Her iki yaklaşımda da nihai hedefimiz XML dosyalarını Apache Parquet formatına dönüştürerek Athena kullanılarak sorgulamaya hazır hale getirmektir. Bu tekniklerle XML verilerinizin işlem hızını ve erişilebilirliğini geliştirebilir, böylece değerli bilgileri kolaylıkla elde edebilirsiniz.

Önkoşullar

Bu eğitime başlamadan önce aşağıdaki önkoşulları tamamlayın (bunlar her iki teknik için de geçerlidir):

XML dosyalarını indirin teknik1.xml ve teknik2.xml.
Dosyaları bir yere yükleyin Amazon Basit Depolama Hizmeti (Amazon S3) kovası. Bunları farklı klasörlerdeki aynı S3 klasörüne veya farklı S3 klasörlerine yükleyebilirsiniz.
Bir oluşturma AWS Kimlik ve Erişim Yönetimi ETL işiniz veya not defteriniz için talimatlarda belirtildiği şekilde (IAM) rolü AWS Glue Studio için IAM izinlerini ayarlayın.
Rolünüze bir satır içi politika ekleyin. zaten: PassRole aksiyon:

 "Version": "2012-10-17", "Statement": [ { "Action": ["iam:PassRole"], "Effect": "Allow", "Resource": "arn:aws:iam::*:role/AWSGlueServiceRole*", "Condition": { "StringLike": { "iam:PassedToService": ["glue.amazonaws.com"] } } }
}

S3 klasörünüze erişimi olan role bir izin politikası ekleyin.

Artık önkoşulları tamamladığımıza göre ilk tekniği uygulamaya geçelim.

1. Teknik: AWS Glue tarayıcısını ve görsel düzenleyiciyi kullanın

Aşağıdaki diyagramda çözümü uygulamak için kullanabileceğiniz basit mimari gösterilmektedir.

AWS Glue ve Amazon Athena kullanarak XML dosyasını işleme ve analiz etme

Amazon S3'te depolanan XML dosyalarını AWS Glue ve Athena kullanarak analiz etmek için aşağıdaki üst düzey adımları tamamlıyoruz:

XML meta verilerini ayıklamak ve AWS Glue Veri Kataloğu'nda bir tablo oluşturmak için bir AWS Glue tarayıcısı oluşturun.
AWS Glue ayıklama, dönüştürme ve yükleme (ETL) işini kullanarak XML verilerini Athena'ya uygun bir formata (Parquet gibi) işleyin ve dönüştürün.
AWS Glue konsolu veya AWS Glue konsolu aracılığıyla bir AWS Glue işi kurup çalıştırın. AWS Komut Satırı Arayüzü (AWS CLI'si).
İşlenen verileri (Parquet formatında) Athena tablolarıyla kullanarak SQL sorgularını etkinleştirin.
Amazon S3'te depolanan verilerinizdeki XML verilerini SQL sorgularıyla analiz etmek için Athena'nın kullanıcı dostu arayüzünü kullanın.

Bu mimari, AWS Glue ve Athena kullanarak Amazon S3'teki XML verilerini analiz etmeye yönelik ölçeklenebilir, uygun maliyetli bir çözümdür. Büyük veri kümelerini karmaşık altyapı yönetimi olmadan analiz edebilirsiniz.

XML dosyası meta verilerini çıkarmak için AWS Glue tarayıcısını kullanıyoruz. Genel amaçlı XML sınıflandırması için varsayılan AWS Glue sınıflandırıcısını seçebilirsiniz. Yaygın formatlar için yararlı olan XML veri yapısını ve şemasını otomatik olarak algılar.

Bu çözümde ayrıca özel bir XML sınıflandırıcı kullanıyoruz. Belirli XML şemaları veya formatları için tasarlanmış olup hassas meta veri çıkarmaya olanak tanır. Bu, standart olmayan XML formatları için veya sınıflandırma üzerinde ayrıntılı kontrole ihtiyaç duyduğunuzda idealdir. Özel bir sınıflandırıcı, yalnızca gerekli meta verilerin çıkarılmasını sağlayarak aşağı yöndeki işleme ve analiz görevlerini basitleştirir. Bu yaklaşım, XML dosyalarınızın kullanımını optimize eder.

Aşağıdaki ekran görüntüsünde etiketler içeren bir XML dosyası örneği gösterilmektedir.

Özel bir sınıflandırıcı oluşturma

Bu adımda, bir XML dosyasından meta verileri çıkarmak için özel bir AWS Glue sınıflandırıcısı oluşturursunuz. Aşağıdaki adımları tamamlayın:

AWS Tutkal konsolunda, altında Tarayıcıları gezinme bölmesinde öğesini seçin. Sınıflandırıcılar.
Klinik Sınıflandırıcı ekle.
seç XML sınıflandırıcı türü olarak
Sınıflandırıcı için aşağıdaki gibi bir ad girin: blog-glue-xml-contact.
İçin satır etiketi, meta verileri içeren kök etiketinin adını girin (örneğin, metadata).
Klinik oluşturmak.

Xml dosyasını taramak için bir AWS Glue Crawler oluşturun

Bu bölümde, önceki adımda oluşturduğumuz müşteri sınıflandırıcısını kullanarak XML dosyasından meta verileri çıkarmak için bir Glue Crawler oluşturuyoruz.

Bir veritabanı oluşturun

Git AWS Tutkal konsolu, seçmek veritabanları Gezinti bölmesinde.
Tıklayın Veritabanı ekleyin.
gibi bir isim verin blog_glue_xml
Klinik oluşturmak veritabanı

Bir Tarayıcı Oluşturun

İlk tarayıcınızı oluşturmak için aşağıdaki adımları tamamlayın:

AWS Glue konsolunda seçin Tarayıcıları Gezinti bölmesinde.
Klinik tarayıcı oluştur.
Üzerinde Tarayıcı özelliklerini ayarlama sayfasında yeni tarayıcı için bir ad girin (örneğin blog-glue-parquet), ardından Sonraki.
Üzerinde Veri kaynaklarını ve sınıflandırıcıları seçin sayfa seç Henüz değil altında Veri kaynağı yapılandırması.
Klinik Veri deposu ekleyin.
İçin S3 yolu, şuraya göz at: s3://${BUCKET_NAME}/input/geologicalsurvey/.

Klasörün içindeki dosya yerine XML klasörünü seçtiğinizden emin olun.

Seçeneklerin geri kalanını varsayılan olarak bırakın ve Bir S3 veri kaynağı ekleyin.
Genişletmek Özel sınıflandırıcılar – isteğe bağlı, blog-glue-xml-contact'ı seçin ve ardından Sonraki ve seçeneklerin geri kalanını varsayılan olarak bırakın.
IAM rolünüzü seçin veya Yeni IAM rolü oluştur, son eki ekleyin glue-xml-contact (Örneğin, AWSGlueServiceNotebookRoleBlog), ve Seç Sonraki.
Üzerinde Çıktıyı ve zamanlamayı ayarla sayfanın altında Çıkış yapılandırması, seçmek blog_glue_xml için Hedef veritabanı.
Keşfet console_ tablolara eklenen önek olarak (isteğe bağlı) ve altında paletli program, frekansı ayarlı tutun Talep üzerine.
Klinik Sonraki.
Tüm parametreleri gözden geçirin ve seçin tarayıcı oluştur.

Tarayıcıyı Çalıştır

Tarayıcıyı oluşturduktan sonra çalıştırmak için aşağıdaki adımları tamamlayın:

AWS Glue konsolunda seçin Tarayıcıları Gezinti bölmesinde.
Oluşturduğunuz tarayıcıyı açın ve seçin koşmak.

Tarayıcının tamamlanması 1-2 dakika sürecektir.

Tarayıcı tamamlandığında, seçin veritabanları Gezinti bölmesinde.
Oluşturduğunuz veritabanını seçin ve tarayıcı tarafından çıkarılan şemayı görmek için tablo adını seçin.

XML'i Parke formatına dönüştürmek için bir AWS Glue işi oluşturun

Bu adımda XML dosyasını Parquet dosyasına dönüştürmek için bir AWS Glue Studio işi oluşturursunuz. Aşağıdaki adımları tamamlayın:

AWS Glue konsolunda seçin Mesleki Öğretiler Gezinti bölmesinde.
Altında İş oluşturseçin Boş bir tuval ile görsel.
Klinik oluşturmak.
İşi şu şekilde yeniden adlandırın: blog_glue_xml_job.

Artık boş bir AWS Glue Studio görsel iş düzenleyiciniz var. Düzenleyicinin üst kısmında farklı görünümlere yönelik sekmeler bulunur.

Seçin Senaryo AWS Glue ETL betiğinin boş kabuğunu görmek için sekmeyi tıklayın.

Görsel düzenleyiciye yeni adımlar ekledikçe script otomatik olarak güncellenecektir.

Seçin İş detayları tüm iş yapılandırmalarını görmek için sekmeyi tıklayın.
İçin IAM rolü, seçmek AWSGlueServiceNotebookRoleBlog.
İçin Tutkal versiyonu, seçmek Glue 4.0 – Spark 3.3, Scala 2, Python 3'ü destekler.
set İstenen işçi sayısı 2 için.
set Yeniden deneme sayısı 0 için.
Seçin Görsel Görsel düzenleyiciye geri dönmek için sekmeyi tıklayın.
Üzerinde Kaynak açılır menüden AWS Tutkal Veri Kataloğu.
Üzerinde Veri kaynağı özellikleri – Veri Kataloğu sekmesinde aşağıdaki bilgileri sağlayın:
1. İçin veritabanı, seçmek blog_glue_xml.
2. İçin tablo, tarayıcının oluşturduğu console_ adıyla başlayan tabloyu seçin (örneğin, console_geologicalsurvey).
Üzerinde Düğüm özellikleri sekmesinde aşağıdaki bilgileri sağlayın:
1. değişim Name için geologicalsurvey Veri kümesi.
2. Klinik Action ve dönüşüm Şemayı Değiştir (Eşlemeyi Uygula).
3. Klinik Düğüm özellikleri ve dönüşümün adını Şemayı Değiştir (Eşlemeyi Uygula) olarak değiştirin ApplyMapping.
4. Üzerinde Hedef menü seç S3.
Üzerinde Veri kaynağı özellikleri - S3 sekmesinde aşağıdaki bilgileri sağlayın:
1. İçin oluşturulanseçin Parke.
2. İçin Sıkıştırma tipiseçin sıkıştırılmamış.
3. İçin S3 kaynak türüseçin S3 konumu.
4. İçin S3 URL'si, girmek s3://${BUCKET_NAME}/output/parquet/.
5. Klinik Düğüm Özellikleri ve adını şu şekilde değiştirin Output.
Klinik İndirim işi kurtarmak için.
Klinik koşmak işi yürütmek için.

Aşağıdaki ekran görüntüsü işi görsel düzenleyicide göstermektedir.

Parke dosyasını taramak için bir AWS Gue Crawler oluşturun

Bu adımda, bir AWS Glue Studio işi kullanarak oluşturduğunuz Parquet dosyasından meta verileri çıkarmak için bir AWS Glue tarayıcısı oluşturursunuz. Bu sefer varsayılan sınıflandırıcıyı kullanırsınız. Aşağıdaki adımları tamamlayın:

AWS Glue konsolunda seçin Tarayıcıları Gezinti bölmesinde.
Klinik tarayıcı oluştur.
Üzerinde Tarayıcı özelliklerini ayarlama sayfasında yeni tarayıcı için blog-tutkal-parke-temas gibi bir ad girin ve ardından Sonraki.
Üzerinde Veri kaynaklarını ve sınıflandırıcıları seçin sayfa seç Henüz değil için Veri kaynağı yapılandırması.
Klinik Veri deposu ekleyin.
İçin S3 yolu, şuraya göz at: s3://${BUCKET_NAME}/output/parquet/.

Seçtiğinizden emin olun parquet klasörün içindeki dosya yerine klasör.

Önkoşul bölümünde oluşturulan IAM rolünüzü seçin veya Yeni IAM rolü oluştur (Örneğin, AWSGlueServiceNotebookRoleBlog), ve Seç Sonraki.
Üzerinde Çıktıyı ve zamanlamayı ayarla sayfanın altında Çıkış yapılandırması, seçmek blog_glue_xml için veritabanı.
Keşfet parquet_ tablolara eklenen önek olarak (isteğe bağlı) ve altında paletli program, frekansı ayarlı tutun Talep üzerine.
Klinik Sonraki.
Tüm parametreleri gözden geçirin ve seçin tarayıcı oluştur.

Artık tamamlanması 1-2 dakika süren tarayıcıyı çalıştırabilirsiniz.

Parquet dosyası için yeni oluşturulan şemanın, XML dosyasının şemasına benzeyen AWS Glue Data Catalog'da ön izlemesini yapabilirsiniz.

Artık Athena ile kullanıma uygun verilere sahibiz. Bir sonraki bölümde Athena kullanarak veri sorgulamaları gerçekleştiriyoruz.

Athena'yı kullanarak Parke dosyasını sorgulayın

Athena sorgulamayı desteklemiyor XML dosya formatı, bu nedenle daha verimli veri sorgulama ve kullanım için XML dosyasını Parquet'e dönüştürdünüz. nokta gösterimi karmaşık türleri ve iç içe geçmiş yapıları sorgulamak için.

Aşağıdaki örnek kod, iç içe geçmiş verileri sorgulamak için nokta gösterimini kullanır:

SELECT idinfo.citation.citeinfo.origin, idinfo.citation.citeinfo.pubdate, idinfo.citation.citeinfo.title, idinfo.citation.citeinfo.geoform, idinfo.citation.citeinfo.pubinfo.pubplace, idinfo.citation.citeinfo.pubinfo.publish, idinfo.citation.citeinfo.onlink, idinfo.descript.abstract, idinfo.descript.purpose, idinfo.descript.supplinf, dataqual.attracc.attraccr, dataqual.logic, dataqual.complete, dataqual.posacc.horizpa.horizpar, dataqual.posacc.vertacc.vertaccr, dataqual.lineage.procstep.procdate, dataqual.lineage.procstep.procdesc
FROM "blog_glue_xml"."parquet_parquet" limit 10;

Artık teknik 1'i tamamladığımıza göre, teknik 2'yi öğrenmeye geçelim.

Teknik 2: Çıkarımlı ve sabit şemalarla AWS Glue DynamicFrames'i kullanma

Önceki bölümde, bir tablo oluşturmak için AWS Glue tarayıcısını, dosyayı Parquet formatına dönüştürmek için bir AWS Glue işini ve Parquet verilerine erişmek için Athena'yı kullanarak küçük bir XML dosyasını işleme sürecini ele aldık. Ancak tarayıcı, belirtilen değerleri aşan XML dosyalarını işlemeye geldiğinde sınırlamalarla karşılaşır. 1 MB boyutunda. Bu bölümde, bireysel olayları çıkarmak ve Athena kullanarak analiz yürütmek için ek ayrıştırma gerektiren daha büyük XML dosyalarının toplu işlenmesi konusunu derinlemesine inceleyeceğiz.

Yaklaşımımız XML dosyalarının AWS Glue aracılığıyla okunmasını içerir Dinamik Çerçevelerhem çıkarımsal hem de sabit şemaları kullanır. Daha sonra bireysel olayları Parke formatında çıkarıyoruz. ilişkilendirmek Athena'yı kullanarak bunları sorunsuz bir şekilde sorgulamamıza ve analiz etmemize olanak tanıyor.

Bu çözümü uygulamak için aşağıdaki üst düzey adımları tamamlarsınız:

XML dosyasını okumak ve analiz etmek için bir AWS Glue not defteri oluşturun.
kullanım DynamicFrames ile InferSchema XML dosyasını okumak için.
Herhangi bir diziyi yuvalamak için ilişkiselleştirme işlevini kullanın.
Verileri Parke formatına dönüştürün.
Athena'yı kullanarak Parke verilerini sorgulayın.
Önceki adımları tekrarlayın, ancak bu sefer bir şema iletin DynamicFrames kullanmak yerine InferSchema.

Elektrikli araç nüfus verileri XML dosyasında response etiketini kök düzeyinde kullanın. Bu etiket bir dizi içerir row içine yerleştirilmiş etiketler. Satır etiketi, bir araç hakkında markası, modeli ve diğer ilgili ayrıntılar dahil olmak üzere bilgi sağlayan bir dizi başka satır etiketi içeren bir dizidir. Aşağıdaki ekran görüntüsü bir örneği göstermektedir.

AWS Glue Notebook Oluşturun

AWS Glue not defteri oluşturmak için aşağıdaki adımları tamamlayın:

Açın AWS Tutkal Stüdyosu konsol, seç Mesleki Öğretiler Gezinti bölmesinde.
seç Jupyter Not Defteri Ve seç oluşturmak.

AWS Glue işiniz için bir ad girin; örneğin blog_glue_xml_job_Jupyter.
Önkoşullarda oluşturduğunuz rolü seçin (AWSGlueServiceNotebookRoleBlog).

AWS Glue dizüstü bilgisayar, bir veritabanının nasıl sorgulanacağını ve çıktının Amazon S3'e nasıl yazılacağını gösteren önceden var olan bir örnekle birlikte gelir.

Aşağıdaki ekran görüntüsünde gösterildiği gibi zaman aşımını (dakika olarak) ayarlayın ve AWS Glue etkileşimli oturumunu oluşturmak için hücreyi çalıştırın.

Temel Değişkenler oluşturun

Etkileşimli oturumu oluşturduktan sonra not defterinin sonunda aşağıdaki değişkenleri içeren yeni bir hücre oluşturun (kendi paket adınızı girin):

BUCKET_NAME='YOUR_BUCKET_NAME'
S3_SOURCE_XML_FILE = f's3://{BUCKET_NAME}/xml_dataset/'
S3_TEMP_FOLDER = f's3://{BUCKET_NAME}/temp/'
S3_OUTPUT_INFER_SCHEMA = f's3://{BUCKET_NAME}/infer_schema/'
INFER_SCHEMA_TABLE_NAME = 'infer_schema'
S3_OUTPUT_NO_INFER_SCHEMA = f's3://{BUCKET_NAME}/no_infer_schema/'
NO_INFER_SCHEMA_TABLE_NAME = 'no_infer_schema'
DATABASE_NAME = 'blog_xml'

Şemayı çıkaran XML dosyasını okuyun

Eğer bir şemayı DynamicFrame, dosyaların şemasını çıkaracaktır. Verileri dinamik bir çerçeve kullanarak okumak için aşağıdaki komutu kullanabilirsiniz:

df = glueContext.create_dynamic_frame.from_options( connection_type="s3", connection_options={"paths": [S3_SOURCE_XML_FILE]}, format="xml", format_options={"rowTag": "response"},
)

DynamicFrame Şemasını yazdırın

Şemayı aşağıdaki kodla yazdırın:

df.printSchema()

Şema iç içe geçmiş bir yapıyı göstermektedir. row birden fazla öğe içeren dizi. Bu yapıyı çizgilere ayırmak için AWS Glue'u kullanabilirsiniz. ilişkilendirmek dönüşüm:

df_relationalized = df.relationalize( "root", S3_TEMP_FOLDER
)

Yalnızca satır dizisinin içerdiği bilgilerle ilgileniyoruz ve aşağıdaki komutu kullanarak şemayı görüntüleyebiliriz:

df_relationalized.select("root_row.row").printSchema()

Sütun adları şunları içerir: row.rowveri kümesindeki dizi yapısına ve dizi sütununa karşılık gelir. Bu yazıdaki sütunları yeniden adlandırmıyoruz; bunu yapmaya yönelik talimatlar için bkz. AWS Glue: Bölüm 1'i kullanarak veri dosyalarındaki sütun adlarının dinamik eşlenmesini ve yeniden adlandırılmasını otomatikleştirin. Daha sonra aşağıdaki komutu kullanarak verileri Parquet formatına dönüştürebilir ve AWS Glue tablosunu oluşturabilirsiniz:


s3output = glueContext.getSink( path= S3_OUTPUT_INFER_SCHEMA, connection_type="s3", updateBehavior="UPDATE_IN_DATABASE", partitionKeys=[], compression="snappy", enableUpdateCatalog=True, transformation_ctx="s3output",
)
s3output.setCatalogInfo( catalogDatabase="blog_xml", catalogTableName="jupyter_notebook_with_infer_schema"
)
s3output.setFormat("glueparquet")
s3output.writeFrame(df_relationalized.select("root_row.row"))

AWS Tutkal DynamicFrame Veri Kataloğu'nda bir şema oluşturmak ve güncellemek için ETL betiğinizde kullanabileceğiniz özellikler sağlar. biz kullanıyoruz updateBehavior Tabloyu doğrudan Veri Kataloğunda oluşturmak için parametre. Bu yaklaşımla, AWS Glue işi tamamlandıktan sonra bir AWS Glue tarayıcısını çalıştırmamıza gerek kalmıyor.

Bir şema ayarlayarak XML dosyasını okuyun

Dosyayı okumanın alternatif bir yolu da şemayı önceden tanımlamaktır. Bunu yapmak için aşağıdaki adımları tamamlayın:

AWS Glue veri türlerini içe aktarın:
```
from awsglue.gluetypes import *
```

XML dosyası için bir şema oluşturun:

schema = StructType([ Field("row", StructType([ Field("row", ArrayType(StructType([ Field("_2020_census_tract", LongType()), Field("__address", StringType()), Field("__id", StringType()), Field("__position", IntegerType()), Field("__uuid", StringType()), Field("base_msrp", IntegerType()), Field("cafv_type", StringType()), Field("city", StringType()), Field("county", StringType()), Field("dol_vehicle_id", IntegerType()), Field("electric_range", IntegerType()), Field("electric_utility", StringType()), Field("ev_type", StringType()), Field("geocoded_column", StringType()), Field("legislative_district", IntegerType()), Field("make", StringType()), Field("model", StringType()), Field("model_year", IntegerType()), Field("state", StringType()), Field("vin_1_10", StringType()), Field("zip_code", IntegerType()) ]))) ]))
])

XML dosyasını okurken şemayı iletin:

df = glueContext.create_dynamic_frame.from_options( connection_type="s3", connection_options={"paths": [S3_SOURCE_XML_FILE]}, format="xml", format_options={"rowTag": "response", "withSchema": json.dumps(schema.jsonValue())},
)

Veri kümesini daha önce olduğu gibi ayırın:

df_relationalized = df.relationalize( "root", S3_TEMP_FOLDER
)

Veri kümesini Parquet'e dönüştürün ve AWS Glue tablosunu oluşturun:

s3output = glueContext.getSink( path=S3_OUTPUT_NO_INFER_SCHEMA, connection_type="s3", updateBehavior="UPDATE_IN_DATABASE", partitionKeys=[], compression="snappy", enableUpdateCatalog=True, transformation_ctx="s3output",
)
s3output.setCatalogInfo( catalogDatabase="blog_xml", catalogTableName="jupyter_notebook_no_infer_schema"
)
s3output.setFormat("glueparquet")
s3output.writeFrame(df_relationalized.select("root_row.row"))

Athena'yı kullanarak tabloları sorgulama

Artık her iki tabloyu da oluşturduğumuza göre Athena kullanarak tabloları sorgulayabiliriz. Örneğin aşağıdaki sorguyu kullanabiliriz:

SELECT * FROM "blog_xml"."jupyter_notebook_no_infer_schema " limit 10;

Aşağıdaki ekran görüntüsü sonuçları göstermektedir.

Temizlemek

Bu yazıda bir IAM rolü, bir AWS Glue Jupyter not defteri ve AWS Glue Veri Kataloğunda iki tablo oluşturduk. Ayrıca bazı dosyaları bir S3 klasörüne yükledik. Bu nesneleri temizlemek için aşağıdaki adımları tamamlayın:

IAM konsolunda oluşturduğunuz rolü silin.
AWS Glue Studio konsolunda özel sınıflandırıcıyı, tarayıcıyı, ETL işlerini ve Jupyter not defterini silin.
AWS Glue Data Catalog'a gidin ve oluşturduğunuz tabloları silin.
Amazon S3 konsolunda oluşturduğunuz klasöre gidin ve adlı klasörleri silin. temp, infer_schema, ve no_infer_schema.

Önemli Noktalar

AWS Glue'da şöyle bir özellik var: InferSchema AWS Glue'da DynamicFrames. Bir veri çerçevesinin yapısını, içerdiği verilere göre otomatik olarak belirler. Bunun tersine, şema tanımlamak, verileri yüklemeden önce veri çerçevesi yapısının nasıl olması gerektiğini açıkça belirtmek anlamına gelir.

Metin tabanlı bir format olan XML, sütunlarının veri türlerini kısıtlamaz. Bu, InferSchema işleviyle ilgili sorunlara neden olabilir. Örneğin, ilk çalıştırmada, A sütunu 2 değerine sahip bir dosya, A sütunu tam sayı olan bir Parke dosyasıyla sonuçlanır. İkinci çalıştırmada, yeni bir dosyanın C değerine sahip A sütunu vardır ve bu da dize olarak A sütununu içeren bir Parquet dosyasına yol açar. Artık S3'te, her biri farklı veri türlerinden oluşan bir A sütununa sahip olan ve aşağı yönde sorun yaratabilecek iki dosya var.

Aynı şey iç içe geçmiş yapılar veya diziler gibi karmaşık veri türlerinde de olur. Örneğin, bir dosyanın adı verilen bir etiket girişi varsa transaction, bir yapı olarak anlaşılmaktadır. Ancak başka bir dosya aynı etikete sahipse bu bir dizi olarak anlaşılır

Bu veri türü sorunlarına rağmen, InferSchema Şemayı bilmediğinizde veya şemayı manuel olarak tanımlamanın pratik olmadığı durumlarda kullanışlıdır. Ancak büyük veya sürekli değişen veri kümeleri için ideal değildir. Bir şema tanımlamak, özellikle karmaşık veri türlerinde daha kesindir ancak manuel çaba gerektirmesi ve veri değişikliklerine karşı esnek olmaması gibi kendi sorunları vardır.

InferSchema yanlış veri türü çıkarımı ve boş değerlerin işlenmesiyle ilgili sorunlar gibi sınırlamalara sahiptir. Şema tanımlamanın manuel çaba ve olası hatalar gibi sınırlamaları da vardır.

Bir şemayı çıkarmak ve tanımlamak arasında seçim yapmak projenin ihtiyaçlarına bağlıdır. InferSchema, küçük veri kümelerinin hızlı bir şekilde keşfedilmesi için mükemmeldir; oysa şema tanımlamak, doğruluk ve tutarlılık gerektiren daha büyük, karmaşık veri kümeleri için daha iyidir. Projenize en uygun olanı seçmek için her yöntemin ödünleşimlerini ve kısıtlamalarını göz önünde bulundurun.

Sonuç

Bu yazıda, AWS Glue kullanarak XML verilerini yönetmeye yönelik, her biri karşılaşabileceğiniz belirli ihtiyaçlara ve zorluklara yanıt verecek şekilde tasarlanmış iki tekniği inceledik.

Teknik 1, grafiksel arayüzü tercih edenler için kullanıcı dostu bir yol sunar. XML dosyalarınızın tablo yapısını zahmetsizce tanımlamak için bir AWS Glue tarayıcısını ve görsel düzenleyiciyi kullanabilirsiniz. Bu yaklaşım, veri yönetimi sürecini basitleştirir ve özellikle verilerini işlemenin basit bir yolunu arayanlar için caziptir.

Ancak, özellikle satırları 1 MB'tan büyük olan XML dosyalarıyla uğraşırken tarayıcının sınırlamalarının olduğunun farkındayız. Teknik 2'nin kurtarmaya geldiği yer burasıdır. AWS Glue'dan yararlanarak DynamicFrames hem çıkarımlanmış hem de sabit şemalarla ve bir AWS Glue dizüstü bilgisayar kullanarak, her boyuttaki XML dosyalarını verimli bir şekilde işleyebilirsiniz. Bu yöntem, 1 MB sınırlamasını aşan satırlara sahip XML dosyaları için bile sorunsuz işlemeyi sağlayan sağlam bir çözüm sağlar.

Veri yönetimi dünyasında gezinirken, bu tekniklerin araç setinizde bulunması, projenizin özel gereksinimlerine göre bilinçli kararlar vermenizi sağlar. İster 1. tekniğin basitliğini ister 2. tekniğin ölçeklenebilirliğini tercih edin, AWS Glue, XML verilerini etkili bir şekilde işlemek için ihtiyaç duyduğunuz esnekliği sağlar.

Yazarlar Hakkında

Navnit ŞuklaAnalitik odaklı bir AWS Uzman Çözüm Mimarı olarak hizmet vermektedir. Müşterilerin verilerinden değerli içgörüler keşfetmelerine yardımcı olma konusunda güçlü bir istek duyuyor. Uzmanlığı sayesinde işletmelerin bilinçli, veri odaklı seçimlere ulaşmasını sağlayan yenilikçi çözümler üretiyor. Navnit Shukla'nın "AWS'de Veri Wrangling" başlıklı kitabın başarılı yazarı olması dikkat çekicidir.

Patrick Müller AWS'de Kıdemli Veri Laboratuvarı Mimarı olarak çalışıyor. Ana sorumluluğu müşterilerin fikirlerini üretime hazır bir veri ürününe dönüştürmelerine yardımcı olmaktır. Patrick boş zamanlarında futbol oynamaktan, film izlemekten ve seyahat etmekten hoşlanıyor.

Amogh Gaikwad Amazon Web Services'te Kıdemli Çözüm Geliştiricisidir. Küresel müşterilerin AWS'de AI/ML çözümleri oluşturmasına ve dağıtmasına yardımcı oluyor. Çalışmaları temel olarak bilgisayarlı görüntü ve doğal dil işlemeye odaklanıyor ve müşterilerin AI/ML iş yüklerini sürdürülebilirlik için optimize etmelerine yardımcı oluyor. Amogh, yüksek lisansını Bilgisayar Bilimleri alanında, Makine Öğrenimi alanında uzmanlaştı.

Sheela Sonone AWS'de Kıdemli Yerleşik Mimardır. AWS müşterilerinin verilerini, analizlerini ve AI/ML iş yüklerini ve uygulamalarını hızlandırma konusunda bilinçli seçimler yapmasına ve ödünler vermesine yardımcı oluyor. Boş zamanlarında ailesiyle, genellikle tenis kortlarında vakit geçirmekten hoşlanıyor.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://aws.amazon.com/blogs/big-data/process-and-analyze-highly-nested-and-large-xml-files-using-aws-glue-and-amazon-athena/

Zaman Damgası: Eylül 29, 2023

Zaman Damgası: Temmuz 21, 2023

AWS Glue ve Amazon Athena'yı kullanarak yüksek oranda iç içe geçmiş ve büyük XML dosyalarını işleyin ve analiz edin | Amazon Web Hizmetleri

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

Önkoşullar

1. Teknik: AWS Glue tarayıcısını ve görsel düzenleyiciyi kullanın

Özel bir sınıflandırıcı oluşturma

Xml dosyasını taramak için bir AWS Glue Crawler oluşturun

XML'i Parke formatına dönüştürmek için bir AWS Glue işi oluşturun

Parke dosyasını taramak için bir AWS Gue Crawler oluşturun

Athena'yı kullanarak Parke dosyasını sorgulayın

Teknik 2: Çıkarımlı ve sabit şemalarla AWS Glue DynamicFrames'i kullanma

AWS Glue Notebook Oluşturun

Temel Değişkenler oluşturun

Şemayı çıkaran XML dosyasını okuyun

DynamicFrame Şemasını yazdırın

Bir şema ayarlayarak XML dosyasını okuyun

Athena'yı kullanarak tabloları sorgulama

Temizlemek

Önemli Noktalar

Sonuç

Yazarlar Hakkında

Den fazla AWS Büyük Veri

AWS Glue paletli araçlarla yerel Delta Lake tablo desteğiyle tanışın

Amazon OpenSearch Hizmeti için küme yöneticisi görev kısıtlamasıyla geliştirilmiş dayanıklılık | Amazon Web Hizmetleri

Açık kaynaklı bir JDBC bağlayıcısı kullanarak Amazon MSK Connect ile veri akışı yapın | Amazon Web Hizmetleri

Şirket içi ağınızdan Amazon MSK Serverless'a bağlanın

Amazon OpenSearch Ingestion ile yüksek hacimli izleme için en iyi stratejiler

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap