Bu büyük veri çağında, dünya çapındaki kuruluşlar sürekli olarak geniş veri kümelerinden değer ve öngörü elde etmenin yenilikçi yollarını arıyor. Apache Spark Büyük miktarlarda veriyi verimli bir şekilde işlemek için gereken ölçeklenebilirliği ve hızı sunar.
Amazon EMR'si Apache Spark gibi açık kaynaklı çerçeveleri kullanan petabayt ölçekli veri işleme, etkileşimli analitik ve makine öğrenimi (ML) için sektör lideri bulut büyük veri çözümüdür. Apaçi Kovanı, ve çabuk. Amazon EMR, Apache Spark'ı çalıştırmak için en iyi yerdir. Yönetilen Spark kümelerini hızlı ve zahmetsizce oluşturabilirsiniz. AWS Yönetim Konsolu, AWS Komut Satırı Arayüzü (AWS CLI) veya Amazon EMR API'si. Hızlı özellikler de dahil olmak üzere ek Amazon EMR özelliklerini de kullanabilirsiniz. Amazon Basit Depolama Hizmeti Amazon EMR Dosya Sistemini (EMRFS) kullanan (Amazon S3) bağlantısı, Amazon EC2 Spotu pazar ve AWS Tutkal Kümenize örnekler eklemek veya kümenizden örnekleri kaldırmak için Veri Kataloğu ve EMR Yönetilen Ölçeklendirme. Amazon EMR Stüdyosu veri bilimcilerinin ve veri mühendislerinin R, Python, Scala ve PySpark'ta yazılmış veri mühendisliği ve veri bilimi uygulamalarını geliştirmesini, görselleştirmesini ve hatalarını ayıklamasını kolaylaştıran entegre bir geliştirme ortamıdır (IDE). EMR Studio, hata ayıklamayı basitleştirmek için tam olarak yönetilen Jupyter not defterleri ve Spark UI ve YARN Zaman Çizelgesi Hizmeti gibi araçlar sağlar.
Veri hazinelerinde gizli olan potansiyeli ortaya çıkarmak için geleneksel analitiğin ötesine geçmek çok önemlidir. İnsan benzeri metin, sanat ve hatta kod oluşturmak için makine öğrenimini yaratıcılıkla birleştiren son teknoloji bir teknoloji olan üretken yapay zekaya girin. Amazon Ana Kayası temel modellerle (FM'ler) üretken yapay zeka uygulamaları oluşturmanın ve ölçeklendirmenin en basit yoludur. Amazon Bedrock, Amazon'un ve önde gelen yapay zeka şirketlerinin FM'lerini bir API aracılığıyla kullanıma sunan, tam olarak yönetilen bir hizmettir; böylece oyun alanında çeşitli FM'leri hızlı bir şekilde deneyebilir ve seçtiğiniz modellerden bağımsız olarak çıkarım için tek bir API kullanabilirsiniz. Size farklı sağlayıcıların FM'lerini kullanma ve minimum kod değişikliğiyle en son model sürümleriyle güncel kalma esnekliği sağlar.
Bu yazıda Amazon EMR, Amazon Bedrock ve Amazon'u kullanarak üretken yapay zeka ile veri analitiğinizi nasıl güçlendirebileceğinizi araştırıyoruz. pyspark-ai kütüphane. Pyspark-ai kütüphanesi Apache Spark için İngilizce bir SDK'dır. İngilizce dilindeki talimatları alır ve bunları DataFrames gibi PySpark nesnelerine derler. Bu, Spark ile çalışmayı kolaylaştırarak verilerinizden değer elde etmeye odaklanmanıza olanak tanır.
Çözüme genel bakış
Aşağıdaki şemada Amazon EMR ve Amazon Bedrock ile üretken yapay zeka kullanımına yönelik mimari gösterilmektedir.
EMR Studio, EMR kümelerinde çalışan, tam olarak yönetilen Jupyter dizüstü bilgisayarlara yönelik web tabanlı bir IDE'dir. Çalışan bir EMR kümesine bağlı EMR Studio Workspaces ile etkileşimde bulunuyoruz ve bu yazının parçası olarak sağlanan not defterini çalıştırıyoruz. biz kullanıyoruz New York Şehir Taksisi Kullanıcıların kullandığı çeşitli taksi yolculuklarına ilişkin bilgi toplamak için veriler. Soruları Spark DataFrame'e yüklenen verilere ek olarak doğal dilde soruyoruz. Pyspark-ai kitaplığı daha sonra doğal dil sorusuna dayalı bir SQL sorgusu oluşturmak için Amazon Bedrock'tan Amazon Titan Text FM'i kullanır. Pyspark-ai kütüphanesi SQL sorgusunu alır, Spark SQL kullanarak çalıştırır ve sonuçları kullanıcıya geri sunar.
Bu çözümde, AWS hesabınızda gerekli kaynakları bir AWS CloudFormation şablon. Şablon şunu oluşturur: AWS Tutkal veritabanı ve tablolar, S3 paketi, VPC ve diğerleri AWS Kimlik ve Erişim Yönetimi Çözümde kullanılan (IAM) kaynakları.
Şablon, EMR Studio'nun pyspark-ai paketi ve Amazon Bedrock ile nasıl kullanılacağını göstermek için tasarlanmıştır ve değişiklik yapılmadan üretimde kullanıma yönelik değildir. Ayrıca, şablon şunu kullanır: us-east-1
Bölgede değişiklik yapılmadan diğer Bölgelerde çalışmayabilir. Şablon, kullanım sırasında maliyete neden olan kaynaklar oluşturur. Kaynakları silmek ve gereksiz masraflardan kaçınmak için bu yazının sonundaki temizleme adımlarını izleyin.
Önkoşullar
CloudFormation yığınını başlatmadan önce aşağıdakilere sahip olduğunuzdan emin olun:
- AWS hizmetlerine erişim sağlayan bir AWS hesabı
- AWS CLI'yi yapılandırmak için erişim anahtarına ve gizli anahtara ve AWS CloudFormation'da IAM rolü, IAM politikaları ve yığınlar oluşturma izinlerine sahip bir IAM kullanıcısı
- Titan Text G1 – Express modeli şu anda ön izleme aşamasında olduğundan bu yazının bir parçası olarak kullanmak için önizleme erişiminizin olması gerekiyor
AWS CloudFormation ile kaynaklar oluşturun
CloudFormation aşağıdaki AWS kaynaklarını oluşturur:
- EMR Studio, yönlendirme tabloları ve NAT ağ geçidiyle kullanılacak özel ve genel alt ağlara sahip bir VPC yığını.
- Python 3.9 yüklü bir EMR kümesi. Python 3.9'u ve pyspark-ai ve Amazon Bedrock bağımlılıkları gibi diğer ilgili paketleri yüklemek için bir önyükleme eylemi kullanıyoruz. (Daha fazla bilgi için bkz. önyükleme komut dosyası.)
- EMR Studio Çalışma Alanı ve dizüstü bilgisayar depolaması için bir S3 grubu.
- EMR Studio kurulumu, Amazon Bedrock erişimi ve dizüstü bilgisayarların çalıştırılması için IAM rolleri ve politikaları
Başlamak için aşağıdaki adımları uygulayın:
CloudFormation yığınının tamamlanması yaklaşık 20-30 dakika sürer. İlerlemesini AWS CloudFormation konsolundan izleyebilirsiniz. Durumu okunduğunda CREATE_COMPLETE
AWS hesabınız bu çözümü uygulamak için gerekli kaynaklara sahip olacaktır.
EMR Studio'yu oluşturun
Artık not defteri koduyla çalışmak için bir EMR Studio ve Çalışma Alanı oluşturabilirsiniz. Aşağıdaki adımları tamamlayın:
- EMR Studio konsolunda, Studio'yu oluşturun.
- Girin Stüdyo Adı as
GenAI-EMR-Studio
ve bir açıklama sağlayın. - içinde Ağ ve güvenlik bölümünde aşağıdakileri belirtin:
- İçin VPC, dağıttığınız CloudFormation yığınının parçası olarak oluşturduğunuz VPC'yi seçin. VPCID anahtarı için CloudFormation çıkışlarını kullanarak VPC kimliğini alın.
- İçin Alt ağlar, dört alt ağın tümünü seçin.
- İçin Güvenlik ve erişimseçin Özel güvenlik grubu.
- İçin Küme/uç nokta güvenlik grubu, seçmek
EMRSparkAI-Cluster-Endpoint-SG
. - İçin Çalışma alanı güvenlik grubu, seçmek
EMRSparkAI-Workspace-SG
.
- içinde Stüdyo hizmeti rolü bölümünde aşağıdakileri belirtin:
- İçin Doğrulamaseçin AWS Kimlik ve Erişim Yönetimi (IAM).
- İçin AWS IAM hizmet rolü, seçmek
EMRSparkAI-StudioServiceRole
.
- içinde Çalışma alanı depolaması bölümünde, depolama için S3 paketine göz atın ve şunu seçin:
emr-sparkai-<account-id>
. - Klinik Stüdyo Oluştur.
- EMR Studio oluşturulduğunda aşağıdaki bağlantıyı seçin Stüdyo Erişim URL'si Stüdyoya erişmek için.
- Stüdyodayken şunu seçin: Çalışma alanı oluştur.
- Ekle
emr-genai
Çalışma Alanının adı olarak seçin ve Çalışma alanı oluştur. - Çalışma Alanı oluşturulduğunda, Çalışma Alanını başlatmak için adını seçin (tüm açılır pencere engelleyicilerini devre dışı bıraktığınızdan emin olun).
Amazon EMR ve üretken yapay zeka ile Apache Spark'ı kullanan büyük veri analitiği
Artık gerekli kurulumu tamamladığımıza göre Amazon EMR ve üretken yapay zeka ile Apache Spark'ı kullanarak büyük veri analitiği gerçekleştirmeye başlayabiliriz.
İlk adım olarak, kullanım senaryosuyla çalışmak için gerekli kodu ve örnekleri içeren bir not defteri yüklüyoruz. Taksi yolculuklarıyla ilgili ayrıntıları içeren NY Taxi veri kümesini kullanıyoruz.
- Not defteri dosyasını indirin NYTaxi.ipynb ve yükleme simgesini seçerek Çalışma Alanınıza yükleyin.
- Not defteri içe aktarıldıktan sonra not defterini açın ve
PySpark
çekirdek olarak.
PySpark AI LLM modeli olarak varsayılan olarak OpenAI'nin ChatGPT4.0'ını kullanır, ancak Amazon Bedrock'tan modeller de ekleyebilirsiniz. Amazon SageMaker Hızlı Başlangıçve diğer üçüncü taraf modelleri. Bu yazıda, SQL sorgusu oluşturmak için Amazon Bedrock Titan modelinin nasıl entegre edileceğini ve Amazon EMR'de Apache Spark ile nasıl çalıştırılacağını gösteriyoruz.
- Not defterini kullanmaya başlamak için Çalışma Alanını bir bilgi işlem katmanıyla ilişkilendirmeniz gerekir. Bunu yapmak için şunu seçin: hesaplamak Gezinti bölmesindeki simgesini seçin ve CloudFormation yığını tarafından oluşturulan EMR kümesini seçin.
- Güncellenen Python 3.9 paketini Amazon EMR ile kullanmak için Python parametrelerini yapılandırın:
- Gerekli kitaplıkları içe aktarın:
- Kütüphaneler içe aktarıldıktan sonra LLM modelini Amazon Bedrock'tan tanımlayabilirsiniz. Bu durumda amazon.titan-text-express-v1'i kullanıyoruz. Titan Text G1 – Express modeli için önizleme erişiminize göre Bölge ve Amazon Bedrock uç nokta URL'sini girmeniz gerekir.
- Doğal dilde sorulara dayalı SQL sorgusu oluşturmak için Spark AI'yi Amazon Bedrock LLM modeline bağlayın:
Burada Spark AI'yi verbose=False ile başlattık; daha fazla ayrıntı görmek için verbose=True ayarını da yapabilirsiniz.
Artık NYC Taksi verilerini Spark DataFrame'de okuyabilir ve Spark'ta üretken yapay zekanın gücünü kullanabilirsiniz.
- Örneğin veri kümesindeki kayıt sayısının sayısını sorabilirsiniz:
Aşağıdaki yanıtı alıyoruz:
Spark AI dahili olarak kullanır Dil Zinciri ve karmaşıklığı Spark'ta sorgularla çalışan son kullanıcılardan gizleyen SQL zinciri.
Dizüstü bilgisayarda Apache Spark ve Amazon EMR ile üretken yapay zekanın gücünü keşfetmeye yönelik birkaç örnek senaryo daha var.
Temizlemek
S3 kovasının içeriğini boşaltın emr-sparkai-<account-id>
, bu gönderinin parçası olarak oluşturulan EMR Studio Workspace'i silin ve ardından dağıttığınız CloudFormation yığınını silin.
Sonuç
Bu gönderi, Amazon EMR ve Amazon Bedrock ile Apache Spark'ın yardımıyla büyük veri analitiğinizi nasıl güçlendirebileceğinizi gösterdi. PySpark AI paketi, verilerinizden anlamlı bilgiler elde etmenize olanak tanır. Geliştirme ve analiz süresini kısaltmanıza yardımcı olur, manuel sorgu yazma süresini kısaltır ve iş kullanım senaryonuza odaklanmanıza olanak tanır.
Yazarlar Hakkında
Saurabh Butyani AWS'de Baş Analitik Uzmanı Çözüm Mimarıdır. Yeni teknolojilere meraklıdır. AWS'ye 2019'da katıldı ve Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation gibi AWS hizmetlerini kullanarak üretken yapay zeka kullanım örneklerini, ölçeklenebilir analiz çözümlerini ve veri ağı mimarilerini çalıştırmak için mimari rehberlik sağlamak üzere müşterilerle birlikte çalışıyor. ve Amazon DataZone.
Sert Vardhan analitik konusunda uzmanlaşmış bir AWS Kıdemli Çözüm Mimarıdır. Büyük veri ve veri bilimi alanında 8 yılı aşkın deneyime sahiptir. Müşterilerin en iyi uygulamaları benimsemelerine ve verilerinden içgörüler keşfetmelerine yardımcı olma konusunda tutkulu.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- :vardır
- :dır-dir
- :olumsuzluk
- $UP
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- Hakkımızda
- erişim
- erişim yönetimi
- Hesap
- onaylamak
- Action
- eklemek
- Ek
- Ayrıca
- benimsemek
- AI
- AI kullanım durumları
- Türkiye
- Izin
- veriyor
- Ayrıca
- Amazon
- Amazon Atina
- Amazon EMR'si
- Amazon Adaçayı Yapıcı
- Amazon Web Servisleri
- tutarları
- an
- analiz
- analytics
- ve
- cevap
- herhangi
- Apache
- Apache Spark
- api
- uygulamaları
- yaklaşık olarak
- mimari
- mimari
- ARE
- Sanat
- AS
- sormak
- Ortak
- At
- mevcut
- önlemek
- AWS
- AWS CloudFormation
- AWS Tutkal
- AWS Göl Oluşumu
- Arka
- merkezli
- İYİ
- en iyi uygulamalar
- Ötesinde
- Büyük
- büyük Veri
- Çizme atkısı
- inşa etmek
- iş
- fakat
- düğmesine tıklayın
- by
- CAN
- dava
- durumlarda
- katalog
- zincir
- değişiklikler
- yükler
- Klinik
- seçme
- Şehir
- bulut
- bulut büyük veri
- Küme
- kod
- biçerdöverler
- Şirketler
- tamamlamak
- Tamamlandı
- karmaşıklık
- hesaplamak
- bağlı
- Bağlantı
- konsolos
- sürekli
- içeren
- içindekiler
- maliyetler
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- oluşturur
- yaratıcılık
- Şu anda
- Müşteriler
- keskin kenar
- veri
- Veri Analizi
- veri işleme
- veri bilimi
- veritabanı
- veri kümeleri
- Tarih
- Varsayılan
- tanımlamak
- göstermek
- bağımlılıklar
- konuşlandırılmış
- türetmek
- tanım
- tasarlanmış
- ayrıntılar
- geliştirmek
- gelişme
- farklı
- özürlü
- keşfetmek
- do
- verimli biçimde
- zahmetsizce
- son
- Son nokta
- Mühendislik
- Mühendisler
- İngilizce
- sağlamak
- Keşfet
- girme
- çevre
- çağ
- gerekli
- Eter (ETH)
- Hatta
- örnek
- örnekler
- deneyim
- deneme
- keşfetmek
- ekspres
- çıkarmak
- HIZLI
- Özellikler
- az
- alan
- fileto
- son
- Ad
- Esneklik
- odak
- takip et
- takip etme
- İçin
- oluşum
- vakıf
- dört
- çerçeveler
- itibaren
- tamamen
- g1
- toplayıcı
- geçit
- oluşturmak
- nesil
- üretken
- üretken yapay zeka
- almak
- Verilmesi
- Go
- rehberlik
- Var
- he
- yardım et
- yardım
- yardımcı olur
- Gizli
- gizlemek
- Ne kadar
- Nasıl Yapılır
- http
- HTTPS
- i
- IAM
- ICON
- ID
- Kimlik
- kimlik ve erişim yönetimi
- göstermektedir
- uygulamak
- ithalat
- in
- Diğer
- Dahil olmak üzere
- endüstri lideri
- bilgi
- yenilikçi
- giriş
- anlayışlar
- kurmak
- durumlarda
- talimatlar
- entegre
- entegre
- bütünleşme
- yönelik
- etkileşim
- interaktif
- içten
- içine
- IT
- ONUN
- katıldı
- jpg
- tutmak
- anahtar
- Bilmek
- göl
- dil
- büyük
- son
- başlatmak
- tabaka
- önemli
- öğrenme
- kütüphaneler
- Kütüphane
- sevmek
- çizgi
- LINK
- yük
- makine
- makine öğrenme
- yapmak
- YAPAR
- yönetilen
- yönetim
- Manuel
- pazar
- Mayıs..
- anlamlı
- örgü
- en az
- dakika
- ML
- model
- modelleri
- izlemek
- Daha
- çoğu
- isim
- Doğal (Madenden)
- Doğal lisan
- Navigasyon
- gerekli
- gerek
- gerekli
- ağ
- yeni
- Yeni teknolojiler
- defter
- dizüstü bilgisayarlar
- şimdi
- numara
- NY
- NYC
- nesneler
- gözlem
- of
- Teklifler
- on
- açık
- açık kaynak
- or
- organizasyonlar
- Diğer
- çıkışlar
- tekrar
- genel bakış
- paket
- paketler
- bölmesi
- parametreler
- Bölüm
- tutkulu
- icra
- izinleri
- yer
- Platon
- Plato Veri Zekası
- PlatoVeri
- oyun alanı
- fiş
- politikaları
- pop-up
- Çivi
- potansiyel
- güç kelimesini seçerim
- uygulamalar
- Önizleme
- Anapara
- özel
- süreç
- işleme
- üretim
- Ilerleme
- sağlamak
- sağlanan
- sağlayıcılar
- sağlar
- halka açık
- Python
- sorgular
- soru
- Sorular
- hızla
- R
- Okumak
- kayıtlar
- azaltmak
- azaltarak
- başvurmak
- Ne olursa olsun
- bölge
- bölgeler
- uygun
- Kaldır
- gereklidir
- Kaynaklar
- yanıt
- Sonuçlar
- gezintileri
- Rol
- rolleri
- Rota
- koşmak
- koşu
- ishal
- sagemaker
- Scala
- ölçeklenebilirlik
- ölçeklenebilir
- ölçek
- ölçekleme
- senaryolar
- Bilim
- bilim adamları
- sdk
- arama
- Gizli
- güvenlik
- görmek
- seçmek
- kıdemli
- hizmet
- Hizmetler
- set
- kurulum
- şov
- gösterdi
- Basit
- basitleştirmek
- tek
- So
- çözüm
- Çözümler
- Kaynak
- Kıvılcım
- uzman
- uzmanlaşmış
- hız
- SQL
- yığın
- Yığınları
- başlama
- başladı
- XNUMX dakika içinde!
- Durum
- adım
- Basamaklar
- hafızası
- basit
- stüdyo
- altağlar
- böyle
- fazla yüklemek
- elbette
- sistem
- tablo
- alınan
- alır
- Teknolojileri
- Teknoloji
- şablon
- metin
- o
- The
- ve bazı Asya
- Onları
- sonra
- onlar
- üçüncü şahıslara ait
- Re-Tweet
- düşünce
- İçinden
- zaman
- zaman çizelgesi
- titan
- için
- araçlar
- üst
- geleneksel
- ui
- altında
- kilidini açmak
- güncellenmiş
- URL
- kullanım
- kullanım durumu
- Kullanılmış
- kullanıcı
- kullanıcılar
- kullanım
- kullanma
- değer
- çeşitlilik
- çeşitli
- Geniş
- görselleştirmek
- Yol..
- yolları
- we
- ağ
- web hizmetleri
- Web tabanlı
- ne zaman
- hangi
- süre
- irade
- ile
- içinde
- olmadan
- İş
- çalışma
- çalışır
- Dünya çapında
- yazmak
- yazılı
- yıl
- york
- sen
- zefirnet