Öngörülerin Kilidini Açmak İçin Apache Spark İçin Amazon EMR, Amazon Bedrock ve English SDK ile Üretken Yapay Zeka Kullanın | Amazon Web Hizmetleri

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Bu büyük veri çağında, dünya çapındaki kuruluşlar sürekli olarak geniş veri kümelerinden değer ve öngörü elde etmenin yenilikçi yollarını arıyor. Apache Spark Büyük miktarlarda veriyi verimli bir şekilde işlemek için gereken ölçeklenebilirliği ve hızı sunar.

Amazon EMR'si Apache Spark gibi açık kaynaklı çerçeveleri kullanan petabayt ölçekli veri işleme, etkileşimli analitik ve makine öğrenimi (ML) için sektör lideri bulut büyük veri çözümüdür. Apaçi Kovanı, ve çabuk. Amazon EMR, Apache Spark'ı çalıştırmak için en iyi yerdir. Yönetilen Spark kümelerini hızlı ve zahmetsizce oluşturabilirsiniz. AWS Yönetim Konsolu, AWS Komut Satırı Arayüzü (AWS CLI) veya Amazon EMR API'si. Hızlı özellikler de dahil olmak üzere ek Amazon EMR özelliklerini de kullanabilirsiniz. Amazon Basit Depolama Hizmeti Amazon EMR Dosya Sistemini (EMRFS) kullanan (Amazon S3) bağlantısı, Amazon EC2 Spotu pazar ve AWS Tutkal Kümenize örnekler eklemek veya kümenizden örnekleri kaldırmak için Veri Kataloğu ve EMR Yönetilen Ölçeklendirme. Amazon EMR Stüdyosu veri bilimcilerinin ve veri mühendislerinin R, Python, Scala ve PySpark'ta yazılmış veri mühendisliği ve veri bilimi uygulamalarını geliştirmesini, görselleştirmesini ve hatalarını ayıklamasını kolaylaştıran entegre bir geliştirme ortamıdır (IDE). EMR Studio, hata ayıklamayı basitleştirmek için tam olarak yönetilen Jupyter not defterleri ve Spark UI ve YARN Zaman Çizelgesi Hizmeti gibi araçlar sağlar.

Veri hazinelerinde gizli olan potansiyeli ortaya çıkarmak için geleneksel analitiğin ötesine geçmek çok önemlidir. İnsan benzeri metin, sanat ve hatta kod oluşturmak için makine öğrenimini yaratıcılıkla birleştiren son teknoloji bir teknoloji olan üretken yapay zekaya girin. Amazon Ana Kayası temel modellerle (FM'ler) üretken yapay zeka uygulamaları oluşturmanın ve ölçeklendirmenin en basit yoludur. Amazon Bedrock, Amazon'un ve önde gelen yapay zeka şirketlerinin FM'lerini bir API aracılığıyla kullanıma sunan, tam olarak yönetilen bir hizmettir; böylece oyun alanında çeşitli FM'leri hızlı bir şekilde deneyebilir ve seçtiğiniz modellerden bağımsız olarak çıkarım için tek bir API kullanabilirsiniz. Size farklı sağlayıcıların FM'lerini kullanma ve minimum kod değişikliğiyle en son model sürümleriyle güncel kalma esnekliği sağlar.

Bu yazıda Amazon EMR, Amazon Bedrock ve Amazon'u kullanarak üretken yapay zeka ile veri analitiğinizi nasıl güçlendirebileceğinizi araştırıyoruz. pyspark-ai kütüphane. Pyspark-ai kütüphanesi Apache Spark için İngilizce bir SDK'dır. İngilizce dilindeki talimatları alır ve bunları DataFrames gibi PySpark nesnelerine derler. Bu, Spark ile çalışmayı kolaylaştırarak verilerinizden değer elde etmeye odaklanmanıza olanak tanır.

Çözüme genel bakış

Aşağıdaki şemada Amazon EMR ve Amazon Bedrock ile üretken yapay zeka kullanımına yönelik mimari gösterilmektedir.

Çözüme Genel Bakış

EMR Studio, EMR kümelerinde çalışan, tam olarak yönetilen Jupyter dizüstü bilgisayarlara yönelik web tabanlı bir IDE'dir. Çalışan bir EMR kümesine bağlı EMR Studio Workspaces ile etkileşimde bulunuyoruz ve bu yazının parçası olarak sağlanan not defterini çalıştırıyoruz. biz kullanıyoruz New York Şehir Taksisi Kullanıcıların kullandığı çeşitli taksi yolculuklarına ilişkin bilgi toplamak için veriler. Soruları Spark DataFrame'e yüklenen verilere ek olarak doğal dilde soruyoruz. Pyspark-ai kitaplığı daha sonra doğal dil sorusuna dayalı bir SQL sorgusu oluşturmak için Amazon Bedrock'tan Amazon Titan Text FM'i kullanır. Pyspark-ai kütüphanesi SQL sorgusunu alır, Spark SQL kullanarak çalıştırır ve sonuçları kullanıcıya geri sunar.

Bu çözümde, AWS hesabınızda gerekli kaynakları bir AWS CloudFormation şablon. Şablon şunu oluşturur: AWS Tutkal veritabanı ve tablolar, S3 paketi, VPC ve diğerleri AWS Kimlik ve Erişim Yönetimi Çözümde kullanılan (IAM) kaynakları.

Şablon, EMR Studio'nun pyspark-ai paketi ve Amazon Bedrock ile nasıl kullanılacağını göstermek için tasarlanmıştır ve değişiklik yapılmadan üretimde kullanıma yönelik değildir. Ayrıca, şablon şunu kullanır: us-east-1 Bölgede değişiklik yapılmadan diğer Bölgelerde çalışmayabilir. Şablon, kullanım sırasında maliyete neden olan kaynaklar oluşturur. Kaynakları silmek ve gereksiz masraflardan kaçınmak için bu yazının sonundaki temizleme adımlarını izleyin.

Önkoşullar

CloudFormation yığınını başlatmadan önce aşağıdakilere sahip olduğunuzdan emin olun:

AWS hizmetlerine erişim sağlayan bir AWS hesabı
AWS CLI'yi yapılandırmak için erişim anahtarına ve gizli anahtara ve AWS CloudFormation'da IAM rolü, IAM politikaları ve yığınlar oluşturma izinlerine sahip bir IAM kullanıcısı
Titan Text G1 – Express modeli şu anda ön izleme aşamasında olduğundan bu yazının bir parçası olarak kullanmak için önizleme erişiminizin olması gerekiyor

AWS CloudFormation ile kaynaklar oluşturun

CloudFormation aşağıdaki AWS kaynaklarını oluşturur:

EMR Studio, yönlendirme tabloları ve NAT ağ geçidiyle kullanılacak özel ve genel alt ağlara sahip bir VPC yığını.
Python 3.9 yüklü bir EMR kümesi. Python 3.9'u ve pyspark-ai ve Amazon Bedrock bağımlılıkları gibi diğer ilgili paketleri yüklemek için bir önyükleme eylemi kullanıyoruz. (Daha fazla bilgi için bkz. önyükleme komut dosyası.)
EMR Studio Çalışma Alanı ve dizüstü bilgisayar depolaması için bir S3 grubu.
EMR Studio kurulumu, Amazon Bedrock erişimi ve dizüstü bilgisayarların çalıştırılması için IAM rolleri ve politikaları

Başlamak için aşağıdaki adımları uygulayın:

Klinik Yığını Başlat:
seç Bu şablonun IAM kaynakları oluşturabileceğini kabul ediyorum.

CloudFormation yığınının tamamlanması yaklaşık 20-30 dakika sürer. İlerlemesini AWS CloudFormation konsolundan izleyebilirsiniz. Durumu okunduğunda CREATE_COMPLETEAWS hesabınız bu çözümü uygulamak için gerekli kaynaklara sahip olacaktır.

EMR Studio'yu oluşturun

Artık not defteri koduyla çalışmak için bir EMR Studio ve Çalışma Alanı oluşturabilirsiniz. Aşağıdaki adımları tamamlayın:

EMR Studio konsolunda, Studio'yu oluşturun.
Girin Stüdyo Adı as GenAI-EMR-Studio ve bir açıklama sağlayın.
içinde Ağ ve güvenlik bölümünde aşağıdakileri belirtin:
- İçin VPC, dağıttığınız CloudFormation yığınının parçası olarak oluşturduğunuz VPC'yi seçin. VPCID anahtarı için CloudFormation çıkışlarını kullanarak VPC kimliğini alın.
- İçin Alt ağlar, dört alt ağın tümünü seçin.
- İçin Güvenlik ve erişimseçin Özel güvenlik grubu.
- İçin Küme/uç nokta güvenlik grubu, seçmek EMRSparkAI-Cluster-Endpoint-SG.
- İçin Çalışma alanı güvenlik grubu, seçmek EMRSparkAI-Workspace-SG.
içinde Stüdyo hizmeti rolü bölümünde aşağıdakileri belirtin:
- İçin Doğrulamaseçin AWS Kimlik ve Erişim Yönetimi (IAM).
- İçin AWS IAM hizmet rolü, seçmek EMRSparkAI-StudioServiceRole.
içinde Çalışma alanı depolaması bölümünde, depolama için S3 paketine göz atın ve şunu seçin: emr-sparkai-<account-id>.
Klinik Stüdyo Oluştur.
EMR Studio oluşturulduğunda aşağıdaki bağlantıyı seçin Stüdyo Erişim URL'si Stüdyoya erişmek için.
Stüdyodayken şunu seçin: Çalışma alanı oluştur.
Ekle emr-genai Çalışma Alanının adı olarak seçin ve Çalışma alanı oluştur.
Çalışma Alanı oluşturulduğunda, Çalışma Alanını başlatmak için adını seçin (tüm açılır pencere engelleyicilerini devre dışı bıraktığınızdan emin olun).

Amazon EMR ve üretken yapay zeka ile Apache Spark'ı kullanan büyük veri analitiği

Artık gerekli kurulumu tamamladığımıza göre Amazon EMR ve üretken yapay zeka ile Apache Spark'ı kullanarak büyük veri analitiği gerçekleştirmeye başlayabiliriz.

İlk adım olarak, kullanım senaryosuyla çalışmak için gerekli kodu ve örnekleri içeren bir not defteri yüklüyoruz. Taksi yolculuklarıyla ilgili ayrıntıları içeren NY Taxi veri kümesini kullanıyoruz.

Not defteri dosyasını indirin NYTaxi.ipynb ve yükleme simgesini seçerek Çalışma Alanınıza yükleyin.
Not defteri içe aktarıldıktan sonra not defterini açın ve PySpark çekirdek olarak.

PySpark AI LLM modeli olarak varsayılan olarak OpenAI'nin ChatGPT4.0'ını kullanır, ancak Amazon Bedrock'tan modeller de ekleyebilirsiniz. Amazon SageMaker Hızlı Başlangıçve diğer üçüncü taraf modelleri. Bu yazıda, SQL sorgusu oluşturmak için Amazon Bedrock Titan modelinin nasıl entegre edileceğini ve Amazon EMR'de Apache Spark ile nasıl çalıştırılacağını gösteriyoruz.

Not defterini kullanmaya başlamak için Çalışma Alanını bir bilgi işlem katmanıyla ilişkilendirmeniz gerekir. Bunu yapmak için şunu seçin: hesaplamak Gezinti bölmesindeki simgesini seçin ve CloudFormation yığını tarafından oluşturulan EMR kümesini seçin.

Güncellenen Python 3.9 paketini Amazon EMR ile kullanmak için Python parametrelerini yapılandırın:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Gerekli kitaplıkları içe aktarın:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Kütüphaneler içe aktarıldıktan sonra LLM modelini Amazon Bedrock'tan tanımlayabilirsiniz. Bu durumda amazon.titan-text-express-v1'i kullanıyoruz. Titan Text G1 – Express modeli için önizleme erişiminize göre Bölge ve Amazon Bedrock uç nokta URL'sini girmeniz gerekir.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Doğal dilde sorulara dayalı SQL sorgusu oluşturmak için Spark AI'yi Amazon Bedrock LLM modeline bağlayın:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Burada Spark AI'yi verbose=False ile başlattık; daha fazla ayrıntı görmek için verbose=True ayarını da yapabilirsiniz.

Artık NYC Taksi verilerini Spark DataFrame'de okuyabilir ve Spark'ta üretken yapay zekanın gücünü kullanabilirsiniz.

Örneğin veri kümesindeki kayıt sayısının sayısını sorabilirsiniz:

taxi_records.ai.transform("count the number of records in this dataset").show()

Aşağıdaki yanıtı alıyoruz:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI dahili olarak kullanır Dil Zinciri ve karmaşıklığı Spark'ta sorgularla çalışan son kullanıcılardan gizleyen SQL zinciri.

Dizüstü bilgisayarda Apache Spark ve Amazon EMR ile üretken yapay zekanın gücünü keşfetmeye yönelik birkaç örnek senaryo daha var.

Temizlemek

S3 kovasının içeriğini boşaltın emr-sparkai-<account-id>, bu gönderinin parçası olarak oluşturulan EMR Studio Workspace'i silin ve ardından dağıttığınız CloudFormation yığınını silin.

Sonuç

Bu gönderi, Amazon EMR ve Amazon Bedrock ile Apache Spark'ın yardımıyla büyük veri analitiğinizi nasıl güçlendirebileceğinizi gösterdi. PySpark AI paketi, verilerinizden anlamlı bilgiler elde etmenize olanak tanır. Geliştirme ve analiz süresini kısaltmanıza yardımcı olur, manuel sorgu yazma süresini kısaltır ve iş kullanım senaryonuza odaklanmanıza olanak tanır.

Yazarlar Hakkında

Saurabh Butyani AWS'de Baş Analitik Uzmanı Çözüm Mimarıdır. Yeni teknolojilere meraklıdır. AWS'ye 2019'da katıldı ve Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation gibi AWS hizmetlerini kullanarak üretken yapay zeka kullanım örneklerini, ölçeklenebilir analiz çözümlerini ve veri ağı mimarilerini çalıştırmak için mimari rehberlik sağlamak üzere müşterilerle birlikte çalışıyor. ve Amazon DataZone.

Sert Vardhan analitik konusunda uzmanlaşmış bir AWS Kıdemli Çözüm Mimarıdır. Büyük veri ve veri bilimi alanında 8 yılı aşkın deneyime sahiptir. Müşterilerin en iyi uygulamaları benimsemelerine ve verilerinden içgörüler keşfetmelerine yardımcı olma konusunda tutkulu.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Zaman Damgası: 16 Kasım 2023

Zaman Damgası: Ekim 2, 2023

İçgörülerin kilidini açmak için Amazon EMR, Amazon Bedrock ve Apache Spark için İngilizce SDK ile üretken yapay zeka kullanın | Amazon Web Hizmetleri

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

Önkoşullar

AWS CloudFormation ile kaynaklar oluşturun

EMR Studio'yu oluşturun

Amazon EMR ve üretken yapay zeka ile Apache Spark'ı kullanan büyük veri analitiği

Temizlemek

Sonuç

Yazarlar Hakkında

Den fazla AWS Büyük Veri

Amazon DynamoDB ve Amazon Athena | kullanarak Apache Iceberg ile sunucusuz bir CDC süreci uygulayın | Amazon Web Hizmetleri

AWS Glue, AWS DMS ve Amazon DynamoDB kullanarak gerçek zamanlı sunucusuz veri analitiği için CDC verileriyle bir akış veri kaynağına katılın | Amazon Web Hizmetleri

Defontana, Latin Amerika'daki müşterilerine Amazon QuickSight | Amazon Web Hizmetleri

Şirket içi ağınızdan Amazon MSK Serverless'a bağlanın

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap