Amazon EMR, Amazon Bedrock 및 Apache Spark용 영어 SDK와 함께 생성 AI를 사용하여 통찰력 확보

플라톤에 의해 재발행

팔로워 : 0

빅 데이터 시대에 전 세계 조직은 방대한 데이터 세트에서 가치와 통찰력을 추출할 수 있는 혁신적인 방법을 끊임없이 찾고 있습니다. 아파치 스파크 대용량 데이터를 효율적으로 처리하는 데 필요한 확장성과 속도를 제공합니다.

아마존 EMR Apache Spark와 같은 오픈 소스 프레임워크를 사용하여 페타바이트 규모의 데이터 처리, 대화형 분석, 기계 학습(ML)을 위한 업계 최고의 클라우드 빅 데이터 솔루션입니다. 아파치 하이브및 프레스토 악장. Amazon EMR은 Apache Spark를 실행하기에 가장 적합한 장소입니다. 다음에서 관리형 Spark 클러스터를 쉽고 빠르게 생성할 수 있습니다. AWS 관리 콘솔, AWS 명령 줄 인터페이스 (AWS CLI) 또는 Amazon EMR API. 빠른 속도를 포함한 추가 Amazon EMR 기능을 사용할 수도 있습니다. 아마존 단순 스토리지 서비스 (Amazon S3) Amazon EMR 파일 시스템(EMRFS)을 사용한 연결, Amazon EC2 스팟 시장과 AWS 접착제 클러스터에서 인스턴스를 추가하거나 제거하기 위한 Data Catalog 및 EMR Managed Scaling. Amazon EMR 스튜디오 데이터 과학자와 데이터 엔지니어가 R, Python, Scala 및 PySpark로 작성된 데이터 엔지니어링 및 데이터 과학 애플리케이션을 쉽게 개발, 시각화 및 디버깅할 수 있게 해주는 IDE(통합 개발 환경)입니다. EMR Studio는 완전 관리형 Jupyter 노트북과 Spark UI, YARN 타임라인 서비스와 같은 도구를 제공하여 디버깅을 단순화합니다.

데이터 저장소에 숨겨진 잠재력을 활용하려면 기존 분석을 넘어서는 것이 중요합니다. ML과 창의성을 결합하여 인간과 유사한 텍스트, 예술, 심지어 코드까지 생성하는 최첨단 기술인 생성 AI를 만나보세요. 아마존 기반암 FM(기본 모델)을 사용하여 생성적 AI 애플리케이션을 구축하고 확장하는 가장 간단한 방법입니다. Amazon Bedrock은 Amazon 및 주요 AI 기업의 FM을 API를 통해 사용할 수 있도록 하는 완전 관리형 서비스이므로 놀이터에서 다양한 FM을 빠르게 실험하고, 선택한 모델에 관계없이 단일 API를 사용하여 추론할 수 있습니다. 다양한 제공업체의 FM을 유연하게 사용하고 코드 변경을 최소화하면서 최신 모델 버전을 최신 상태로 유지할 수 있습니다.

이 게시물에서는 Amazon EMR, Amazon Bedrock 및 pyspark-ai 도서관. pyspark-ai 라이브러리는 Apache Spark용 영어 SDK입니다. 영어로 된 지침을 받아 DataFrames와 같은 PySpark 개체로 컴파일합니다. 이를 통해 Spark 작업이 간편해지며 데이터에서 가치를 추출하는 데 집중할 수 있습니다.

솔루션 개요

다음 다이어그램은 Amazon EMR 및 Amazon Bedrock에서 생성 AI를 사용하기 위한 아키텍처를 보여줍니다.

솔루션 개요

EMR Studio는 EMR 클러스터에서 실행되는 완전 관리형 Jupyter 노트북을 위한 웹 기반 IDE입니다. 실행 중인 EMR 클러스터에 연결된 EMR Studio 작업 공간과 상호 작용하고 이 게시물의 일부로 제공된 노트북을 실행합니다. 우리는 뉴욕시 택시 사용자가 이용한 다양한 택시 탑승에 대한 인사이트를 얻기 위한 데이터입니다. Spark DataFrame에 로드된 데이터 위에 자연어로 질문합니다. 그런 다음 pyspark-ai 라이브러리는 Amazon Bedrock의 Amazon Titan Text FM을 사용하여 자연어 질문을 기반으로 SQL 쿼리를 생성합니다. pyspark-ai 라이브러리는 SQL 쿼리를 가져와서 Spark SQL을 사용하여 실행하고 결과를 사용자에게 다시 제공합니다.

이 솔루션에서는 AWS 계정에 필요한 리소스를 생성하고 구성할 수 있습니다. AWS 클라우드 포메이션 주형. 템플릿은 AWS 접착제 데이터베이스 및 테이블, S3 버킷, VPC 및 기타 AWS 자격 증명 및 액세스 관리 (IAM) 솔루션에 사용되는 리소스입니다.

템플릿은 pyspark-ai 패키지 및 Amazon Bedrock과 함께 EMR Studio를 사용하는 방법을 보여주기 위해 설계되었으며 수정 없이 프로덕션 용도로 사용할 수 없습니다. 또한 템플릿은 us-east-1 수정 없이는 다른 지역에서 작동하지 않을 수 있습니다. 템플릿은 사용 중에 비용이 발생하는 리소스를 생성합니다. 리소스를 삭제하고 불필요한 비용이 청구되지 않도록 하려면 이 게시물 끝에 있는 정리 단계를 따르세요.

사전 조건

CloudFormation 스택을 시작하기 전에 다음이 있는지 확인하십시오.

AWS 서비스에 대한 액세스를 제공하는 AWS 계정
AWS CLI를 구성하기 위한 액세스 키 및 보안 키와 AWS CloudFormation에서 IAM 역할, IAM 정책 및 스택을 생성할 수 있는 권한이 있는 IAM 사용자
Titan Text G1 – Express 모델은 현재 미리 보기 상태이므로 이 게시물의 일부로 사용하려면 미리 보기 액세스 권한이 필요합니다.

AWS CloudFormation으로 리소스 생성

CloudFormation은 다음과 같은 AWS 리소스를 생성합니다.

EMR Studio, 라우팅 테이블 및 NAT 게이트웨이와 함께 사용할 프라이빗 및 퍼블릭 서브넷이 있는 VPC 스택입니다.
Python 3.9가 설치된 EMR 클러스터. 우리는 부트스트랩 작업을 사용하여 Python 3.9와 pyspark-ai 및 Amazon Bedrock 종속성과 같은 기타 관련 패키지를 설치하고 있습니다. (자세한 내용은 다음을 참조하세요. 부트스트랩 스크립트.)
EMR Studio 작업 공간 및 노트북 스토리지를 위한 S3 버킷.
EMR Studio 설정, Amazon Bedrock 액세스 및 노트북 실행을 위한 IAM 역할 및 정책

시작하려면 다음 단계를 완료하십시오.

왼쪽 메뉴에서 스택 시작 :
선택 이 템플릿이 IAM 리소스를 생성할 수 있음을 인정합니다..

CloudFormation 스택을 완료하는 데 약 20~30분이 소요됩니다. AWS CloudFormation 콘솔에서 진행 상황을 모니터링할 수 있습니다. 상태를 읽을 때 CREATE_COMPLETE, 귀하의 AWS 계정에는 이 솔루션을 구현하는 데 필요한 리소스가 있습니다.

EMR 스튜디오 생성

이제 EMR Studio 및 Workspace를 생성하여 노트북 코드로 작업할 수 있습니다. 다음 단계를 완료하세요.

EMR Studio 콘솔에서 다음을 선택합니다. 스튜디오를 만듭니다.
입력 스튜디오 이름 as GenAI-EMR-Studio 그리고 설명을 제공하세요.
. 네트워킹 및 보안 섹션에서 다음을 지정합니다.
- 럭셔리 VPC에서 배포한 CloudFormation 스택의 일부로 생성한 VPC를 선택합니다. VPCID 키에 대한 CloudFormation 출력을 사용하여 VPC ID를 가져옵니다.
- 럭셔리 서브넷, XNUMX개의 서브넷을 모두 선택합니다.
- 럭셔리 보안 및 액세스, 고르다 사용자 정의 보안 그룹.
- 럭셔리 클러스터/엔드포인트 보안 그룹선택한다. EMRSparkAI-Cluster-Endpoint-SG.
- 럭셔리 작업 공간 보안 그룹선택한다. EMRSparkAI-Workspace-SG.
. 스튜디오 서비스 역할 섹션에서 다음을 지정합니다.
- 럭셔리 인증, 고르다 AWS 자격 증명 및 액세스 관리 (IAM).
- 럭셔리 AWS IAM 서비스 역할선택한다. EMRSparkAI-StudioServiceRole.
. 작업 공간 스토리지 섹션에서 다음으로 시작하는 스토리지용 S3 버킷을 찾아 선택합니다. emr-sparkai-<account-id>.
왼쪽 메뉴에서 스튜디오 만들기.
EMR Studio가 생성되면 아래의 링크를 선택하십시오. 스튜디오 액세스 URL 스튜디오에 액세스하려면
스튜디오에 있을 때 다음을 선택하세요. 작업 공간 만들기.
추가 emr-genai 작업공간 이름으로 선택하고 작업 공간 만들기.
작업공간이 생성되면 해당 이름을 선택하여 작업공간을 시작합니다(팝업 차단기를 모두 비활성화했는지 확인하세요).

Amazon EMR 및 생성 AI와 함께 Apache Spark를 사용한 빅 데이터 분석

이제 필요한 설정을 완료했으므로 Amazon EMR 및 생성 AI와 함께 Apache Spark를 사용하여 빅 데이터 분석 수행을 시작할 수 있습니다.

첫 번째 단계로 사용 사례에 필요한 코드와 예제가 포함된 노트북을 로드합니다. 우리는 택시 탑승에 대한 세부 정보가 포함된 NY Taxi 데이터세트를 사용합니다.

노트북 파일 다운로드 NYTaxi.ipynb 업로드 아이콘을 선택하여 작업공간에 업로드하세요.
노트북을 가져온 후 노트북을 열고 다음을 선택하세요. PySpark 커널로.

파이스파크 AI 기본적으로 OpenAI의 ChatGPT4.0을 LLM 모델로 사용하지만 Amazon Bedrock의 모델을 연결할 수도 있습니다. Amazon SageMaker 점프스타트및 기타 타사 모델. 이 게시물에서는 SQL 쿼리 생성을 위해 Amazon Bedrock Titan 모델을 통합하고 Amazon EMR에서 Apache Spark와 함께 실행하는 방법을 보여줍니다.

노트북을 시작하려면 작업 공간을 컴퓨팅 계층에 연결해야 합니다. 그렇게 하려면 다음을 선택하십시오. 계산 탐색 창에서 아이콘을 클릭하고 CloudFormation 스택에서 생성된 EMR 클러스터를 선택합니다.

Amazon EMR과 함께 업데이트된 Python 3.9 패키지를 사용하도록 Python 매개변수를 구성합니다.

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

필요한 라이브러리를 가져옵니다.

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

라이브러리를 가져온 후 Amazon Bedrock에서 LLM 모델을 정의할 수 있습니다. 이 경우 amazon.titan-text-express-v1을 사용합니다. Titan Text G1 – Express 모델에 대한 미리 보기 액세스를 기반으로 지역 및 Amazon Bedrock 엔드포인트 URL을 입력해야 합니다.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
자연어 질문을 기반으로 SQL 쿼리 생성을 위해 Spark AI를 Amazon Bedrock LLM 모델에 연결합니다.
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

여기서는 verbose=False로 Spark AI를 초기화했습니다. 자세한 내용을 보려면 verbose=True를 설정할 수도 있습니다.

이제 Spark DataFrame에서 NYC Taxi 데이터를 읽고 Spark에서 생성 AI의 기능을 사용할 수 있습니다.

예를 들어 데이터 세트의 레코드 수를 물어볼 수 있습니다.

taxi_records.ai.transform("count the number of records in this dataset").show()

다음과 같은 응답을받습니다.

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI는 내부적으로 랭체인 Spark에서 쿼리를 사용하는 최종 사용자의 복잡성을 숨기는 SQL 체인.

노트북에는 Apache Spark 및 Amazon EMR을 통해 생성 AI의 성능을 탐색할 수 있는 몇 가지 예제 시나리오가 더 있습니다.

정리

S3 버킷의 콘텐츠 비우기 emr-sparkai-<account-id>, 이 게시물의 일부로 생성된 EMR Studio 작업 공간을 삭제한 다음 배포한 CloudFormation 스택을 삭제하십시오.

결론

이 게시물에서는 Amazon EMR 및 Amazon Bedrock과 함께 Apache Spark를 사용하여 빅 데이터 분석을 강화하는 방법을 보여주었습니다. PySpark AI 패키지를 사용하면 데이터에서 의미 있는 통찰력을 얻을 수 있습니다. 개발 및 분석 시간을 단축하고 수동 쿼리 작성 시간을 단축하며 비즈니스 사용 사례에 집중할 수 있도록 도와줍니다.

저자에 관하여

사우라브 부티야니 AWS의 수석 분석 전문가 솔루션 아키텍트입니다. 그는 새로운 기술에 열정적입니다. 그는 2019년에 AWS에 합류했으며 고객과 협력하여 Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation과 같은 AWS 서비스를 사용하여 생성 AI 사용 사례, 확장 가능한 분석 솔루션 및 데이터 메시 아키텍처를 실행하기 위한 아키텍처 지침을 제공합니다. 그리고 아마존 데이터존.

거친 바르 단 분석을 전문으로 하는 AWS 수석 솔루션 아키텍트입니다. 그는 빅데이터 및 데이터 과학 분야에서 8년 이상의 경력을 갖고 있습니다. 그는 고객이 모범 사례를 채택하고 데이터에서 통찰력을 발견하도록 돕는 데 열정을 쏟고 있습니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

타임 스탬프 : 2023 년 11 월 16 일

타임 스탬프 : 2년 2023월 XNUMX일

Amazon EMR, Amazon Bedrock 및 Apache Spark용 영어 SDK와 함께 생성 AI를 사용하여 통찰력 확보 | 아마존 웹 서비스

플라톤에 의해 재발행

솔루션 개요

사전 조건

AWS CloudFormation으로 리소스 생성

EMR 스튜디오 생성

Amazon EMR 및 생성 AI와 함께 Apache Spark를 사용한 빅 데이터 분석

정리

결론

저자에 관하여

더보기 AWS 빅 데이터

Amazon DynamoDB 및 Amazon Athena를 사용하여 Apache Iceberg로 서버리스 CDC 프로세스 구현 | 아마존 웹 서비스

AWS Glue, AWS DMS 및 Amazon DynamoDB를 사용하여 실시간 서버리스 데이터 분석을 위해 스트리밍 데이터 소스를 CDC 데이터와 결합 | 아마존 웹 서비스

Defontana는 Amazon QuickSight | 아마존 웹 서비스

온프레미스 네트워크에서 Amazon MSK Serverless에 연결

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정