Dette indlæg er skrevet sammen med Jayadeep Pabbisetty, Sr. Specialist Data Engineering hos Merck, og Prabakaran Mathaiyan, Sr. ML Engineer hos Tiger Analytics.
Livscyklussen for udvikling af store maskinlæringsmodeller (ML) kræver en skalerbar modeludgivelsesproces, der ligner softwareudviklingen. Modeludviklere arbejder ofte sammen om at udvikle ML-modeller og kræver en robust MLOps-platform at arbejde i. En skalerbar MLOps-platform skal omfatte en proces til håndtering af arbejdsgangen for ML-modelregistrering, godkendelse og forfremmelse til næste miljøniveau (udvikling, test). , UAT eller produktion).
En modeludvikler begynder typisk at arbejde i et individuelt ML-udviklingsmiljø inden for Amazon SageMaker. Når en model er trænet og klar til at blive brugt, skal den godkendes efter at være blevet registreret i Amazon SageMaker Model Registry. I dette indlæg diskuterer vi, hvordan AWS AI/ML-teamet samarbejdede med Merck Human Health IT MLOps-teamet for at bygge en løsning, der bruger en automatiseret arbejdsgang til ML-modelgodkendelse og -promovering med menneskelig indgriben i midten.
Oversigt over løsning
Dette indlæg fokuserer på en workflow-løsning, som ML-modellens livscyklus kan bruge mellem træningspipeline og inferencing pipeline. Løsningen giver en skalerbar arbejdsgang for MLO'er til at understøtte godkendelses- og forfremmelsesprocessen for ML-modellen med menneskelig indgriben. En ML-model, der er registreret af en dataforsker, skal have en godkender til at gennemgå og godkende, før den bruges til en slutningspipeline og i det næste miljøniveau (test, UAT eller produktion). Løsningen bruger AWS Lambda, Amazon API Gateway, Amazon Eventbridge, og SageMaker for at automatisere arbejdsgangen med menneskelig godkendelsesintervention i midten. Det følgende arkitekturdiagram viser det overordnede systemdesign, de anvendte AWS-tjenester og arbejdsgangen til godkendelse og promovering af ML-modeller med menneskelig indgriben fra udvikling til produktion.
Arbejdsgangen omfatter følgende trin:
- Uddannelsespipelinen udvikler og registrerer en model i SageMaker modelregistret. På dette tidspunkt er modelstatus
PendingManualApproval
. - EventBridge overvåger statusændringshændelser for automatisk at udføre handlinger med enkle regler.
- EventBridge modelregistreringshændelsesreglen påkalder en Lambda-funktion, der konstruerer en e-mail med et link til at godkende eller afvise den registrerede model.
- Godkenderen får en e-mail med linket til at gennemgå og godkende eller afvise modellen.
- Godkenderen godkender modellen ved at følge linket i e-mailen til et API Gateway-slutpunkt.
- API Gateway aktiverer en Lambda-funktion for at starte modelopdateringer.
- Modelregistret opdateres for modelstatus (
Approved
for udviklermiljøet, menPendingManualApproval
til test, UAT og produktion). - Modeldetaljerne er gemt i AWS Parameter Store, en evne til AWS System Manager, herunder modelversionen, godkendt målmiljø, modelpakke.
- Inferenspipelinen henter den model, der er godkendt til målmiljøet, fra Parameter Store.
- Lambda-funktionen efter inferensmeddelelse indsamler batch-inferensmålinger og sender en e-mail til godkenderen for at promovere modellen til det næste miljø.
Forudsætninger
Arbejdsgangen i dette indlæg forudsætter, at miljøet for træningspipeline er sat op i SageMaker sammen med andre ressourcer. Input til træningspipeline er funktionsdatasættet. Funktionsgenereringsdetaljerne er ikke inkluderet i dette indlæg, men det fokuserer på registrering, godkendelse og promovering af ML-modeller, efter at de er blevet trænet. Modellen er registreret i modelregistret og er styret af en overvågningsramme i Amazon SageMaker Model Monitor at detektere for enhver afdrift og fortsætte til genoptræning i tilfælde af modelafdrift.
Workflow detaljer
Godkendelsesworkflowet starter med en model udviklet ud fra en træningspipeline. Når dataforskere udvikler en model, registrerer de den til SageMaker Model Registry med modelstatus som PendingManualApproval
. EventBridge overvåger SageMaker for modelregistreringshændelsen og udløser en hændelsesregel, der påkalder en Lambda-funktion. Lambda-funktionen konstruerer dynamisk en e-mail til en godkendelse af modellen med et link til et API Gateway-endepunkt til en anden Lambda-funktion. Når godkenderen følger linket for at godkende modellen, videresender API Gateway godkendelseshandlingen til Lambda-funktionen, som opdaterer SageMaker Model Registry og modelattributterne i Parameter Store. Godkenderen skal være autentificeret og en del af godkendergruppen, der administreres af Active Directory. Den første godkendelse markerer modellen som Approved
for dev men PendingManualApproval
til test, UAT og produktion. De modelattributter, der er gemt i Parameter Store, inkluderer modelversionen, modelpakken og godkendt målmiljø.
Når en inferenspipeline skal hente en model, tjekker den Parameter Store for den seneste modelversion, der er godkendt til målmiljøet, og får inferensdetaljerne. Når slutningspipelinen er fuldført, sendes en post-inferensmeddelelses-e-mail til en interessent, der anmoder om en godkendelse til at fremme modellen til næste miljøniveau. E-mailen har detaljerne om modellen og metrics samt et godkendelseslink til et API Gateway-slutpunkt for en Lambda-funktion, der opdaterer modelattributterne.
Det følgende er rækkefølgen af begivenheder og implementeringstrin for godkendelse/promovering af ML-modellen fra modeloprettelse til produktion. Modellen fremmes fra udvikling til test-, UAT- og produktionsmiljøer med en eksplicit menneskelig godkendelse i hvert trin.
Vi starter med træningspipeline, som er klar til modeludvikling. Modelversionen starter som 0 i SageMaker Model Registry.
- SageMaker træningspipeline udvikler og registrerer en model i SageMaker Model Registry. Model version 1 er registreret og starter med Afventer manuel godkendelse status.Modelregistrets metadata har fire brugerdefinerede felter til miljøerne:
dev, test, uat
ogprod
. - EventBridge overvåger SageMaker Model Registry for statusændring for automatisk at handle med enkle regler.
- Modelregistreringshændelsesreglen påkalder en Lambda-funktion, der konstruerer en e-mail med linket til at godkende eller afvise den registrerede model.
- Godkenderen får en e-mail med linket til at gennemgå og godkende (eller afvise) modellen.
- Godkenderen godkender modellen ved at følge linket til API Gateway-slutpunktet i e-mailen.
- API Gateway aktiverer Lambda-funktionen for at starte modelopdateringer.
- SageMaker Model Registry er opdateret med modelstatus.
- Modeldetaljerne gemmes i Parameter Store, inklusive modelversionen, godkendt målmiljø og modelpakke.
- Inferenspipelinen henter den model, der er godkendt til målmiljøet, fra Parameter Store.
- Lambda-funktionen efter inferensmeddelelse indsamler batch-inferensmålinger og sender en e-mail til godkenderen for at promovere modellen til det næste miljø.
- Godkenderen godkender modelpromoveringen til næste niveau ved at følge linket til API Gateway-slutpunktet, som udløser Lambda-funktionen til at opdatere SageMaker Model Registry and Parameter Store.
Den komplette historik for modelversionering og godkendelse gemmes til gennemgang i Parameter Store.
Konklusion
Den store ML-modeludviklingslivscyklus kræver en skalerbar ML-modelgodkendelsesproces. I dette indlæg delte vi en implementering af en ML-modelregistrering, godkendelse og promoveringsworkflow med menneskelig indgriben ved hjælp af SageMaker Model Registry, EventBridge, API Gateway og Lambda. Hvis du overvejer en skalerbar ML-modeludviklingsproces til din MLOps-platform, kan du følge trinene i dette indlæg for at implementere en lignende arbejdsgang.
Om forfatterne
Tom Kim er Senior Solution Architect hos AWS, hvor han hjælper sine kunder med at nå deres forretningsmål ved at udvikle løsninger på AWS. Han har stor erfaring med virksomhedssystemarkitektur og drift på tværs af flere brancher – især inden for Health Care og Life Science. Tom lærer altid nye teknologier, der fører til ønsket forretningsresultat for kunderne – f.eks. AI/ML, GenAI og Data Analytics. Han nyder også at rejse til nye steder og spille nye golfbaner, når han kan finde tid.
Shamika Ariyawansa, tjener som senior AI/ML Solutions Architect i Healthcare and Life Sciences divisionen hos Amazon Web Services (AWS), specialiseret i Generative AI med fokus på Large Language Model (LLM) træning, inferensoptimeringer og MLOps (Machine Learning) Operationer). Han guider kunder i at integrere avanceret Generativ AI i deres projekter, hvilket sikrer robuste træningsprocesser, effektive slutningsmekanismer og strømlinede MLOps-praksis for effektive og skalerbare AI-løsninger. Ud over sine professionelle forpligtelser forfølger Shamika lidenskabeligt skiløb og offroad-eventyr.
Jayadeep Pabbisetty er Senior ML/Data Engineer hos Merck, hvor han designer og udvikler ETL- og MLOps-løsninger for at låse op for datavidenskab og -analyse for virksomheden. Han er altid begejstret for at lære nye teknologier, udforske nye veje og tilegne sig de færdigheder, der er nødvendige for at udvikle sig med den stadigt skiftende it-industri. I sin fritid følger han sin passion for sport og kan lide at rejse og udforske nye steder.
Prabakaran Mathaiyan er Senior Machine Learning Engineer hos Tiger Analytics LLC, hvor han hjælper sine kunder med at nå deres forretningsmål ved at levere løsninger til modelbygning, træning, validering, overvågning, CICD og forbedring af maskinlæringsløsninger på AWS. Prabakaran lærer altid nye teknologier, der fører til ønsket forretningsresultat for kunderne – f.eks. AI/ML, GenAI, GPT og LLM. Han nyder også at spille cricket, når han kan finde tid.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/build-an-amazon-sagemaker-model-registry-approval-and-promotion-workflow-with-human-intervention/
- :har
- :er
- :ikke
- :hvor
- $OP
- 1
- 100
- 110
- 116
- a
- Om
- opnå
- erhverve
- tværs
- Handling
- aktioner
- aktiv
- Active Directory
- fremskreden
- eventyr
- Efter
- AI
- AI / ML
- sammen
- også
- altid
- Amazon
- Amazon SageMaker
- Amazon Web Services
- Amazon Web Services (AWS)
- an
- analytics
- ,
- En anden
- enhver
- api
- godkendelse
- Godkend
- godkendt
- arkitektur
- ER
- AS
- antager
- At
- attributter
- autentificeret
- automatisere
- Automatiseret
- automatisk
- veje
- AWS
- BE
- før
- være
- mellem
- Beyond
- Bund
- bygge
- Bygning
- bus
- virksomhed
- men
- by
- CAN
- kapacitet
- hvilken
- tilfælde
- lave om
- Kontrol
- kode
- samarbejdet
- indsamler
- forpligtelser
- fuldføre
- Overvejer
- kurser
- skabelse
- cricket
- skik
- Kunder
- data
- Dataanalyse
- datalogi
- dataforsker
- Design
- designs
- ønskes
- detail
- detaljer
- opdage
- dev
- udvikle
- udviklet
- Udvikler
- udviklere
- udvikling
- Udvikling
- udvikler
- diskutere
- Afdeling
- dynamisk
- e
- hver
- Effektiv
- effektiv
- indlejring
- Endpoint
- ingeniør
- Engineering
- sikring
- Enterprise
- entusiastiske
- Miljø
- miljøer
- Ether (ETH)
- begivenhed
- begivenheder
- evigt skiftende
- udvikle sig
- erfaring
- udforske
- Udforskning
- omfattende
- Omfattende oplevelse
- Feature
- Funktionalitet
- Fields
- Finde
- Fokus
- fokuserer
- følger
- efter
- følger
- Til
- fire
- Framework
- fra
- funktion
- gateway
- generation
- generative
- Generativ AI
- golf
- reguleret
- gruppe
- Guides
- Håndtering
- he
- Helse
- Health Care
- sundhedspleje
- hjælper
- hans
- historie
- Hvordan
- HTML
- HTTPS
- menneskelig
- if
- gennemføre
- implementering
- in
- omfatter
- medtaget
- omfatter
- Herunder
- individuel
- industrier
- industrien
- oplysninger
- initial
- indlede
- indgang
- integration
- indgriben
- ind
- påberåber sig
- IT
- It-industrien
- jpg
- Sprog
- stor
- seneste
- føre
- læring
- Niveau
- Livet
- Life Science
- Life Sciences
- livscyklus
- synes godt om
- LINK
- LLC
- maskine
- machine learning
- lykkedes
- manuel
- mekanismer
- Merck
- Metadata
- Metrics
- Mellemøsten
- ML
- MLOps
- model
- modeller
- overvågning
- skærme
- skal
- nødvendig
- behov
- Ny
- Nye teknologier
- næste
- underretning
- målsætninger
- of
- tit
- on
- Produktion
- or
- Andet
- Resultat
- samlet
- pakke
- parameter
- del
- især
- lidenskab
- Mønster
- pipeline
- Steder
- perron
- plato
- Platon Data Intelligence
- PlatoData
- spiller
- Punkt
- portræt
- Indlæg
- praksis
- Fortsæt
- behandle
- Processer
- produktion
- professionel
- projekter
- fremme
- fremmes
- Fremme
- forfremmelse
- giver
- leverer
- Forfølger
- klar
- register
- registreret
- registre
- Registrering
- register
- frigive
- anmoder
- kræver
- Kræver
- Ressourcer
- omskoling
- gennemgå
- robust
- R
- Herske
- regler
- s
- sagemaker
- gemt
- skalerbar
- Videnskab
- VIDENSKABER
- Videnskabsmand
- forskere
- sender
- senior
- sendt
- Sequence
- Tjenester
- servering
- sæt
- flere
- delt
- Shows
- lignende
- Simpelt
- færdigheder
- Software
- softwareudvikling
- løsninger
- Løsninger
- specialist
- specialiseret
- Sport
- interessent
- starte
- starter
- Status
- Trin
- Steps
- butik
- opbevaret
- strømlinet
- Støtte
- systemet
- Systemer
- Tag
- mål
- hold
- Teknologier
- prøve
- at
- deres
- de
- denne
- Tiger
- tid
- til
- sammen
- tome
- uddannet
- Kurser
- rejse
- Traveling
- typisk
- låse
- Opdatering
- opdateret
- opdateringer
- brug
- anvendte
- bruger
- ved brug af
- validering
- udgave
- we
- web
- webservices
- GODT
- hvornår
- når
- som
- med
- inden for
- Arbejde
- arbejde sammen
- workflow
- dig
- Din
- zephyrnet