Oppdag mitotiske figurer i hele lysbildebilder med Amazon-gjenkjenning

Publisert av Platon

Følgere: 0

Selv etter mer enn hundre år etter introduksjonen er histologi fortsatt gullstandarden i tumordiagnose og prognose. Anatomiske patologer evaluerer histologi for å stratifisere kreftpasienter i forskjellige grupper avhengig av deres tumorgenotyper og -fenotyper, og deres kliniske utfall [1,2]. Imidlertid er menneskelig evaluering av histologiske lysbilder subjektiv og ikke repeterbar [3]. Videre er histologisk vurdering en tidkrevende prosess som krever høyt kvalifiserte fagfolk.

Med betydelige teknologiske fremskritt det siste tiåret, er teknikker som hele lysbildeavbildning (WSI) og dyp læring (DL) nå allment tilgjengelig. WSI er skanning av konvensjonelle mikroskopiglass for å produsere et enkelt bilde med høy oppløsning fra disse lysbildene. Dette gir mulighet for digitalisering og innsamling av store sett med patologibilder, noe som ville ha vært uoverkommelig tidkrevende og kostbart. Tilgjengeligheten av slike datasett skaper nye og innovative måter å akselerere diagnose ved å bruke teknikker som maskinlæring (ML) for å hjelpe patologer med å akselerere diagnoser ved raskt å identifisere funksjoner av interesse.

I dette innlegget skal vi utforske hvordan utviklere uten tidligere ML-erfaring kan bruke Amazon Rekognition Egendefinerte etiketter å trene en modell som klassifiserer mobilfunksjoner. Amazon Rekognition Custom Labels er en funksjon av Amazon-anerkjennelse som lar deg bygge dine egne spesialiserte ML-baserte bildeanalysefunksjoner for å oppdage unike objekter og scener som er integrert i ditt spesifikke bruksområde. Spesielt bruker vi et datasett som inneholder hele lysbildebilder av brystkreft hos hunder [1] for å demonstrere hvordan man behandler disse bildene og trener en modell som oppdager mitotiske figurer. Dette datasettet har blitt brukt med tillatelse fra prof. Dr. Marc Aubreville, som har godtatt å la oss bruke det til dette innlegget. For mer informasjon, se Acknowledgements-delen på slutten av dette innlegget.

Løsningsoversikt

Løsningen består av to komponenter:

En Amazon Rekognition Custom Labels-modell — For å gjøre det mulig for Amazon Rekognition å oppdage mitotiske figurer, fullfører vi følgende trinn:
- Prøve WSI-datasettet for å produsere bilder med tilstrekkelig størrelse ved å bruke Amazon SageMaker Studio og en Python-kode som kjører på en Jupyter-notisbok. Studio er et nettbasert, integrert utviklingsmiljø (IDE) for ML som gir alle verktøyene du trenger for å ta modellene dine fra eksperimentering til produksjon samtidig som du øker produktiviteten. Vi vil bruke Studio til å dele bildene i mindre for å trene opp modellen vår.
- Tren en Amazon Rekognition Custom Labels-modell for å gjenkjenne mitotiske figurer i hematoxylin-eosin-prøver ved å bruke dataene utarbeidet i forrige trinn.
En frontend-applikasjon — For å demonstrere hvordan du bruker en modell som den vi trente i forrige trinn, fullfører vi følgende trinn:

Følgende diagram illustrerer løsningsarkitekturen.

Alle nødvendige ressurser for å distribuere implementeringen diskutert i dette innlegget og koden for hele delen er tilgjengelig på GitHub. Du kan klone eller splitte depotet, gjøre endringer du ønsker, og kjøre det selv.

I de neste trinnene går vi gjennom koden for å forstå de forskjellige trinnene som er involvert i å innhente og forberede dataene, trene modellen og bruke den fra en eksempelapplikasjon.

Kostnader

Når du kjører trinnene i denne gjennomgangen, pådrar du deg små kostnader ved å bruke følgende AWS-tjenester:

Amazon-anerkjennelse
AWS Fargate
Lastbalanse for applikasjon
AWS Secrets Manager

I tillegg, hvis du ikke lenger er innenfor Free Tier-perioden eller betingelsene, kan du pådra deg kostnader fra følgende tjenester:

CodePipeline
CodeBuild
Amazon ECR
Amazon SageMaker

Hvis du fullfører oppryddingstrinnene riktig etter å ha fullført denne gjennomgangen, kan du forvente at kostnadene vil være mindre enn 10 USD hvis Amazon Rekognition Custom Labels-modellen og nettapplikasjonen kjører i én time eller mindre.

Forutsetninger

For å fullføre alle trinnene trenger du følgende:

Trening av klassifiseringsmodellen for mitotiske figurer

Vi kjører alle trinnene som kreves for å trene modellen fra en Studio-notisbok. Hvis du aldri har brukt Studio før, kan det hende du må om bord først. For mer informasjon, se Ombord raskt til Amazon SageMaker Studio.

Noen av de følgende trinnene krever mer RAM enn det som er tilgjengelig i en standard ml.t3.medium bærbar PC. Pass på at du har valgt en ml.m5.large notisbok. Du bør se en 2 vCPU + 8 GiB indikasjon øverst til høyre på siden.

Koden for denne delen er tilgjengelig som en Jupyter notisbokfil.

Etter ombordstigning til Studio, følg disse instruksjonene å gi Studio de nødvendige tillatelsene til å ringe Amazon Rekognition på dine vegne.

avhengig

Til å begynne med må vi fullføre følgende trinn:

Oppdater Linux-pakker og installer de nødvendige avhengighetene, for eksempel OpenSlide:

!apt update > /dev/null && apt dist-upgrade -y > /dev/null
!apt install -y build-essential openslide-tools python-openslide libgl1-mesa-glx > /dev/null

Installer fastai- og SlideRunner-bibliotekene ved å bruke pip:

!pip install SlideRunner SlideRunner_dataAccess fastai==1.0.61 > /dev/null

Last ned datasettet (vi gir et skript for å gjøre dette automatisk):
```
from dataset import download_dataset
download_dataset()
```

Behandle datasettet

Vi vil begynne med å importere noen av pakkene som vi bruker gjennom hele dataforberedelsesstadiet. Deretter laster vi ned og laster merknadsdatabasen for dette datasettet. Denne databasen inneholder posisjonene i hele lysbildebildene til de mitotiske figurene (trekkene vi ønsker å klassifisere). Se følgende kode:

%reload_ext autoreload
%autoreload 2
import os
from typing import List
import urllib
import numpy as np
from SlideRunner.dataAccess.database import Database
from pathlib import Path DATABASE_URL = 'https://github.com/DeepPathology/MITOS_WSI_CMC/raw/master/databases/MITOS_WSI_CMC_MEL.sqlite'
DATABASE_FILENAME = 'MITOS_WSI_CMC_MEL.sqlite' Path("./databases").mkdir(parents=True, exist_ok=True)
local_filename, headers = urllib.request.urlretrieve( DATABASE_URL, filename=os.path.join('databases', DATABASE_FILENAME),
)

Fordi vi bruker SageMaker, oppretter vi en ny SageMaker Session objekt for å lette oppgaver som å laste opp datasettet vårt til en Amazon enkel lagringstjeneste (Amazon S3) bøtte. Vi bruker også S3-bøtten som SageMaker oppretter som standard for å laste opp våre behandlede bildefiler.

De slidelist_test array inneholder ID-ene til lysbildene som vi bruker som en del av testdatasettet for å evaluere ytelsen til den trente modellen. Se følgende kode:

import sagemaker
sm_session = sagemaker.Session() size=512
bucket_name = sm_session.default_bucket() database = Database()
database.open(os.path.join('databases', DATABASE_FILENAME)) slidelist_test = ['14','18','3','22','10','15','21']

Det neste trinnet er å skaffe et sett med treningsområder og testbilder, sammen med etikettene på dem, hvorfra vi kan ta mindre områder for å trene modellen vår. Koden for get_slides finnes i sampling.py-filen i GitHub.

from sampling import get_slides image_size = 512 lbl_bbox, training_slides, test_slides, files = get_slides(database, slidelist_test, negative_class=1, size=image_size)

Vi ønsker å ta stikkprøver fra trenings- og testbilder. Vi bruker listene over trenings- og testbilder og velger tilfeldig n_training_images ganger en fil for trening, og n_test_images ganger en fil for test:

n_training_images = 500
n_test_images = int(0.2 * n_training_images) training_files = list([ (y, files[y]) for y in np.random.choice( [x for x in training_slides], n_training_images)
])
test_files = list([ (y, files[y]) for y in np.random.choice( [x for x in test_slides], n_test_images)
])

Deretter lager vi en katalog for treningsbilder og en for testbilder:

Path("rek_slides/training").mkdir(parents=True, exist_ok=True)
Path("rek_slides/test").mkdir(parents=True, exist_ok=True)

Før vi produserer de mindre bildene som trengs for å trene modellen, trenger vi litt hjelpekode som produserer metadataene som trengs for å beskrive trenings- og testdataene. Følgende kode sørger for at en gitt grenseramme rundt funksjonene av interesse (mitotiske figurer) er godt innenfor sonen vi klipper, og produserer en linje med JSON som beskriver bildet og funksjonene i det i Amazon SageMaker Ground Truth format, som er formatet Amazon Rekognition Custom Labels krever. For mer informasjon om denne manifestfilen for objektdeteksjon, se Objektlokalisering i manifestfiler.

def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def get_annotation_json_line(filename, channel, annotations, labels): objects = list([{'confidence' : 1} for i in range(0, len(annotations))]) return json.dumps({ 'source-ref': f's3://{bucket_name}/data/{channel}/{filename}', 'bounding-box': { 'image_size': [{ 'width': size, 'height': size, 'depth': 3 }], 'annotations': annotations, }, 'bounding-box-metadata': { 'objects': objects, 'class-map': dict({ x: str(x) for x in labels }), 'type': 'groundtruth/object-detection', 'human-annotated': 'yes', 'creation-date': datetime.datetime.now().isoformat(), 'job-name': 'rek-pathology', } }) def generate_annotations(x_start: int, y_start: int, bboxes, labels, filename: str, channel: str): annotations = [] for bbox in bboxes: if check_bbox(x_start, y_start, bbox): # Get coordinates relative to this slide. x0 = bbox.left - x_start y0 = bbox.top - y_start annotation = { 'class_id': 1, 'top': y0, 'left': x0, 'width': bbox.right - bbox.left, 'height': bbox.bottom - bbox.top } annotations.append(annotation) return get_annotation_json_line(filename, channel, annotations, labels)

Med generate_annotations funksjon på plass, kan vi skrive koden for å produsere trenings- og testbildene:

import datetime
import json
import random from fastai import *
from fastai.vision import *
from tqdm.notebook import tqdm # Margin size, in pixels, for training images. This is the space we leave on
# each side for the bounding box(es) to be well into the image.
margin_size = 64 training_annotations = []
test_annotations = [] def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def generate_images(file_list) -> None: for f_idx in tqdm(range(0, len(file_list)), desc='Writing training images...'): slide_idx, f = file_list[f_idx] bboxes = lbl_bbox[slide_idx][0] labels = lbl_bbox[slide_idx][1] # Calculate the minimum and maximum horizontal and vertical positions # that bounding boxes should have within the image. x_min = min(map(lambda x: x.left, bboxes)) - margin_size y_min = min(map(lambda x: x.top, bboxes)) - margin_size x_max = max(map(lambda x: x.right, bboxes)) + margin_size y_max = max(map(lambda x: x.bottom, bboxes)) + margin_size result = False while not result: x_start = random.randint(x_min, x_max - image_size) y_start = random.randint(y_min, y_max - image_size) for bbox in bboxes: if check_bbox(x_start, y_start, bbox): result = True break filename = f'slide_{f_idx}.png' channel = 'test' if slide_idx in test_slides else 'training' annotation = generate_annotations(x_start, y_start, bboxes, labels, filename, channel) if channel == 'training': training_annotations.append(annotation) else: test_annotations.append(annotation) img = Image(pil2tensor(f.get_patch(x_start, y_start) / 255., np.float32)) img.save(f'rek_slides/{channel}/{filename}') generate_images(training_files)
generate_images(test_files)

Det siste trinnet mot å ha alle nødvendige data er å skrive en manifest.json fil for hvert av datasettene:

with open('rek_slides/training/manifest.json', 'w') as mf: mf.write("n".join(training_annotations)) with open('rek_slides/test/manifest.json', 'w') as mf: mf.write("n".join(test_annotations))

Overfør filene til S3

Vi bruker upload_data metode som SageMaker-sesjonsobjektet eksponerer for å laste opp bildene og manifestfilene til standard SageMaker S3-bøtte:

import sagemaker sm_session = sagemaker.Session()
data_location = sm_session.upload_data( './rek_slides', bucket=bucket_name,
)

Tren en Amazon Rekognition Custom Labels-modell

Med dataene allerede i Amazon S3, kan vi trene en tilpasset modell. Vi bruker Boto3-biblioteket til å lage en Amazon Rekognition-klient og lage et prosjekt:

import boto3 project_name = 'rek-mitotic-figures-workshop' rek = boto3.client('rekognition')
response = rek.create_project(ProjectName=project_name) # If you have already created the project, use the describe_projects call to
# retrieve the project ARN.
# response = rek.describe_projects()['ProjectDescriptions'][0] project_arn = response['ProjectArn']

Med prosjektet klart til bruk trenger du nå en prosjektversjon som peker på opplærings- og testdatasettene i Amazon S3. Hver versjon peker ideelt sett til forskjellige datasett (eller forskjellige versjoner av det). Dette gjør oss i stand til å ha forskjellige versjoner av en modell, sammenligne ytelsen deres og bytte mellom dem etter behov. Se følgende kode:

version_name = '1' output_config = { 'S3Bucket': bucket_name, 'S3KeyPrefix': 'output',
} training_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/training/manifest.json' } }, }, ]
} testing_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/test/manifest.json' } }, }, ]
} def describe_project_versions(): describe_response = rek.describe_project_versions( ProjectArn=project_arn, VersionNames=[version_name], ) for model in describe_response['ProjectVersionDescriptions']: print(f"Status: {model['Status']}") print(f"Message: {model['StatusMessage']}") return describe_response response = rek.create_project_version( VersionName=version_name, ProjectArn=project_arn, OutputConfig=output_config, TrainingData=training_dataset, TestingData=testing_dataset,
) waiter = rek.get_waiter('project_version_training_completed')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
) describe_response = describe_project_versions()

Etter at vi har opprettet prosjektversjonen, starter Amazon Rekognition automatisk opplæringsprosessen. Treningstiden avhenger av flere funksjoner, som størrelsen på bildene og antallet av dem, antall klasser og så videre. I dette tilfellet, for 500 bilder, tar treningen omtrent 90 minutter å fullføre.

Test modellen

Etter trening er hver modell i Amazon Rekognition Custom Labels i STOPPED stat. For å bruke det for å slutningsføre, må du starte det. Vi henter prosjektversjonen ARN fra prosjektversjonsbeskrivelsen og sender den over til start_project_version. Legg merke til MinInferenceUnits parameter – vi starter med én inferensenhet. Det faktiske maksimale antallet transaksjoner per sekund (TPS) som denne slutningsenheten støtter, avhenger av kompleksiteten til modellen din. For å lære mer om TPS, se dette blogginnlegg.

model_arn = describe_response['ProjectVersionDescriptions'][0]['ProjectVersionArn'] response = rek.start_project_version( ProjectVersionArn=model_arn, MinInferenceUnits=1,
)
waiter = rek.get_waiter('project_version_running')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
)

Når prosjektversjonen din er oppført som RUNNING, kan du begynne å sende bilder til Amazon Rekognition for slutning.

Vi bruker en av filene i testdatasettet til å teste den nystartede modellen. Du kan bruke hvilken som helst passende PNG- eller JPEG-fil i stedet.

from matplotlib import pyplot as plt
from PIL import Image, ImageDraw # We'll use one of our test images to try out our model.
with open('./rek_slides/test/slide_0.png', 'rb') as image_file: image_bytes=image_file.read() # Send the image data to the model.
response = rek.detect_custom_labels( ProjectVersionArn=model_arn, Image={ 'Bytes': image_bytes }
) img = Image.open(io.BytesIO(image_bytes))
draw = ImageDraw.Draw(img) for custom_label in response['CustomLabels']: geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) plt.imshow(np.asarray(img))

Strømbelyst applikasjon

For å demonstrere integrasjonen med Amazon Rekognition bruker vi en veldig enkel Python-applikasjon. Vi bruker Strømbelyst biblioteket for å bygge et spartansk brukergrensesnitt, der vi ber brukeren laste opp en bildefil.

Vi bruker Boto3-biblioteket og detect_custom_labels metode, sammen med prosjektversjonen ARN, for å påkalle inferensendepunktet. Svaret er et JSON-dokument som inneholder posisjonene og klassene til de forskjellige objektene som er oppdaget i bildet. I vårt tilfelle er dette de mitotiske figurene som algoritmen har funnet i bildet vi sendte til endepunktet. Se følgende kode:

import os import boto3
import io
import streamlit as st
from PIL import Image, ImageDraw rek_client = boto3.client('rekognition') uploaded_file = st.file_uploader('Image file')
if uploaded_file is not None: image_bytes = uploaded_file.read() result = rek_client.detect_custom_labels( ProjectVersionArn='<YOUR_PROJECT_ARN_HERE>', Image={ 'Bytes': image_bytes } ) img = Image.open(io.BytesIO(image_bytes)) draw = ImageDraw.Draw(img) st.write(result['CustomLabels']) for custom_label in result['CustomLabels']: st.write(f"Label {custom_label['Name']}, confidence {custom_label['Confidence']}") geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height st.write(f"Left, top = ({l}, {t}), width, height = ({w}, {h})") draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) st_img = st.image(img)

Distribuer applikasjonen til AWS

For å distribuere applikasjonen bruker vi et AWS CDK-skript. Hele prosjektet finner du på GitHub . La oss se på de forskjellige ressursene som brukes av skriptet.

Opprett et Amazon ECR-depot

Som det første trinnet mot å sette opp distribusjonen vår, oppretter vi et Amazon ECR-lager, der vi kan lagre applikasjonsbeholderbildene våre:

aws ecr create-repository --repository-name rek-wsi

Lag og lagre GitHub-tokenet ditt i AWS Secrets Manager

CodePipeline trenger et GitHub Personal Access Token for å overvåke GitHub-depotet ditt for endringer og pull-kode. For å opprette tokenet, følg instruksjonene i GitHub-dokumentasjon. Tokenet krever følgende GitHub-omfang:

De repo scope, som brukes for full kontroll for å lese og trekke artefakter fra offentlige og private depoter inn i en rørledning.
De admin:repo_hook scope, som brukes for full kontroll av depotkroker.

Etter å ha opprettet tokenet, lagre det i en ny hemmelighet i AWS Secrets Manager som følger:

aws secretsmanager create-secret --name rek-wsi/github --secret-string "{"oauthToken":"YOUR-TOKEN-VALUE-HERE"}"

Skriv konfigurasjonsparametere til AWS Systems Manager Parameter Store

AWS CDK-skriptet leser noen konfigurasjonsparametere fra AWS Systems Manager Parameter Store, for eksempel navnet og eieren av GitHub-depotet, og målkontoen og regionen. Før du starter AWS CDK-skriptet, må du opprette disse parameterne i din egen konto.

Du kan gjøre det ved å bruke AWS CLI. Bare påkalle put-parameter kommando med et navn, en verdi og parametertypen:

aws ssm put-parameter --name <PARAMETER-NAME> --value <PARAMETER-VALUE> --type <PARAMETER_TYPE>

Følgende er en liste over alle parametere som kreves av AWS CDK-skriptet. Alle er av typen String:

/rek_wsi/prod/accountId — IDen til kontoen der vi distribuerer applikasjonen.
/rek_wsi/prod/ecr_repo_name — Navnet på Amazon ECR-depotet der beholderbildene er lagret.
/rek_wsi/prod/github/branch — Grenen i GitHub-depotet som CodePipeline trenger for å hente koden fra.
/rek_wsi/prod/github/owner — Eieren av GitHub-depotet.
/rek_wsi/prod/github/repo — Navnet på GitHub-depotet der koden vår er lagret.
/rek_wsi/prod/github/token — Navnet eller ARN til hemmeligheten i Secrets Manager som inneholder GitHub-autentiseringstokenet ditt. Dette er nødvendig for at CodePipeline skal kunne kommunisere med GitHub.
/rek_wsi/prod/region — Regionen der vi skal distribuere applikasjonen.

Legg merke til prod segment i alle parameternavn. Selv om vi ikke trenger dette detaljnivået for et så enkelt eksempel, vil det gjøre det mulig å gjenbruke denne tilnærmingen med andre prosjekter der ulike miljøer kan være nødvendige.

Ressurser opprettet av AWS CDK-skriptet

Vi trenger applikasjonen vår, som kjører i en Fargate-oppgave, for å ha tillatelser til å påkalle Amazon Rekognition. Så vi oppretter først en AWS identitets- og tilgangsadministrasjon (IAM) Oppgaverolle med RekognitionReadOnlyPolicy politikk knyttet til den. Legg merke til at assumed_by parameter i følgende kode tar ecs-tasks.amazonaws.com tjeneste rektor. Dette er fordi vi bruker Amazon ECS som orkestrator, så vi trenger Amazon ECS for å påta seg rollen og overføre legitimasjonen til Fargate-oppgaven.

streamlit_task_role = iam.Role( self, 'StreamlitTaskRole', assumed_by=iam.ServicePrincipal('ecs-tasks.amazonaws.com'), description='ECS Task Role assumed by the Streamlit task deployed to ECS+Fargate', managed_policies=[ iam.ManagedPolicy.from_managed_policy_arn( self, 'RekognitionReadOnlyPolicy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonRekognitionReadOnlyAccess' ), ],
)

Når applikasjonsbeholderbildet vårt er bygget, ligger det i et privat Amazon ECR-lager. Vi trenger et objekt som beskriver det som vi kan sende når vi oppretter Fargate-tjenesten:

ecs_container_image = ecs.ContainerImage.from_ecr_repository( repository=ecr.Repository.from_repository_name(self, 'ECRRepo', 'rek-wsi'), tag='latest'
)

Vi oppretter en ny VPC og klynge for denne applikasjonen. Du kan endre denne delen for å bruke din egen VPC ved å bruke from_lookup metode av Vpc klasse:

vpc = ec2.Vpc(self, 'RekWSI', max_azs=3)
cluster = ecs.Cluster(self, 'RekWSICluster', vpc=vpc)

Nå som vi har en VPC og klynge å distribuere til, oppretter vi Fargate-tjenesten. Vi bruker 0.25 vCPU og 512 MB RAM til denne oppgaven, og vi plasserer en offentlig Application Load Balancer (ALB) foran den. Når den er distribuert, bruker vi ALB CNAME for å få tilgang til applikasjonen. Se følgende kode:

fargate_service = ecs_patterns.ApplicationLoadBalancedFargateService( self, 'RekWSIECSApp', cluster=cluster, cpu=256, memory_limit_mib=512, desired_count=1, task_image_options=ecs_patterns.ApplicationLoadBalancedTaskImageOptions( image=ecs_container_image, container_port=8501, task_role=streamlit_task_role, ), public_load_balancer=True,
)

For å automatisk bygge og distribuere et nytt containerbilde hver gang vi skyver kode til hovedgrenen vår, lager vi en enkel pipeline som består av en GitHub-kildehandling og et byggetrinn. Det er her vi bruker hemmelighetene vi lagret i AWS Secrets Manager og AWS Systems Manager Parameter Store i de forrige trinnene.

pipeline = codepipeline.Pipeline(self, 'RekWSIPipeline') # Create an artifact that points at the code pulled from GitHub.
source_output = codepipeline.Artifact() # Create a source stage that pulls the code from GitHub. The repo parameters are
# stored in SSM, and the OAuth token in Secrets Manager.
source_action = codepipeline_actions.GitHubSourceAction( action_name='GitHub', output=source_output, oauth_token=SecretValue.secrets_manager( ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/token'), json_field='oauthToken'), trigger=codepipeline_actions.GitHubTrigger.WEBHOOK, owner=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/owner'), repo=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/repo'), branch=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/branch'),
) # Add the source stage to the pipeline.
pipeline.add_stage( stage_name='GitHub', actions=[source_action]
)

CodeBuild trenger tillatelser for å sende containerbilder til Amazon ECR. For å gi disse tillatelsene legger vi til AmazonEC2ContainerRegistryFullAccess policy til en skreddersydd IAM-rolle som CodeBuild-tjenestens rektor kan påta seg:

# Create an IAM role that grants CodeBuild access to Amazon ECR to push containers.
build_role = iam.Role( self, 'RekWsiCodeBuildAccessRole', assumed_by=iam.ServicePrincipal('codebuild.amazonaws.com'),
) # Permissions are granted through an AWS managed policy, AmazonEC2ContainerRegistryFullAccess.
managed_ecr_policy = iam.ManagedPolicy.from_managed_policy_arn( self, 'cb_ecr_policy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess',
)
build_role.add_managed_policy(policy=managed_ecr_policy)

CodeBuild-prosjektet logger på det private Amazon ECR-depotet, bygger Docker-bildet med Streamlit-applikasjonen og skyver bildet inn i depotet sammen med en appspec.yaml og en imagedefinitions.json filen.

De appspec.yaml filen beskriver oppgaven (port, Fargate-plattformversjon og så videre), mens imagedefinitions.json filen tilordner navnene på beholderbildene til deres tilsvarende Amazon ECR URI. Se følgende kode:

container_name = fargate_service.task_definition.default_container.container_name
build_project = codebuild.PipelineProject( self, 'RekWSIProject', build_spec=codebuild.BuildSpec.from_object({ 'version': '0.2', 'phases': { 'pre_build': { 'commands': [ 'env', 'COMMIT_HASH=$(echo $CODEBUILD_RESOLVED_SOURCE_VERSION | cut -c 1-7)', 'export TAG=${COMMIT_HASH:=latest}', 'aws ecr get-login-password --region $AWS_DEFAULT_REGION | ' 'docker login --username AWS ' '--password-stdin $AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com', ] }, 'build': { 'commands': [ # Build the Docker image 'cd streamlit_app && docker build -t $IMAGE_REPO_NAME:$IMAGE_TAG .', # Tag the image 'docker tag $IMAGE_REPO_NAME:$IMAGE_TAG ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', ] }, 'post_build': { 'commands': [ # Push the container into ECR. 'docker push ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', # Generate imagedefinitions.json 'cd ..', "printf '[{"name":"%s","imageUri":"%s"}]' " f"{container_name} " "$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG " "> imagedefinitions.json", 'ls -l', 'pwd', 'sed -i s"|REGION_NAME|$AWS_DEFAULT_REGION|g" appspec.yaml', 'sed -i s"|ACCOUNT_ID|$AWS_ACCOUNT_ID|g" appspec.yaml', 'sed -i s"|TASK_NAME|$IMAGE_REPO_NAME|g" appspec.yaml', f'sed -i s"|CONTAINER_NAME|{container_name}|g" appspec.yaml', ] } }, 'artifacts': { 'files': [ 'imagedefinitions.json', 'appspec.yaml', ], }, }), environment=codebuild.BuildEnvironment( build_image=codebuild.LinuxBuildImage.STANDARD_5_0, privileged=True, ), environment_variables={ 'AWS_ACCOUNT_ID': codebuild.BuildEnvironmentVariable(value=self.account), 'IMAGE_REPO_NAME': codebuild.BuildEnvironmentVariable( value=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/ecr_repo_name')), 'IMAGE_TAG': codebuild.BuildEnvironmentVariable(value='latest'), }, role=build_role,
)

Til slutt setter vi de forskjellige rørledningstrinnene sammen. Den siste handlingen er EcsDeployAction, som tar beholderbildet bygget i forrige trinn og gjør en rullende oppdatering av oppgavene i ECS-klyngen vår:

# Create an artifact to store the build output.
build_output = codepipeline.Artifact()
# Create a build action that ties the build project, the source artifact from the
# previous stage, and the output artifact together.
build_action = codepipeline_actions.CodeBuildAction( action_name='Build', project=build_project, input=source_output, outputs=[build_output],
)
# Add the build stage to the pipeline.
pipeline.add_stage( stage_name='Build', actions=[build_action]
)
deploy_action = codepipeline_actions.EcsDeployAction( action_name='Deploy', service=fargate_service.service, # image_file=build_output input=build_output,
)
pipeline.add_stage( stage_name='Deploy', actions=[deploy_action],
)

Opprydding

For å unngå å pådra seg fremtidige kostnader, ryd opp i ressursene du opprettet som en del av denne løsningen.

Amazon Rekognition Custom Labels-modell

Før du slår av Studio-notisboken, sørg for at du stopper Amazon Rekognition Custom Labels-modellen. Hvis du ikke gjør det, fortsetter det å pådra seg kostnader.

rek.stop_project_version( ProjectVersionArn=model_arn,
)

Alternativt kan du bruke Amazon Rekognition-konsollen for å stoppe tjenesten:

Velg på Amazon Rekognition-konsollen Bruk egendefinerte etiketter i navigasjonsruten.
Velg Prosjekter i navigasjonsruten.
Velg versjon 1 av rek-mitotic-figures-workshop prosjekt.
På Bruk modell kategorien, velg Stopp.

Strømbelyst applikasjon

For å ødelegge alle ressurser knyttet til Streamlit-applikasjonen, kjør følgende kode fra AWS CDK-applikasjonskatalogen:

cdk destroy RekWsiStack

AWS Secrets Manager

For å slette GitHub-tokenet, følg instruksjonene i dokumentasjon.

konklusjonen

I dette innlegget gikk vi gjennom de nødvendige trinnene for å trene en Amazon Rekognition Custom Labels-modell for en digital patologiapplikasjon ved bruk av data fra den virkelige verden. Deretter lærte vi hvordan vi bruker modellen fra en enkel applikasjon distribuert fra en CI/CD-pipeline til Fargate.

Amazon Rekognition Custom Labels lar deg bygge ML-aktiverte helsetjenester som du enkelt kan bygge og distribuere ved hjelp av tjenester som Fargate, CodeBuild og CodePipeline.

Kan du tenke deg noen applikasjoner for å hjelpe forskere, leger eller deres pasienter med å gjøre livet enklere? I så fall, bruk koden i denne gjennomgangen for å bygge din neste applikasjon. Og hvis du har spørsmål, vennligst del dem i kommentarfeltet.

Erkjennelsene

Vi vil gjerne takke prof. Dr. Marc Aubreville for vennlig å gi oss tillatelse til å bruke MITOS_WSI_CMC-datasettet for dette blogginnlegget. Datasettet finnes på GitHub.

Referanser

[1] Aubreville, M., Bertram, C.A., Donovan, T.A. et al. Et fullstendig kommentert hel lysbildedatasett av brystkreft hos hunder for å hjelpe menneskelig brystkreftforskning. Sci Data 7, 417 (2020). https://doi.org/10.1038/s41597-020-00756-z

[2] Khened, M., Kori, A., Rajkumar, H. et al. Et generalisert rammeverk for dyp læring for bildesegmentering og analyse av hele lysbilder. Sci Rep 11, 11579 (2021). https://doi.org/10.1038/s41598-021-90444-8

[3] PNAS 27. mars 2018 115 (13) E2970-E2979; første gang publisert 12. mars 2018; https://doi.org/10.1073/pnas.1717139115

om forfatteren

Pablo Nuñez Pölcher, MSc, er en senior løsningsarkitekt som jobber for teamet i offentlig sektor med Amazon Web Services. Pablo fokuserer på å hjelpe offentlige helsetjenester med å bygge nye, innovative produkter på AWS i samsvar med beste praksis. Han fikk sin M.Sc. i biologiske vitenskaper fra Universidad de Buenos Aires. På fritiden liker han å sykle og tukle med ML-aktiverte innebygde enheter.

Razvan Ionasec, PhD, MBA, er teknisk leder for helsetjenester hos Amazon Web Services i Europa, Midtøsten og Afrika. Arbeidet hans fokuserer på å hjelpe helsekunder med å løse forretningsproblemer ved å utnytte teknologi. Tidligere var Razvan global leder for kunstig intelligens (AI)-produkter hos Siemens Healthineers med ansvar for AI-Rad Companion, familien av AI-drevne og skybaserte digitale helseløsninger for bildebehandling. Han har 30+ patenter innen AI/ML for medisinsk bildebehandling og har publisert 70+ internasjonale fagfellevurderte tekniske og kliniske publikasjoner om datasyn, beregningsmodellering og medisinsk bildeanalyse. Razvan fikk sin doktorgrad i informatikk fra Technical University München og MBA fra University of Cambridge, Judge Business School.