Opdag mitotiske figurer i hele diasbilleder med Amazon-genkendelse

Genudgivet af Platon

Abonnenter: 0

Selv efter mere end hundrede år efter introduktionen er histologi stadig guldstandarden inden for tumordiagnose og -prognose. Anatomiske patologer evaluerer histologi for at stratificere cancerpatienter i forskellige grupper afhængigt af deres tumorgenotyper og fænotyper og deres kliniske resultat [1,2]. Imidlertid er menneskelig evaluering af histologiske objektglas subjektiv og ikke gentagelig [3]. Ydermere er histologisk vurdering en tidskrævende proces, der kræver højt uddannede fagfolk.

Med betydelige teknologiske fremskridt i det sidste årti, er teknikker som hele diasbilleddannelse (WSI) og deep learning (DL) nu bredt tilgængelige. WSI er scanning af konventionelle mikroskopiglasobjektglas for at producere et enkelt billede i høj opløsning fra disse objektglas. Dette giver mulighed for digitalisering og indsamling af store sæt af patologibilleder, hvilket ville have været uoverkommeligt tidskrævende og dyrt. Tilgængeligheden af sådanne datasæt skaber nye og innovative måder at fremskynde diagnosticering ved at bruge teknikker såsom machine learning (ML) til at hjælpe patologer med at fremskynde diagnoser ved hurtigt at identificere funktioner af interesse.

I dette indlæg vil vi undersøge, hvordan udviklere uden tidligere ML-erfaring kan bruge Tilpassede etiketter til Amazon-genkendelse at træne en model, der klassificerer cellulære funktioner. Amazon Rekognition Custom Labels er en funktion af Amazon-anerkendelse der giver dig mulighed for at bygge dine egne specialiserede ML-baserede billedanalysefunktioner for at detektere unikke objekter og scener, der er integreret i din specifikke brugssituation. Især bruger vi et datasæt, der indeholder hele diasbilleder af hunde brystcarcinom [1] til at demonstrere, hvordan man behandler disse billeder og træner en model, der detekterer mitotiske figurer. Dette datasæt er blevet brugt med tilladelse fra prof. Dr. Marc Aubreville, som venligt har indvilliget i at tillade os at bruge det til dette indlæg. For mere information, se afsnittet Anerkendelser i slutningen af dette indlæg.

Løsningsoversigt

Løsningen består af to komponenter:

En Amazon Rekognition Custom Labels-model — For at gøre det muligt for Amazon Rekognition at detektere mitotiske figurer, fuldfører vi følgende trin:
- Prøve WSI-datasættet for at producere billeder i tilstrækkelig størrelse ved hjælp af Amazon SageMaker Studio og en Python-kode, der kører på en Jupyter-notebook. Studio er et webbaseret, integreret udviklingsmiljø (IDE) til ML, der giver alle de værktøjer, du skal bruge for at tage dine modeller fra eksperimentering til produktion, mens du øger din produktivitet. Vi vil bruge Studio til at opdele billederne i mindre for at træne vores model.
- Træn en Amazon Rekognition Custom Labels-model til at genkende mitotiske figurer i hæmatoxylin-eosin-prøver ved hjælp af de data, der er udarbejdet i det foregående trin.
En frontend-applikation — For at demonstrere, hvordan man bruger en model som den, vi trænede i det foregående trin, fuldfører vi følgende trin:

Følgende diagram illustrerer løsningsarkitekturen.

Alle de nødvendige ressourcer til at implementere implementeringen diskuteret i dette indlæg og koden for hele afsnittet er tilgængelige på GitHub. Du kan klone eller forgrene depotet, foretage de ændringer, du ønsker, og køre det selv.

I de næste trin gennemgår vi koden for at forstå de forskellige trin, der er involveret i at indhente og forberede dataene, træne modellen og bruge den fra en prøveapplikation.

Omkostninger

Når du kører trinene i denne gennemgang, pådrager du dig små omkostninger ved at bruge følgende AWS-tjenester:

Amazon-anerkendelse
AWS Fargate
Application Load Balancer
AWS Secrets Manager

Derudover, hvis du ikke længere er inden for Free Tier-perioden eller -betingelserne, kan du pådrage dig omkostninger fra følgende tjenester:

CodePipeline
CodeBuild
Amazon ECR
Amazon SageMaker

Hvis du fuldfører oprydningstrinene korrekt efter at have afsluttet denne gennemgang, kan du forvente, at omkostningerne er mindre end 10 USD, hvis Amazon Rekognition Custom Labels-modellen og webapplikationen kører i en time eller mindre.

Forudsætninger

For at fuldføre alle trin skal du bruge følgende:

Træning af den mitotiske figurklassifikationsmodel

Vi kører alle de nødvendige trin for at træne modellen fra en Studio-notesbog. Hvis du aldrig har brugt Studio før, skal du muligvis ombord først. For mere information, se Kom hurtigt ombord til Amazon SageMaker Studio.

Nogle af de følgende trin kræver mere RAM end hvad der er tilgængeligt i en standard ml.t3.medium notebook. Sørg for, at du har valgt en ml.m5.large notesbog. Du bør se en 2 vCPU + 8 GiB indikation i øverste højre hjørne af siden.

Koden til dette afsnit er tilgængelig som en Jupyter notesbog fil.

Efter onboarding til Studio, følg disse instruktioner at give Studio de nødvendige tilladelser til at ringe til Amazon Rekognition på dine vegne.

Afhængigheder

Til at begynde med skal vi udføre følgende trin:

Opdater Linux-pakker og installer de nødvendige afhængigheder, såsom OpenSlide:

!apt update > /dev/null && apt dist-upgrade -y > /dev/null
!apt install -y build-essential openslide-tools python-openslide libgl1-mesa-glx > /dev/null

Installer fastai- og SlideRunner-bibliotekerne ved hjælp af pip:

!pip install SlideRunner SlideRunner_dataAccess fastai==1.0.61 > /dev/null

Download datasættet (vi leverer et script til at gøre dette automatisk):
```
from dataset import download_dataset
download_dataset()
```

Bearbejd datasættet

Vi vil begynde med at importere nogle af de pakker, som vi bruger i hele dataforberedelsesfasen. Derefter downloader og indlæser vi annotationsdatabasen for dette datasæt. Denne database indeholder positionerne i hele diasbillederne af de mitotiske figurer (de funktioner, vi ønsker at klassificere). Se følgende kode:

%reload_ext autoreload
%autoreload 2
import os
from typing import List
import urllib
import numpy as np
from SlideRunner.dataAccess.database import Database
from pathlib import Path DATABASE_URL = 'https://github.com/DeepPathology/MITOS_WSI_CMC/raw/master/databases/MITOS_WSI_CMC_MEL.sqlite'
DATABASE_FILENAME = 'MITOS_WSI_CMC_MEL.sqlite' Path("./databases").mkdir(parents=True, exist_ok=True)
local_filename, headers = urllib.request.urlretrieve( DATABASE_URL, filename=os.path.join('databases', DATABASE_FILENAME),
)

Fordi vi bruger SageMaker, opretter vi en ny SageMaker Session objekt for at lette opgaver såsom at uploade vores datasæt til en Amazon Simple Storage Service (Amazon S3) spand. Vi bruger også S3-bøtten, som SageMaker opretter som standard til at uploade vores behandlede billedfiler.

slidelist_test array indeholder ID'erne for de slides, som vi bruger som en del af testdatasættet til at evaluere ydeevnen af den trænede model. Se følgende kode:

import sagemaker
sm_session = sagemaker.Session() size=512
bucket_name = sm_session.default_bucket() database = Database()
database.open(os.path.join('databases', DATABASE_FILENAME)) slidelist_test = ['14','18','3','22','10','15','21']

Det næste trin er at få et sæt trænings- og testslides sammen med etiketterne på dem, hvorfra vi kan tage mindre områder til at bruge til at træne vores model. Koden til get_slides er i filen sampling.py i GitHub.

from sampling import get_slides image_size = 512 lbl_bbox, training_slides, test_slides, files = get_slides(database, slidelist_test, negative_class=1, size=image_size)

Vi ønsker at tage stikprøver fra trænings- og testslides. Vi bruger listerne med trænings- og testslides og vælger tilfældigt n_training_images gange en fil til træning, og n_test_images gange en fil til test:

n_training_images = 500
n_test_images = int(0.2 * n_training_images) training_files = list([ (y, files[y]) for y in np.random.choice( [x for x in training_slides], n_training_images)
])
test_files = list([ (y, files[y]) for y in np.random.choice( [x for x in test_slides], n_test_images)
])

Dernæst opretter vi en mappe til træningsbilleder og en til testbilleder:

Path("rek_slides/training").mkdir(parents=True, exist_ok=True)
Path("rek_slides/test").mkdir(parents=True, exist_ok=True)

Før vi producerer de mindre billeder, der skal til for at træne modellen, har vi brug for noget hjælpekode, der producerer de metadata, der skal til for at beskrive trænings- og testdata. Den følgende kode sikrer, at en given afgrænsningsramme, der omgiver de interessante træk (mitotiske figurer) er godt inden for den zone, vi skærer, og producerer en linje af JSON, der beskriver billedet og funktionerne i det i Amazon SageMaker Ground Truth format, som er det format, Amazon Rekognition Custom Labels kræver. For mere information om denne manifestfil til objektdetektering, se Objektlokalisering i manifestfiler.

def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def get_annotation_json_line(filename, channel, annotations, labels): objects = list([{'confidence' : 1} for i in range(0, len(annotations))]) return json.dumps({ 'source-ref': f's3://{bucket_name}/data/{channel}/{filename}', 'bounding-box': { 'image_size': [{ 'width': size, 'height': size, 'depth': 3 }], 'annotations': annotations, }, 'bounding-box-metadata': { 'objects': objects, 'class-map': dict({ x: str(x) for x in labels }), 'type': 'groundtruth/object-detection', 'human-annotated': 'yes', 'creation-date': datetime.datetime.now().isoformat(), 'job-name': 'rek-pathology', } }) def generate_annotations(x_start: int, y_start: int, bboxes, labels, filename: str, channel: str): annotations = [] for bbox in bboxes: if check_bbox(x_start, y_start, bbox): # Get coordinates relative to this slide. x0 = bbox.left - x_start y0 = bbox.top - y_start annotation = { 'class_id': 1, 'top': y0, 'left': x0, 'width': bbox.right - bbox.left, 'height': bbox.bottom - bbox.top } annotations.append(annotation) return get_annotation_json_line(filename, channel, annotations, labels)

Med generate_annotations funktion på plads, kan vi skrive koden til at producere trænings- og testbillederne:

import datetime
import json
import random from fastai import *
from fastai.vision import *
from tqdm.notebook import tqdm # Margin size, in pixels, for training images. This is the space we leave on
# each side for the bounding box(es) to be well into the image.
margin_size = 64 training_annotations = []
test_annotations = [] def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def generate_images(file_list) -> None: for f_idx in tqdm(range(0, len(file_list)), desc='Writing training images...'): slide_idx, f = file_list[f_idx] bboxes = lbl_bbox[slide_idx][0] labels = lbl_bbox[slide_idx][1] # Calculate the minimum and maximum horizontal and vertical positions # that bounding boxes should have within the image. x_min = min(map(lambda x: x.left, bboxes)) - margin_size y_min = min(map(lambda x: x.top, bboxes)) - margin_size x_max = max(map(lambda x: x.right, bboxes)) + margin_size y_max = max(map(lambda x: x.bottom, bboxes)) + margin_size result = False while not result: x_start = random.randint(x_min, x_max - image_size) y_start = random.randint(y_min, y_max - image_size) for bbox in bboxes: if check_bbox(x_start, y_start, bbox): result = True break filename = f'slide_{f_idx}.png' channel = 'test' if slide_idx in test_slides else 'training' annotation = generate_annotations(x_start, y_start, bboxes, labels, filename, channel) if channel == 'training': training_annotations.append(annotation) else: test_annotations.append(annotation) img = Image(pil2tensor(f.get_patch(x_start, y_start) / 255., np.float32)) img.save(f'rek_slides/{channel}/{filename}') generate_images(training_files)
generate_images(test_files)

Det sidste skridt mod at have alle de nødvendige data er at skrive en manifest.json fil for hvert af datasættene:

with open('rek_slides/training/manifest.json', 'w') as mf: mf.write("n".join(training_annotations)) with open('rek_slides/test/manifest.json', 'w') as mf: mf.write("n".join(test_annotations))

Overfør filerne til S3

Vi bruger upload_data metode, som SageMaker-sessionsobjektet eksponerer for at uploade billederne og manifestfilerne til standard SageMaker S3-bøtten:

import sagemaker sm_session = sagemaker.Session()
data_location = sm_session.upload_data( './rek_slides', bucket=bucket_name,
)

Træn en Amazon Rekognition Custom Labels-model

Med dataene allerede i Amazon S3, kan vi komme til at træne en tilpasset model. Vi bruger Boto3-biblioteket til at oprette en Amazon Rekognition-klient og oprette et projekt:

import boto3 project_name = 'rek-mitotic-figures-workshop' rek = boto3.client('rekognition')
response = rek.create_project(ProjectName=project_name) # If you have already created the project, use the describe_projects call to
# retrieve the project ARN.
# response = rek.describe_projects()['ProjectDescriptions'][0] project_arn = response['ProjectArn']

Med projektet klar til brug, har du nu brug for en projektversion, der peger på trænings- og testdatasættene i Amazon S3. Hver version peger ideelt set på forskellige datasæt (eller forskellige versioner af det). Dette gør det muligt for os at have forskellige versioner af en model, sammenligne deres ydeevne og skifte mellem dem efter behov. Se følgende kode:

version_name = '1' output_config = { 'S3Bucket': bucket_name, 'S3KeyPrefix': 'output',
} training_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/training/manifest.json' } }, }, ]
} testing_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/test/manifest.json' } }, }, ]
} def describe_project_versions(): describe_response = rek.describe_project_versions( ProjectArn=project_arn, VersionNames=[version_name], ) for model in describe_response['ProjectVersionDescriptions']: print(f"Status: {model['Status']}") print(f"Message: {model['StatusMessage']}") return describe_response response = rek.create_project_version( VersionName=version_name, ProjectArn=project_arn, OutputConfig=output_config, TrainingData=training_dataset, TestingData=testing_dataset,
) waiter = rek.get_waiter('project_version_training_completed')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
) describe_response = describe_project_versions()

Efter at vi har oprettet projektversionen, starter Amazon Rekognition automatisk træningsprocessen. Træningstiden afhænger af flere funktioner, såsom størrelsen på billederne og antallet af dem, antallet af klasser og så videre. I dette tilfælde, for 500 billeder, tager træningen omkring 90 minutter at afslutte.

Test modellen

Efter træning er hver model i Amazon Rekognition Custom Labels i STOPPED stat. For at bruge det til slutninger, skal du starte det. Vi henter projektversionen ARN fra projektversionsbeskrivelsen og videregiver den til start_project_version. Læg mærke til MinInferenceUnits parameter — vi starter med en inferensenhed. Det faktiske maksimale antal transaktioner pr. sekund (TPS), som denne slutningsenhed understøtter, afhænger af kompleksiteten af din model. For at lære mere om TPS, se dette blogindlæg.

model_arn = describe_response['ProjectVersionDescriptions'][0]['ProjectVersionArn'] response = rek.start_project_version( ProjectVersionArn=model_arn, MinInferenceUnits=1,
)
waiter = rek.get_waiter('project_version_running')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
)

Når din projektversion er angivet som RUNNING, kan du begynde at sende billeder til Amazon Rekognition til slutning.

Vi bruger en af filerne i testdatasættet til at teste den nystartede model. Du kan bruge enhver passende PNG- eller JPEG-fil i stedet for.

from matplotlib import pyplot as plt
from PIL import Image, ImageDraw # We'll use one of our test images to try out our model.
with open('./rek_slides/test/slide_0.png', 'rb') as image_file: image_bytes=image_file.read() # Send the image data to the model.
response = rek.detect_custom_labels( ProjectVersionArn=model_arn, Image={ 'Bytes': image_bytes }
) img = Image.open(io.BytesIO(image_bytes))
draw = ImageDraw.Draw(img) for custom_label in response['CustomLabels']: geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) plt.imshow(np.asarray(img))

Strømbelyst applikation

For at demonstrere integrationen med Amazon Rekognition bruger vi en meget simpel Python-applikation. Vi bruger Strømbelyst bibliotek til at bygge en spartansk brugergrænseflade, hvor vi beder brugeren om at uploade en billedfil.

Vi bruger Boto3-biblioteket og detect_custom_labels metode, sammen med projektversionen ARN, til at påkalde inferensendepunktet. Svaret er et JSON-dokument, der indeholder positionerne og klasserne for de forskellige objekter, der er registreret i billedet. I vores tilfælde er det de mitotiske figurer, som algoritmen har fundet i det billede, vi sendte til slutpunktet. Se følgende kode:

import os import boto3
import io
import streamlit as st
from PIL import Image, ImageDraw rek_client = boto3.client('rekognition') uploaded_file = st.file_uploader('Image file')
if uploaded_file is not None: image_bytes = uploaded_file.read() result = rek_client.detect_custom_labels( ProjectVersionArn='<YOUR_PROJECT_ARN_HERE>', Image={ 'Bytes': image_bytes } ) img = Image.open(io.BytesIO(image_bytes)) draw = ImageDraw.Draw(img) st.write(result['CustomLabels']) for custom_label in result['CustomLabels']: st.write(f"Label {custom_label['Name']}, confidence {custom_label['Confidence']}") geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height st.write(f"Left, top = ({l}, {t}), width, height = ({w}, {h})") draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) st_img = st.image(img)

Implementer applikationen til AWS

For at implementere applikationen bruger vi et AWS CDK-script. Hele projektet kan findes på GitHub . Lad os se på de forskellige ressourcer, der er implementeret af scriptet.

Opret et Amazon ECR-lager

Som det første skridt i retning af opsætning af vores implementering opretter vi et Amazon ECR-lager, hvor vi kan gemme vores applikationscontainerbilleder:

aws ecr create-repository --repository-name rek-wsi

Opret og gem dit GitHub-token i AWS Secrets Manager

CodePipeline har brug for et GitHub Personal Access Token for at overvåge dit GitHub-lager for ændringer og pull-kode. For at oprette tokenet skal du følge instruktionerne i GitHub dokumentation. Tokenet kræver følgende GitHub-omfang:

repo scope, som bruges til fuld kontrol til at læse og trække artefakter fra offentlige og private depoter ind i en pipeline.
admin:repo_hook scope, som bruges til fuld kontrol af depotkroge.

Når du har oprettet tokenet, skal du gemme det i en ny hemmelighed i AWS Secrets Manager som følger:

aws secretsmanager create-secret --name rek-wsi/github --secret-string "{"oauthToken":"YOUR-TOKEN-VALUE-HERE"}"

Skriv konfigurationsparametre til AWS Systems Manager Parameter Store

AWS CDK-scriptet læser nogle konfigurationsparametre fra AWS Systems Manager Parameter Store, såsom navn og ejer af GitHub-lageret, og målkonto og region. Før du starter AWS CDK-scriptet, skal du oprette disse parametre på din egen konto.

Du kan gøre det ved at bruge AWS CLI. Du skal blot påberåbe put-parameter kommando med et navn, en værdi og typen af parameteren:

aws ssm put-parameter --name <PARAMETER-NAME> --value <PARAMETER-VALUE> --type <PARAMETER_TYPE>

Det følgende er en liste over alle parametre, der kræves af AWS CDK-scriptet. Alle af dem er af typen String:

/rek_wsi/prod/accountId — ID'et på den konto, hvor vi implementerer applikationen.
/rek_wsi/prod/ecr_repo_name — Navnet på Amazon ECR-lageret, hvor containerbillederne er gemt.
/rek_wsi/prod/github/branch — Den gren i GitHub-lageret, hvorfra CodePipeline skal trække koden.
/rek_wsi/prod/github/owner — Ejeren af GitHub-lageret.
/rek_wsi/prod/github/repo — Navnet på GitHub-lageret, hvor vores kode er gemt.
/rek_wsi/prod/github/token — Navnet eller ARN på hemmeligheden i Secrets Manager, der indeholder dit GitHub-godkendelsestoken. Dette er nødvendigt for at CodePipeline kan kommunikere med GitHub.
/rek_wsi/prod/region — Den region, hvor vi vil implementere applikationen.

Læg mærke til prod segment i alle parameternavne. Selvom vi ikke har brug for denne detaljeringsgrad for et så simpelt eksempel, vil det gøre det muligt at genbruge denne tilgang med andre projekter, hvor forskellige miljøer kan være nødvendige.

Ressourcer oprettet af AWS CDK-scriptet

Vi skal bruge vores applikation, der kører i en Fargate-opgave, for at have tilladelser til at påberåbe sig Amazon Rekognition. Så vi opretter først en AWS identitets- og adgangsstyring (IAM) Opgaverolle med RekognitionReadOnlyPolicy politik knyttet til det. Bemærk, at assumed_by parameter i følgende kode tager ecs-tasks.amazonaws.com serviceleder. Dette skyldes, at vi bruger Amazon ECS som orkestrator, så vi har brug for Amazon ECS til at påtage sig rollen og videregive legitimationsoplysningerne til Fargate-opgaven.

streamlit_task_role = iam.Role( self, 'StreamlitTaskRole', assumed_by=iam.ServicePrincipal('ecs-tasks.amazonaws.com'), description='ECS Task Role assumed by the Streamlit task deployed to ECS+Fargate', managed_policies=[ iam.ManagedPolicy.from_managed_policy_arn( self, 'RekognitionReadOnlyPolicy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonRekognitionReadOnlyAccess' ), ],
)

Når vores applikationscontainerbillede er bygget, ligger det i et privat Amazon ECR-lager. Vi har brug for et objekt, der beskriver det, som vi kan passere, når vi opretter Fargate-tjenesten:

ecs_container_image = ecs.ContainerImage.from_ecr_repository( repository=ecr.Repository.from_repository_name(self, 'ECRRepo', 'rek-wsi'), tag='latest'
)

Vi opretter en ny VPC og klynge til denne applikation. Du kan ændre denne del til at bruge din egen VPC ved at bruge from_lookup metode af Vpc klasse:

vpc = ec2.Vpc(self, 'RekWSI', max_azs=3)
cluster = ecs.Cluster(self, 'RekWSICluster', vpc=vpc)

Nu hvor vi har en VPC og klynge at implementere til, opretter vi Fargate-tjenesten. Vi bruger 0.25 vCPU og 512 MB RAM til denne opgave, og vi placerer en offentlig Application Load Balancer (ALB) foran den. Når den er implementeret, bruger vi ALB CNAME til at få adgang til applikationen. Se følgende kode:

fargate_service = ecs_patterns.ApplicationLoadBalancedFargateService( self, 'RekWSIECSApp', cluster=cluster, cpu=256, memory_limit_mib=512, desired_count=1, task_image_options=ecs_patterns.ApplicationLoadBalancedTaskImageOptions( image=ecs_container_image, container_port=8501, task_role=streamlit_task_role, ), public_load_balancer=True,
)

For automatisk at bygge og implementere et nyt containerbillede, hver gang vi skubber kode til vores hovedgren, opretter vi en simpel pipeline bestående af en GitHub-kildehandling og et byggetrin. Det er her, vi bruger de hemmeligheder, vi gemte i AWS Secrets Manager og AWS Systems Manager Parameter Store i de foregående trin.

pipeline = codepipeline.Pipeline(self, 'RekWSIPipeline') # Create an artifact that points at the code pulled from GitHub.
source_output = codepipeline.Artifact() # Create a source stage that pulls the code from GitHub. The repo parameters are
# stored in SSM, and the OAuth token in Secrets Manager.
source_action = codepipeline_actions.GitHubSourceAction( action_name='GitHub', output=source_output, oauth_token=SecretValue.secrets_manager( ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/token'), json_field='oauthToken'), trigger=codepipeline_actions.GitHubTrigger.WEBHOOK, owner=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/owner'), repo=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/repo'), branch=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/branch'),
) # Add the source stage to the pipeline.
pipeline.add_stage( stage_name='GitHub', actions=[source_action]
)

CodeBuild har brug for tilladelser til at skubbe containerbilleder til Amazon ECR. For at give disse tilladelser tilføjer vi AmazonEC2ContainerRegistryFullAccess politik til en skræddersyet IAM-rolle, som CodeBuild-tjenestens principal kan påtage sig:

# Create an IAM role that grants CodeBuild access to Amazon ECR to push containers.
build_role = iam.Role( self, 'RekWsiCodeBuildAccessRole', assumed_by=iam.ServicePrincipal('codebuild.amazonaws.com'),
) # Permissions are granted through an AWS managed policy, AmazonEC2ContainerRegistryFullAccess.
managed_ecr_policy = iam.ManagedPolicy.from_managed_policy_arn( self, 'cb_ecr_policy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess',
)
build_role.add_managed_policy(policy=managed_ecr_policy)

CodeBuild-projektet logger ind på det private Amazon ECR-lager, bygger Docker-billedet med Streamlit-applikationen og skubber billedet ind i depotet sammen med en appspec.yaml og en imagedefinitions.json fil.

appspec.yaml fil beskriver opgaven (port, Fargate platform version, og så videre), mens imagedefinitions.json fil kortlægger navnene på containerbillederne til deres tilsvarende Amazon ECR URI. Se følgende kode:

container_name = fargate_service.task_definition.default_container.container_name
build_project = codebuild.PipelineProject( self, 'RekWSIProject', build_spec=codebuild.BuildSpec.from_object({ 'version': '0.2', 'phases': { 'pre_build': { 'commands': [ 'env', 'COMMIT_HASH=$(echo $CODEBUILD_RESOLVED_SOURCE_VERSION | cut -c 1-7)', 'export TAG=${COMMIT_HASH:=latest}', 'aws ecr get-login-password --region $AWS_DEFAULT_REGION | ' 'docker login --username AWS ' '--password-stdin $AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com', ] }, 'build': { 'commands': [ # Build the Docker image 'cd streamlit_app && docker build -t $IMAGE_REPO_NAME:$IMAGE_TAG .', # Tag the image 'docker tag $IMAGE_REPO_NAME:$IMAGE_TAG ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', ] }, 'post_build': { 'commands': [ # Push the container into ECR. 'docker push ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', # Generate imagedefinitions.json 'cd ..', "printf '[{"name":"%s","imageUri":"%s"}]' " f"{container_name} " "$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG " "> imagedefinitions.json", 'ls -l', 'pwd', 'sed -i s"|REGION_NAME|$AWS_DEFAULT_REGION|g" appspec.yaml', 'sed -i s"|ACCOUNT_ID|$AWS_ACCOUNT_ID|g" appspec.yaml', 'sed -i s"|TASK_NAME|$IMAGE_REPO_NAME|g" appspec.yaml', f'sed -i s"|CONTAINER_NAME|{container_name}|g" appspec.yaml', ] } }, 'artifacts': { 'files': [ 'imagedefinitions.json', 'appspec.yaml', ], }, }), environment=codebuild.BuildEnvironment( build_image=codebuild.LinuxBuildImage.STANDARD_5_0, privileged=True, ), environment_variables={ 'AWS_ACCOUNT_ID': codebuild.BuildEnvironmentVariable(value=self.account), 'IMAGE_REPO_NAME': codebuild.BuildEnvironmentVariable( value=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/ecr_repo_name')), 'IMAGE_TAG': codebuild.BuildEnvironmentVariable(value='latest'), }, role=build_role,
)

Til sidst sætter vi de forskellige pipeline-faser sammen. Den sidste handling er EcsDeployAction, som tager containerbilledet bygget i det foregående trin og laver en løbende opdatering af opgaverne i vores ECS-klynge:

# Create an artifact to store the build output.
build_output = codepipeline.Artifact()
# Create a build action that ties the build project, the source artifact from the
# previous stage, and the output artifact together.
build_action = codepipeline_actions.CodeBuildAction( action_name='Build', project=build_project, input=source_output, outputs=[build_output],
)
# Add the build stage to the pipeline.
pipeline.add_stage( stage_name='Build', actions=[build_action]
)
deploy_action = codepipeline_actions.EcsDeployAction( action_name='Deploy', service=fargate_service.service, # image_file=build_output input=build_output,
)
pipeline.add_stage( stage_name='Deploy', actions=[deploy_action],
)

Ryd op

For at undgå fremtidige omkostninger skal du rydde op i de ressourcer, du har oprettet som en del af denne løsning.

Amazon Rekognition Custom Labels model

Før du lukker ned for din Studio-notebook, skal du sørge for at stoppe Amazon Rekognition Custom Labels-modellen. Hvis du ikke gør det, fortsætter det med at medføre omkostninger.

rek.stop_project_version( ProjectVersionArn=model_arn,
)

Alternativt kan du bruge Amazon Rekognition-konsollen til at stoppe tjenesten:

På Amazon Rekognition-konsollen skal du vælge Brug tilpassede etiketter i navigationsruden.
Vælg Projekter i navigationsruden.
Vælg version 1 af rek-mitotic-figures-workshop projekt.
På Brug model fanebladet, vælg Stands.

Strømbelyst applikation

For at ødelægge alle ressourcer, der er knyttet til Streamlit-applikationen, skal du køre følgende kode fra AWS CDK-applikationsmappen:

cdk destroy RekWsiStack

AWS Secrets Manager

For at slette GitHub-tokenet skal du følge instruktionerne i dokumentation.

Konklusion

I dette indlæg gennemgik vi de nødvendige trin for at træne en Amazon Rekognition Custom Labels-model til en digital patologiapplikation ved hjælp af data fra den virkelige verden. Vi lærte derefter, hvordan man bruger modellen fra en simpel applikation implementeret fra en CI/CD-pipeline til Fargate.

Amazon Rekognition Custom Labels giver dig mulighed for at bygge ML-aktiverede sundhedsapplikationer, som du nemt kan bygge og implementere ved hjælp af tjenester som Fargate, CodeBuild og CodePipeline.

Kan du komme i tanke om applikationer til at hjælpe forskere, læger eller deres patienter med at gøre deres liv lettere? Hvis ja, brug koden i denne gennemgang til at bygge din næste applikation. Og hvis du har spørgsmål, så del dem i kommentarfeltet.

Tak

Vi vil gerne takke prof. Dr. Marc Aubreville for venligt at give os tilladelse til at bruge MITOS_WSI_CMC-datasættet til dette blogindlæg. Datasættet kan findes på GitHub.

Referencer

[1] Aubreville, M., Bertram, CA, Donovan, TA et al. Et fuldstændigt kommenteret hele diasbilleddatasæt af brystkræft hos hunde til støtte for forskning i brystkræft hos mennesker. Sci Data 7, 417 (2020). https://doi.org/10.1038/s41597-020-00756-z

[2] Khened, M., Kori, A., Rajkumar, H. et al. En generaliseret deep learning-ramme for segmentering og analyse af hele diasbilleder. Sci Rep 11, 11579 (2021). https://doi.org/10.1038/s41598-021-90444-8

[3] PNAS 27. marts 2018 115 (13) E2970-E2979; første gang udgivet 12. marts 2018; https://doi.org/10.1073/pnas.1717139115

Om forfatteren

Pablo Nuñez Pölcher, MSc, er en Senior Solutions Architect, der arbejder for teamet i den offentlige sektor med Amazon Web Services. Pablo fokuserer på at hjælpe kunder i sundhedssektoren med at bygge nye, innovative produkter på AWS i overensstemmelse med bedste praksis. Han fik sin M.Sc. i biologiske videnskaber fra Universidad de Buenos Aires. I sin fritid nyder han at cykle og pille ved ML-aktiverede indlejrede enheder.

Razvan Ionasec, PhD, MBA, er teknisk leder for sundhedspleje hos Amazon Web Services i Europa, Mellemøsten og Afrika. Hans arbejde fokuserer på at hjælpe sundhedskunder med at løse forretningsproblemer ved at udnytte teknologi. Tidligere var Razvan den globale leder af kunstig intelligens (AI)-produkter hos Siemens Healthineers med ansvar for AI-Rad Companion, familien af AI-drevne og cloud-baserede digitale sundhedsløsninger til billeddannelse. Han har mere end 30 patenter inden for AI/ML til medicinsk billeddannelse og har udgivet mere end 70 internationale peer-reviewede tekniske og kliniske publikationer om computersyn, beregningsmodellering og medicinsk billedanalyse. Razvan modtog sin ph.d. i datalogi fra Technical University München og MBA fra University of Cambridge, Judge Business School.