Upptäck mitotiska figurer i hela diabilder med Amazon-igenkänning

Återutgiven av Platon

anhängare: 0

Även efter mer än hundra år efter dess introduktion är histologi fortfarande guldstandarden för tumördiagnostik och prognos. Anatomiska patologer utvärderar histologi för att stratifiera cancerpatienter i olika grupper beroende på deras tumörgenotyper och fenotyper, och deras kliniska resultat [1,2]. Men mänsklig utvärdering av histologiska objektglas är subjektiv och inte repeterbar [3]. Vidare är histologisk bedömning en tidskrävande process som kräver högutbildad personal.

Med betydande tekniska framsteg under det senaste decenniet är tekniker som helbildsavbildning (WSI) och djupinlärning (DL) nu allmänt tillgängliga. WSI är skanningen av konventionella objektglas för att producera en enda högupplöst bild från dessa objektglas. Detta möjliggör digitalisering och insamling av stora uppsättningar patologibilder, vilket skulle ha varit oöverkomligt tidskrävande och dyrt. Tillgängligheten av sådana datauppsättningar skapar nya och innovativa sätt att påskynda diagnosen genom att använda tekniker som maskininlärning (ML) för att hjälpa patologer att påskynda diagnoser genom att snabbt identifiera funktioner av intresse.

I det här inlägget kommer vi att utforska hur utvecklare utan tidigare ML-erfarenhet kan använda Amazon Rekognition anpassade etiketter att träna en modell som klassificerar cellulära funktioner. Amazon Rekognition Custom Labels är en funktion i Amazon-erkännande som gör att du kan bygga dina egna specialiserade ML-baserade bildanalysfunktioner för att upptäcka unika objekt och scener som är integrerade i ditt specifika användningsfall. I synnerhet använder vi en datauppsättning som innehåller hela diabilder av bröstcancer hos hundar [1] för att demonstrera hur man bearbetar dessa bilder och tränar en modell som upptäcker mitotiska figurer. Denna datauppsättning har använts med tillstånd från prof. Dr. Marc Aubreville, som vänligen har gått med på att tillåta oss att använda den för detta inlägg. För mer information, se avsnittet Acknowledgements i slutet av det här inlägget.

Lösningsöversikt

Lösningen består av två komponenter:

En Amazon Rekognition Custom Labels-modell — För att göra det möjligt för Amazon Rekognition att upptäcka mitotiska figurer genomför vi följande steg:
- Prova WSI-datauppsättningen för att producera bilder med adekvat storlek med hjälp av Amazon SageMaker Studio och en Python-kod som körs på en Jupyter-anteckningsbok. Studio är en webbaserad, integrerad utvecklingsmiljö (IDE) för ML som ger alla verktyg du behöver för att ta dina modeller från experiment till produktion samtidigt som du ökar din produktivitet. Vi kommer att använda Studio för att dela upp bilderna i mindre för att träna vår modell.
- Träna en Amazon Rekognition Custom Labels-modell för att känna igen mitotiska figurer i hematoxylin-eosinprover med hjälp av data som bereddes i föregående steg.
En frontend-applikation — För att demonstrera hur man använder en modell som den vi tränade i föregående steg genomför vi följande steg:

Följande diagram illustrerar lösningsarkitekturen.

Alla nödvändiga resurser för att distribuera implementeringen som diskuteras i det här inlägget och koden för hela avsnittet är tillgängliga på GitHub. Du kan klona eller dela förvaret, göra alla ändringar du önskar och köra det själv.

I nästa steg går vi igenom koden för att förstå de olika stegen som är involverade i att hämta och förbereda data, träna modellen och använda den från en exempelapplikation.

Kostar

När du kör stegen i denna genomgång får du små kostnader för att använda följande AWS-tjänster:

Amazon-erkännande
AWS Fargate
Application Load Balancer
AWS Secrets Manager

Dessutom, om du inte längre är inom Free Tier-perioden eller villkoren, kan du ådra dig kostnader från följande tjänster:

CodePipeline
CodeBuild
Amazon ECR
Amazon SageMaker

Om du slutför rensningsstegen korrekt efter att ha avslutat den här genomgången kan du förvänta dig att kostnaderna blir mindre än 10 USD, om Amazon Rekognition Custom Labels-modellen och webbapplikationen körs i en timme eller mindre.

Förutsättningar

För att slutföra alla steg behöver du följande:

Träning av klassificeringsmodellen för mitotiska figurer

Vi kör alla steg som krävs för att träna modellen från en Studio-anteckningsbok. Om du aldrig har använt Studio tidigare kan du behöva göra det ombord först. För mer information, se Gå snabbt ombord till Amazon SageMaker Studio.

Vissa av följande steg kräver mer RAM-minne än vad som är tillgängligt i en vanlig ml.t3.medium-notebook. Se till att du har valt en ml.m5.large anteckningsbok. Du bör se en 2 vCPU + 8 GiB indikation i det övre högra hörnet på sidan.

Koden för detta avsnitt är tillgänglig som en Jupyter anteckningsbok fil.

Efter ombordstigning till Studio, följ dessa instruktioner att ge Studio nödvändiga tillstånd att ringa Amazon Rekognition å dina vägnar.

beroenden

Till att börja med måste vi slutföra följande steg:

Uppdatera Linux-paket och installera nödvändiga beroenden, som OpenSlide:

!apt update > /dev/null && apt dist-upgrade -y > /dev/null
!apt install -y build-essential openslide-tools python-openslide libgl1-mesa-glx > /dev/null

Installera fastai- och SlideRunner-biblioteken med hjälp av pip:

!pip install SlideRunner SlideRunner_dataAccess fastai==1.0.61 > /dev/null

Ladda ner datasetet (vi tillhandahåller ett skript för att göra detta automatiskt):
```
from dataset import download_dataset
download_dataset()
```

Bearbeta datamängden

Vi börjar med att importera några av de paket som vi använder under hela databeredningsstadiet. Sedan laddar vi ner och laddar annoteringsdatabasen för denna datauppsättning. Denna databas innehåller positionerna i hela diabilden av de mitotiska figurerna (de funktioner vi vill klassificera). Se följande kod:

%reload_ext autoreload
%autoreload 2
import os
from typing import List
import urllib
import numpy as np
from SlideRunner.dataAccess.database import Database
from pathlib import Path DATABASE_URL = 'https://github.com/DeepPathology/MITOS_WSI_CMC/raw/master/databases/MITOS_WSI_CMC_MEL.sqlite'
DATABASE_FILENAME = 'MITOS_WSI_CMC_MEL.sqlite' Path("./databases").mkdir(parents=True, exist_ok=True)
local_filename, headers = urllib.request.urlretrieve( DATABASE_URL, filename=os.path.join('databases', DATABASE_FILENAME),
)

Eftersom vi använder SageMaker skapar vi en ny SageMaker session objekt för att underlätta uppgifter som att ladda upp vår datauppsättning till en Amazon enkel lagringstjänst (Amazon S3) hink. Vi använder också S3-hinken som SageMaker skapar som standard för att ladda upp våra bearbetade bildfiler.

Smakämnen slidelist_test array innehåller ID:n för bilderna som vi använder som en del av testdatauppsättningen för att utvärdera prestandan för den tränade modellen. Se följande kod:

import sagemaker
sm_session = sagemaker.Session() size=512
bucket_name = sm_session.default_bucket() database = Database()
database.open(os.path.join('databases', DATABASE_FILENAME)) slidelist_test = ['14','18','3','22','10','15','21']

Nästa steg är att skaffa en uppsättning områden med tränings- och testbilder, tillsammans med etiketterna på dem, från vilka vi kan ta mindre områden att använda för att träna vår modell. Koden för get_slides finns i filen sampling.py i GitHub.

from sampling import get_slides image_size = 512 lbl_bbox, training_slides, test_slides, files = get_slides(database, slidelist_test, negative_class=1, size=image_size)

Vi vill ta ett slumpmässigt urval från tränings- och testbilderna. Vi använder listorna med tränings- och testbilder och väljer slumpmässigt n_training_images gånger en fil för träning, och n_test_images gånger en fil för test:

n_training_images = 500
n_test_images = int(0.2 * n_training_images) training_files = list([ (y, files[y]) for y in np.random.choice( [x for x in training_slides], n_training_images)
])
test_files = list([ (y, files[y]) for y in np.random.choice( [x for x in test_slides], n_test_images)
])

Därefter skapar vi en katalog för träningsbilder och en för testbilder:

Path("rek_slides/training").mkdir(parents=True, exist_ok=True)
Path("rek_slides/test").mkdir(parents=True, exist_ok=True)

Innan vi tar fram de mindre bilderna som behövs för att träna modellen behöver vi lite hjälpkod som producerar den metadata som behövs för att beskriva tränings- och testdata. Följande kod säkerställer att en given begränsningsruta som omger de intressanta särdragen (mitotiska figurer) ligger väl inom den zon vi klipper, och producerar en JSON-linje som beskriver bilden och funktionerna i den i Amazon SageMaker Ground Sannhet format, vilket är det format som Amazon Rekognition Custom Labels kräver. För mer information om denna manifestfil för objektdetektering, se Objektlokalisering i manifestfiler.

def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def get_annotation_json_line(filename, channel, annotations, labels): objects = list([{'confidence' : 1} for i in range(0, len(annotations))]) return json.dumps({ 'source-ref': f's3://{bucket_name}/data/{channel}/{filename}', 'bounding-box': { 'image_size': [{ 'width': size, 'height': size, 'depth': 3 }], 'annotations': annotations, }, 'bounding-box-metadata': { 'objects': objects, 'class-map': dict({ x: str(x) for x in labels }), 'type': 'groundtruth/object-detection', 'human-annotated': 'yes', 'creation-date': datetime.datetime.now().isoformat(), 'job-name': 'rek-pathology', } }) def generate_annotations(x_start: int, y_start: int, bboxes, labels, filename: str, channel: str): annotations = [] for bbox in bboxes: if check_bbox(x_start, y_start, bbox): # Get coordinates relative to this slide. x0 = bbox.left - x_start y0 = bbox.top - y_start annotation = { 'class_id': 1, 'top': y0, 'left': x0, 'width': bbox.right - bbox.left, 'height': bbox.bottom - bbox.top } annotations.append(annotation) return get_annotation_json_line(filename, channel, annotations, labels)

Med generate_annotations funktion på plats kan vi skriva koden för att producera tränings- och testbilder:

import datetime
import json
import random from fastai import *
from fastai.vision import *
from tqdm.notebook import tqdm # Margin size, in pixels, for training images. This is the space we leave on
# each side for the bounding box(es) to be well into the image.
margin_size = 64 training_annotations = []
test_annotations = [] def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def generate_images(file_list) -> None: for f_idx in tqdm(range(0, len(file_list)), desc='Writing training images...'): slide_idx, f = file_list[f_idx] bboxes = lbl_bbox[slide_idx][0] labels = lbl_bbox[slide_idx][1] # Calculate the minimum and maximum horizontal and vertical positions # that bounding boxes should have within the image. x_min = min(map(lambda x: x.left, bboxes)) - margin_size y_min = min(map(lambda x: x.top, bboxes)) - margin_size x_max = max(map(lambda x: x.right, bboxes)) + margin_size y_max = max(map(lambda x: x.bottom, bboxes)) + margin_size result = False while not result: x_start = random.randint(x_min, x_max - image_size) y_start = random.randint(y_min, y_max - image_size) for bbox in bboxes: if check_bbox(x_start, y_start, bbox): result = True break filename = f'slide_{f_idx}.png' channel = 'test' if slide_idx in test_slides else 'training' annotation = generate_annotations(x_start, y_start, bboxes, labels, filename, channel) if channel == 'training': training_annotations.append(annotation) else: test_annotations.append(annotation) img = Image(pil2tensor(f.get_patch(x_start, y_start) / 255., np.float32)) img.save(f'rek_slides/{channel}/{filename}') generate_images(training_files)
generate_images(test_files)

Det sista steget mot att ha all nödvändig data är att skriva en manifest.json fil för var och en av datamängderna:

with open('rek_slides/training/manifest.json', 'w') as mf: mf.write("n".join(training_annotations)) with open('rek_slides/test/manifest.json', 'w') as mf: mf.write("n".join(test_annotations))

Överför filerna till S3

Vi använder upload_data metod som SageMaker-sessionsobjektet exponerar för att ladda upp bilderna och manifestfilerna till SageMaker S3-standardhinken:

import sagemaker sm_session = sagemaker.Session()
data_location = sm_session.upload_data( './rek_slides', bucket=bucket_name,
)

Träna en Amazon Rekognition Custom Labels-modell

Med datan som redan finns i Amazon S3 kan vi börja träna en anpassad modell. Vi använder Boto3-biblioteket för att skapa en Amazon Rekognition-klient och skapa ett projekt:

import boto3 project_name = 'rek-mitotic-figures-workshop' rek = boto3.client('rekognition')
response = rek.create_project(ProjectName=project_name) # If you have already created the project, use the describe_projects call to
# retrieve the project ARN.
# response = rek.describe_projects()['ProjectDescriptions'][0] project_arn = response['ProjectArn']

Med projektet klart att använda behöver du nu en projektversion som pekar på utbildnings- och testdatauppsättningarna i Amazon S3. Varje version pekar helst på olika datamängder (eller olika versioner av den). Detta gör att vi kan ha olika versioner av en modell, jämföra deras prestanda och växla mellan dem efter behov. Se följande kod:

version_name = '1' output_config = { 'S3Bucket': bucket_name, 'S3KeyPrefix': 'output',
} training_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/training/manifest.json' } }, }, ]
} testing_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/test/manifest.json' } }, }, ]
} def describe_project_versions(): describe_response = rek.describe_project_versions( ProjectArn=project_arn, VersionNames=[version_name], ) for model in describe_response['ProjectVersionDescriptions']: print(f"Status: {model['Status']}") print(f"Message: {model['StatusMessage']}") return describe_response response = rek.create_project_version( VersionName=version_name, ProjectArn=project_arn, OutputConfig=output_config, TrainingData=training_dataset, TestingData=testing_dataset,
) waiter = rek.get_waiter('project_version_training_completed')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
) describe_response = describe_project_versions()

Efter att vi skapat projektversionen startar Amazon Rekognition automatiskt utbildningsprocessen. Träningstiden beror på flera funktioner, såsom storleken på bilderna och antalet av dem, antalet klasser och så vidare. I det här fallet, för 500 bilder, tar träningen cirka 90 minuter att avsluta.

Testa modellen

Efter träning är varje modell i Amazon Rekognition Custom Labels i STOPPED stat. För att använda den för slutledning måste du starta den. Vi hämtar projektversionen ARN från projektversionsbeskrivningen och skickar den över till start_project_version. Lägg märke till MinInferenceUnits parameter — vi börjar med en slutledningsenhet. Det faktiska maximala antalet transaktioner per sekund (TPS) som denna slutledningsenhet stöder beror på din modells komplexitet. För att lära dig mer om TPS, se detta blogginlägg.

model_arn = describe_response['ProjectVersionDescriptions'][0]['ProjectVersionArn'] response = rek.start_project_version( ProjectVersionArn=model_arn, MinInferenceUnits=1,
)
waiter = rek.get_waiter('project_version_running')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
)

När din projektversion är listad som RUNNING, kan du börja skicka bilder till Amazon Rekognition för slutledning.

Vi använder en av filerna i testdataset för att testa den nystartade modellen. Du kan använda valfri lämplig PNG- eller JPEG-fil istället.

from matplotlib import pyplot as plt
from PIL import Image, ImageDraw # We'll use one of our test images to try out our model.
with open('./rek_slides/test/slide_0.png', 'rb') as image_file: image_bytes=image_file.read() # Send the image data to the model.
response = rek.detect_custom_labels( ProjectVersionArn=model_arn, Image={ 'Bytes': image_bytes }
) img = Image.open(io.BytesIO(image_bytes))
draw = ImageDraw.Draw(img) for custom_label in response['CustomLabels']: geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) plt.imshow(np.asarray(img))

Strömbelyst applikation

För att demonstrera integrationen med Amazon Rekognition använder vi en mycket enkel Python-applikation. Vi använder Strömbelyst biblioteket för att bygga ett spartanskt användargränssnitt, där vi uppmanar användaren att ladda upp en bildfil.

Vi använder Boto3-biblioteket och detect_custom_labels metod, tillsammans med projektversionen ARN, för att anropa slutpunktens slutpunkt. Svaret är ett JSON-dokument som innehåller positionerna och klasserna för de olika objekten som detekteras i bilden. I vårt fall är det de mitotiska figurerna som algoritmen har hittat i bilden vi skickade till slutpunkten. Se följande kod:

import os import boto3
import io
import streamlit as st
from PIL import Image, ImageDraw rek_client = boto3.client('rekognition') uploaded_file = st.file_uploader('Image file')
if uploaded_file is not None: image_bytes = uploaded_file.read() result = rek_client.detect_custom_labels( ProjectVersionArn='<YOUR_PROJECT_ARN_HERE>', Image={ 'Bytes': image_bytes } ) img = Image.open(io.BytesIO(image_bytes)) draw = ImageDraw.Draw(img) st.write(result['CustomLabels']) for custom_label in result['CustomLabels']: st.write(f"Label {custom_label['Name']}, confidence {custom_label['Confidence']}") geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height st.write(f"Left, top = ({l}, {t}), width, height = ({w}, {h})") draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) st_img = st.image(img)

Distribuera applikationen till AWS

För att distribuera applikationen använder vi ett AWS CDK-skript. Hela projektet finns på GitHub . Låt oss titta på de olika resurserna som används av skriptet.

Skapa ett Amazon ECR-förråd

Som det första steget mot att ställa in vår distribution skapar vi ett Amazon ECR-förråd, där vi kan lagra våra applikationsbehållarebilder:

aws ecr create-repository --repository-name rek-wsi

Skapa och lagra din GitHub-token i AWS Secrets Manager

CodePipeline behöver en GitHub Personal Access Token för att övervaka ditt GitHub-lager för ändringar och pull-kod. För att skapa token, följ instruktionerna i GitHub-dokumentation. Tokenen kräver följande GitHub-omfång:

Smakämnen repo scope, som används för full kontroll för att läsa och dra artefakter från offentliga och privata arkiv till en pipeline.
Smakämnen admin:repo_hook scope, som används för full kontroll av förvarskrokar.

När du har skapat token, lagra den i en ny hemlighet i AWS Secrets Manager enligt följande:

aws secretsmanager create-secret --name rek-wsi/github --secret-string "{"oauthToken":"YOUR-TOKEN-VALUE-HERE"}"

Skriv konfigurationsparametrar till AWS Systems Manager Parameter Store

AWS CDK-skriptet läser några konfigurationsparametrar från AWS Systems Manager Parameter Store, till exempel namnet och ägaren till GitHub-förvaret, och målkonto och region. Innan du startar AWS CDK-skriptet måste du skapa dessa parametrar i ditt eget konto.

Du kan göra det genom att använda AWS CLI. Anropa helt enkelt put-parameter kommando med ett namn, ett värde och typen av parameter:

aws ssm put-parameter --name <PARAMETER-NAME> --value <PARAMETER-VALUE> --type <PARAMETER_TYPE>

Följande är en lista över alla parametrar som krävs av AWS CDK-skriptet. Alla är av typ String:

/rek_wsi/prod/accountId — ID för kontot där vi distribuerar programmet.
/rek_wsi/prod/ecr_repo_name — Namnet på Amazon ECR-förvaret där behållarbilderna lagras.
/rek_wsi/prod/github/branch — Grenen i GitHub-förvaret från vilken CodePipeline behöver hämta koden.
/rek_wsi/prod/github/owner — Ägaren till GitHub-förvaret.
/rek_wsi/prod/github/repo — Namnet på GitHub-förrådet där vår kod lagras.
/rek_wsi/prod/github/token — Namnet eller ARN för hemligheten i Secrets Manager som innehåller din GitHub-autentiseringstoken. Detta är nödvändigt för att CodePipeline ska kunna kommunicera med GitHub.
/rek_wsi/prod/region — Regionen där vi kommer att distribuera applikationen.

Lägg märke till prod segment i alla parameternamn. Även om vi inte behöver denna detaljnivå för ett så enkelt exempel, kommer det att göra det möjligt att återanvända detta tillvägagångssätt med andra projekt där olika miljöer kan vara nödvändiga.

Resurser skapade av AWS CDK-skriptet

Vi behöver vår applikation, som körs i en Fargate-uppgift, för att ha behörighet att anropa Amazon Rekognition. Så vi skapar först en AWS identitets- och åtkomsthantering (IAM) Uppgift Roll med RekognitionReadOnlyPolicy policy kopplad till den. Lägg märke till att assumed_by parametern i följande kod tar ecs-tasks.amazonaws.com tjänstehuvudman. Detta beror på att vi använder Amazon ECS som orkestrator, så vi behöver Amazon ECS för att ta på sig rollen och överföra referenserna till Fargate-uppgiften.

streamlit_task_role = iam.Role( self, 'StreamlitTaskRole', assumed_by=iam.ServicePrincipal('ecs-tasks.amazonaws.com'), description='ECS Task Role assumed by the Streamlit task deployed to ECS+Fargate', managed_policies=[ iam.ManagedPolicy.from_managed_policy_arn( self, 'RekognitionReadOnlyPolicy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonRekognitionReadOnlyAccess' ), ],
)

När den väl har byggts sitter vår applikationsbehållarebild i ett privat Amazon ECR-förråd. Vi behöver ett objekt som beskriver det som vi kan skicka när vi skapar Fargate-tjänsten:

ecs_container_image = ecs.ContainerImage.from_ecr_repository( repository=ecr.Repository.from_repository_name(self, 'ECRRepo', 'rek-wsi'), tag='latest'
)

Vi skapar en ny VPC och ett kluster för denna applikation. Du kan modifiera den här delen för att använda din egen VPC genom att använda from_lookup metod för Vpc klass:

vpc = ec2.Vpc(self, 'RekWSI', max_azs=3)
cluster = ecs.Cluster(self, 'RekWSICluster', vpc=vpc)

Nu när vi har en VPC och ett kluster att distribuera till skapar vi Fargate-tjänsten. Vi använder 0.25 vCPU och 512 MB RAM för denna uppgift, och vi placerar en offentlig Application Load Balancer (ALB) framför den. När vi har distribuerat det använder vi ALB CNAME för att komma åt applikationen. Se följande kod:

fargate_service = ecs_patterns.ApplicationLoadBalancedFargateService( self, 'RekWSIECSApp', cluster=cluster, cpu=256, memory_limit_mib=512, desired_count=1, task_image_options=ecs_patterns.ApplicationLoadBalancedTaskImageOptions( image=ecs_container_image, container_port=8501, task_role=streamlit_task_role, ), public_load_balancer=True,
)

För att automatiskt bygga och distribuera en ny containerbild varje gång vi skjuter kod till vår huvudgren skapar vi en enkel pipeline som består av en GitHub-källåtgärd och ett byggsteg. Det är här vi använder hemligheterna vi lagrade i AWS Secrets Manager och AWS Systems Manager Parameter Store i de tidigare stegen.

pipeline = codepipeline.Pipeline(self, 'RekWSIPipeline') # Create an artifact that points at the code pulled from GitHub.
source_output = codepipeline.Artifact() # Create a source stage that pulls the code from GitHub. The repo parameters are
# stored in SSM, and the OAuth token in Secrets Manager.
source_action = codepipeline_actions.GitHubSourceAction( action_name='GitHub', output=source_output, oauth_token=SecretValue.secrets_manager( ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/token'), json_field='oauthToken'), trigger=codepipeline_actions.GitHubTrigger.WEBHOOK, owner=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/owner'), repo=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/repo'), branch=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/branch'),
) # Add the source stage to the pipeline.
pipeline.add_stage( stage_name='GitHub', actions=[source_action]
)

CodeBuild behöver behörighet för att skicka containerbilder till Amazon ECR. För att ge dessa behörigheter lägger vi till AmazonEC2ContainerRegistryFullAccess policy till en skräddarsydd IAM-roll som CodeBuild-tjänstehuvudmannen kan ta:

# Create an IAM role that grants CodeBuild access to Amazon ECR to push containers.
build_role = iam.Role( self, 'RekWsiCodeBuildAccessRole', assumed_by=iam.ServicePrincipal('codebuild.amazonaws.com'),
) # Permissions are granted through an AWS managed policy, AmazonEC2ContainerRegistryFullAccess.
managed_ecr_policy = iam.ManagedPolicy.from_managed_policy_arn( self, 'cb_ecr_policy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess',
)
build_role.add_managed_policy(policy=managed_ecr_policy)

CodeBuild-projektet loggar in på det privata Amazon ECR-förvaret, bygger Docker-bilden med Streamlit-applikationen och skjuter in bilden i förvaret tillsammans med en appspec.yaml och en imagedefinitions.json fil.

Smakämnen appspec.yaml filen beskriver uppgiften (port, Fargate-plattformsversion och så vidare), medan imagedefinitions.json fil mappar namnen på behållarbilderna till deras motsvarande Amazon ECR URI. Se följande kod:

container_name = fargate_service.task_definition.default_container.container_name
build_project = codebuild.PipelineProject( self, 'RekWSIProject', build_spec=codebuild.BuildSpec.from_object({ 'version': '0.2', 'phases': { 'pre_build': { 'commands': [ 'env', 'COMMIT_HASH=$(echo $CODEBUILD_RESOLVED_SOURCE_VERSION | cut -c 1-7)', 'export TAG=${COMMIT_HASH:=latest}', 'aws ecr get-login-password --region $AWS_DEFAULT_REGION | ' 'docker login --username AWS ' '--password-stdin $AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com', ] }, 'build': { 'commands': [ # Build the Docker image 'cd streamlit_app && docker build -t $IMAGE_REPO_NAME:$IMAGE_TAG .', # Tag the image 'docker tag $IMAGE_REPO_NAME:$IMAGE_TAG ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', ] }, 'post_build': { 'commands': [ # Push the container into ECR. 'docker push ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', # Generate imagedefinitions.json 'cd ..', "printf '[{"name":"%s","imageUri":"%s"}]' " f"{container_name} " "$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG " "> imagedefinitions.json", 'ls -l', 'pwd', 'sed -i s"|REGION_NAME|$AWS_DEFAULT_REGION|g" appspec.yaml', 'sed -i s"|ACCOUNT_ID|$AWS_ACCOUNT_ID|g" appspec.yaml', 'sed -i s"|TASK_NAME|$IMAGE_REPO_NAME|g" appspec.yaml', f'sed -i s"|CONTAINER_NAME|{container_name}|g" appspec.yaml', ] } }, 'artifacts': { 'files': [ 'imagedefinitions.json', 'appspec.yaml', ], }, }), environment=codebuild.BuildEnvironment( build_image=codebuild.LinuxBuildImage.STANDARD_5_0, privileged=True, ), environment_variables={ 'AWS_ACCOUNT_ID': codebuild.BuildEnvironmentVariable(value=self.account), 'IMAGE_REPO_NAME': codebuild.BuildEnvironmentVariable( value=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/ecr_repo_name')), 'IMAGE_TAG': codebuild.BuildEnvironmentVariable(value='latest'), }, role=build_role,
)

Slutligen sätter vi ihop de olika stegen i pipeline. Den sista åtgärden är EcsDeployAction, som tar behållarbilden som byggdes i föregående steg och gör en rullande uppdatering av uppgifterna i vårt ECS-kluster:

# Create an artifact to store the build output.
build_output = codepipeline.Artifact()
# Create a build action that ties the build project, the source artifact from the
# previous stage, and the output artifact together.
build_action = codepipeline_actions.CodeBuildAction( action_name='Build', project=build_project, input=source_output, outputs=[build_output],
)
# Add the build stage to the pipeline.
pipeline.add_stage( stage_name='Build', actions=[build_action]
)
deploy_action = codepipeline_actions.EcsDeployAction( action_name='Deploy', service=fargate_service.service, # image_file=build_output input=build_output,
)
pipeline.add_stage( stage_name='Deploy', actions=[deploy_action],
)

Städa

För att undvika framtida kostnader, rensa upp de resurser du skapade som en del av denna lösning.

Amazon Rekognition Custom Labels-modell

Innan du stänger av din Studio-anteckningsbok, se till att du stoppar Amazon Rekognition Custom Labels-modellen. Om du inte gör det fortsätter det att medföra kostnader.

rek.stop_project_version( ProjectVersionArn=model_arn,
)

Alternativt kan du använda Amazon Rekognition-konsolen för att stoppa tjänsten:

Välj på Amazon Rekognition-konsolen Använd anpassade etiketter i navigeringsfönstret.
Välja Projekt i navigeringsfönstret.
Välj version 1 av rek-mitotic-figures-workshop projektet.
På Använd modell fliken, välj Sluta.

Strömbelyst applikation

För att förstöra alla resurser som är kopplade till Streamlit-applikationen, kör följande kod från AWS CDK-programkatalogen:

cdk destroy RekWsiStack

AWS Secrets Manager

För att ta bort GitHub-token, följ instruktionerna i dokumentation.

Slutsats

I det här inlägget gick vi igenom de nödvändiga stegen för att träna en Amazon Rekognition Custom Labels-modell för en digital patologiapplikation som använder verkliga data. Vi lärde oss sedan hur man använder modellen från en enkel applikation som distribueras från en CI/CD-pipeline till Fargate.

Med Amazon Rekognition Custom Labels kan du bygga ML-aktiverade vårdapplikationer som du enkelt kan bygga och distribuera med hjälp av tjänster som Fargate, CodeBuild och CodePipeline.

Kan du komma på några applikationer för att hjälpa forskare, läkare eller deras patienter att göra deras liv enklare? Om så är fallet, använd koden i den här genomgången för att bygga din nästa applikation. Och om du har några frågor, vänligen dela dem i kommentarsfältet.

Erkännanden

Vi vill tacka Prof. Dr. Marc Aubreville för att han vänligt gett oss tillåtelse att använda MITOS_WSI_CMC-datauppsättningen för detta blogginlägg. Datauppsättningen finns på GitHub.

Referensprojekt

[1] Aubreville, M., Bertram, CA, Donovan, TA et al. En fullständigt kommenterad hel bilddatauppsättning av bröstcancer hos hundar för att hjälpa mänsklig bröstcancerforskning. Sci Data 7, 417 (2020). https://doi.org/10.1038/s41597-020-00756-z

[2] Khened, M., Kori, A., Rajkumar, H. et al. Ett generaliserat ramverk för djupinlärning för bildsegmentering och analys av hela bilden. Sci Rep 11 11579 (2021). https://doi.org/10.1038/s41598-021-90444-8

[3] PNAS 27 mars 2018 115 (13) E2970-E2979; publicerades först 12 mars 2018; https://doi.org/10.1073/pnas.1717139115

Om författaren

Pablo Nuñez Pölcher, MSc, är en Senior Solutions Architect som arbetar för den offentliga sektorns team med Amazon Web Services. Pablo fokuserar på att hjälpa offentliga hälsovårdskunder att bygga nya, innovativa produkter på AWS i enlighet med bästa praxis. Han tog sin M.Sc. i biologiska vetenskaper från Universidad de Buenos Aires. På fritiden tycker han om att cykla och mixtra med ML-aktiverade inbyggda enheter.

Razvan Ionasec, PhD, MBA, är teknisk ledare för sjukvård på Amazon Web Services i Europa, Mellanöstern och Afrika. Hans arbete fokuserar på att hjälpa sjukvårdskunder att lösa affärsproblem genom att utnyttja teknik. Tidigare var Razvan global chef för produkter för artificiell intelligens (AI) på Siemens Healthineers med ansvar för AI-Rad Companion, familjen av AI-drivna och molnbaserade digitala hälsolösningar för bildbehandling. Han har 30+ patent inom AI/ML för medicinsk bildbehandling och har publicerat 70+ internationella peer-reviewed tekniska och kliniska publikationer om datorseende, beräkningsmodellering och medicinsk bildanalys. Razvan tog sin doktorsexamen i datavetenskap från Technical University Munich och MBA från University of Cambridge, Judge Business School.