Detectați figuri mitotice în imagini întregi de diapozitive cu Amazon Rekognition

Republicat de Platon

Urmaritori: 0

Chiar și după mai bine de o sută de ani de la introducerea sa, histologia rămâne standardul de aur în diagnosticul și prognosticul tumorii. Anatomopatologii evaluează histologia pentru a stratifica pacienții cu cancer în diferite grupuri, în funcție de genotipurile și fenotipurile lor tumorale și de rezultatul lor clinic [1,2]. Cu toate acestea, evaluarea umană a lamelor histologice este subiectivă și nu este repetabilă [3]. În plus, evaluarea histologică este un proces consumator de timp care necesită profesioniști înalt pregătiți.

Cu progresele tehnologice semnificative din ultimul deceniu, tehnici precum imagistica integrală cu diapozitive (WSI) și învățarea profundă (DL) sunt acum disponibile pe scară largă. WSI este scanarea diapozitivelor convenționale de sticlă pentru microscopie pentru a produce o singură imagine de înaltă rezoluție din acele diapozitive. Acest lucru permite digitizarea și colectarea de seturi mari de imagini patologice, care ar fi fost prohibitiv de consumatoare de timp și de costisitoare. Disponibilitatea unor astfel de seturi de date creează modalități noi și inovatoare de a accelera diagnosticarea prin utilizarea tehnicilor precum învățarea automată (ML) pentru a ajuta patologii să accelereze diagnosticele prin identificarea rapidă a caracteristicilor de interes.

În această postare, vom explora modul în care dezvoltatorii fără experiență anterioară ML pot folosi Etichete personalizate Amazon Rekognition pentru a antrena un model care clasifică caracteristicile celulare. Amazon Rekognition Custom Labels este o caracteristică a Amazon Rekognition care vă permite să vă construiți propriile capacități specializate de analiză a imaginilor bazate pe ML pentru a detecta obiecte și scene unice care sunt integrante în cazul dumneavoastră de utilizare specific. În special, folosim un set de date care conține imagini întregi de diapozitive ale carcinomului mamar canin [1] pentru a demonstra cum să procesăm aceste imagini și să antrenăm un model care detectează figuri mitotice. Acest set de date a fost folosit cu permisiunea Prof. Dr. Marc Aubreville, care a fost de acord să ne permită să-l folosim pentru această postare. Pentru mai multe informații, consultați secțiunea Mulțumiri de la sfârșitul acestei postări.

Prezentare generală a soluției

Soluția constă din două componente:

Un model Amazon Rekognition Custom Labels — Pentru a permite Amazon Rekognition să detecteze figuri mitotice, parcurgem următorii pași:
- Eșantionați setul de date WSI pentru a produce imagini de dimensiuni adecvate folosind Amazon SageMaker Studio și un cod Python care rulează pe un notebook Jupyter. Studio este un mediu de dezvoltare integrat (IDE) bazat pe web pentru ML, care oferă toate instrumentele de care aveți nevoie pentru a vă duce modelele de la experimentare la producție, sporind în același timp productivitatea. Vom folosi Studio pentru a împărți imaginile în altele mai mici pentru a ne antrena modelul.
- Antrenați un model Amazon Rekognition Custom Labels pentru a recunoaște figurile mitotice din probele de hematoxilină-eozină folosind datele pregătite în pasul anterior.
O aplicație frontend — Pentru a demonstra cum să folosiți un model precum cel pe care l-am antrenat în pasul anterior, parcurgem următorii pași:

Următoarea diagramă ilustrează arhitectura soluției.

Toate resursele necesare pentru implementarea implementării discutate în acest post și codul pentru întreaga secțiune sunt disponibile pe GitHub. Puteți să clonați sau să bifurcați depozitul, să faceți orice modificări doriți și să îl rulați singur.

În următorii pași, parcurgem codul pentru a înțelege diferiții pași implicați în obținerea și pregătirea datelor, antrenarea modelului și utilizarea acestuia dintr-o aplicație exemplu.

Cheltuieli

Când rulați pașii din această explicație, suportați costuri mici din utilizarea următoarelor servicii AWS:

Amazon Rekognition
AWS Fargate
Aplicație Load Balancer
Manager de secrete AWS

În plus, dacă nu mai este în perioada sau în condițiile Nivelului gratuit, este posibil să suportați costuri pentru următoarele servicii:

CodePipeline
CodeBuild
Amazon ECR
Amazon SageMaker

Dacă finalizați corect pașii de curățare după terminarea acestei proceduri, vă puteți aștepta ca costurile să fie mai mici de 10 USD, dacă modelul Amazon Rekognition Custom Labels și aplicația web rulează timp de o oră sau mai puțin.

Cerințe preliminare

Pentru a parcurge toți pașii, aveți nevoie de următoarele:

Antrenarea modelului de clasificare a figurii mitotice

Executăm toți pașii necesari pentru a antrena modelul dintr-un notebook Studio. Dacă nu ați mai folosit Studio până acum, poate fi necesar la bord primul. Pentru mai multe informații, vezi Incorporați rapid la Amazon SageMaker Studio.

Unii dintre următorii pași necesită mai multă memorie RAM decât ceea ce este disponibil într-un notebook standard ml.t3.medium. Asigurați-vă că ați selectat un caiet ml.m5.large. Ar trebui să vedeți o indicație 2 vCPU + 8 GiB în colțul din dreapta sus al paginii.

Codul pentru această secțiune este disponibil ca a Fișier caietul Jupyter.

După înscrierea la Studio, urmează aceste instrucțiuni pentru a acorda Studioului permisiunile necesare pentru a apela Amazon Rekognition în numele dvs.

dependenţe

Pentru început, trebuie să parcurgem următorii pași:

Actualizați pachetele Linux și instalați dependențele necesare, cum ar fi OpenSlide:

!apt update > /dev/null && apt dist-upgrade -y > /dev/null
!apt install -y build-essential openslide-tools python-openslide libgl1-mesa-glx > /dev/null

Instalați bibliotecile fastai și SlideRunner folosind pip:

!pip install SlideRunner SlideRunner_dataAccess fastai==1.0.61 > /dev/null

Descărcați setul de date (oferim un script pentru a face acest lucru automat):
```
from dataset import download_dataset
download_dataset()
```

Procesați setul de date

Vom începe prin a importa unele dintre pachetele pe care le folosim pe parcursul etapei de pregătire a datelor. Apoi, descarcăm și încărcăm baza de date de adnotări pentru acest set de date. Această bază de date conține pozițiile din toate imaginile diapozitive ale figurilor mitotice (trăsăturile pe care dorim să le clasificăm). Vezi următorul cod:

%reload_ext autoreload
%autoreload 2
import os
from typing import List
import urllib
import numpy as np
from SlideRunner.dataAccess.database import Database
from pathlib import Path DATABASE_URL = 'https://github.com/DeepPathology/MITOS_WSI_CMC/raw/master/databases/MITOS_WSI_CMC_MEL.sqlite'
DATABASE_FILENAME = 'MITOS_WSI_CMC_MEL.sqlite' Path("./databases").mkdir(parents=True, exist_ok=True)
local_filename, headers = urllib.request.urlretrieve( DATABASE_URL, filename=os.path.join('databases', DATABASE_FILENAME),
)

Deoarece folosim SageMaker, creăm un nou SageMaker sesiune obiect pentru a ușura sarcini precum încărcarea setului nostru de date într-un Serviciul Amazon de stocare simplă (Amazon S3) găleată. De asemenea, folosim găleata S3 pe care SageMaker o creează în mod implicit pentru a încărca fișierele noastre de imagine procesate.

slidelist_test matricea conține ID-urile diapozitivelor pe care le folosim ca parte a setului de date de testare pentru a evalua performanța modelului antrenat. Vezi următorul cod:

import sagemaker
sm_session = sagemaker.Session() size=512
bucket_name = sm_session.default_bucket() database = Database()
database.open(os.path.join('databases', DATABASE_FILENAME)) slidelist_test = ['14','18','3','22','10','15','21']

Următorul pas este să obținem un set de zone de antrenament și diapozitive de testare, împreună cu etichetele din acestea, din care să putem lua zone mai mici pentru a le folosi pentru a ne antrena modelul. Codul pentru get_slides se află în fișierul sampling.py în GitHub.

from sampling import get_slides image_size = 512 lbl_bbox, training_slides, test_slides, files = get_slides(database, slidelist_test, negative_class=1, size=image_size)

Vrem să eșantionăm aleatoriu din diapozitivele de antrenament și test. Folosim listele de diapozitive de antrenament și test și selectăm aleatoriu n_training_images ori un dosar pentru antrenament și n_test_images ori un fișier pentru testare:

n_training_images = 500
n_test_images = int(0.2 * n_training_images) training_files = list([ (y, files[y]) for y in np.random.choice( [x for x in training_slides], n_training_images)
])
test_files = list([ (y, files[y]) for y in np.random.choice( [x for x in test_slides], n_test_images)
])

Apoi, creăm un director pentru imaginile de antrenament și unul pentru imaginile de testare:

Path("rek_slides/training").mkdir(parents=True, exist_ok=True)
Path("rek_slides/test").mkdir(parents=True, exist_ok=True)

Înainte de a produce imaginile mai mici necesare pentru a antrena modelul, avem nevoie de un cod de ajutor care să producă metadatele necesare pentru a descrie datele de antrenament și de testare. Următorul cod se asigură că o anumită casetă de delimitare care înconjoară caracteristicile de interes (figuri mitotice) se află bine în zona pe care o tăiem și produce o linie de JSON care descrie imaginea și caracteristicile din ea în Amazon SageMaker Ground Adevăr format, care este formatul cerut de Amazon Rekognition Custom Labels. Pentru mai multe informații despre acest fișier manifest pentru detectarea obiectelor, consultați Localizarea obiectelor în fișiere manifest.

def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def get_annotation_json_line(filename, channel, annotations, labels): objects = list([{'confidence' : 1} for i in range(0, len(annotations))]) return json.dumps({ 'source-ref': f's3://{bucket_name}/data/{channel}/{filename}', 'bounding-box': { 'image_size': [{ 'width': size, 'height': size, 'depth': 3 }], 'annotations': annotations, }, 'bounding-box-metadata': { 'objects': objects, 'class-map': dict({ x: str(x) for x in labels }), 'type': 'groundtruth/object-detection', 'human-annotated': 'yes', 'creation-date': datetime.datetime.now().isoformat(), 'job-name': 'rek-pathology', } }) def generate_annotations(x_start: int, y_start: int, bboxes, labels, filename: str, channel: str): annotations = [] for bbox in bboxes: if check_bbox(x_start, y_start, bbox): # Get coordinates relative to this slide. x0 = bbox.left - x_start y0 = bbox.top - y_start annotation = { 'class_id': 1, 'top': y0, 'left': x0, 'width': bbox.right - bbox.left, 'height': bbox.bottom - bbox.top } annotations.append(annotation) return get_annotation_json_line(filename, channel, annotations, labels)

Cu generate_annotations funcția în loc, putem scrie codul pentru a produce imaginile de antrenament și de testare:

import datetime
import json
import random from fastai import *
from fastai.vision import *
from tqdm.notebook import tqdm # Margin size, in pixels, for training images. This is the space we leave on
# each side for the bounding box(es) to be well into the image.
margin_size = 64 training_annotations = []
test_annotations = [] def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def generate_images(file_list) -> None: for f_idx in tqdm(range(0, len(file_list)), desc='Writing training images...'): slide_idx, f = file_list[f_idx] bboxes = lbl_bbox[slide_idx][0] labels = lbl_bbox[slide_idx][1] # Calculate the minimum and maximum horizontal and vertical positions # that bounding boxes should have within the image. x_min = min(map(lambda x: x.left, bboxes)) - margin_size y_min = min(map(lambda x: x.top, bboxes)) - margin_size x_max = max(map(lambda x: x.right, bboxes)) + margin_size y_max = max(map(lambda x: x.bottom, bboxes)) + margin_size result = False while not result: x_start = random.randint(x_min, x_max - image_size) y_start = random.randint(y_min, y_max - image_size) for bbox in bboxes: if check_bbox(x_start, y_start, bbox): result = True break filename = f'slide_{f_idx}.png' channel = 'test' if slide_idx in test_slides else 'training' annotation = generate_annotations(x_start, y_start, bboxes, labels, filename, channel) if channel == 'training': training_annotations.append(annotation) else: test_annotations.append(annotation) img = Image(pil2tensor(f.get_patch(x_start, y_start) / 255., np.float32)) img.save(f'rek_slides/{channel}/{filename}') generate_images(training_files)
generate_images(test_files)

Ultimul pas pentru a avea toate datele necesare este să scrieți a manifest.json fișier pentru fiecare dintre seturile de date:

with open('rek_slides/training/manifest.json', 'w') as mf: mf.write("n".join(training_annotations)) with open('rek_slides/test/manifest.json', 'w') as mf: mf.write("n".join(test_annotations))

Transferați fișierele pe S3

Noi folosim upload_data metoda pe care obiectul de sesiune SageMaker o expune pentru a încărca imaginile și fișierele manifest în compartimentul implicit SageMaker S3:

import sagemaker sm_session = sagemaker.Session()
data_location = sm_session.upload_data( './rek_slides', bucket=bucket_name,
)

Antrenați un model Amazon Rekognition Custom Labels

Cu datele deja în Amazon S3, putem ajunge la antrenarea unui model personalizat. Folosim biblioteca Boto3 pentru a crea un client Amazon Rekognition și pentru a crea un proiect:

import boto3 project_name = 'rek-mitotic-figures-workshop' rek = boto3.client('rekognition')
response = rek.create_project(ProjectName=project_name) # If you have already created the project, use the describe_projects call to
# retrieve the project ARN.
# response = rek.describe_projects()['ProjectDescriptions'][0] project_arn = response['ProjectArn']

Cu proiectul gata de utilizare, acum aveți nevoie de o versiune de proiect care să trimită la seturile de date de instruire și testare din Amazon S3. În mod ideal, fiecare versiune indică seturi de date diferite (sau versiuni diferite ale acesteia). Acest lucru ne permite să avem diferite versiuni ale unui model, să le comparăm performanța și să comutăm între ele după cum este necesar. Vezi următorul cod:

version_name = '1' output_config = { 'S3Bucket': bucket_name, 'S3KeyPrefix': 'output',
} training_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/training/manifest.json' } }, }, ]
} testing_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/test/manifest.json' } }, }, ]
} def describe_project_versions(): describe_response = rek.describe_project_versions( ProjectArn=project_arn, VersionNames=[version_name], ) for model in describe_response['ProjectVersionDescriptions']: print(f"Status: {model['Status']}") print(f"Message: {model['StatusMessage']}") return describe_response response = rek.create_project_version( VersionName=version_name, ProjectArn=project_arn, OutputConfig=output_config, TrainingData=training_dataset, TestingData=testing_dataset,
) waiter = rek.get_waiter('project_version_training_completed')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
) describe_response = describe_project_versions()

După ce creăm versiunea proiectului, Amazon Rekognition începe automat procesul de instruire. Timpul de antrenament depinde de mai multe caracteristici, cum ar fi dimensiunea imaginilor și numărul acestora, numărul de clase și așa mai departe. În acest caz, pentru 500 de imagini, antrenamentul durează aproximativ 90 de minute.

Testați modelul

După antrenament, fiecare model din Amazon Rekognition Custom Labels este în STOPPED stat. Pentru a-l folosi pentru deducere, trebuie să îl porniți. Obținem versiunea ARN a proiectului din descrierea versiunii proiectului și o transmitem către start_project_version. Observați MinInferenceUnits parametru — începem cu o unitate de inferență. Numărul maxim real de tranzacții pe secundă (TPS) pe care le acceptă această unitate de inferență depinde de complexitatea modelului dvs. Pentru a afla mai multe despre TPS, consultați aceasta blog.

model_arn = describe_response['ProjectVersionDescriptions'][0]['ProjectVersionArn'] response = rek.start_project_version( ProjectVersionArn=model_arn, MinInferenceUnits=1,
)
waiter = rek.get_waiter('project_version_running')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
)

Când versiunea proiectului dvs. este listată ca RUNNING, puteți începe să trimiteți imagini către Amazon Rekognition pentru deducere.

Folosim unul dintre fișierele din setul de date de testare pentru a testa modelul nou început. În schimb, puteți utiliza orice fișier PNG sau JPEG potrivit.

from matplotlib import pyplot as plt
from PIL import Image, ImageDraw # We'll use one of our test images to try out our model.
with open('./rek_slides/test/slide_0.png', 'rb') as image_file: image_bytes=image_file.read() # Send the image data to the model.
response = rek.detect_custom_labels( ProjectVersionArn=model_arn, Image={ 'Bytes': image_bytes }
) img = Image.open(io.BytesIO(image_bytes))
draw = ImageDraw.Draw(img) for custom_label in response['CustomLabels']: geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) plt.imshow(np.asarray(img))

Aplicație simplificată

Pentru a demonstra integrarea cu Amazon Rekognition, folosim o aplicație Python foarte simplă. Noi folosim Iluminat în flux bibliotecă pentru a construi o interfață de utilizator spartană, în care solicităm utilizatorului să încarce un fișier imagine.

Folosim biblioteca Boto3 și detect_custom_labels metoda, împreună cu versiunea de proiect ARN, pentru a invoca punctul final de inferență. Răspunsul este un document JSON care conține pozițiile și clasele diferitelor obiecte detectate în imagine. În cazul nostru, acestea sunt figurile mitotice pe care algoritmul le-a găsit în imaginea pe care am trimis-o la punctul final. Vezi următorul cod:

import os import boto3
import io
import streamlit as st
from PIL import Image, ImageDraw rek_client = boto3.client('rekognition') uploaded_file = st.file_uploader('Image file')
if uploaded_file is not None: image_bytes = uploaded_file.read() result = rek_client.detect_custom_labels( ProjectVersionArn='<YOUR_PROJECT_ARN_HERE>', Image={ 'Bytes': image_bytes } ) img = Image.open(io.BytesIO(image_bytes)) draw = ImageDraw.Draw(img) st.write(result['CustomLabels']) for custom_label in result['CustomLabels']: st.write(f"Label {custom_label['Name']}, confidence {custom_label['Confidence']}") geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height st.write(f"Left, top = ({l}, {t}), width, height = ({w}, {h})") draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) st_img = st.image(img)

Implementați aplicația pe AWS

Pentru a implementa aplicația, folosim un script AWS CDK. Întregul proiect poate fi găsit pe GitHub . Să ne uităm la diferitele resurse implementate de script.

Creați un depozit Amazon ECR

Ca prim pas către configurarea implementării noastre, creăm un depozit Amazon ECR, unde putem stoca imaginile containerului nostru de aplicații:

aws ecr create-repository --repository-name rek-wsi

Creați și stocați tokenul dvs. GitHub în AWS Secrets Manager

CodePipeline are nevoie de un Token de acces personal GitHub pentru a vă monitoriza depozitul GitHub pentru modificări și codul de extragere. Pentru a crea simbolul, urmați instrucțiunile din Documentația GitHub. Tokenul necesită următoarele domenii GitHub:

repo scope, care este folosit pentru control deplin pentru a citi și extrage artefacte din depozitele publice și private într-o conductă.
admin:repo_hook scope, care este utilizat pentru controlul complet al cârligelor de depozit.

După crearea jetonului, stocați-l într-un nou secret în Manager de secrete AWS după cum urmează:

aws secretsmanager create-secret --name rek-wsi/github --secret-string "{"oauthToken":"YOUR-TOKEN-VALUE-HERE"}"

Scrieți parametrii de configurare în AWS Systems Manager Parameter Store

Scriptul AWS CDK citește câțiva parametri de configurare din Magazin de parametri AWS Systems Manager, cum ar fi numele și proprietarul depozitului GitHub și contul și regiunea țintă. Înainte de a lansa scriptul AWS CDK, trebuie să creați acești parametri în propriul cont.

Puteți face acest lucru utilizând AWS CLI. Pur și simplu invocați put-parameter comandă cu un nume, o valoare și tipul parametrului:

aws ssm put-parameter --name <PARAMETER-NAME> --value <PARAMETER-VALUE> --type <PARAMETER_TYPE>

Următoarea este o listă a tuturor parametrilor solicitați de scriptul AWS CDK. Toate sunt de tip String:

/rek_wsi/prod/accountId — ID-ul contului în care implementăm aplicația.
/rek_wsi/prod/ecr_repo_name — Numele depozitului Amazon ECR în care sunt stocate imaginile containerului.
/rek_wsi/prod/github/branch — Ramura din depozitul GitHub din care CodePipeline trebuie să extragă codul.
/rek_wsi/prod/github/owner — Proprietarul depozitului GitHub.
/rek_wsi/prod/github/repo — Numele depozitului GitHub unde este stocat codul nostru.
/rek_wsi/prod/github/token — Numele sau ARN-ul secretului din Secrets Manager care conține indicativul de autentificare GitHub. Acest lucru este necesar pentru ca CodePipeline să poată comunica cu GitHub.
/rek_wsi/prod/region — Regiunea în care vom implementa aplicația.

Observați prod segment în toate numele parametrilor. Deși nu avem nevoie de acest nivel de detaliu pentru un exemplu atât de simplu, acesta va permite reutilizarea acestei abordări cu alte proiecte în care ar putea fi necesare medii diferite.

Resurse create de scriptul AWS CDK

Avem nevoie de aplicația noastră, care rulează într-o sarcină Fargate, să aibă permisiuni pentru a invoca Amazon Rekognition. Așa că mai întâi creăm un Gestionarea identității și accesului AWS (IAM) Rol de sarcină cu RekognitionReadOnlyPolicy politică atașată acestuia. Observați că assumed_by parametrul din codul următor ia ecs-tasks.amazonaws.com principalul serviciului. Acest lucru se datorează faptului că folosim Amazon ECS ca orchestrator, așa că avem nevoie de Amazon ECS să își asume rolul și să transmită acreditările sarcinii Fargate.

streamlit_task_role = iam.Role( self, 'StreamlitTaskRole', assumed_by=iam.ServicePrincipal('ecs-tasks.amazonaws.com'), description='ECS Task Role assumed by the Streamlit task deployed to ECS+Fargate', managed_policies=[ iam.ManagedPolicy.from_managed_policy_arn( self, 'RekognitionReadOnlyPolicy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonRekognitionReadOnlyAccess' ), ],
)

Odată construită, imaginea containerului nostru de aplicații se află într-un depozit privat Amazon ECR. Avem nevoie de un obiect care să-l descrie pe care să îl putem transmite atunci când creăm serviciul Fargate:

ecs_container_image = ecs.ContainerImage.from_ecr_repository( repository=ecr.Repository.from_repository_name(self, 'ECRRepo', 'rek-wsi'), tag='latest'
)

Creăm un nou VPC și un cluster pentru această aplicație. Puteți modifica această parte pentru a vă folosi propriul VPC utilizând from_lookup metodă a Vpc clasă:

vpc = ec2.Vpc(self, 'RekWSI', max_azs=3)
cluster = ecs.Cluster(self, 'RekWSICluster', vpc=vpc)

Acum că avem un VPC și un cluster pe care să le implementăm, creăm serviciul Fargate. Folosim 0.25 vCPU și 512 MB RAM pentru această sarcină și plasăm un Application Load Balancer (ALB) public în fața acestuia. Odată implementat, folosim ALB CNAME pentru a accesa aplicația. Vezi următorul cod:

fargate_service = ecs_patterns.ApplicationLoadBalancedFargateService( self, 'RekWSIECSApp', cluster=cluster, cpu=256, memory_limit_mib=512, desired_count=1, task_image_options=ecs_patterns.ApplicationLoadBalancedTaskImageOptions( image=ecs_container_image, container_port=8501, task_role=streamlit_task_role, ), public_load_balancer=True,
)

Pentru a construi și a implementa automat o nouă imagine de container de fiecare dată când împingem codul în ramura noastră principală, creăm o conductă simplă constând dintr-o acțiune sursă GitHub și un pas de construire. Aici folosim secretele pe care le-am stocat în AWS Secrets Manager și AWS Systems Manager Parameter Store în pașii anteriori.

pipeline = codepipeline.Pipeline(self, 'RekWSIPipeline') # Create an artifact that points at the code pulled from GitHub.
source_output = codepipeline.Artifact() # Create a source stage that pulls the code from GitHub. The repo parameters are
# stored in SSM, and the OAuth token in Secrets Manager.
source_action = codepipeline_actions.GitHubSourceAction( action_name='GitHub', output=source_output, oauth_token=SecretValue.secrets_manager( ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/token'), json_field='oauthToken'), trigger=codepipeline_actions.GitHubTrigger.WEBHOOK, owner=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/owner'), repo=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/repo'), branch=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/branch'),
) # Add the source stage to the pipeline.
pipeline.add_stage( stage_name='GitHub', actions=[source_action]
)

CodeBuild are nevoie de permisiuni pentru a trimite imaginile containerului către Amazon ECR. Pentru a acorda aceste permisiuni, adăugăm AmazonEC2ContainerRegistryFullAccess politică la un rol IAM personalizat pe care principalul serviciului CodeBuild îl poate asuma:

# Create an IAM role that grants CodeBuild access to Amazon ECR to push containers.
build_role = iam.Role( self, 'RekWsiCodeBuildAccessRole', assumed_by=iam.ServicePrincipal('codebuild.amazonaws.com'),
) # Permissions are granted through an AWS managed policy, AmazonEC2ContainerRegistryFullAccess.
managed_ecr_policy = iam.ManagedPolicy.from_managed_policy_arn( self, 'cb_ecr_policy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess',
)
build_role.add_managed_policy(policy=managed_ecr_policy)

Proiectul CodeBuild se conectează în depozitul privat Amazon ECR, construiește imaginea Docker cu aplicația Streamlit și împinge imaginea în depozit împreună cu un appspec.yaml si un imagedefinitions.json fișier.

appspec.yaml fișierul descrie sarcina (portul, versiunea platformei Fargate și așa mai departe), în timp ce imagedefinitions.json fișierul mapează numele imaginilor containerului la URI-ul Amazon ECR corespunzător. Vezi următorul cod:

container_name = fargate_service.task_definition.default_container.container_name
build_project = codebuild.PipelineProject( self, 'RekWSIProject', build_spec=codebuild.BuildSpec.from_object({ 'version': '0.2', 'phases': { 'pre_build': { 'commands': [ 'env', 'COMMIT_HASH=$(echo $CODEBUILD_RESOLVED_SOURCE_VERSION | cut -c 1-7)', 'export TAG=${COMMIT_HASH:=latest}', 'aws ecr get-login-password --region $AWS_DEFAULT_REGION | ' 'docker login --username AWS ' '--password-stdin $AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com', ] }, 'build': { 'commands': [ # Build the Docker image 'cd streamlit_app && docker build -t $IMAGE_REPO_NAME:$IMAGE_TAG .', # Tag the image 'docker tag $IMAGE_REPO_NAME:$IMAGE_TAG ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', ] }, 'post_build': { 'commands': [ # Push the container into ECR. 'docker push ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', # Generate imagedefinitions.json 'cd ..', "printf '[{"name":"%s","imageUri":"%s"}]' " f"{container_name} " "$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG " "> imagedefinitions.json", 'ls -l', 'pwd', 'sed -i s"|REGION_NAME|$AWS_DEFAULT_REGION|g" appspec.yaml', 'sed -i s"|ACCOUNT_ID|$AWS_ACCOUNT_ID|g" appspec.yaml', 'sed -i s"|TASK_NAME|$IMAGE_REPO_NAME|g" appspec.yaml', f'sed -i s"|CONTAINER_NAME|{container_name}|g" appspec.yaml', ] } }, 'artifacts': { 'files': [ 'imagedefinitions.json', 'appspec.yaml', ], }, }), environment=codebuild.BuildEnvironment( build_image=codebuild.LinuxBuildImage.STANDARD_5_0, privileged=True, ), environment_variables={ 'AWS_ACCOUNT_ID': codebuild.BuildEnvironmentVariable(value=self.account), 'IMAGE_REPO_NAME': codebuild.BuildEnvironmentVariable( value=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/ecr_repo_name')), 'IMAGE_TAG': codebuild.BuildEnvironmentVariable(value='latest'), }, role=build_role,
)

În cele din urmă, am pus împreună diferitele etape ale conductei. Ultima acțiune este EcsDeployAction, care preia imaginea containerului construită în etapa anterioară și face o actualizare continuă a sarcinilor din clusterul nostru ECS:

# Create an artifact to store the build output.
build_output = codepipeline.Artifact()
# Create a build action that ties the build project, the source artifact from the
# previous stage, and the output artifact together.
build_action = codepipeline_actions.CodeBuildAction( action_name='Build', project=build_project, input=source_output, outputs=[build_output],
)
# Add the build stage to the pipeline.
pipeline.add_stage( stage_name='Build', actions=[build_action]
)
deploy_action = codepipeline_actions.EcsDeployAction( action_name='Deploy', service=fargate_service.service, # image_file=build_output input=build_output,
)
pipeline.add_stage( stage_name='Deploy', actions=[deploy_action],
)

A curăța

Pentru a evita costurile viitoare, curățați resursele pe care le-ați creat ca parte a acestei soluții.

Modelul de etichete personalizate Amazon Rekognition

Înainte de a închide notebook-ul Studio, asigurați-vă că opriți modelul Amazon Rekognition Custom Labels. Dacă nu o faceți, va continua să suporte costuri.

rek.stop_project_version( ProjectVersionArn=model_arn,
)

Alternativ, puteți utiliza consola Amazon Rekognition pentru a opri serviciul:

Pe consola Amazon Rekognition, alegeți Utilizați etichete personalizate în panoul de navigare.
Alege Proiecte în panoul de navigare.
Alegeți versiunea 1 a rek-mitotic-figures-workshop proiect.
Pe Utilizați modelul fila, alegeți Stop.

Aplicație simplificată

Pentru a distruge toate resursele asociate aplicației Streamlit, rulați următorul cod din directorul aplicației AWS CDK:

cdk destroy RekWsiStack

Manager de secrete AWS

Pentru a șterge simbolul GitHub, urmați instrucțiunile din documentaţie.

Concluzie

În această postare, am parcurs pașii necesari pentru a pregăti un model Amazon Rekognition Custom Labels pentru o aplicație de patologie digitală folosind date din lumea reală. Apoi am învățat cum să folosim modelul dintr-o aplicație simplă implementată dintr-o conductă CI/CD către Fargate.

Amazon Rekognition Custom Labels vă permite să creați aplicații de asistență medicală activate ML pe care le puteți crea și implementa cu ușurință folosind servicii precum Fargate, CodeBuild și CodePipeline.

Vă puteți gândi la vreo aplicație care să-i ajute pe cercetători, medici sau pacienții lor să-și facă viața mai ușoară? Dacă da, utilizați codul din acest tutorial pentru a crea următoarea aplicație. Și dacă aveți întrebări, vă rugăm să le împărtășiți în secțiunea de comentarii.

recunoasteri

Dorim să-i mulțumim Prof. Dr. Marc Aubreville pentru că ne-a acordat permisiunea de a folosi setul de date MITOS_WSI_CMC pentru această postare de blog. Setul de date poate fi găsit pe GitHub.

Referinte

[1] Aubreville, M., Bertram, CA, Donovan, TA și colab. Un set de date complet adnotat cu imagini de diapozitive despre cancerul de sân canin pentru a ajuta cercetarea cancerului de sân uman. Sci Data 7, 417 (2020). https://doi.org/10.1038/s41597-020-00756-z

[2] Khened, M., Kori, A., Rajkumar, H. et al. Un cadru generalizat de învățare profundă pentru segmentarea și analiza întregii imagini a diapozitivei. Sci Rep 11, 11579 (2021). https://doi.org/10.1038/s41598-021-90444-8

[3] PNAS 27 martie 2018 115 (13) E2970-E2979; publicat prima dată 12 martie 2018; https://doi.org/10.1073/pnas.1717139115

Despre autor

Pablo Nuñez Pölcher, MSc, este un arhitect senior de soluții care lucrează pentru echipa din sectorul public cu Amazon Web Services. Pablo se concentrează pe a ajuta clienții din sectorul public din domeniul sănătății să construiască produse noi și inovatoare pe AWS, în conformitate cu cele mai bune practici. A primit M.Sc. în Științe Biologice de la Universidad de Buenos Aires. În timpul liber, îi place să meargă cu bicicleta și să joace dispozitive încorporate cu ML.

Razvan Ionasec, PhD, MBA, este liderul tehnic pentru asistența medicală la Amazon Web Services în Europa, Orientul Mijlociu și Africa. Munca sa se concentrează pe a ajuta clienții din domeniul sănătății să rezolve problemele de afaceri prin valorificarea tehnologiei. Anterior, Razvan a fost șeful global al produselor de inteligență artificială (AI) la Siemens Healthineers, responsabil de AI-Rad Companion, familia de soluții de sănătate digitală bazate pe AI și bazate pe cloud pentru imagistica. El deține peste 30 de brevete în AI/ML pentru imagistica medicală și a publicat peste 70 de publicații internaționale tehnice și clinice, revizuite de colegi, despre viziunea computerizată, modelarea computațională și analiza imaginilor medicale. Razvan și-a luat doctoratul în informatică la Universitatea Tehnică din München și MBA de la Universitatea din Cambridge, Judge Business School.