Виявляйте мітотичні фігури в повних зображеннях слайдів за допомогою Amazon Rekognition

Перевидано Платоном

читають: 0

Навіть після більш ніж ста років після свого впровадження гістологія залишається золотим стандартом у діагностиці та прогнозі пухлин. Анатомічні патологи оцінюють гістологію, щоб розділити онкологічних пацієнтів на різні групи залежно від їх генотипу та фенотипу пухлини та їхнього клінічного результату [1,2]. Однак оцінка гістологічних препаратів людиною є суб’єктивною та не повторюваною [3]. Крім того, гістологічне дослідження є трудомістким процесом, який вимагає висококваліфікованих фахівців.

Завдяки значному технологічному прогресу за останнє десятиліття такі методи, як зображення цілого слайда (WSI) і глибоке навчання (DL), тепер широко доступні. WSI — це сканування звичайних мікроскопічних предметних стекол для отримання єдиного зображення високої роздільної здатності з цих предметних стекол. Це дозволяє оцифровувати та збирати великі набори зображень патології, що було б надзвичайно трудомістким і дорогим. Доступність таких наборів даних створює нові та інноваційні способи прискорення діагностики за допомогою таких методів, як машинне навчання (ML), щоб допомогти патологам пришвидшити діагностику шляхом швидкого визначення цікавих особливостей.

У цій публікації ми розглянемо, як можуть використовувати розробники без попереднього досвіду ML Спеціальні етикетки Amazon Rekogmination навчити модель, яка класифікує клітинні ознаки. Спеціальні мітки Amazon Rekognition є функцією Amazon Rekognition що дає вам змогу створювати власні спеціалізовані можливості аналізу зображень на основі ML для виявлення унікальних об’єктів і сцен, невід’ємних для вашого конкретного випадку використання. Зокрема, ми використовуємо набір даних, що містить цілі зображення слайдів карциноми молочної залози собак [1], щоб продемонструвати, як обробляти ці зображення та навчати модель, яка виявляє мітотичні фігури. Цей набір даних використовувався з дозволу професора, доктора Марка Обревіля, який люб’язно погодився дозволити нам використовувати його для цієї публікації. Для отримання додаткової інформації перегляньте розділ Подяки в кінці цієї публікації.

Огляд рішення

Розчин складається з двох компонентів:

Модель спеціальних міток Amazon Rekognition — Щоб увімкнути Amazon Rekognition для виявлення мітотичних фігур, ми виконуємо наступні кроки:
- Зробіть вибірку набору даних WSI, щоб створити зображення відповідного розміру Студія Amazon SageMaker і код Python, що працює на ноутбуці Jupyter. Studio — це веб-інтегроване середовище розробки (IDE) для машинного навчання, яке надає всі інструменти, необхідні для перенесення моделей від експериментів до виробництва, одночасно підвищуючи вашу продуктивність. Ми будемо використовувати Studio, щоб розділити зображення на менші для навчання нашої моделі.
- Навчіть модель Amazon Rekognition Custom Labels розпізнавати мітотичні фігури в зразках гематоксилін-еозину за допомогою даних, підготовлених на попередньому кроці.
Інтерфейсний додаток — Щоб продемонструвати, як використовувати модель, схожу на ту, яку ми навчали на попередньому кроці, ми виконуємо наступні кроки:

Наступна діаграма ілюструє архітектуру рішення.

Усі необхідні ресурси для розгортання реалізації, обговорюваної в цій публікації, і код для всього розділу доступні на GitHub. Ви можете клонувати або розгалужувати репозиторій, вносити будь-які зміни та запускати його самостійно.

У наступних кроках ми пройдемося по коду, щоб зрозуміти різні кроки, пов’язані з отриманням і підготовкою даних, навчанням моделі та її використанням із зразка програми.

витрати

Під час виконання кроків у цьому покроковому керівництві ви несете невеликі витрати від використання таких служб AWS:

Amazon Rekognition
AWS Fargate
Балансувальник навантаження програми
Менеджер секретів AWS

Крім того, якщо період або умови безкоштовного рівня більше не діють, ви можете нести витрати за такі послуги:

CodePipeline
CodeBuild
Amazon ECR
Amazon SageMaker

Якщо ви правильно виконаєте кроки очищення після завершення цього покрокового керівництва, ви можете очікувати, що витрати становитимуть менше 10 доларів США, якщо модель Amazon Rekognition Custom Labels і веб-програма працюватимуть одну годину або менше.

Передумови

Щоб виконати всі кроки, потрібно:

Навчання моделі класифікації мітотичної фігури

Ми виконуємо всі кроки, необхідні для навчання моделі, із блокнота Studio. Якщо ви ніколи раніше не користувалися Studio, можливо, вам знадобиться на борту перший. Для отримання додаткової інформації див Швидко перейдіть до Amazon SageMaker Studio.

Для виконання деяких із наведених нижче кроків потрібно більше оперативної пам’яті, ніж доступно в стандартному ноутбуці ml.t3.medium. Переконайтеся, що ви вибрали блокнот ml.m5.large. Ви повинні побачити позначку 2 vCPU + 8 GiB у верхньому правому куті сторінки.

Код для цього розділу доступний як a Файл зошита Юпітера.

Після входу в Студію слідуйте ці інструкції щоб надати Studio необхідні дозволи для виклику Amazon Rekognition від вашого імені.

Залежності

Для початку нам потрібно виконати наступні кроки:

Оновіть пакети Linux і встановіть необхідні залежності, наприклад OpenSlide:

!apt update > /dev/null && apt dist-upgrade -y > /dev/null
!apt install -y build-essential openslide-tools python-openslide libgl1-mesa-glx > /dev/null

Встановіть бібліотеки fastai та SlideRunner за допомогою pip:
```
!pip install SlideRunner SlideRunner_dataAccess fastai==1.0.61 > /dev/null
```
Завантажте набір даних (ми надаємо сценарій, щоб зробити це автоматично):
```
from dataset import download_dataset
download_dataset()
```

Обробити набір даних

Ми почнемо з імпорту деяких пакетів, які ми використовуємо на етапі підготовки даних. Потім ми завантажуємо базу даних анотацій для цього набору даних. Ця база даних містить позиції мітотичних фігур (об’єктів, які ми хочемо класифікувати) на повних зображеннях слайдів. Перегляньте наступний код:

%reload_ext autoreload
%autoreload 2
import os
from typing import List
import urllib
import numpy as np
from SlideRunner.dataAccess.database import Database
from pathlib import Path DATABASE_URL = 'https://github.com/DeepPathology/MITOS_WSI_CMC/raw/master/databases/MITOS_WSI_CMC_MEL.sqlite'
DATABASE_FILENAME = 'MITOS_WSI_CMC_MEL.sqlite' Path("./databases").mkdir(parents=True, exist_ok=True)
local_filename, headers = urllib.request.urlretrieve( DATABASE_URL, filename=os.path.join('databases', DATABASE_FILENAME),
)

Оскільки ми використовуємо SageMaker, ми створюємо новий SageMaker Сесія об’єкт, щоб полегшити такі завдання, як завантаження нашого набору даних до Служба простого зберігання Amazon (Amazon S3) відро. Ми також використовуємо відро S3, яке SageMaker створює за замовчуванням, щоб завантажувати оброблені файли зображень.

Команда slidelist_test Масив містить ідентифікатори слайдів, які ми використовуємо як частину тестового набору даних для оцінки продуктивності навченої моделі. Перегляньте наступний код:

import sagemaker
sm_session = sagemaker.Session() size=512
bucket_name = sm_session.default_bucket() database = Database()
database.open(os.path.join('databases', DATABASE_FILENAME)) slidelist_test = ['14','18','3','22','10','15','21']

Наступним кроком є отримання набору областей навчання та тестових слайдів разом із мітками в них, з яких ми можемо взяти менші області для використання для навчання нашої моделі. Код для get_slides знаходиться у файлі sampling.py GitHub.

from sampling import get_slides image_size = 512 lbl_bbox, training_slides, test_slides, files = get_slides(database, slidelist_test, negative_class=1, size=image_size)

Ми хочемо взяти випадкову вибірку з навчальних і тестових слайдів. Ми використовуємо списки навчальних і тестових слайдів і вибираємо випадковим чином n_training_images раз файл для навчання, і n_test_images раз файл для перевірки:

n_training_images = 500
n_test_images = int(0.2 * n_training_images) training_files = list([ (y, files[y]) for y in np.random.choice( [x for x in training_slides], n_training_images)
])
test_files = list([ (y, files[y]) for y in np.random.choice( [x for x in test_slides], n_test_images)
])

Далі ми створюємо каталог для навчальних зображень і один для тестових зображень:

Path("rek_slides/training").mkdir(parents=True, exist_ok=True)
Path("rek_slides/test").mkdir(parents=True, exist_ok=True)

Перш ніж створювати зображення меншого розміру, необхідні для навчання моделі, нам потрібен допоміжний код, який створює метадані, необхідні для опису даних навчання та тестування. Наступний код гарантує, що задана обмежувальна рамка, яка оточує цікаві елементи (мітотичні фігури), знаходиться в межах зони, яку ми вирізаємо, і створює рядок JSON, який описує зображення та елементи в ньому в Основна правда Amazon SageMaker Формат, який вимагає Amazon Rekognition Custom Labels. Щоб отримати додаткові відомості про цей файл маніфесту для виявлення об’єктів, див Локалізація об’єктів у файлах маніфесту.

def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def get_annotation_json_line(filename, channel, annotations, labels): objects = list([{'confidence' : 1} for i in range(0, len(annotations))]) return json.dumps({ 'source-ref': f's3://{bucket_name}/data/{channel}/{filename}', 'bounding-box': { 'image_size': [{ 'width': size, 'height': size, 'depth': 3 }], 'annotations': annotations, }, 'bounding-box-metadata': { 'objects': objects, 'class-map': dict({ x: str(x) for x in labels }), 'type': 'groundtruth/object-detection', 'human-annotated': 'yes', 'creation-date': datetime.datetime.now().isoformat(), 'job-name': 'rek-pathology', } }) def generate_annotations(x_start: int, y_start: int, bboxes, labels, filename: str, channel: str): annotations = [] for bbox in bboxes: if check_bbox(x_start, y_start, bbox): # Get coordinates relative to this slide. x0 = bbox.left - x_start y0 = bbox.top - y_start annotation = { 'class_id': 1, 'top': y0, 'left': x0, 'width': bbox.right - bbox.left, 'height': bbox.bottom - bbox.top } annotations.append(annotation) return get_annotation_json_line(filename, channel, annotations, labels)

З generate_annotations на місці, ми можемо написати код для створення навчальних і тестових зображень:

import datetime
import json
import random from fastai import *
from fastai.vision import *
from tqdm.notebook import tqdm # Margin size, in pixels, for training images. This is the space we leave on
# each side for the bounding box(es) to be well into the image.
margin_size = 64 training_annotations = []
test_annotations = [] def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def generate_images(file_list) -> None: for f_idx in tqdm(range(0, len(file_list)), desc='Writing training images...'): slide_idx, f = file_list[f_idx] bboxes = lbl_bbox[slide_idx][0] labels = lbl_bbox[slide_idx][1] # Calculate the minimum and maximum horizontal and vertical positions # that bounding boxes should have within the image. x_min = min(map(lambda x: x.left, bboxes)) - margin_size y_min = min(map(lambda x: x.top, bboxes)) - margin_size x_max = max(map(lambda x: x.right, bboxes)) + margin_size y_max = max(map(lambda x: x.bottom, bboxes)) + margin_size result = False while not result: x_start = random.randint(x_min, x_max - image_size) y_start = random.randint(y_min, y_max - image_size) for bbox in bboxes: if check_bbox(x_start, y_start, bbox): result = True break filename = f'slide_{f_idx}.png' channel = 'test' if slide_idx in test_slides else 'training' annotation = generate_annotations(x_start, y_start, bboxes, labels, filename, channel) if channel == 'training': training_annotations.append(annotation) else: test_annotations.append(annotation) img = Image(pil2tensor(f.get_patch(x_start, y_start) / 255., np.float32)) img.save(f'rek_slides/{channel}/{filename}') generate_images(training_files)
generate_images(test_files)

Останнім кроком до отримання всіх необхідних даних є написання a manifest.json файл для кожного з наборів даних:

with open('rek_slides/training/manifest.json', 'w') as mf: mf.write("n".join(training_annotations)) with open('rek_slides/test/manifest.json', 'w') as mf: mf.write("n".join(test_annotations))

Передайте файли на S3

Ми використовуємо upload_data метод, який надає об’єкт сеансу SageMaker для завантаження зображень і файлів маніфесту до стандартного сегмента SageMaker S3:

import sagemaker sm_session = sagemaker.Session()
data_location = sm_session.upload_data( './rek_slides', bucket=bucket_name,
)

Навчання моделі спеціальних міток Amazon Rekognition

З даними, які вже є в Amazon S3, ми можемо перейти до навчання спеціальної моделі. Ми використовуємо бібліотеку Boto3 для створення клієнта Amazon Rekognition і створення проекту:

import boto3 project_name = 'rek-mitotic-figures-workshop' rek = boto3.client('rekognition')
response = rek.create_project(ProjectName=project_name) # If you have already created the project, use the describe_projects call to
# retrieve the project ARN.
# response = rek.describe_projects()['ProjectDescriptions'][0] project_arn = response['ProjectArn']

Коли проект готовий до використання, тепер вам потрібна версія проекту, яка вказує на навчальні та тестові набори даних в Amazon S3. Кожна версія ідеально вказує на різні набори даних (або різні їх версії). Це дає нам змогу мати різні версії моделі, порівнювати їх продуктивність і за потреби перемикатися між ними. Перегляньте наступний код:

version_name = '1' output_config = { 'S3Bucket': bucket_name, 'S3KeyPrefix': 'output',
} training_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/training/manifest.json' } }, }, ]
} testing_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/test/manifest.json' } }, }, ]
} def describe_project_versions(): describe_response = rek.describe_project_versions( ProjectArn=project_arn, VersionNames=[version_name], ) for model in describe_response['ProjectVersionDescriptions']: print(f"Status: {model['Status']}") print(f"Message: {model['StatusMessage']}") return describe_response response = rek.create_project_version( VersionName=version_name, ProjectArn=project_arn, OutputConfig=output_config, TrainingData=training_dataset, TestingData=testing_dataset,
) waiter = rek.get_waiter('project_version_training_completed')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
) describe_response = describe_project_versions()

Після створення версії проекту Amazon Rekognition автоматично починає процес навчання. Час навчання залежить від кількох особливостей, таких як розмір та кількість зображень, кількість занять тощо. У цьому випадку для 500 зображень навчання займає приблизно 90 хвилин.

Випробуйте модель

Після навчання кожна модель у Amazon Rekognition Custom Labels знаходиться в STOPPED стан. Щоб використовувати його для висновків, його потрібно запустити. Ми отримуємо ARN версії проекту з опису версії проекту та передаємо її до start_project_version. Зауважте MinInferenceUnits параметр — ми починаємо з однієї одиниці висновку. Фактична максимальна кількість транзакцій за секунду (TPS), яку підтримує цей блок виведення, залежить від складності вашої моделі. Щоб дізнатися більше про TPS, зверніться до цього блог.

model_arn = describe_response['ProjectVersionDescriptions'][0]['ProjectVersionArn'] response = rek.start_project_version( ProjectVersionArn=model_arn, MinInferenceUnits=1,
)
waiter = rek.get_waiter('project_version_running')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
)

Коли версія вашого проекту вказана як RUNNING, ви можете почати надсилати зображення до Amazon Rekognition для висновку.

Ми використовуємо один із файлів у тестовому наборі даних, щоб перевірити щойно запущену модель. Замість цього можна використовувати будь-який відповідний файл PNG або JPEG.

from matplotlib import pyplot as plt
from PIL import Image, ImageDraw # We'll use one of our test images to try out our model.
with open('./rek_slides/test/slide_0.png', 'rb') as image_file: image_bytes=image_file.read() # Send the image data to the model.
response = rek.detect_custom_labels( ProjectVersionArn=model_arn, Image={ 'Bytes': image_bytes }
) img = Image.open(io.BytesIO(image_bytes))
draw = ImageDraw.Draw(img) for custom_label in response['CustomLabels']: geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) plt.imshow(np.asarray(img))

Додаток Streamlit

Щоб продемонструвати інтеграцію з Amazon Rekognition, ми використовуємо дуже просту програму Python. Ми використовуємо Стрітліт бібліотеку для створення спартанського інтерфейсу користувача, де ми пропонуємо користувачеві завантажити файл зображення.

Ми використовуємо бібліотеку Boto3 і detect_custom_labels разом із версією проекту ARN для виклику кінцевої точки висновку. Відповідь – це документ JSON, який містить позиції та класи різних об’єктів, виявлених на зображенні. У нашому випадку це мітотичні фігури, які алгоритм знайшов на зображенні, яке ми надіслали до кінцевої точки. Перегляньте наступний код:

import os import boto3
import io
import streamlit as st
from PIL import Image, ImageDraw rek_client = boto3.client('rekognition') uploaded_file = st.file_uploader('Image file')
if uploaded_file is not None: image_bytes = uploaded_file.read() result = rek_client.detect_custom_labels( ProjectVersionArn='<YOUR_PROJECT_ARN_HERE>', Image={ 'Bytes': image_bytes } ) img = Image.open(io.BytesIO(image_bytes)) draw = ImageDraw.Draw(img) st.write(result['CustomLabels']) for custom_label in result['CustomLabels']: st.write(f"Label {custom_label['Name']}, confidence {custom_label['Confidence']}") geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height st.write(f"Left, top = ({l}, {t}), width, height = ({w}, {h})") draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) st_img = st.image(img)

Розгорніть додаток на AWS

Для розгортання програми ми використовуємо сценарій AWS CDK. Весь проект можна знайти на GitHub . Давайте розглянемо різні ресурси, які використовує сценарій.

Створіть репозиторій Amazon ECR

Як перший крок до налаштування нашого розгортання ми створюємо репозиторій Amazon ECR, де ми можемо зберігати зображення контейнерів наших програм:

aws ecr create-repository --repository-name rek-wsi

Створіть і збережіть свій токен GitHub в AWS Secrets Manager

CodePipeline потрібен особистий маркер доступу GitHub, щоб відстежувати зміни в сховищі GitHub і витягувати код. Щоб створити маркер, дотримуйтесь інструкцій у Документація GitHub. Для маркера потрібні такі області GitHub:

Команда repo scope, який використовується для повного контролю для читання та отримання артефактів із загальнодоступних і приватних сховищ у конвеєр.
Команда admin:repo_hook область, яка використовується для повного контролю хуків сховища.

Після створення маркера збережіть його в новому секреті в Менеджер секретів AWS наступним чином:

aws secretsmanager create-secret --name rek-wsi/github --secret-string "{"oauthToken":"YOUR-TOKEN-VALUE-HERE"}"

Записати параметри конфігурації в сховище параметрів AWS Systems Manager

Сценарій AWS CDK читає деякі параметри конфігурації з Зберігання параметрів AWS Systems Manager, як-от ім’я та власник сховища GitHub, а також цільовий обліковий запис і регіон. Перед запуском сценарію AWS CDK вам потрібно створити ці параметри у своєму обліковому записі.

Ви можете зробити це за допомогою AWS CLI. Просто викликайте put-parameter команда з назвою, значенням і типом параметра:

aws ssm put-parameter --name <PARAMETER-NAME> --value <PARAMETER-VALUE> --type <PARAMETER_TYPE>

Нижче наведено список усіх параметрів, необхідних для сценарію AWS CDK. Усі вони типу String:

/rek_wsi/prod/accountId — ідентифікатор облікового запису, у якому ми розгортаємо програму.
/rek_wsi/prod/ecr_repo_name — назва репозиторію Amazon ECR, де зберігаються зображення контейнерів.
/rek_wsi/prod/github/branch — гілка в репозиторії GitHub, з якої CodePipeline потрібно отримати код.
/rek_wsi/prod/github/owner — власник сховища GitHub.
/rek_wsi/prod/github/repo — назва репозиторію GitHub, де зберігається наш код.
/rek_wsi/prod/github/token — ім’я або ARN секрету в диспетчері секретів, який містить ваш маркер автентифікації GitHub. Це необхідно для того, щоб CodePipeline міг спілкуватися з GitHub.
/rek_wsi/prod/region — Регіон, де ми будемо розгортати додаток.

Зверніть увагу на prod сегмент у всіх назвах параметрів. Хоча нам не потрібен такий рівень деталізації для такого простого прикладу, він дозволить повторно використовувати цей підхід в інших проектах, де можуть знадобитися інші середовища.

Ресурси, створені за допомогою сценарію AWS CDK

Нам потрібно, щоб наша програма, що працює в задачі Fargate, мала дозвіл на виклик Amazon Rekognition. Отже, ми спочатку створюємо Управління ідентифікацією та доступом AWS (IAM) Завдання Роль з RekognitionReadOnlyPolicy політики, що додається до нього. Зауважте, що assumed_by параметр у наступному коді приймає ecs-tasks.amazonaws.com керівник служби. Це пояснюється тим, що ми використовуємо Amazon ECS як оркестратора, тому нам потрібно, щоб Amazon ECS узяв на себе цю роль і передав облікові дані завданням Fargate.

streamlit_task_role = iam.Role( self, 'StreamlitTaskRole', assumed_by=iam.ServicePrincipal('ecs-tasks.amazonaws.com'), description='ECS Task Role assumed by the Streamlit task deployed to ECS+Fargate', managed_policies=[ iam.ManagedPolicy.from_managed_policy_arn( self, 'RekognitionReadOnlyPolicy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonRekognitionReadOnlyAccess' ), ],
)

Після створення наш образ контейнера програми зберігається в приватному репозиторії Amazon ECR. Нам потрібен об’єкт, який його описує, який ми можемо передати під час створення служби Fargate:

ecs_container_image = ecs.ContainerImage.from_ecr_repository( repository=ecr.Repository.from_repository_name(self, 'ECRRepo', 'rek-wsi'), tag='latest'
)

Ми створюємо новий VPC і кластер для цієї програми. Ви можете змінити цю частину, щоб використовувати власний VPC за допомогою from_lookup метод Vpc клас:

vpc = ec2.Vpc(self, 'RekWSI', max_azs=3)
cluster = ecs.Cluster(self, 'RekWSICluster', vpc=vpc)

Тепер, коли у нас є VPC і кластер для розгортання, ми створюємо службу Fargate. Для цього завдання ми використовуємо 0.25 vCPU і 512 МБ оперативної пам’яті, а перед ним розміщуємо загальнодоступний балансувальник навантаження додатків (ALB). Після розгортання ми використовуємо ALB CNAME для доступу до програми. Перегляньте наступний код:

fargate_service = ecs_patterns.ApplicationLoadBalancedFargateService( self, 'RekWSIECSApp', cluster=cluster, cpu=256, memory_limit_mib=512, desired_count=1, task_image_options=ecs_patterns.ApplicationLoadBalancedTaskImageOptions( image=ecs_container_image, container_port=8501, task_role=streamlit_task_role, ), public_load_balancer=True,
)

Щоб автоматично створювати та розгортати новий образ контейнера кожного разу, коли ми надсилаємо код до нашої головної гілки, ми створюємо простий конвеєр, що складається з вихідної дії GitHub і кроку збірки. Тут ми використовуємо секрети, збережені в AWS Secrets Manager і AWS Systems Manager Parameter Store на попередніх кроках.

pipeline = codepipeline.Pipeline(self, 'RekWSIPipeline') # Create an artifact that points at the code pulled from GitHub.
source_output = codepipeline.Artifact() # Create a source stage that pulls the code from GitHub. The repo parameters are
# stored in SSM, and the OAuth token in Secrets Manager.
source_action = codepipeline_actions.GitHubSourceAction( action_name='GitHub', output=source_output, oauth_token=SecretValue.secrets_manager( ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/token'), json_field='oauthToken'), trigger=codepipeline_actions.GitHubTrigger.WEBHOOK, owner=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/owner'), repo=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/repo'), branch=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/branch'),
) # Add the source stage to the pipeline.
pipeline.add_stage( stage_name='GitHub', actions=[source_action]
)

CodeBuild потребує дозволів, щоб надсилати зображення контейнерів до Amazon ECR. Щоб надати ці дозволи, ми додаємо AmazonEC2ContainerRegistryFullAccess політики для індивідуальної ролі IAM, яку може прийняти принципал служби CodeBuild:

# Create an IAM role that grants CodeBuild access to Amazon ECR to push containers.
build_role = iam.Role( self, 'RekWsiCodeBuildAccessRole', assumed_by=iam.ServicePrincipal('codebuild.amazonaws.com'),
) # Permissions are granted through an AWS managed policy, AmazonEC2ContainerRegistryFullAccess.
managed_ecr_policy = iam.ManagedPolicy.from_managed_policy_arn( self, 'cb_ecr_policy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess',
)
build_role.add_managed_policy(policy=managed_ecr_policy)

Проект CodeBuild входить до приватного репозиторію Amazon ECR, створює образ Docker за допомогою програми Streamlit і надсилає зображення до репозиторію разом із appspec.yaml і imagedefinitions.json файлу.

Команда appspec.yaml файл описує завдання (порт, версія платформи Fargate тощо), тоді як файл imagedefinitions.json файл зіставляє назви зображень контейнерів із відповідними Amazon ECR URI. Перегляньте наступний код:

container_name = fargate_service.task_definition.default_container.container_name
build_project = codebuild.PipelineProject( self, 'RekWSIProject', build_spec=codebuild.BuildSpec.from_object({ 'version': '0.2', 'phases': { 'pre_build': { 'commands': [ 'env', 'COMMIT_HASH=$(echo $CODEBUILD_RESOLVED_SOURCE_VERSION | cut -c 1-7)', 'export TAG=${COMMIT_HASH:=latest}', 'aws ecr get-login-password --region $AWS_DEFAULT_REGION | ' 'docker login --username AWS ' '--password-stdin $AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com', ] }, 'build': { 'commands': [ # Build the Docker image 'cd streamlit_app && docker build -t $IMAGE_REPO_NAME:$IMAGE_TAG .', # Tag the image 'docker tag $IMAGE_REPO_NAME:$IMAGE_TAG ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', ] }, 'post_build': { 'commands': [ # Push the container into ECR. 'docker push ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', # Generate imagedefinitions.json 'cd ..', "printf '[{"name":"%s","imageUri":"%s"}]' " f"{container_name} " "$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG " "> imagedefinitions.json", 'ls -l', 'pwd', 'sed -i s"|REGION_NAME|$AWS_DEFAULT_REGION|g" appspec.yaml', 'sed -i s"|ACCOUNT_ID|$AWS_ACCOUNT_ID|g" appspec.yaml', 'sed -i s"|TASK_NAME|$IMAGE_REPO_NAME|g" appspec.yaml', f'sed -i s"|CONTAINER_NAME|{container_name}|g" appspec.yaml', ] } }, 'artifacts': { 'files': [ 'imagedefinitions.json', 'appspec.yaml', ], }, }), environment=codebuild.BuildEnvironment( build_image=codebuild.LinuxBuildImage.STANDARD_5_0, privileged=True, ), environment_variables={ 'AWS_ACCOUNT_ID': codebuild.BuildEnvironmentVariable(value=self.account), 'IMAGE_REPO_NAME': codebuild.BuildEnvironmentVariable( value=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/ecr_repo_name')), 'IMAGE_TAG': codebuild.BuildEnvironmentVariable(value='latest'), }, role=build_role,
)

Нарешті, ми об’єднуємо різні етапи конвеєра. Остання дія - це EcsDeployAction, який бере образ контейнера, створений на попередньому етапі, і виконує поточне оновлення завдань у нашому кластері ECS:

# Create an artifact to store the build output.
build_output = codepipeline.Artifact()
# Create a build action that ties the build project, the source artifact from the
# previous stage, and the output artifact together.
build_action = codepipeline_actions.CodeBuildAction( action_name='Build', project=build_project, input=source_output, outputs=[build_output],
)
# Add the build stage to the pipeline.
pipeline.add_stage( stage_name='Build', actions=[build_action]
)
deploy_action = codepipeline_actions.EcsDeployAction( action_name='Deploy', service=fargate_service.service, # image_file=build_output input=build_output,
)
pipeline.add_stage( stage_name='Deploy', actions=[deploy_action],
)

Прибирати

Щоб уникнути майбутніх витрат, очистіть ресурси, створені в рамках цього рішення.

Модель спеціальних міток Amazon Rekognition

Перш ніж вимкнути ноутбук Studio, переконайтеся, що ви зупинили модель спеціальних міток Amazon Rekognition. Якщо ви цього не зробите, це продовжує спричиняти витрати.

rek.stop_project_version( ProjectVersionArn=model_arn,
)

Крім того, ви можете скористатися консоллю Amazon Rekognition, щоб зупинити службу:

На консолі Amazon Rekognition виберіть Використовуйте спеціальні мітки у навігаційній панелі.
Вибирати Завдання у навігаційній панелі.
Виберіть версію 1 rek-mitotic-figures-workshop Проект.
на Використовуйте модель вкладку, виберіть Стоп.

Додаток Streamlit

Щоб знищити всі ресурси, пов’язані з програмою Streamlit, запустіть наступний код із каталогу програм AWS CDK:

cdk destroy RekWsiStack

Менеджер секретів AWS

Щоб видалити маркер GitHub, виконайте вказівки в документація.

Висновок

У цій публікації ми розповіли про необхідні кроки для навчання моделі користувацьких міток Amazon Rekognition для програми цифрової патології з використанням реальних даних. Потім ми навчилися використовувати цю модель із простої програми, розгорнутої з конвеєра CI/CD у Fargate.

Спеціальні мітки Amazon Rekognition дозволяють створювати програми охорони здоров’я з підтримкою ML, які можна легко створювати та розгортати за допомогою таких служб, як Fargate, CodeBuild і CodePipeline.

Чи можете ви згадати якісь програми, які допоможуть дослідникам, лікарям або їхнім пацієнтам полегшити собі життя? Якщо так, використовуйте код із цього покрокового керівництва, щоб створити свою наступну програму. А якщо у вас виникли запитання, поділіться ними в коментарях.

Подяки

Ми хотіли б подякувати професору, доктору Марку Обревілю за люб’язний дозвіл на використання набору даних MITOS_WSI_CMC для цієї публікації в блозі. Набір даних можна знайти на GitHub.

посилання

[1] Aubreville, M., Bertram, CA, Donovan, TA та ін. Повністю анотований цілий набір зображень слайдів раку молочної залози собак для допомоги в дослідженні раку молочної залози людини. Sci Data 7, 417 (2020). https://doi.org/10.1038/s41597-020-00756-z

[2] Хенед, М., Корі, А., Раджкумар, Х. та інші Узагальнена структура глибокого навчання для сегментації та аналізу зображень цілого слайда. Sci Rep 11, 11579 (2021). https://doi.org/10.1038/s41598-021-90444-8

[3] PNAS 27 березня 2018 р. 115 (13) E2970-E2979; вперше опубліковано 12 березня 2018 р.; https://doi.org/10.1073/pnas.1717139115

Про автора

Пабло Нуньєс Пьольхер, Магістр наук, є старшим архітектором рішень, який працює в команді державного сектору Amazon Web Services. Пабло зосереджується на допомозі клієнтам державного сектора охорони здоров’я створювати нові інноваційні продукти на AWS відповідно до найкращих практик. Він отримав ступінь магістра наук. доктор біологічних наук з Університету Буенос-Айреса. У вільний час він любить їздити на велосипеді та майструвати вбудовані пристрої з підтримкою ML.

Разван Йонасек, PhD, MBA, є технічним керівником відділу охорони здоров’я Amazon Web Services у Європі, на Близькому Сході та в Африці. Його робота зосереджена на допомозі клієнтам охорони здоров’я вирішувати бізнес-проблеми за допомогою технологій. Раніше Разван очолював відділ продуктів штучного інтелекту (ШІ) у Siemens Healthineers і відповідав за AI-Rad Companion, сімейство хмарних цифрових рішень для охорони здоров’я для візуалізації на базі ШІ. Він має понад 30 патентів у галузі штучного інтелекту/ML для медичної візуалізації та опублікував понад 70 міжнародних рецензованих технічних і клінічних публікацій з комп’ютерного зору, обчислювального моделювання та аналізу медичних зображень. Разван отримав ступінь доктора філософії з комп’ютерних наук у Технічному університеті Мюнхена та ступінь магістра ділового адміністрування в Кембриджському університеті, бізнес-школа Judge.