Обнаружение митотических фигур в цельных изображениях слайдов с помощью Amazon Rekognition

Переиздано Платоном

Читают: 0

Даже спустя более чем сто лет после своего появления гистология остается золотым стандартом в диагностике и прогнозировании опухолей. Патологи-анатомы оценивают гистологию, чтобы стратифицировать больных раком на разные группы в зависимости от их генотипов и фенотипов опухоли, а также их клинических результатов [1,2]. Однако оценка гистологических препаратов человеком субъективна и не повторяема [3]. Кроме того, гистологическая оценка является трудоемким процессом, требующим высококвалифицированных специалистов.

Благодаря значительным технологическим достижениям за последнее десятилетие такие методы, как визуализация всего слайда (WSI) и глубокое обучение (DL), теперь широко доступны. WSI — это сканирование обычных предметных стекол для микроскопии для получения единого изображения с высоким разрешением из этих предметных стекол. Это позволяет оцифровывать и собирать большие наборы изображений патологий, что потребовало бы слишком много времени и денег. Доступность таких наборов данных создает новые и инновационные способы ускорения диагностики с использованием таких методов, как машинное обучение (ML), чтобы помочь патологоанатомам ускорить диагностику за счет быстрого определения интересующих признаков.

В этом посте мы рассмотрим, как разработчики без предыдущего опыта ML могут использовать Пользовательские ярлыки Amazon Rekognition для обучения модели, которая классифицирует клеточные функции. Пользовательские метки Amazon Rekognition — это функция Апостол это позволяет вам создавать собственные специализированные возможности анализа изображений на основе машинного обучения для обнаружения уникальных объектов и сцен, являющихся неотъемлемой частью вашего конкретного варианта использования. В частности, мы используем набор данных, содержащий целые слайдовые изображения карциномы молочной железы собак [1], чтобы продемонстрировать, как обрабатывать эти изображения и обучать модель, которая обнаруживает митотические фигуры. Этот набор данных был использован с разрешения профессора доктора Марка Обревиля, который любезно разрешил нам использовать его для этой публикации. Дополнительные сведения см. в разделе «Благодарности» в конце этого поста.

Обзор решения

Решение состоит из двух компонентов:

Модель пользовательских меток Amazon Rekognition — Чтобы Amazon Rekognition мог обнаруживать митотические фигуры, мы выполняем следующие шаги:
- Образец набора данных WSI для создания изображений адекватного размера с использованием Студия Amazon SageMaker и код Python, работающий на ноутбуке Jupyter. Studio — это интегрированная веб-среда разработки (IDE) для машинного обучения, которая предоставляет все инструменты, необходимые для перехода ваших моделей от экспериментов к производству при одновременном повышении производительности. Мы будем использовать Studio, чтобы разделить изображения на более мелкие для обучения нашей модели.
- Обучите модель Amazon Rekognition Custom Labels распознавать митотические фигуры в образцах гематоксилин-эозина, используя данные, подготовленные на предыдущем шаге.
Фронтенд-приложение — Чтобы продемонстрировать, как использовать модель, подобную той, которую мы обучили на предыдущем шаге, мы выполняем следующие шаги:

Следующая диаграмма иллюстрирует архитектуру решения.

Все необходимые ресурсы для развертывания реализации, обсуждаемой в этом посте, и код всего раздела доступны на GitHub. Вы можете клонировать или разветвлять репозиторий, вносить любые необходимые изменения и запускать его самостоятельно.

На следующих шагах мы рассмотрим код, чтобы понять различные шаги, связанные с получением и подготовкой данных, обучением модели и ее использованием из примера приложения.

Расходы

При выполнении действий, описанных в этом пошаговом руководстве, вы понесете небольшие расходы за использование следующих сервисов AWS:

Апостол
АМС Фаргейт
Балансировщик нагрузки приложений
Менеджер секретов AWS

Кроме того, если срок или условия уровня бесплатного пользования истекли, вы можете понести расходы, связанные со следующими услугами:

КодПайплайн
КодБилд
Амазонка ЭКР
Создатель мудреца Амазонки

Если вы правильно выполните шаги очистки после завершения этого пошагового руководства, вы можете ожидать, что затраты составят менее 10 долларов США, если модель Amazon Rekognition Custom Labels и веб-приложение работают в течение одного часа или меньше.

Предпосылки

Для выполнения всех шагов вам потребуется следующее:

Обучение модели классификации митотических фигур

Мы выполняем все шаги, необходимые для обучения модели, из записной книжки Studio. Если вы никогда раньше не использовали Studio, вам может понадобиться бортовой первый. Для получения дополнительной информации см. Быстрое подключение к Amazon SageMaker Studio.

Некоторые из следующих шагов требуют больше оперативной памяти, чем доступно в стандартном ноутбуке ml.t3.medium. Убедитесь, что вы выбрали блокнот ml.m5.large. Вы должны увидеть индикацию 2 vCPU + 8 GiB в правом верхнем углу страницы.

Код для этого раздела доступен в виде Блокнот Jupyter.

После подключения к Studio следуйте этим инструкциям чтобы предоставить Studio необходимые разрешения для вызова Amazon Rekognition от вашего имени.

Зависимости

Для начала нам необходимо выполнить следующие шаги:

Обновите пакеты Linux и установите необходимые зависимости, например OpenSlide:

!apt update > /dev/null && apt dist-upgrade -y > /dev/null
!apt install -y build-essential openslide-tools python-openslide libgl1-mesa-glx > /dev/null

Установите библиотеки fastai и SlideRunner с помощью pip:
```
!pip install SlideRunner SlideRunner_dataAccess fastai==1.0.61 > /dev/null
```
Загрузите набор данных (мы предоставляем скрипт, чтобы сделать это автоматически):
```
from dataset import download_dataset
download_dataset()
```

Обработать набор данных

Мы начнем с импорта некоторых пакетов, которые мы используем на этапе подготовки данных. Затем мы загружаем и загружаем базу данных аннотаций для этого набора данных. Эта база данных содержит позиции митотических фигур на всех изображениях слайдов (функции, которые мы хотим классифицировать). См. следующий код:

%reload_ext autoreload
%autoreload 2
import os
from typing import List
import urllib
import numpy as np
from SlideRunner.dataAccess.database import Database
from pathlib import Path DATABASE_URL = 'https://github.com/DeepPathology/MITOS_WSI_CMC/raw/master/databases/MITOS_WSI_CMC_MEL.sqlite'
DATABASE_FILENAME = 'MITOS_WSI_CMC_MEL.sqlite' Path("./databases").mkdir(parents=True, exist_ok=True)
local_filename, headers = urllib.request.urlretrieve( DATABASE_URL, filename=os.path.join('databases', DATABASE_FILENAME),
)

Поскольку мы используем SageMaker, мы создаем новый SageMaker. Сессия объект для облегчения таких задач, как загрузка нашего набора данных в Простой сервис хранения Amazon (Amazon S3) ведро. Мы также используем корзину S3, которую SageMaker создает по умолчанию, для загрузки обработанных файлов изображений.

Ассоциация slidelist_test Массив содержит идентификаторы слайдов, которые мы используем как часть тестового набора данных для оценки производительности обученной модели. См. следующий код:

import sagemaker
sm_session = sagemaker.Session() size=512
bucket_name = sm_session.default_bucket() database = Database()
database.open(os.path.join('databases', DATABASE_FILENAME)) slidelist_test = ['14','18','3','22','10','15','21']

Следующим шагом является получение набора областей обучающих и тестовых слайдов вместе с метками в них, из которых мы можем взять меньшие области для обучения нашей модели. Код для get_slides находится в файле sample.py в GitHub.

from sampling import get_slides image_size = 512 lbl_bbox, training_slides, test_slides, files = get_slides(database, slidelist_test, negative_class=1, size=image_size)

Мы хотим случайным образом взять образец из обучающего и тестового слайдов. Используем списки обучающих и тестовых слайдов и случайным образом выбираем n_training_images раз файл для обучения, и n_test_images раз файл для теста:

n_training_images = 500
n_test_images = int(0.2 * n_training_images) training_files = list([ (y, files[y]) for y in np.random.choice( [x for x in training_slides], n_training_images)
])
test_files = list([ (y, files[y]) for y in np.random.choice( [x for x in test_slides], n_test_images)
])

Затем мы создаем каталог для обучающих изображений и один для тестовых изображений:

Path("rek_slides/training").mkdir(parents=True, exist_ok=True)
Path("rek_slides/test").mkdir(parents=True, exist_ok=True)

Прежде чем мы создадим изображения меньшего размера, необходимые для обучения модели, нам нужен вспомогательный код, который создает метаданные, необходимые для описания обучающих и тестовых данных. Следующий код гарантирует, что данная ограничивающая рамка, окружающая интересующие функции (митотические фигуры), находится в пределах зоны, которую мы вырезаем, и создает строку JSON, описывающую изображение и функции в нем в Amazon SageMaker - основа правды формат, который требуется Amazon Rekognition Custom Labels. Дополнительные сведения об этом файле манифеста для обнаружения объектов см. Локализация объектов в файлах манифеста.

def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def get_annotation_json_line(filename, channel, annotations, labels): objects = list([{'confidence' : 1} for i in range(0, len(annotations))]) return json.dumps({ 'source-ref': f's3://{bucket_name}/data/{channel}/{filename}', 'bounding-box': { 'image_size': [{ 'width': size, 'height': size, 'depth': 3 }], 'annotations': annotations, }, 'bounding-box-metadata': { 'objects': objects, 'class-map': dict({ x: str(x) for x in labels }), 'type': 'groundtruth/object-detection', 'human-annotated': 'yes', 'creation-date': datetime.datetime.now().isoformat(), 'job-name': 'rek-pathology', } }) def generate_annotations(x_start: int, y_start: int, bboxes, labels, filename: str, channel: str): annotations = [] for bbox in bboxes: if check_bbox(x_start, y_start, bbox): # Get coordinates relative to this slide. x0 = bbox.left - x_start y0 = bbox.top - y_start annotation = { 'class_id': 1, 'top': y0, 'left': x0, 'width': bbox.right - bbox.left, 'height': bbox.bottom - bbox.top } annotations.append(annotation) return get_annotation_json_line(filename, channel, annotations, labels)

Для generate_annotations на месте, мы можем написать код для создания обучающих и тестовых изображений:

import datetime
import json
import random from fastai import *
from fastai.vision import *
from tqdm.notebook import tqdm # Margin size, in pixels, for training images. This is the space we leave on
# each side for the bounding box(es) to be well into the image.
margin_size = 64 training_annotations = []
test_annotations = [] def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def generate_images(file_list) -> None: for f_idx in tqdm(range(0, len(file_list)), desc='Writing training images...'): slide_idx, f = file_list[f_idx] bboxes = lbl_bbox[slide_idx][0] labels = lbl_bbox[slide_idx][1] # Calculate the minimum and maximum horizontal and vertical positions # that bounding boxes should have within the image. x_min = min(map(lambda x: x.left, bboxes)) - margin_size y_min = min(map(lambda x: x.top, bboxes)) - margin_size x_max = max(map(lambda x: x.right, bboxes)) + margin_size y_max = max(map(lambda x: x.bottom, bboxes)) + margin_size result = False while not result: x_start = random.randint(x_min, x_max - image_size) y_start = random.randint(y_min, y_max - image_size) for bbox in bboxes: if check_bbox(x_start, y_start, bbox): result = True break filename = f'slide_{f_idx}.png' channel = 'test' if slide_idx in test_slides else 'training' annotation = generate_annotations(x_start, y_start, bboxes, labels, filename, channel) if channel == 'training': training_annotations.append(annotation) else: test_annotations.append(annotation) img = Image(pil2tensor(f.get_patch(x_start, y_start) / 255., np.float32)) img.save(f'rek_slides/{channel}/{filename}') generate_images(training_files)
generate_images(test_files)

Последним шагом к получению всех необходимых данных является написание manifest.json файл для каждого из наборов данных:

with open('rek_slides/training/manifest.json', 'w') as mf: mf.write("n".join(training_annotations)) with open('rek_slides/test/manifest.json', 'w') as mf: mf.write("n".join(test_annotations))

Перенесите файлы на S3

Мы используем upload_data метод, предоставляемый объектом сеанса SageMaker для загрузки изображений и файлов манифеста в корзину SageMaker S3 по умолчанию:

import sagemaker sm_session = sagemaker.Session()
data_location = sm_session.upload_data( './rek_slides', bucket=bucket_name,
)

Обучение модели пользовательских меток Amazon Rekognition

Имея данные уже в Amazon S3, мы можем приступить к обучению пользовательской модели. Мы используем библиотеку Boto3 для создания клиента Amazon Rekognition и создания проекта:

import boto3 project_name = 'rek-mitotic-figures-workshop' rek = boto3.client('rekognition')
response = rek.create_project(ProjectName=project_name) # If you have already created the project, use the describe_projects call to
# retrieve the project ARN.
# response = rek.describe_projects()['ProjectDescriptions'][0] project_arn = response['ProjectArn']

Теперь, когда проект готов к использованию, вам нужна версия проекта, которая указывает на обучающие и тестовые наборы данных в Amazon S3. Каждая версия в идеале указывает на разные наборы данных (или разные их версии). Это позволяет нам иметь разные версии модели, сравнивать их производительность и переключаться между ними по мере необходимости. См. следующий код:

version_name = '1' output_config = { 'S3Bucket': bucket_name, 'S3KeyPrefix': 'output',
} training_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/training/manifest.json' } }, }, ]
} testing_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/test/manifest.json' } }, }, ]
} def describe_project_versions(): describe_response = rek.describe_project_versions( ProjectArn=project_arn, VersionNames=[version_name], ) for model in describe_response['ProjectVersionDescriptions']: print(f"Status: {model['Status']}") print(f"Message: {model['StatusMessage']}") return describe_response response = rek.create_project_version( VersionName=version_name, ProjectArn=project_arn, OutputConfig=output_config, TrainingData=training_dataset, TestingData=testing_dataset,
) waiter = rek.get_waiter('project_version_training_completed')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
) describe_response = describe_project_versions()

После того, как мы создадим версию проекта, Amazon Rekognition автоматически запустит процесс обучения. Время обучения зависит от нескольких характеристик, таких как размер изображений и их количество, количество занятий и так далее. В этом случае для 500 изображений обучение занимает около 90 минут.

Протестируйте модель

После обучения каждая модель в Amazon Rekognition Custom Labels находится в STOPPED государство. Чтобы использовать его для вывода, его нужно запустить. Мы получаем ARN версии проекта из описания версии проекта и передаем его start_project_version, Обратите внимание на MinInferenceUnits параметр — мы начинаем с одной единицы вывода. Фактическое максимальное количество транзакций в секунду (TPS), которое поддерживает этот модуль логического вывода, зависит от сложности вашей модели. Чтобы узнать больше о TPS, см. блоге.

model_arn = describe_response['ProjectVersionDescriptions'][0]['ProjectVersionArn'] response = rek.start_project_version( ProjectVersionArn=model_arn, MinInferenceUnits=1,
)
waiter = rek.get_waiter('project_version_running')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
)

Когда версия вашего проекта указана как RUNNING, вы можете начать отправлять изображения в Amazon Rekognition для вывода.

Мы используем один из файлов в тестовом наборе данных, чтобы протестировать только что запущенную модель. Вместо этого вы можете использовать любой подходящий файл PNG или JPEG.

from matplotlib import pyplot as plt
from PIL import Image, ImageDraw # We'll use one of our test images to try out our model.
with open('./rek_slides/test/slide_0.png', 'rb') as image_file: image_bytes=image_file.read() # Send the image data to the model.
response = rek.detect_custom_labels( ProjectVersionArn=model_arn, Image={ 'Bytes': image_bytes }
) img = Image.open(io.BytesIO(image_bytes))
draw = ImageDraw.Draw(img) for custom_label in response['CustomLabels']: geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) plt.imshow(np.asarray(img))

Стримлитное приложение

Чтобы продемонстрировать интеграцию с Amazon Rekognition, мы используем очень простое приложение Python. Мы используем стримлит библиотека для создания спартанского пользовательского интерфейса, где мы предлагаем пользователю загрузить файл изображения.

Мы используем библиотеку Boto3 и detect_custom_labels метод вместе с версией проекта ARN, чтобы вызвать конечную точку вывода. Ответ представляет собой документ JSON, содержащий позиции и классы различных объектов, обнаруженных на изображении. В нашем случае это митотические фигуры, которые алгоритм нашел на изображении, которое мы отправили в конечную точку. См. следующий код:

import os import boto3
import io
import streamlit as st
from PIL import Image, ImageDraw rek_client = boto3.client('rekognition') uploaded_file = st.file_uploader('Image file')
if uploaded_file is not None: image_bytes = uploaded_file.read() result = rek_client.detect_custom_labels( ProjectVersionArn='<YOUR_PROJECT_ARN_HERE>', Image={ 'Bytes': image_bytes } ) img = Image.open(io.BytesIO(image_bytes)) draw = ImageDraw.Draw(img) st.write(result['CustomLabels']) for custom_label in result['CustomLabels']: st.write(f"Label {custom_label['Name']}, confidence {custom_label['Confidence']}") geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height st.write(f"Left, top = ({l}, {t}), width, height = ({w}, {h})") draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) st_img = st.image(img)

Разверните приложение на AWS

Для развертывания приложения мы используем скрипт AWS CDK. Весь проект можно найти на GitHub . Давайте посмотрим на различные ресурсы, развернутые сценарием.

Создайте репозиторий Amazon ECR

В качестве первого шага к настройке нашего развертывания мы создаем репозиторий Amazon ECR, где мы можем хранить образы контейнеров наших приложений:

aws ecr create-repository --repository-name rek-wsi

Создайте и сохраните свой токен GitHub в AWS Secrets Manager.

CodePipeline требуется токен личного доступа GitHub, чтобы отслеживать изменения в вашем репозитории GitHub и извлекать код. Чтобы создать токен, следуйте инструкциям в Документация GitHub. Для токена требуются следующие области действия GitHub:

Ассоциация repo Scope, который используется для полного контроля над чтением и извлечением артефактов из общедоступных и частных репозиториев в конвейер.
Ассоциация admin:repo_hook scope, который используется для полного контроля над хуками репозитория.

После создания токена сохраните его в новом секрете в Менеджер секретов AWS следующим образом:

aws secretsmanager create-secret --name rek-wsi/github --secret-string "{"oauthToken":"YOUR-TOKEN-VALUE-HERE"}"

Запись параметров конфигурации в хранилище параметров AWS Systems Manager.

Сценарий AWS CDK считывает некоторые параметры конфигурации из Хранилище параметров AWS Systems Manager, такие как имя и владелец репозитория GitHub, целевая учетная запись и регион. Перед запуском скрипта AWS CDK необходимо создать эти параметры в собственной учетной записи.

Это можно сделать с помощью интерфейса командной строки AWS. Просто вызовите put-parameter команда с именем, значением и типом параметра:

aws ssm put-parameter --name <PARAMETER-NAME> --value <PARAMETER-VALUE> --type <PARAMETER_TYPE>

Ниже приведен список всех параметров, необходимых для сценария AWS CDK. Все они типа String:

/rek_wsi/prod/accountId — идентификатор учетной записи, в которой мы развертываем приложение.
/rek_wsi/prod/ecr_repo_name — имя репозитория Amazon ECR, в котором хранятся образы контейнеров.
/rek_wsi/prod/github/branch — ветка в репозитории GitHub, из которой CodePipeline должен получить код.
/rek_wsi/prod/github/owner — владелец репозитория GitHub.
/rek_wsi/prod/github/repo — имя репозитория GitHub, в котором хранится наш код.
/rek_wsi/prod/github/token — имя или ARN секрета в Secrets Manager, который содержит ваш токен аутентификации GitHub. Это необходимо для того, чтобы CodePipeline мог взаимодействовать с GitHub.
/rek_wsi/prod/region — регион, в котором мы будем развертывать приложение.

Обратите внимание, что prod сегмент во всех именах параметров. Хотя нам не нужен такой уровень детализации для такого простого примера, он позволит повторно использовать этот подход с другими проектами, где могут потребоваться другие среды.

Ресурсы, созданные сценарием AWS CDK

Нам нужно, чтобы наше приложение, работающее в задаче Fargate, имело разрешения на вызов Amazon Rekognition. Поэтому мы сначала создаем Управление идентификацией и доступом AWS (IAM) Task Role с RekognitionReadOnlyPolicy политика прилагается к нему. Обратите внимание, что assumed_by параметр в следующем коде принимает ecs-tasks.amazonaws.com принципал службы. Это связано с тем, что мы используем Amazon ECS в качестве оркестратора, поэтому нам нужно, чтобы Amazon ECS взял на себя эту роль и передал учетные данные задаче Fargate.

streamlit_task_role = iam.Role( self, 'StreamlitTaskRole', assumed_by=iam.ServicePrincipal('ecs-tasks.amazonaws.com'), description='ECS Task Role assumed by the Streamlit task deployed to ECS+Fargate', managed_policies=[ iam.ManagedPolicy.from_managed_policy_arn( self, 'RekognitionReadOnlyPolicy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonRekognitionReadOnlyAccess' ), ],
)

После сборки образ контейнера нашего приложения помещается в частный репозиторий Amazon ECR. Нам нужен описывающий его объект, который мы можем передать при создании сервиса Fargate:

ecs_container_image = ecs.ContainerImage.from_ecr_repository( repository=ecr.Repository.from_repository_name(self, 'ECRRepo', 'rek-wsi'), tag='latest'
)

Мы создаем новый VPC и кластер для этого приложения. Вы можете изменить эту часть, чтобы использовать свой собственный VPC, используя from_lookup метод Vpc учебный класс:

vpc = ec2.Vpc(self, 'RekWSI', max_azs=3)
cluster = ecs.Cluster(self, 'RekWSICluster', vpc=vpc)

Теперь, когда у нас есть VPC и кластер для развертывания, мы создаем сервис Fargate. Для этой задачи мы используем 0.25 vCPU и 512 МБ RAM, а перед ней размещаем общедоступный Application Load Balancer (ALB). После развертывания мы используем ALB CNAME для доступа к приложению. См. следующий код:

fargate_service = ecs_patterns.ApplicationLoadBalancedFargateService( self, 'RekWSIECSApp', cluster=cluster, cpu=256, memory_limit_mib=512, desired_count=1, task_image_options=ecs_patterns.ApplicationLoadBalancedTaskImageOptions( image=ecs_container_image, container_port=8501, task_role=streamlit_task_role, ), public_load_balancer=True,
)

Чтобы автоматически создавать и развертывать новый образ контейнера каждый раз, когда мы отправляем код в нашу основную ветку, мы создаем простой конвейер, состоящий из исходного действия GitHub и шага сборки. Здесь мы используем секреты, которые мы сохранили в AWS Secrets Manager и AWS Systems Manager Parameter Store на предыдущих шагах.

pipeline = codepipeline.Pipeline(self, 'RekWSIPipeline') # Create an artifact that points at the code pulled from GitHub.
source_output = codepipeline.Artifact() # Create a source stage that pulls the code from GitHub. The repo parameters are
# stored in SSM, and the OAuth token in Secrets Manager.
source_action = codepipeline_actions.GitHubSourceAction( action_name='GitHub', output=source_output, oauth_token=SecretValue.secrets_manager( ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/token'), json_field='oauthToken'), trigger=codepipeline_actions.GitHubTrigger.WEBHOOK, owner=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/owner'), repo=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/repo'), branch=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/branch'),
) # Add the source stage to the pipeline.
pipeline.add_stage( stage_name='GitHub', actions=[source_action]
)

CodeBuild требуются разрешения для отправки образов контейнеров в Amazon ECR. Чтобы предоставить эти разрешения, мы добавляем AmazonEC2ContainerRegistryFullAccess политики к специальной роли IAM, которую может взять на себя субъект-служба CodeBuild:

# Create an IAM role that grants CodeBuild access to Amazon ECR to push containers.
build_role = iam.Role( self, 'RekWsiCodeBuildAccessRole', assumed_by=iam.ServicePrincipal('codebuild.amazonaws.com'),
) # Permissions are granted through an AWS managed policy, AmazonEC2ContainerRegistryFullAccess.
managed_ecr_policy = iam.ManagedPolicy.from_managed_policy_arn( self, 'cb_ecr_policy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess',
)
build_role.add_managed_policy(policy=managed_ecr_policy)

Проект CodeBuild входит в частный репозиторий Amazon ECR, создает образ Docker с помощью приложения Streamlit и помещает образ в репозиторий вместе с appspec.yaml и imagedefinitions.json .

Ассоциация appspec.yaml файл описывает задачу (порт, версия платформы Fargate и т. д.), а imagedefinitions.json сопоставляет имена образов контейнеров с их соответствующими URI Amazon ECR. См. следующий код:

container_name = fargate_service.task_definition.default_container.container_name
build_project = codebuild.PipelineProject( self, 'RekWSIProject', build_spec=codebuild.BuildSpec.from_object({ 'version': '0.2', 'phases': { 'pre_build': { 'commands': [ 'env', 'COMMIT_HASH=$(echo $CODEBUILD_RESOLVED_SOURCE_VERSION | cut -c 1-7)', 'export TAG=${COMMIT_HASH:=latest}', 'aws ecr get-login-password --region $AWS_DEFAULT_REGION | ' 'docker login --username AWS ' '--password-stdin $AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com', ] }, 'build': { 'commands': [ # Build the Docker image 'cd streamlit_app && docker build -t $IMAGE_REPO_NAME:$IMAGE_TAG .', # Tag the image 'docker tag $IMAGE_REPO_NAME:$IMAGE_TAG ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', ] }, 'post_build': { 'commands': [ # Push the container into ECR. 'docker push ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', # Generate imagedefinitions.json 'cd ..', "printf '[{"name":"%s","imageUri":"%s"}]' " f"{container_name} " "$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG " "> imagedefinitions.json", 'ls -l', 'pwd', 'sed -i s"|REGION_NAME|$AWS_DEFAULT_REGION|g" appspec.yaml', 'sed -i s"|ACCOUNT_ID|$AWS_ACCOUNT_ID|g" appspec.yaml', 'sed -i s"|TASK_NAME|$IMAGE_REPO_NAME|g" appspec.yaml', f'sed -i s"|CONTAINER_NAME|{container_name}|g" appspec.yaml', ] } }, 'artifacts': { 'files': [ 'imagedefinitions.json', 'appspec.yaml', ], }, }), environment=codebuild.BuildEnvironment( build_image=codebuild.LinuxBuildImage.STANDARD_5_0, privileged=True, ), environment_variables={ 'AWS_ACCOUNT_ID': codebuild.BuildEnvironmentVariable(value=self.account), 'IMAGE_REPO_NAME': codebuild.BuildEnvironmentVariable( value=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/ecr_repo_name')), 'IMAGE_TAG': codebuild.BuildEnvironmentVariable(value='latest'), }, role=build_role,
)

Наконец, мы объединяем различные этапы конвейера. Последнее действие - это EcsDeployAction, который берет образ контейнера, созданный на предыдущем этапе, и последовательно обновляет задачи в нашем кластере ECS:

# Create an artifact to store the build output.
build_output = codepipeline.Artifact()
# Create a build action that ties the build project, the source artifact from the
# previous stage, and the output artifact together.
build_action = codepipeline_actions.CodeBuildAction( action_name='Build', project=build_project, input=source_output, outputs=[build_output],
)
# Add the build stage to the pipeline.
pipeline.add_stage( stage_name='Build', actions=[build_action]
)
deploy_action = codepipeline_actions.EcsDeployAction( action_name='Deploy', service=fargate_service.service, # image_file=build_output input=build_output,
)
pipeline.add_stage( stage_name='Deploy', actions=[deploy_action],
)

уборка

Чтобы избежать будущих затрат, очистите ресурсы, созданные вами в рамках этого решения.

Модель пользовательских меток Amazon Rekognition

Прежде чем закрыть блокнот Studio, обязательно остановите модель пользовательских меток Amazon Rekognition. Если вы этого не сделаете, он продолжит нести расходы.

rek.stop_project_version( ProjectVersionArn=model_arn,
)

Кроме того, для остановки службы можно использовать консоль Amazon Rekognition:

На консоли Amazon Rekognition выберите Использовать специальные ярлыки в навигационной панели.
Выберите Проекты в навигационной панели.
Выберите версию 1 из rek-mitotic-figures-workshop проект.
На Использовать модель , выберите Stop.

Стримлитное приложение

Чтобы уничтожить все ресурсы, связанные с приложением Streamlit, запустите следующий код из каталога приложения AWS CDK:

cdk destroy RekWsiStack

Менеджер секретов AWS

Чтобы удалить токен GitHub, следуйте инструкциям в документации.

Заключение

В этом посте мы рассмотрели необходимые шаги для обучения модели пользовательских меток Amazon Rekognition для приложения цифровой патологии с использованием реальных данных. Затем мы узнали, как использовать модель из простого приложения, развернутого из конвейера CI/CD в Fargate.

Amazon Rekognition Custom Labels позволяет создавать медицинские приложения с поддержкой машинного обучения, которые можно легко создавать и развертывать с помощью таких сервисов, как Fargate, CodeBuild и CodePipeline.

Можете ли вы придумать какие-нибудь приложения, которые помогут исследователям, врачам или их пациентам облегчить их жизнь? Если это так, используйте код из этого пошагового руководства для создания следующего приложения. А если у вас есть какие-либо вопросы, пожалуйста, поделитесь ими в разделе комментариев.

Благодарности

Мы хотели бы поблагодарить профессора доктора Марка Обревиля за любезное разрешение использовать набор данных MITOS_WSI_CMC для этого сообщения в блоге. Набор данных можно найти на GitHub.

Переиздано Платоном

Создавайте панели управления бизнес-аналитикой для меток Amazon SageMaker Ground Truth и метаданных сотрудников

Рабочий процесс активного обучения для пользовательских моделей классификации Amazon Comprehend - Часть 1

Использование фреймворков глубокого обучения изначально в Amazon SageMaker Processing

Подготовьте и очистите свои данные для Amazon Forecast

Аннотируйте данные плотного облака точек с помощью SageMaker Ground Truth

Amazon Kendra добавляет новые соединители поиска от партнера AWS, Perficient, чтобы помочь клиентам быстрее искать корпоративный контент.

Объявление о запуске сезона 2021 года AWS DeepComposer Chartbusters Challenge

Создайте модель компьютерного зрения с помощью пользовательских меток Amazon Rekognition и сравните результаты с специально обученной моделью TensorFlow.

Подготовьте данные из Snowflake для машинного обучения с помощью Amazon SageMaker Data Wrangler

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись

Обзор решения

Расходы

Предпосылки

Обучение модели классификации митотических фигур

Зависимости

Обработать набор данных

Перенесите файлы на S3

Обучение модели пользовательских меток Amazon Rekognition

Протестируйте модель

Стримлитное приложение

Разверните приложение на AWS

Создайте репозиторий Amazon ECR

Создайте и сохраните свой токен GitHub в AWS Secrets Manager.

Запись параметров конфигурации в хранилище параметров AWS Systems Manager.

Ресурсы, созданные сценарием AWS CDK

уборка

Модель пользовательских меток Amazon Rekognition

Стримлитное приложение

Менеджер секретов AWS

Заключение

Благодарности

Рекомендации

Об авторе

Больше от Блог машинного обучения AWS

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись