Detecte figuras mitóticas en imágenes completas de diapositivas con Amazon Rekognition

Reeditado por Platón

seguidores: 0

Incluso después de más de cien años desde su introducción, la histología sigue siendo el estándar de oro en el diagnóstico y pronóstico de tumores. Los anatomopatólogos evalúan la histología para estratificar a los pacientes con cáncer en diferentes grupos según los genotipos y fenotipos de sus tumores, y su resultado clínico [1,2]. Sin embargo, la evaluación humana de los portaobjetos histológicos es subjetiva y no repetible [3]. Además, la evaluación histológica es un proceso lento que requiere profesionales altamente capacitados.

Con importantes avances tecnológicos en la última década, las técnicas como la imagen de diapositiva completa (WSI) y el aprendizaje profundo (DL) ahora están ampliamente disponibles. WSI es el escaneo de portaobjetos de vidrio de microscopía convencional para producir una sola imagen de alta resolución a partir de esos portaobjetos. Esto permite la digitalización y la recopilación de grandes conjuntos de imágenes de patología, lo que habría requerido un tiempo y un coste prohibitivos. La disponibilidad de dichos conjuntos de datos crea formas nuevas e innovadoras de acelerar el diagnóstico mediante el uso de técnicas como el aprendizaje automático (ML) para ayudar a los patólogos a acelerar los diagnósticos al identificar rápidamente las características de interés.

En esta publicación, exploraremos cómo los desarrolladores sin experiencia previa en ML pueden usar Etiquetas personalizadas de Amazon Rekognition para entrenar un modelo que clasifique las características celulares. Las etiquetas personalizadas de Amazon Rekognition son una característica de Reconocimiento de amazonas que le permite crear sus propias capacidades especializadas de análisis de imágenes basadas en ML para detectar objetos únicos y escenas integrales para su caso de uso específico. En particular, utilizamos un conjunto de datos que contiene imágenes completas de diapositivas de carcinoma mamario canino [1] para demostrar cómo procesar estas imágenes y entrenar un modelo que detecta figuras mitóticas. Este conjunto de datos se ha utilizado con el permiso del Prof. Dr. Marc Aubreville, quien amablemente accedió a permitirnos usarlo para esta publicación. Para obtener más información, consulte la sección Agradecimientos al final de esta publicación.

Descripción general de la solución

La solución consta de dos componentes:

Un modelo de etiquetas personalizadas de Amazon Rekognition — Para permitir que Amazon Rekognition detecte figuras mitóticas, completamos los siguientes pasos:
- Muestree el conjunto de datos WSI para producir imágenes de tamaño adecuado utilizando Estudio Amazon SageMaker y un código Python que se ejecuta en un cuaderno Jupyter. Studio es un entorno de desarrollo integrado (IDE) basado en la web para ML que proporciona todas las herramientas que necesita para llevar sus modelos de la experimentación a la producción mientras aumenta su productividad. Usaremos Studio para dividir las imágenes en otras más pequeñas para entrenar nuestro modelo.
- Entrene un modelo de etiquetas personalizadas de Amazon Rekognition para reconocer figuras mitóticas en muestras de hematoxilina-eosina utilizando los datos preparados en el paso anterior.
Una aplicación de interfaz — Para demostrar cómo usar un modelo como el que entrenamos en el paso anterior, completamos los siguientes pasos:

El siguiente diagrama ilustra la arquitectura de la solución.

Todos los recursos necesarios para implementar la implementación discutida en esta publicación y el código para toda la sección están disponibles en GitHub. Puede clonar o bifurcar el repositorio, realizar los cambios que desee y ejecutarlo usted mismo.

En los siguientes pasos, recorremos el código para comprender los diferentes pasos necesarios para obtener y preparar los datos, entrenar el modelo y usarlo desde una aplicación de muestra.

Precio

Al ejecutar los pasos de este tutorial, incurre en pequeños costos al utilizar los siguientes servicios de AWS:

Reconocimiento de amazonas
AWS Fargate
Balanceador de carga de aplicaciones
Director de secretos de AWS

Además, si ya no se encuentra dentro del período o las condiciones de la capa gratuita, puede incurrir en costos de los siguientes servicios:

CódigoPipeline
códigoconstruir
ECR de Amazon
Amazon SageMaker

Si completa los pasos de limpieza correctamente después de finalizar este tutorial, puede esperar que los costos sean inferiores a 10 USD, si el modelo de etiquetas personalizadas de Amazon Rekognition y la aplicación web se ejecutan durante una hora o menos.

Requisitos previos

Para completar todos los pasos, necesita lo siguiente:

Entrenamiento del modelo de clasificación de figuras mitóticas

Ejecutamos todos los pasos necesarios para entrenar el modelo desde un cuaderno de Studio. Si nunca antes ha utilizado Studio, es posible que deba a bordo primero. Para más información, ver Incorporación rápida a Amazon SageMaker Studio.

Algunos de los siguientes pasos requieren más RAM de la que está disponible en una notebook estándar ml.t3.medium. Asegúrese de haber seleccionado un cuaderno ml.m5.large. Debería ver una indicación de 2 vCPU + 8 GiB en la esquina superior derecha de la página.

El código de esta sección está disponible como Archivo de cuaderno Jupyter.

Después de incorporarse a Studio, siga estas instrucciones para otorgar a Studio los permisos necesarios para llamar a Amazon Rekognition en su nombre.

Dependencias

Para empezar, necesitamos completar los siguientes pasos:

Actualice los paquetes de Linux e instale las dependencias requeridas, como OpenSlide:

!apt update > /dev/null && apt dist-upgrade -y > /dev/null
!apt install -y build-essential openslide-tools python-openslide libgl1-mesa-glx > /dev/null

Instale las bibliotecas fastai y SlideRunner usando pip:

!pip install SlideRunner SlideRunner_dataAccess fastai==1.0.61 > /dev/null

Descargue el conjunto de datos (proporcionamos un script para hacer esto automáticamente):
```
from dataset import download_dataset
download_dataset()
```

Procesar el conjunto de datos

Comenzaremos importando algunos de los paquetes que usamos a lo largo de la etapa de preparación de datos. Luego, descargamos y cargamos la base de datos de anotaciones para este conjunto de datos. Esta base de datos contiene las posiciones en las imágenes completas de las diapositivas de las figuras mitóticas (las características que queremos clasificar). Ver el siguiente código:

%reload_ext autoreload
%autoreload 2
import os
from typing import List
import urllib
import numpy as np
from SlideRunner.dataAccess.database import Database
from pathlib import Path DATABASE_URL = 'https://github.com/DeepPathology/MITOS_WSI_CMC/raw/master/databases/MITOS_WSI_CMC_MEL.sqlite'
DATABASE_FILENAME = 'MITOS_WSI_CMC_MEL.sqlite' Path("./databases").mkdir(parents=True, exist_ok=True)
local_filename, headers = urllib.request.urlretrieve( DATABASE_URL, filename=os.path.join('databases', DATABASE_FILENAME),
)

Debido a que usamos SageMaker, creamos un nuevo SageMaker Sesión objeto para facilitar tareas como cargar nuestro conjunto de datos a un Servicio de almacenamiento simple de Amazon (Amazon S3) cubeta. También usamos el depósito S3 que SageMaker crea de forma predeterminada para cargar nuestros archivos de imagen procesados.

El slidelist_test array contiene los ID de las diapositivas que usamos como parte del conjunto de datos de prueba para evaluar el rendimiento del modelo entrenado. Ver el siguiente código:

import sagemaker
sm_session = sagemaker.Session() size=512
bucket_name = sm_session.default_bucket() database = Database()
database.open(os.path.join('databases', DATABASE_FILENAME)) slidelist_test = ['14','18','3','22','10','15','21']

El siguiente paso es obtener un conjunto de áreas de diapositivas de entrenamiento y prueba, junto con las etiquetas en ellas, de las cuales podemos tomar áreas más pequeñas para entrenar nuestro modelo. El código para get_slides está en el archivo sampling.py en GitHub.

from sampling import get_slides image_size = 512 lbl_bbox, training_slides, test_slides, files = get_slides(database, slidelist_test, negative_class=1, size=image_size)

Queremos tomar muestras al azar de las diapositivas de entrenamiento y prueba. Usamos las listas de diapositivas de entrenamiento y prueba y seleccionamos aleatoriamente n_training_images veces un archivo para entrenamiento, y n_test_images veces un archivo para la prueba:

n_training_images = 500
n_test_images = int(0.2 * n_training_images) training_files = list([ (y, files[y]) for y in np.random.choice( [x for x in training_slides], n_training_images)
])
test_files = list([ (y, files[y]) for y in np.random.choice( [x for x in test_slides], n_test_images)
])

A continuación, creamos un directorio para imágenes de entrenamiento y otro para imágenes de prueba:

Path("rek_slides/training").mkdir(parents=True, exist_ok=True)
Path("rek_slides/test").mkdir(parents=True, exist_ok=True)

Antes de producir las imágenes más pequeñas necesarias para entrenar el modelo, necesitamos un código de ayuda que produzca los metadatos necesarios para describir los datos de prueba y entrenamiento. El siguiente código se asegura de que un cuadro delimitador dado que rodea las características de interés (figuras mitóticas) esté bien dentro de la zona que estamos cortando, y produce una línea de JSON que describe la imagen y las características en ella en Verdad fundamental de Amazon SageMaker formato, que es el formato que requieren las etiquetas personalizadas de Amazon Rekognition. Para obtener más información sobre este archivo de manifiesto para la detección de objetos, consulte Localización de objetos en archivos de manifiesto.

def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def get_annotation_json_line(filename, channel, annotations, labels): objects = list([{'confidence' : 1} for i in range(0, len(annotations))]) return json.dumps({ 'source-ref': f's3://{bucket_name}/data/{channel}/{filename}', 'bounding-box': { 'image_size': [{ 'width': size, 'height': size, 'depth': 3 }], 'annotations': annotations, }, 'bounding-box-metadata': { 'objects': objects, 'class-map': dict({ x: str(x) for x in labels }), 'type': 'groundtruth/object-detection', 'human-annotated': 'yes', 'creation-date': datetime.datetime.now().isoformat(), 'job-name': 'rek-pathology', } }) def generate_annotations(x_start: int, y_start: int, bboxes, labels, filename: str, channel: str): annotations = [] for bbox in bboxes: if check_bbox(x_start, y_start, bbox): # Get coordinates relative to this slide. x0 = bbox.left - x_start y0 = bbox.top - y_start annotation = { 'class_id': 1, 'top': y0, 'left': x0, 'width': bbox.right - bbox.left, 'height': bbox.bottom - bbox.top } annotations.append(annotation) return get_annotation_json_line(filename, channel, annotations, labels)

Con la generate_annotations en su lugar, podemos escribir el código para producir las imágenes de entrenamiento y prueba:

import datetime
import json
import random from fastai import *
from fastai.vision import *
from tqdm.notebook import tqdm # Margin size, in pixels, for training images. This is the space we leave on
# each side for the bounding box(es) to be well into the image.
margin_size = 64 training_annotations = []
test_annotations = [] def check_bbox(x_start: int, y_start: int, bbox) -> bool: return (bbox._left > x_start and bbox._right < x_start + image_size and bbox._top > y_start and bbox._bottom < y_start + image_size) def generate_images(file_list) -> None: for f_idx in tqdm(range(0, len(file_list)), desc='Writing training images...'): slide_idx, f = file_list[f_idx] bboxes = lbl_bbox[slide_idx][0] labels = lbl_bbox[slide_idx][1] # Calculate the minimum and maximum horizontal and vertical positions # that bounding boxes should have within the image. x_min = min(map(lambda x: x.left, bboxes)) - margin_size y_min = min(map(lambda x: x.top, bboxes)) - margin_size x_max = max(map(lambda x: x.right, bboxes)) + margin_size y_max = max(map(lambda x: x.bottom, bboxes)) + margin_size result = False while not result: x_start = random.randint(x_min, x_max - image_size) y_start = random.randint(y_min, y_max - image_size) for bbox in bboxes: if check_bbox(x_start, y_start, bbox): result = True break filename = f'slide_{f_idx}.png' channel = 'test' if slide_idx in test_slides else 'training' annotation = generate_annotations(x_start, y_start, bboxes, labels, filename, channel) if channel == 'training': training_annotations.append(annotation) else: test_annotations.append(annotation) img = Image(pil2tensor(f.get_patch(x_start, y_start) / 255., np.float32)) img.save(f'rek_slides/{channel}/{filename}') generate_images(training_files)
generate_images(test_files)

El último paso para tener todos los datos requeridos es escribir un manifest.json archivo para cada uno de los conjuntos de datos:

with open('rek_slides/training/manifest.json', 'w') as mf: mf.write("n".join(training_annotations)) with open('rek_slides/test/manifest.json', 'w') as mf: mf.write("n".join(test_annotations))

Transferir los archivos a S3

Usamos la upload_data método que expone el objeto de sesión de SageMaker para cargar las imágenes y los archivos de manifiesto en el depósito predeterminado de SageMaker S3:

import sagemaker sm_session = sagemaker.Session()
data_location = sm_session.upload_data( './rek_slides', bucket=bucket_name,
)

Entrene un modelo de etiquetas personalizadas de Amazon Rekognition

Con los datos ya en Amazon S3, podemos comenzar a entrenar un modelo personalizado. Usamos la biblioteca Boto3 para crear un cliente de Amazon Rekognition y crear un proyecto:

import boto3 project_name = 'rek-mitotic-figures-workshop' rek = boto3.client('rekognition')
response = rek.create_project(ProjectName=project_name) # If you have already created the project, use the describe_projects call to
# retrieve the project ARN.
# response = rek.describe_projects()['ProjectDescriptions'][0] project_arn = response['ProjectArn']

Con el proyecto listo para usar, ahora necesita una versión del proyecto que apunte a los conjuntos de datos de prueba y entrenamiento en Amazon S3. Idealmente, cada versión apunta a diferentes conjuntos de datos (o diferentes versiones de los mismos). Esto nos permite tener diferentes versiones de un modelo, comparar su rendimiento y cambiar entre ellas según sea necesario. Ver el siguiente código:

version_name = '1' output_config = { 'S3Bucket': bucket_name, 'S3KeyPrefix': 'output',
} training_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/training/manifest.json' } }, }, ]
} testing_dataset = { 'Assets': [ { 'GroundTruthManifest': { 'S3Object': { 'Bucket': bucket_name, 'Name': 'data/test/manifest.json' } }, }, ]
} def describe_project_versions(): describe_response = rek.describe_project_versions( ProjectArn=project_arn, VersionNames=[version_name], ) for model in describe_response['ProjectVersionDescriptions']: print(f"Status: {model['Status']}") print(f"Message: {model['StatusMessage']}") return describe_response response = rek.create_project_version( VersionName=version_name, ProjectArn=project_arn, OutputConfig=output_config, TrainingData=training_dataset, TestingData=testing_dataset,
) waiter = rek.get_waiter('project_version_training_completed')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
) describe_response = describe_project_versions()

Después de crear la versión del proyecto, Amazon Rekognition inicia automáticamente el proceso de capacitación. El tiempo de entrenamiento depende de varias características, como el tamaño de las imágenes y el número de ellas, el número de clases, etc. En este caso, para 500 imágenes, el entrenamiento tarda unos 90 minutos en finalizar.

Prueba el modelo

Después de la capacitación, cada modelo en las etiquetas personalizadas de Amazon Rekognition está en el STOPPED estado. Para usarlo para la inferencia, debe iniciarlo. Obtenemos el ARN de la versión del proyecto de la descripción de la versión del proyecto y lo pasamos al start_project_version. Observe la MinInferenceUnits parámetro: comenzamos con una unidad de inferencia. El número máximo real de transacciones por segundo (TPS) que admite esta unidad de inferencia depende de la complejidad de su modelo. Para obtener más información sobre TPS, consulte este del blog.

model_arn = describe_response['ProjectVersionDescriptions'][0]['ProjectVersionArn'] response = rek.start_project_version( ProjectVersionArn=model_arn, MinInferenceUnits=1,
)
waiter = rek.get_waiter('project_version_running')
waiter.wait( ProjectArn=project_arn, VersionNames=[version_name],
)

Cuando la versión de su proyecto aparece como RUNNING, puede comenzar a enviar imágenes a Amazon Rekognition para su inferencia.

Usamos uno de los archivos en el conjunto de datos de prueba para probar el modelo recién iniciado. En su lugar, puede utilizar cualquier archivo PNG o JPEG adecuado.

from matplotlib import pyplot as plt
from PIL import Image, ImageDraw # We'll use one of our test images to try out our model.
with open('./rek_slides/test/slide_0.png', 'rb') as image_file: image_bytes=image_file.read() # Send the image data to the model.
response = rek.detect_custom_labels( ProjectVersionArn=model_arn, Image={ 'Bytes': image_bytes }
) img = Image.open(io.BytesIO(image_bytes))
draw = ImageDraw.Draw(img) for custom_label in response['CustomLabels']: geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) plt.imshow(np.asarray(img))

aplicación Streamlit

Para demostrar la integración con Amazon Rekognition, usamos una aplicación de Python muy simple. usamos el iluminado biblioteca para construir una interfaz de usuario espartana, donde le pedimos al usuario que cargue un archivo de imagen.

Utilizamos la biblioteca Boto3 y el detect_custom_labels junto con el ARN de la versión del proyecto, para invocar el punto final de inferencia. La respuesta es un documento JSON que contiene las posiciones y clases de los diferentes objetos detectados en la imagen. En nuestro caso, estas son las figuras mitóticas que el algoritmo ha encontrado en la imagen que enviamos al endpoint. Ver el siguiente código:

import os import boto3
import io
import streamlit as st
from PIL import Image, ImageDraw rek_client = boto3.client('rekognition') uploaded_file = st.file_uploader('Image file')
if uploaded_file is not None: image_bytes = uploaded_file.read() result = rek_client.detect_custom_labels( ProjectVersionArn='<YOUR_PROJECT_ARN_HERE>', Image={ 'Bytes': image_bytes } ) img = Image.open(io.BytesIO(image_bytes)) draw = ImageDraw.Draw(img) st.write(result['CustomLabels']) for custom_label in result['CustomLabels']: st.write(f"Label {custom_label['Name']}, confidence {custom_label['Confidence']}") geometry = custom_label['Geometry']['BoundingBox'] w = geometry['Width'] * img.width h = geometry['Height'] * img.height l = geometry['Left'] * img.width t = geometry['Top'] * img.height st.write(f"Left, top = ({l}, {t}), width, height = ({w}, {h})") draw.rectangle([l, t, l + w, t + h], outline=(0, 0, 255, 255), width=5) st_img = st.image(img)

Implementar la aplicación en AWS

Para implementar la aplicación, usamos un script de AWS CDK. El proyecto completo se puede encontrar en GitHub . Veamos los diferentes recursos desplegados por el script.

Crear un repositorio de Amazon ECR

Como primer paso para configurar nuestra implementación, creamos un repositorio de Amazon ECR, donde podemos almacenar las imágenes del contenedor de nuestra aplicación:

aws ecr create-repository --repository-name rek-wsi

Cree y almacene su token de GitHub en AWS Secrets Manager

CodePipeline necesita un token de acceso personal de GitHub para monitorear su repositorio de GitHub en busca de cambios y extraer código. Para crear el token, siga las instrucciones en el Documentación de GitHub. El token requiere los siguientes ámbitos de GitHub:

El repo scope, que se utiliza para el control total para leer y extraer artefactos de repositorios públicos y privados en una canalización.
El admin:repo_hook scope, que se utiliza para el control total de los enlaces del repositorio.

Después de crear el token, guárdelo en un nuevo secreto en Director de secretos de AWS como sigue:

aws secretsmanager create-secret --name rek-wsi/github --secret-string "{"oauthToken":"YOUR-TOKEN-VALUE-HERE"}"

Escribir parámetros de configuración en el almacén de parámetros de AWS Systems Manager

El script de AWS CDK lee algunos parámetros de configuración de Almacén de parámetros de AWS Systems Manager, como el nombre y el propietario del repositorio de GitHub, la cuenta de destino y la región. Antes de iniciar el script de AWS CDK, debe crear estos parámetros en su propia cuenta.

Puede hacerlo utilizando la CLI de AWS. Simplemente invoque el put-parameter comando con un nombre, un valor y el tipo del parámetro:

aws ssm put-parameter --name <PARAMETER-NAME> --value <PARAMETER-VALUE> --type <PARAMETER_TYPE>

La siguiente es una lista de todos los parámetros requeridos por el script de AWS CDK. Todos ellos son de tipo String:

/rek_wsi/prod/accountId — El ID de la cuenta donde implementamos la aplicación.
/rek_wsi/prod/ecr_repo_name: el nombre del repositorio de Amazon ECR donde se almacenan las imágenes del contenedor.
/rek_wsi/prod/github/branch: la rama del repositorio de GitHub de la que CodePipeline necesita extraer el código.
/rek_wsi/prod/github/owner — El propietario del repositorio de GitHub.
/rek_wsi/prod/github/repo — El nombre del repositorio de GitHub donde se almacena nuestro código.
/rek_wsi/prod/github/token: el nombre o ARN del secreto en Secrets Manager que contiene su token de autenticación de GitHub. Esto es necesario para que CodePipeline pueda comunicarse con GitHub.
/rek_wsi/prod/region — La región donde implementaremos la aplicación.

Note la prod segmento en todos los nombres de parámetros. Aunque no necesitamos este nivel de detalle para un ejemplo tan simple, permitirá reutilizar este enfoque con otros proyectos donde pueden ser necesarios diferentes entornos.

Recursos creados por el script de AWS CDK

Necesitamos que nuestra aplicación, que se ejecuta en una tarea de Fargate, tenga permisos para invocar Amazon Rekognition. Así que primero creamos un Gestión de identidades y accesos de AWS (IAM) Rol de tarea con el RekognitionReadOnlyPolicy póliza adjunta a la misma. Note que el assumed_by parámetro en el siguiente código toma el ecs-tasks.amazonaws.com director de servicio. Esto se debe a que usamos Amazon ECS como orquestador, por lo que necesitamos que Amazon ECS asuma el rol y pase las credenciales a la tarea de Fargate.

streamlit_task_role = iam.Role( self, 'StreamlitTaskRole', assumed_by=iam.ServicePrincipal('ecs-tasks.amazonaws.com'), description='ECS Task Role assumed by the Streamlit task deployed to ECS+Fargate', managed_policies=[ iam.ManagedPolicy.from_managed_policy_arn( self, 'RekognitionReadOnlyPolicy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonRekognitionReadOnlyAccess' ), ],
)

Una vez creada, la imagen del contenedor de nuestra aplicación se encuentra en un repositorio privado de Amazon ECR. Necesitamos un objeto que lo describa que podamos pasar al crear el servicio Fargate:

ecs_container_image = ecs.ContainerImage.from_ecr_repository( repository=ecr.Repository.from_repository_name(self, 'ECRRepo', 'rek-wsi'), tag='latest'
)

Creamos una nueva VPC y un clúster para esta aplicación. Puede modificar esta parte para usar su propia VPC usando el from_lookup método de la Vpc clase:

vpc = ec2.Vpc(self, 'RekWSI', max_azs=3)
cluster = ecs.Cluster(self, 'RekWSICluster', vpc=vpc)

Ahora que tenemos una VPC y un clúster para implementar, creamos el servicio Fargate. Usamos 0.25 vCPU y 512 MB de RAM para esta tarea, y colocamos un Application Load Balancer (ALB) público frente a él. Una vez implementado, usamos el ALB CNAME para acceder a la aplicación. Ver el siguiente código:

fargate_service = ecs_patterns.ApplicationLoadBalancedFargateService( self, 'RekWSIECSApp', cluster=cluster, cpu=256, memory_limit_mib=512, desired_count=1, task_image_options=ecs_patterns.ApplicationLoadBalancedTaskImageOptions( image=ecs_container_image, container_port=8501, task_role=streamlit_task_role, ), public_load_balancer=True,
)

Para compilar e implementar automáticamente una nueva imagen de contenedor cada vez que insertamos código en nuestra rama principal, creamos una canalización simple que consta de una acción de código fuente de GitHub y un paso de compilación. Aquí es donde usamos los secretos que almacenamos en AWS Secrets Manager y AWS Systems Manager Parameter Store en los pasos anteriores.

pipeline = codepipeline.Pipeline(self, 'RekWSIPipeline') # Create an artifact that points at the code pulled from GitHub.
source_output = codepipeline.Artifact() # Create a source stage that pulls the code from GitHub. The repo parameters are
# stored in SSM, and the OAuth token in Secrets Manager.
source_action = codepipeline_actions.GitHubSourceAction( action_name='GitHub', output=source_output, oauth_token=SecretValue.secrets_manager( ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/token'), json_field='oauthToken'), trigger=codepipeline_actions.GitHubTrigger.WEBHOOK, owner=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/owner'), repo=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/repo'), branch=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/github/branch'),
) # Add the source stage to the pipeline.
pipeline.add_stage( stage_name='GitHub', actions=[source_action]
)

CodeBuild necesita permisos para enviar imágenes de contenedores a Amazon ECR. Para otorgar estos permisos, agregamos el AmazonEC2ContainerRegistryFullAccess política a un rol de IAM personalizado que la entidad principal del servicio de CodeBuild puede asumir:

# Create an IAM role that grants CodeBuild access to Amazon ECR to push containers.
build_role = iam.Role( self, 'RekWsiCodeBuildAccessRole', assumed_by=iam.ServicePrincipal('codebuild.amazonaws.com'),
) # Permissions are granted through an AWS managed policy, AmazonEC2ContainerRegistryFullAccess.
managed_ecr_policy = iam.ManagedPolicy.from_managed_policy_arn( self, 'cb_ecr_policy', managed_policy_arn='arn:aws:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess',
)
build_role.add_managed_policy(policy=managed_ecr_policy)

El proyecto CodeBuild inicia sesión en el repositorio privado de Amazon ECR, crea la imagen de Docker con la aplicación Streamlit e inserta la imagen en el repositorio junto con un appspec.yaml y una imagedefinitions.json archivo.

El appspec.yaml El archivo describe la tarea (puerto, versión de la plataforma Fargate, etc.), mientras que el imagedefinitions.json El archivo asigna los nombres de las imágenes del contenedor a su URI de Amazon ECR correspondiente. Ver el siguiente código:

container_name = fargate_service.task_definition.default_container.container_name
build_project = codebuild.PipelineProject( self, 'RekWSIProject', build_spec=codebuild.BuildSpec.from_object({ 'version': '0.2', 'phases': { 'pre_build': { 'commands': [ 'env', 'COMMIT_HASH=$(echo $CODEBUILD_RESOLVED_SOURCE_VERSION | cut -c 1-7)', 'export TAG=${COMMIT_HASH:=latest}', 'aws ecr get-login-password --region $AWS_DEFAULT_REGION | ' 'docker login --username AWS ' '--password-stdin $AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com', ] }, 'build': { 'commands': [ # Build the Docker image 'cd streamlit_app && docker build -t $IMAGE_REPO_NAME:$IMAGE_TAG .', # Tag the image 'docker tag $IMAGE_REPO_NAME:$IMAGE_TAG ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', ] }, 'post_build': { 'commands': [ # Push the container into ECR. 'docker push ' '$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG', # Generate imagedefinitions.json 'cd ..', "printf '[{"name":"%s","imageUri":"%s"}]' " f"{container_name} " "$AWS_ACCOUNT_ID.dkr.ecr.$AWS_DEFAULT_REGION.amazonaws.com/$IMAGE_REPO_NAME:$IMAGE_TAG " "> imagedefinitions.json", 'ls -l', 'pwd', 'sed -i s"|REGION_NAME|$AWS_DEFAULT_REGION|g" appspec.yaml', 'sed -i s"|ACCOUNT_ID|$AWS_ACCOUNT_ID|g" appspec.yaml', 'sed -i s"|TASK_NAME|$IMAGE_REPO_NAME|g" appspec.yaml', f'sed -i s"|CONTAINER_NAME|{container_name}|g" appspec.yaml', ] } }, 'artifacts': { 'files': [ 'imagedefinitions.json', 'appspec.yaml', ], }, }), environment=codebuild.BuildEnvironment( build_image=codebuild.LinuxBuildImage.STANDARD_5_0, privileged=True, ), environment_variables={ 'AWS_ACCOUNT_ID': codebuild.BuildEnvironmentVariable(value=self.account), 'IMAGE_REPO_NAME': codebuild.BuildEnvironmentVariable( value=ssm.StringParameter.value_from_lookup(self, '/rek_wsi/prod/ecr_repo_name')), 'IMAGE_TAG': codebuild.BuildEnvironmentVariable(value='latest'), }, role=build_role,
)

Finalmente, juntamos las diferentes etapas del pipeline. La última acción es la EcsDeployAction, que toma la imagen del contenedor creada en la etapa anterior y realiza una actualización gradual de las tareas en nuestro clúster de ECS:

# Create an artifact to store the build output.
build_output = codepipeline.Artifact()
# Create a build action that ties the build project, the source artifact from the
# previous stage, and the output artifact together.
build_action = codepipeline_actions.CodeBuildAction( action_name='Build', project=build_project, input=source_output, outputs=[build_output],
)
# Add the build stage to the pipeline.
pipeline.add_stage( stage_name='Build', actions=[build_action]
)
deploy_action = codepipeline_actions.EcsDeployAction( action_name='Deploy', service=fargate_service.service, # image_file=build_output input=build_output,
)
pipeline.add_stage( stage_name='Deploy', actions=[deploy_action],
)

Limpiar

Para evitar incurrir en costos futuros, limpie los recursos que creó como parte de esta solución.

Modelo de etiquetas personalizadas de Amazon Rekognition

Antes de apagar su computadora portátil Studio, asegúrese de detener el modelo de etiquetas personalizadas de Amazon Rekognition. Si no lo hace, continúa incurriendo en costos.

rek.stop_project_version( ProjectVersionArn=model_arn,
)

Como alternativa, puede utilizar la consola de Amazon Rekognition para detener el servicio:

En la consola de Amazon Rekognition, elija Usar etiquetas personalizadas en el panel de navegación.
Elige Proyectos en el panel de navegación.
Elija la versión 1 de la rek-mitotic-figures-workshop proyecto.
En Modelo de uso pestaña, elegir Detener.

aplicación Streamlit

Para destruir todos los recursos asociados a la aplicación Streamlit, ejecute el siguiente código desde el directorio de la aplicación AWS CDK:

cdk destroy RekWsiStack

Director de secretos de AWS

Para eliminar el token de GitHub, siga las instrucciones en el documentación.

Conclusión

En esta publicación, repasamos los pasos necesarios para entrenar un modelo de etiquetas personalizadas de Amazon Rekognition para una aplicación de patología digital utilizando datos del mundo real. Luego aprendimos a usar el modelo desde una aplicación simple implementada desde una canalización de CI/CD a Fargate.

Las etiquetas personalizadas de Amazon Rekognition le permiten crear aplicaciones de atención médica habilitadas para ML que puede crear e implementar fácilmente mediante servicios como Fargate, CodeBuild y CodePipeline.

¿Se le ocurre alguna aplicación para ayudar a los investigadores, médicos o sus pacientes a hacer sus vidas más fáciles? Si es así, use el código de este tutorial para compilar su próxima aplicación. Y si tienes alguna pregunta, por favor compártela en la sección de comentarios.

AGRADECIMIENTOS

Nos gustaría agradecer al Prof. Dr. Marc Aubreville por darnos amablemente permiso para usar el conjunto de datos MITOS_WSI_CMC para esta publicación de blog. El conjunto de datos se puede encontrar en GitHub.

Referencias

[1] Aubreville, M., Bertram, CA, Donovan, TA et al. Un conjunto de datos de imágenes de diapositivas completas completamente anotadas del cáncer de mama canino para ayudar en la investigación del cáncer de mama humano. Datos científicos 7, 417 (2020). https://doi.org/10.1038/s41597-020-00756-z

[2] Khened, M., Kori, A., Rajkumar, H. et al. Un marco generalizado de aprendizaje profundo para la segmentación y el análisis de imágenes de diapositivas completas. Sci Rep 11, 11579 (2021). https://doi.org/10.1038/s41598-021-90444-8

[3] PNAS 27 de marzo de 2018 115 (13) E2970-E2979; publicado por primera vez el 12 de marzo de 2018; https://doi.org/10.1073/pnas.1717139115

Sobre la autora

Pablo Núñez Pölcher, MSc, es un Arquitecto de Soluciones Senior que trabaja para el equipo del Sector Público con Amazon Web Services. Pablo se enfoca en ayudar a los clientes del sector público de la salud a crear productos nuevos e innovadores en AWS de acuerdo con las mejores prácticas. Recibió su M.Sc. en Ciencias Biológicas de la Universidad de Buenos Aires. En su tiempo libre, disfruta andar en bicicleta y jugar con dispositivos integrados habilitados para ML.

Razvan Ionasec, PhD, MBA, es el líder técnico para el cuidado de la salud en Amazon Web Services en Europa, Medio Oriente y África. Su trabajo se centra en ayudar a los clientes de atención médica a resolver problemas comerciales mediante el aprovechamiento de la tecnología. Anteriormente, Razvan fue el jefe global de productos de inteligencia artificial (IA) en Siemens Healthineers a cargo de AI-Rad Companion, la familia de soluciones de salud digital basadas en la nube y basadas en IA para imágenes. Posee más de 30 patentes en AI/ML para imágenes médicas y ha publicado más de 70 publicaciones técnicas y clínicas internacionales revisadas por pares sobre visión por computadora, modelado computacional y análisis de imágenes médicas. Razvan recibió su doctorado en Informática de la Universidad Técnica de Múnich y su maestría en administración de empresas de la Judge Business School de la Universidad de Cambridge.