Phát hiện độ lệch dữ liệu NLP bằng Trình theo dõi mô hình Amazon SageMaker tùy chỉnh

Được xuất bản lại bởi Plato

Người theo dõi: 0

Khả năng hiểu ngôn ngữ tự nhiên được áp dụng trong nhiều trường hợp sử dụng, từ chatbot và trợ lý ảo, đến dịch máy và tóm tắt văn bản. Để đảm bảo rằng các ứng dụng này đang chạy ở mức hiệu suất dự kiến, điều quan trọng là dữ liệu trong môi trường đào tạo và sản xuất phải từ cùng một bản phân phối. Khi dữ liệu được sử dụng để suy luận (dữ liệu sản xuất) khác với dữ liệu được sử dụng trong quá trình đào tạo mô hình, chúng tôi gặp phải hiện tượng gọi là trôi dữ liệu. Khi dữ liệu trôi dạt xảy ra, mô hình không còn phù hợp với dữ liệu trong quá trình sản xuất và có khả năng hoạt động kém hơn mong đợi. Điều quan trọng là phải liên tục theo dõi dữ liệu suy luận và so sánh dữ liệu đó với dữ liệu được sử dụng trong quá trình đào tạo.

Bạn có thể sử dụng Amazon SageMaker để nhanh chóng xây dựng, đào tạo và triển khai các mô hình máy học (ML) ở mọi quy mô. Là một biện pháp chủ động chống lại sự xuống cấp của mô hình, bạn có thể sử dụng Giám sát mô hình Amazon SageMaker để liên tục theo dõi chất lượng của các mô hình ML của bạn trong thời gian thực. Với Model Monitor, bạn cũng có thể định cấu hình cảnh báo để thông báo và kích hoạt hành động nếu quan sát thấy bất kỳ sai lệch nào trong hiệu suất mô hình. Việc phát hiện sớm và chủ động những sai lệch này cho phép bạn thực hiện các hành động khắc phục, chẳng hạn như thu thập dữ liệu đào tạo sự thật cơ bản mới, đào tạo lại các mô hình và kiểm tra các hệ thống ngược dòng mà không cần phải theo dõi các mô hình theo cách thủ công hoặc xây dựng công cụ bổ sung.

Model Monitor cung cấp bốn loại khả năng giám sát khác nhau để phát hiện và giảm thiểu sự trôi dạt của mô hình trong thời gian thực:

Chất lượng dữ liệu – Giúp phát hiện sự thay đổi trong lược đồ dữ liệu và thuộc tính thống kê của các biến độc lập và cảnh báo khi phát hiện có sự trôi dạt.
Chất lượng mô hình – Để theo dõi các đặc điểm hiệu suất của mô hình chẳng hạn như độ chính xác hoặc độ chính xác trong thời gian thực, Model Monitor cho phép bạn nhập các nhãn sự thật cơ bản được thu thập từ các ứng dụng của mình. Model Monitor tự động hợp nhất thông tin sự thật cơ bản với dữ liệu dự đoán để tính toán các chỉ số hiệu suất của mô hình.
xu hướng mô hình –Model Monitor được tích hợp với Làm rõ Amazon SageMaker để cải thiện khả năng hiển thị vào sự thiên vị tiềm năng. Mặc dù dữ liệu hoặc mô hình ban đầu của bạn có thể không bị sai lệch, nhưng những thay đổi trên thế giới có thể gây ra sự sai lệch phát triển theo thời gian trong một mô hình đã được đào tạo.
khả năng giải thích mô hình – Phát hiện sai lệch cảnh báo cho bạn khi có thay đổi về tầm quan trọng tương đối của các thuộc tính tính năng.

Trong bài đăng này, chúng tôi thảo luận về các loại độ lệch chất lượng dữ liệu có thể áp dụng cho dữ liệu văn bản. Chúng tôi cũng trình bày một cách tiếp cận để phát hiện sự trôi dạt dữ liệu trong dữ liệu văn bản bằng cách sử dụng Model Monitor.

Dữ liệu trôi dạt trong NLP

Độ lệch dữ liệu có thể được phân thành ba loại tùy thuộc vào việc sự thay đổi phân phối đang xảy ra ở đầu vào hay ở phía đầu ra hoặc liệu mối quan hệ giữa đầu vào và đầu ra có thay đổi hay không.

dịch chuyển đồng biến

Trong một sự thay đổi đồng biến, phân phối đầu vào thay đổi theo thời gian, nhưng phân phối có điều kiện P(y|x) không thay đổi. Loại trôi dạt này được gọi là dịch chuyển đồng biến vì vấn đề phát sinh do sự thay đổi trong phân phối của các đồng biến (đặc trưng). Ví dụ: trong mô hình phân loại thư rác email, việc phân phối dữ liệu huấn luyện (tập hợp email) có thể khác với việc phân phối dữ liệu trong quá trình chấm điểm.

thay đổi nhãn

Trong khi dịch chuyển đồng biến tập trung vào những thay đổi trong phân phối tính năng, thay đổi nhãn tập trung vào những thay đổi trong phân phối của biến lớp. Loại dịch chuyển này về cơ bản là đảo ngược của dịch chuyển đồng biến. Một cách trực quan để nghĩ về nó có thể là xem xét một tập dữ liệu không cân bằng. Nếu tỷ lệ thư rác trên không phải thư rác của các email trong nhóm đào tạo của chúng tôi là 50%, nhưng trên thực tế, 10% email của chúng tôi là không phải thư rác, thì phân phối nhãn mục tiêu đã thay đổi.

thay đổi khái niệm

thay đổi khái niệm khác với đồng biến và chuyển nhãn ở chỗ nó không liên quan đến phân phối dữ liệu hoặc phân phối lớp, mà thay vào đó liên quan đến mối quan hệ giữa hai biến. Ví dụ: những người gửi thư rác email thường sử dụng nhiều khái niệm khác nhau để vượt qua các mô hình bộ lọc thư rác và khái niệm email được sử dụng trong quá trình đào tạo có thể thay đổi theo thời gian.

Bây giờ chúng ta đã hiểu các loại trôi dạt dữ liệu khác nhau, hãy xem cách chúng ta có thể sử dụng Model Monitor để phát hiện sự dịch chuyển đồng biến trong dữ liệu văn bản.

Tổng quan về giải pháp

Không giống như dữ liệu dạng bảng, được cấu trúc và giới hạn, dữ liệu văn bản phức tạp, nhiều chiều và ở dạng tự do. Để phát hiện hiệu quả sự trôi dạt trong NLP, chúng tôi làm việc với nhúng, đó là các biểu diễn chiều thấp của văn bản. Bạn có thể lấy các phần nhúng bằng các mô hình ngôn ngữ khác nhau như Word2Vec và các mô hình dựa trên máy biến áp như Chứng nhận. Các mô hình này chiếu dữ liệu chiều cao vào không gian chiều thấp trong khi vẫn bảo toàn thông tin ngữ nghĩa của văn bản. Kết quả là các vectơ dày đặc và có ý nghĩa theo ngữ cảnh, có thể được sử dụng cho các tác vụ xuôi dòng khác nhau, bao gồm giám sát độ trôi dữ liệu.

Trong giải pháp của mình, chúng tôi sử dụng các phép nhúng để phát hiện sự dịch chuyển đồng biến của các câu tiếng Anh. Chúng tôi sử dụng Model Monitor để tạo điều kiện giám sát liên tục cho một trình phân loại văn bản được triển khai cho môi trường sản xuất. Cách tiếp cận của chúng tôi bao gồm các bước sau:

Tinh chỉnh mô hình BERT bằng SageMaker.
Triển khai bộ phân loại BERT được tinh chỉnh làm điểm cuối thời gian thực với thu thập dữ liệu kích hoạt.
Tạo tập dữ liệu cơ sở bao gồm một mẫu câu dùng để huấn luyện bộ phân loại BERT.
Tạo ra một công việc giám sát SageMaker tùy chỉnh để tính toán độ tương tự cosin giữa dữ liệu được thu thập trong quá trình sản xuất và tập dữ liệu cơ sở.

Sơ đồ sau đây minh họa quy trình làm việc của giải pháp:

Tinh chỉnh mô hình BERT

Trong bài đăng này, chúng tôi sử dụng Tập hợp khả năng chấp nhận ngôn ngữ (CoLA), một bộ dữ liệu gồm 10,657 câu tiếng Anh được dán nhãn là đúng ngữ pháp hoặc không đúng ngữ pháp từ các tài liệu ngôn ngữ học đã xuất bản. Chúng tôi sử dụng khóa đào tạo SageMaker để tinh chỉnh mô hình BERT bằng bộ dữ liệu CoLa bằng cách xác định lớp công cụ ước tính PyTorch. Để biết thêm thông tin về cách sử dụng SDK này với PyTorch, hãy xem Sử dụng PyTorch với SageMaker Python SDK. Gọi cho fit() phương pháp của công cụ ước tính khởi chạy công việc đào tạo:

from sagemaker.pytorch import PyTorch # place to save model artifact
output_path = f"s3://{bucket}/{model_prefix}" estimator = PyTorch( entry_point="train_deploy.py", source_dir="code", role=role, framework_version="1.7.1", py_version="py3", instance_count=1, instance_type="ml.p3.2xlarge", output_path=output_path, hyperparameters={ "epochs": 1, "num_labels": 2, "backend": "gloo", }, disable_profiler=True, # disable debugger
)
estimator.fit({"training": inputs_train, "testing": inputs_test})

Triển khai mô hình

Sau khi đào tạo mô hình của mình, chúng tôi lưu trữ mô hình đó trên điểm cuối SageMaker. Để làm cho điểm cuối tải mô hình và phục vụ các dự đoán, chúng tôi triển khai một vài phương thức trong train_deploy.py:

model_fn () - Tải mô hình đã lưu và trả về một đối tượng mô hình có thể được sử dụng để phục vụ mô hình. Máy chủ mô hình SageMaker PyTorch tải mô hình của chúng tôi bằng cách gọi model_fn.
input_fn () - Hủy chuẩn hóa và chuẩn bị đầu vào dự đoán. Trong ví dụ này, phần thân yêu cầu của chúng tôi đầu tiên được tuần tự hóa thành JSON và sau đó được gửi đến điểm cuối phân phối mô hình. Do đó, trong input_fn(), trước tiên chúng tôi giải tuần tự hóa thân yêu cầu được định dạng JSON và trả về đầu vào dưới dạng torch.tensor, theo yêu cầu đối với BERT.
dự đoán_fn () – Thực hiện dự đoán và trả về kết quả.

Bật thu thập dữ liệu Model Monitor

Chúng tôi kích hoạt Chụp dữ liệu Model Monitor ghi dữ liệu đầu vào vào Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) để tham khảo sau:

data_capture_config = DataCaptureConfig(enable_capture=True, sampling_percentage=100, destination_s3_uri=s3_capture_upload_path)

Sau đó, chúng tôi tạo điểm cuối SageMaker thời gian thực với mô hình được tạo ở bước trước:

predictor = estimator.deploy(endpoint_name='nlp-data-drift-bert-endpoint', initial_instance_count=1, instance_type="ml.m4.xlarge", data_capture_config=data_capture_config)

Sự suy luận

Chúng tôi chạy dự đoán bằng cách sử dụng đối tượng dự đoán mà chúng tôi đã tạo ở bước trước. Chúng tôi đặt JSON serializer và deserializer, được sử dụng bởi điểm cuối suy luận:

print("Sending test traffic to the endpoint {}. nPlease wait...".format(endpoint_name)) result = predictor.predict([ "Thanks so much for driving me home", "Thanks so much for cooking dinner. I really appreciate it", "Nice to meet you, Sergio. So, where are you from"
])

Điểm cuối thời gian thực được định cấu hình để thu thập dữ liệu từ yêu cầu, phản hồi và dữ liệu được lưu trữ trong Amazon S3. Bạn có thể xem dữ liệu được ghi lại trong lịch giám sát trước đó.

Tạo đường cơ sở

Chúng tôi sử dụng mô hình BERT được tinh chỉnh để trích xuất các tính năng nhúng câu từ dữ liệu đào tạo. Chúng tôi sử dụng các vectơ này làm đầu vào tính năng chất lượng cao để so sánh khoảng cách cosin vì BERT tạo ra biểu diễn từ động với ngữ cảnh ngữ nghĩa. Hoàn thành các bước sau để nhận nhúng câu:

Sử dụng mã thông báo BERT để nhận ID mã thông báo cho mỗi mã thông báo (input_id) trong câu đầu vào và dấu hiệu để cho biết phần tử nào trong chuỗi đầu vào là mã thông báo so với phần tử đệm (attention_mask_id). Chúng tôi sử dụng BERT tokenizer.encode_plus để lấy các giá trị này cho mỗi câu đầu vào:

#Add instantiation of tokenizer
encoded_dict = tokenizer.encode_plus( sent, # Input Sentence to encode. add_special_tokens = True, # Add '[CLS]' and '[SEP]' max_length = 64, # Pad sentence to max_length pad_to_max_length = True, # Truncate sentence to max_length return_attention_mask = True, #BERT model needs attention_mask return_tensors = 'pt', # Return pytorch tensors. )
input_ids = encoded_dict['input_ids']
attention_mask_ids = encoded_dict['attention_mask']

input_ids và attention_mask_ids được chuyển đến mô hình và lấy các trạng thái ẩn của mạng. Các hidden_states có bốn chiều theo thứ tự sau:

Số lớp (BERT có 12 lớp)
Số lô (1 câu)
Chỉ mục mã thông báo từ
Đơn vị ẩn (768 tính năng)

Sử dụng hai lớp ẩn cuối cùng để lấy một vectơ (nhúng câu) bằng cách tính giá trị trung bình của tất cả các mã thông báo đầu vào trong câu:

outputs = model(input_ids, attention_mask_ids) # forward pass to model
hidden_states = outputs[2] # token vectors
token_vecs = hidden_states[-2][0] # last 2 layer hidden states
sentence_embedding = torch.mean(token_vecs, dim=0) # average token vectors

Chuyển đổi câu nhúng dưới dạng mảng NumPy và lưu trữ nó ở vị trí Amazon S3 làm đường cơ sở được Model Monitor sử dụng:

sentence_embeddings_list = []for i in sentence_embeddings:sentence_embeddings_list.append(i.numpy()) np.save('embeddings.npy', sentence_embeddings_list) #Upload the sentence embedding to S3
!aws s3 cp embeddings.npy s3://{bucket}/{model_prefix}/embeddings/

kịch bản đánh giá

Model Monitor cung cấp một bộ chứa dựng sẵn với khả năng phân tích dữ liệu được thu thập từ các điểm cuối cho bộ dữ liệu dạng bảng. Nếu bạn muốn mang theo thùng chứa của riêng mình, Model Monitor cung cấp các điểm mở rộng mà bạn có thể sử dụng. Khi bạn tạo một MonitoringSchedule, Model Monitor cuối cùng sẽ khởi động các công việc xử lý. Vì vậy, container cần lưu ý về hợp đồng gia công. Chúng ta cần tạo tập lệnh đánh giá tương thích với vùng chứa hợp đồng đầu vào và kết quả đầu ra.

Model Monitor sử dụng mã đánh giá trên tất cả các mẫu được chụp trong lịch trình giám sát. Đối với mỗi điểm dữ liệu suy luận, chúng tôi tính toán việc nhúng câu bằng cách sử dụng cùng logic được mô tả trước đó. Độ tương tự cosine được sử dụng làm thước đo khoảng cách để đo độ tương tự của điểm dữ liệu suy luận và phần nhúng câu trong đường cơ sở. Về mặt toán học, nó đo góc cosin giữa hai vectơ nhúng câu. Điểm tương tự cosine cao biểu thị các nhúng câu tương tự. Điểm tương tự cosin thấp hơn biểu thị độ lệch dữ liệu. Chúng tôi tính toán mức trung bình của tất cả các điểm tương đồng cosin và nếu thấp hơn ngưỡng, thì điểm đó sẽ được đưa vào báo cáo vi phạm. Dựa trên trường hợp sử dụng, bạn có thể sử dụng các số liệu khoảng cách khác như manhattan or euclidean để đo lường sự giống nhau của nhúng câu.

Sơ đồ sau đây cho thấy cách chúng tôi sử dụng Giám sát mô hình SageMaker để thiết lập đường cơ sở và phát hiện độ lệch dữ liệu bằng cách sử dụng độ tương tự khoảng cách cosine.

Sau đây là mã để tính toán các vi phạm; kịch bản đánh giá hoàn chỉnh có sẵn trên GitHub:

for embed_item in embedding_list: # all sentence embeddings from baseline cosine_score += (1 - cosine(input_sentence_embedding, embed_item)) # cosine distance between input sentence embedding and baseline embedding
cosine_score_avg = cosine_score/(len(embedding_list)) # average cosine score of input sentence
if cosine_score_avg < env.max_ratio_threshold: # compare averge cosine score against a threshold sent_cosine_dict[record] = cosine_score_avg # capture details for violation report violations.append({ "sentence": record, "avg_cosine_score": cosine_score_avg, "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "endpoint_name" : env.sagemaker_endpoint_name, "monitoring_schedule_name": env.sagemaker_monitoring_schedule_name })

Đo độ lệch dữ liệu bằng Model Monitor

Trong phần này, chúng tôi tập trung vào việc đo độ lệch dữ liệu bằng Model Monitor. Các màn hình dựng sẵn của Model Monitor được cung cấp bởi dequ, là một thư viện được xây dựng dựa trên Apache Spark để xác định các bài kiểm tra đơn vị cho dữ liệu, đo lường chất lượng dữ liệu trong các bộ dữ liệu lớn. Bạn không cần viết mã để sử dụng các khả năng giám sát dựng sẵn này. Bạn cũng có thể linh hoạt giám sát các mô hình bằng mã hóa để cung cấp phân tích tùy chỉnh. Bạn có thể thu thập và xem xét tất cả các số liệu do Model Monitor đưa ra trong Xưởng sản xuất Amazon SageMaker, vì vậy bạn có thể phân tích hiệu suất mô hình của mình một cách trực quan mà không cần viết mã bổ sung.

Trong một số trường hợp nhất định, chẳng hạn như khi dữ liệu không ở dạng bảng, công việc xử lý mặc định (được hỗ trợ bởi dequ) không đủ vì nó chỉ hỗ trợ bộ dữ liệu dạng bảng. Các màn hình dựng sẵn có thể không đủ để tạo ra các chỉ số phức tạp nhằm phát hiện các sai lệch và có thể bắt buộc phải mang theo các chỉ số của riêng bạn. Trong các phần tiếp theo, chúng tôi sẽ mô tả thiết lập để đưa vào các chỉ số của bạn bằng cách tạo vùng chứa tùy chỉnh.

Xây dựng bộ chứa Model Monitor tùy chỉnh

Chúng tôi sử dụng kịch bản đánh giá từ phần trước để xây dựng bộ chứa Docker và đẩy nó vào Đăng ký container đàn hồi Amazon (ECR của Amazon):

#Build a docker container and push to ECR account_id = boto3.client('sts').get_caller_identity().get('Account')
ecr_repository = 'nlp-data-drift-bert-v1'
tag = ':latest'
region = boto3.session.Session().region_name
sm = boto3.client('sagemaker')
uri_suffix = 'amazonaws.com'
if region in ['cn-north-1', 'cn-northwest-1']: uri_suffix = 'amazonaws.com.cn' processing_repository_uri = f'{account_id}.dkr.ecr.{region}.{uri_suffix}/{ecr_repository + tag}'
# Creating the ECR repository and pushing the container image !docker build -t $ecr_repository docker !$(aws ecr get-login --region $region --registry-ids $account_id --no-include-email) !aws ecr create-repository --repository-name $ecr_repository !docker tag {ecr_repository + tag} $processing_repository_uri!docker push $processing_repository_uri

Khi bộ chứa Docker của khách hàng nằm trong Amazon ECR, chúng tôi có thể lên lịch cho công việc Giám sát mô hình và tạo báo cáo vi phạm, như được trình bày trong các phần tiếp theo.

Lên lịch công việc giám sát mô hình

Để lên lịch cho công việc giám sát mô hình, chúng tôi tạo một phiên bản của Trình giám sát mô hình và trong image_uri, chúng ta đề cập đến Docker container mà chúng ta đã tạo ở phần trước:

from sagemaker.model_monitor import ModelMonitor monitor = ModelMonitor( base_job_name='nlp-data-drift-bert-v1', role=role, image_uri=processing_repository_uri, instance_count=1, instance_type='ml.m5.large', env={ 'THRESHOLD':'0.5', 'bucket': bucket },
)

Chúng tôi lên lịch công việc giám sát bằng cách sử dụng create_monitoring_schedule API. Bạn có thể lên lịch công việc giám sát hàng giờ hoặc hàng ngày. Bạn định cấu hình công việc bằng cách sử dụng destination tham số, như thể hiện trong đoạn mã sau:

from sagemaker.model_monitor import CronExpressionGenerator, MonitoringOutput
from sagemaker.processing import ProcessingInput, ProcessingOutput destination = f's3://{sagemaker_session.default_bucket()}/{prefix}/{endpoint_name}/monitoring_schedule' processing_output = ProcessingOutput( output_name='result', source='/opt/ml/processing/resultdata', destination=destination,
)
output = MonitoringOutput(source=processing_output.source, destination=processing_output.destination) monitor.create_monitoring_schedule( monitor_schedule_name='nlp-data-drift-bert-schedule', output=output, endpoint_input=predictor.endpoint_name, schedule_cron_expression=CronExpressionGenerator.hourly(),
)

Để mô tả và liệt kê lịch giám sát và các lần chạy của nó, bạn có thể sử dụng các lệnh sau:

monitor.describe_schedule()
print(monitor.list_executions())

Báo cáo vi phạm trôi dạt dữ liệu

Khi công việc giám sát mô hình hoàn tất, bạn có thể điều hướng đến đường dẫn S3 đích để truy cập các báo cáo vi phạm. Báo cáo này chứa tất cả các yếu tố đầu vào có điểm cosin trung bình (avg_cosine_score) thấp hơn ngưỡng được định cấu hình làm biến môi trường THRESHOLD:0.5 trong Mô HìnhMàn Hình ví dụ. Đây là dấu hiệu cho thấy dữ liệu được quan sát trong quá trình suy luận đang trôi ra ngoài đường cơ sở đã thiết lập.

Đoạn mã sau hiển thị báo cáo vi phạm được tạo:

{ "violations": [ { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for driving me home", "avg_cosine_score": 0.36653404209142876 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for cooking dinner. I really appreciate it", "avg_cosine_score": 0.34974955975723576 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Nice to meet you, Sergio. So, where are you from", "avg_cosine_score": 0.378982806084463 } ]
}

Cuối cùng, dựa trên quan sát này, bạn có thể định cấu hình mô hình của mình để đào tạo lại. Bạn cũng có thể kích hoạt Dịch vụ thông báo đơn giản của Amazon (Amazon SNS) thông báo để gửi cảnh báo khi vi phạm xảy ra.

Kết luận

Model Monitor cho phép bạn duy trì chất lượng cao của các mô hình trong quá trình sản xuất. Trong bài đăng này, chúng tôi đã nêu bật những thách thức với việc giám sát độ lệch dữ liệu trên dữ liệu phi cấu trúc như văn bản và cung cấp một phương pháp trực quan để phát hiện độ lệch dữ liệu bằng cách sử dụng tập lệnh giám sát tùy chỉnh. Bạn có thể tìm thấy mã được liên kết với bài đăng sau đây Kho GitHub. Ngoài ra, bạn có thể tùy chỉnh giải pháp để sử dụng các chỉ số khoảng cách khác, chẳng hạn như chênh lệch trung bình tối đa (MMD), một thước đo khoảng cách phi tham số để tính toán phân phối cận biên giữa phân phối nguồn và đích trên không gian được nhúng.

Về các tác giả

Vikram Elango là Kiến trúc sư Giải pháp Chuyên gia AI/ML tại Amazon Web Services, có trụ sở tại Virginia, Hoa Kỳ. Vikram giúp các khách hàng trong ngành tài chính và bảo hiểm thiết kế, lãnh đạo tư tưởng để xây dựng và triển khai các ứng dụng máy học trên quy mô lớn. Anh ấy hiện đang tập trung vào xử lý ngôn ngữ tự nhiên, AI chịu trách nhiệm, tối ưu hóa suy luận và mở rộng ML trên toàn doanh nghiệp. Khi rảnh rỗi, anh ấy thích đi du lịch, đi bộ đường dài, nấu ăn và cắm trại cùng gia đình.

Raghu Ramesha là Kiến trúc sư giải pháp ML của nhóm Dịch vụ Amazon SageMaker. Anh ấy tập trung vào việc giúp khách hàng di chuyển khối lượng công việc sản xuất ML sang SageMaker trên quy mô lớn. Anh ấy chuyên về các lĩnh vực máy học, trí tuệ nhân tạo và thị giác máy tính, đồng thời có bằng thạc sĩ về Khoa học Máy tính tại UT Dallas. Trong thời gian rảnh rỗi, anh ấy thích đi du lịch và chụp ảnh.

Tony Trần là Kiến trúc sư giải pháp máy học tại Amazon Web Services, giúp khách hàng thiết kế các chức năng máy học mạnh mẽ và có thể mở rộng trên đám mây. Là một cựu nhà khoa học dữ liệu và kỹ sư dữ liệu, anh tận dụng kinh nghiệm của mình để giúp giải quyết một số vấn đề khó khăn nhất mà các tổ chức gặp phải khi vận hành máy học.