Hệ thống đề xuất dựa trên đồ thị với Neptune ML: Minh họa về các thách thức dự đoán liên kết mạng xã hội

Được xuất bản lại bởi Plato

Người theo dõi: 0

Hệ thống khuyến nghị là một trong những công nghệ máy học (ML) được áp dụng rộng rãi nhất trong các ứng dụng thế giới thực, từ mạng xã hội đến nền tảng thương mại điện tử. Người dùng của nhiều hệ thống trực tuyến dựa vào hệ thống đề xuất để kết bạn mới, khám phá âm nhạc mới theo danh sách nhạc được đề xuất hoặc thậm chí đưa ra quyết định mua thương mại điện tử dựa trên các sản phẩm được đề xuất. Trong mạng xã hội, một trường hợp sử dụng phổ biến là giới thiệu bạn bè mới cho người dùng dựa trên các kết nối khác của người dùng. Người dùng với những người bạn chung có thể biết nhau. Do đó, họ nên có điểm số cao hơn để hệ thống khuyến nghị đề xuất nếu họ chưa được kết nối.

Mạng xã hội có thể được biểu thị một cách tự nhiên dưới dạng biểu đồ, trong đó các nút đại diện cho mọi người và các kết nối giữa mọi người, chẳng hạn như tình bạn hoặc đồng nghiệp, được biểu thị bằng các cạnh. Sau đây minh họa một mạng xã hội như vậy. Hãy tưởng tượng rằng chúng ta có một mạng xã hội với các thành viên (nút) Bill, Terry, Henry, Gary và Alistair. Mối quan hệ của họ được thể hiện bằng một liên kết (cạnh) và sở thích của mỗi người, chẳng hạn như thể thao, nghệ thuật, trò chơi và truyện tranh, được thể hiện bằng thuộc tính nút.

Mục tiêu ở đây là dự đoán xem liệu có mối liên kết tiềm ẩn nào bị thiếu giữa các thành viên hay không. Ví dụ, chúng tôi có nên giới thiệu mối liên hệ giữa Henry và Terry không? Nhìn vào biểu đồ, chúng ta có thể thấy rằng họ có hai người bạn chung là Gary và Alistair. Do đó, rất có khả năng Henry và Terry đã biết nhau hoặc có thể sớm tìm hiểu nhau. Còn Henry và Bill thì sao? Họ không có bất kỳ người bạn chung nào, nhưng họ có một số kết nối yếu thông qua kết nối bạn bè của họ. Ngoài ra, cả hai đều có cùng sở thích về nghệ thuật, truyện tranh và game. Chúng ta có nên thúc đẩy kết nối này không? Tất cả những câu hỏi và trực giác này là logic cốt lõi của hệ thống khuyến nghị mạng xã hội.

Một cách khả thi để làm điều này là đề xuất các mối quan hệ dựa trên việc khám phá đồ thị. Trong các ngôn ngữ truy vấn đồ thị, chẳng hạn như Apache TinkerPop Gremlin, việc thực hiện các bộ quy tắc như đếm số bạn bè chung, tương đối dễ dàng, và nó có thể được sử dụng để xác định mối liên hệ giữa Henry và Terry. Tuy nhiên, các bộ quy tắc này sẽ rất phức tạp khi chúng ta muốn tính đến các thuộc tính khác như thuộc tính nút, độ mạnh kết nối, v.v. Hãy hình dung một bộ quy tắc để xác định mối liên kết giữa Henry và Bill. Bộ quy tắc này phải tính đến lợi ích chung và mối liên hệ yếu của họ thông qua các đường dẫn nhất định trong biểu đồ. Để tăng độ chắc chắn, chúng ta cũng có thể cần thêm yếu tố khoảng cách để ưu tiên các kết nối mạnh và trừng phạt những kết nối yếu. Tương tự, chúng tôi muốn có một yếu tố để hỗ trợ lợi ích chung. Chẳng bao lâu nữa, các bộ quy tắc có thể tiết lộ các mẫu ẩn phức tạp sẽ trở nên không thể liệt kê được.

Công nghệ ML cho phép chúng tôi khám phá các mẫu ẩn bằng cách học các thuật toán. Một ví dụ là XGBoost, được sử dụng rộng rãi cho các nhiệm vụ phân loại hoặc hồi quy. Tuy nhiên, các thuật toán như XGBoost sử dụng cách tiếp cận ML thông thường dựa trên định dạng dữ liệu dạng bảng. Các cách tiếp cận này không được tối ưu hóa cho cấu trúc dữ liệu biểu đồ và chúng yêu cầu kỹ thuật tính năng phức tạp để đối phó với các mẫu dữ liệu này.

Trong ví dụ về mạng xã hội trước đó, thông tin tương tác biểu đồ rất quan trọng để cải thiện độ chính xác của đề xuất. Graph Neural Network (GNN) là một khung công tác học sâu (DL) có thể được áp dụng cho dữ liệu biểu đồ để thực hiện các nhiệm vụ dự đoán mức cạnh, mức nút hoặc mức đồ thị. GNN có thể tận dụng các đặc điểm nút riêng lẻ cũng như thông tin cấu trúc đồ thị khi học cách biểu diễn đồ thị và các mẫu cơ bản. Do đó, trong những năm gần đây, các phương pháp dựa trên GNN đã đặt ra các tiêu chuẩn mới trên nhiều tiêu chuẩn hệ thống khuyến nghị. Xem thêm thông tin chi tiết trong các bài nghiên cứu gần đây: Khảo sát Toàn diện về Mạng Neural Đồ thị và Hệ thống đề xuất dựa trên học đồ thị: Đánh giá.

Sau đây là một ví dụ nổi tiếng về trường hợp sử dụng như vậy. Các nhà nghiên cứu và kỹ sư tại Pinterest đã đào tạo Đồ thị Mạng nơ ron phù hợp cho các hệ thống đề xuất quy mô web, được gọi là PinSage, với ba tỷ nút đại diện cho các chân và bảng, và 18 tỷ cạnh. PinSage tạo ra các bản nhúng chất lượng cao thể hiện các ghim (dấu trang trực quan cho nội dung trực tuyến). Chúng có thể được sử dụng cho một loạt các nhiệm vụ đề xuất hạ nguồn, chẳng hạn như tra cứu hàng xóm gần nhất trong không gian nhúng đã học để khám phá nội dung và đề xuất.

Trong bài đăng này, chúng tôi sẽ hướng dẫn bạn cách sử dụng GNN cho các trường hợp sử dụng đề xuất bằng cách chuyển điều này làm bài toán dự đoán liên kết. Chúng tôi cũng sẽ minh họa cách Neptune ML có thể hỗ trợ triển khai. Chúng tôi cũng sẽ cung cấp mã mẫu trên GitHub để đào tạo GNN đầu tiên của bạn với Neptune ML và đưa ra các suy luận đề xuất trên biểu đồ demo thông qua các nhiệm vụ dự đoán liên kết.

Liên kết dự đoán với Graph Neural Networks

Xem xét ví dụ về mạng xã hội trước đây, chúng tôi muốn giới thiệu những người bạn mới cho Henry. Cả Terry và Bill đều là những ứng cử viên sáng giá. Terry có nhiều bạn chung (Gary, Alistair) với Henry nhưng không có chung sở thích. Trong khi Bill có chung sở thích (nghệ thuật, truyện tranh, game) với Henry, nhưng không có bạn chung. Cái nào sẽ là một đề xuất tốt hơn? Khi được đóng khung như một bài toán dự đoán liên kết, nhiệm vụ là gán điểm cho bất kỳ liên kết nào có thể có giữa hai nút. Điểm liên kết càng cao thì khả năng hội tụ của đề xuất này càng cao. Bằng cách học các cấu trúc liên kết đã có trong biểu đồ, mô hình dự đoán liên kết có thể tổng quát hóa các dự đoán liên kết mới 'hoàn thành' biểu đồ.

Các tham số của hàm f dự đoán điểm liên kết được học trong giai đoạn đào tạo. Kể từ khi chức năng f đưa ra dự đoán cho hai nút bất kỳ trong biểu đồ, các vectơ đặc trưng được liên kết với các nút là điều cần thiết cho quá trình học tập. Để dự đoán điểm liên kết giữa Henry và Bill, chúng tôi có một tập hợp các tính năng dữ liệu thô (nghệ thuật, truyện tranh, trò chơi) có thể đại diện cho Henry và Bill. Chúng tôi biến đổi điều này, cùng với các kết nối trong biểu đồ, sử dụng mạng GNN để tạo thành các biểu diễn mới được gọi là nhúng nút. Chúng tôi cũng có thể bổ sung hoặc thay thế các tính năng thô ban đầu bằng các vectơ từ bảng tra cứu nhúng có thể học được trong quá trình đào tạo. Lý tưởng nhất là các đối tượng được nhúng cho Henry và Bill nên đại diện cho sở thích của họ cũng như thông tin cấu trúc liên kết của họ từ biểu đồ.

GNNs hoạt động như thế nào

GNN chuyển đổi các tính năng của nút ban đầu thành nhúng nút bằng cách sử dụng một kỹ thuật được gọi là thông qua. Quá trình truyền thông điệp được minh họa trong hình sau. Lúc đầu, các thuộc tính hoặc tính năng của nút được chuyển đổi thành thuộc tính số. Trong trường hợp của chúng tôi, chúng tôi thực hiện mã hóa một lần các tính năng phân loại (sở thích của Henry: nghệ thuật, truyện tranh, trò chơi). Sau đó, lớp GNN đầu tiên tổng hợp tất cả các đối tượng địa lý thô của hàng xóm (Gary và Alistair) (màu đen) để tạo thành một nhóm đối tượng địa lý mới (màu vàng). Một cách tiếp cận phổ biến là biến đổi tuyến tính của tất cả các đối tượng lân cận, sau đó tổng hợp chúng thành một tổng chuẩn hóa và chuyển kết quả vào một hàm kích hoạt phi tuyến tính, chẳng hạn như ReLU, để tạo ra một tập vectơ mới. Hình sau minh họa cách truyền thông điệp hoạt động cho nút đơn vị của tự cảm điện. H, thuật toán truyền thông điệp GNN, sẽ tính toán các biểu diễn cho tất cả các nút đồ thị. Sau đó, chúng được sử dụng làm các tính năng đầu vào cho lớp thứ hai.

Lớp thứ hai của GNN lặp lại quá trình tương tự. Nó lấy đặc trưng đã tính toán trước đó (màu vàng) từ lớp đầu tiên làm đầu vào, tổng hợp tất cả các tính năng nhúng mới của Gary và Alistair và tạo vectơ đặc trưng lớp thứ hai cho Henry (màu cam). Như bạn có thể thấy, bằng cách lặp lại cơ chế truyền thông báo, chúng tôi đã mở rộng tập hợp tính năng cho các hàng xóm 2 bước. Trong hình minh họa của chúng tôi, chúng tôi giới hạn bản thân ở các hàng xóm 2 bước, nhưng việc mở rộng thành các hàng xóm 3 bước có thể được thực hiện theo cách tương tự bằng cách thêm một lớp GNN khác.

Các lần nhúng cuối cùng của Henry và Bill (màu cam) được sử dụng để tính điểm. Trong quá trình đào tạo, điểm liên kết được xác định là 1 khi cạnh tồn tại giữa hai nút (mẫu dương) và bằng 0 khi cạnh giữa hai nút không tồn tại (mẫu âm). Sau đó, sai số hoặc mất mát giữa điểm số thực tế và dự đoán f(e₁,e₂) được truyền ngược vào các lớp trước đó để điều chỉnh trọng số. Sau khi quá trình đào tạo kết thúc, chúng tôi có thể dựa vào các vectơ tính năng được nhúng cho mỗi nút để tính điểm liên kết của chúng với hàm của chúng tôi f.

Trong ví dụ này, chúng tôi đã đơn giản hóa nhiệm vụ học tập trên đồ thị đồng nhất, trong đó tất cả các nút và cạnh có cùng kiểu. Ví dụ: tất cả các nút trong biểu đồ là loại "Mọi người" và tất cả các cạnh là loại "bạn bè với". Tuy nhiên, thuật toán học cũng hỗ trợ các đồ thị không đồng nhất với các kiểu nút và cạnh khác nhau. Chúng tôi có thể mở rộng trường hợp sử dụng trước đó để giới thiệu sản phẩm cho những người dùng khác nhau có cùng tương tác và sở thích. Xem thêm chi tiết trong bài nghiên cứu này: Lập mô hình dữ liệu quan hệ với mạng biểu đồ phù hợp.

Tại AWS re: Invent 2020, chúng tôi đã giới thiệu Amazon Sao Hải Vương ML, cho phép khách hàng của chúng tôi đào tạo các mô hình ML trên dữ liệu biểu đồ mà không nhất thiết phải có kiến thức chuyên môn sâu về ML. Trong ví dụ này, với sự trợ giúp của Neptune ML, chúng tôi sẽ chỉ cho bạn cách xây dựng hệ thống đề xuất của riêng bạn trên dữ liệu biểu đồ.

Đào tạo Mạng chuyển đổi đồ thị của bạn với Amazon Neptune ML

Neptune ML sử dụng công nghệ mạng nơ-ron đồ thị để tự động tạo, đào tạo và triển khai các mô hình ML trên dữ liệu đồ thị của bạn. Neptune ML hỗ trợ các tác vụ dự đoán đồ thị phổ biến, chẳng hạn như phân loại và hồi quy nút, phân loại cạnh và hồi quy, cũng như dự đoán liên kết.

Nó được cung cấp bởi:

Sao Hải vương Amazon: cơ sở dữ liệu đồ thị nhanh, đáng tin cậy và được quản lý đầy đủ, được tối ưu hóa để lưu trữ hàng tỷ mối quan hệ và truy vấn biểu đồ với độ trễ mili giây. Amazon Neptune hỗ trợ ba tiêu chuẩn mở để xây dựng các ứng dụng đồ thị: Apache TinkerPop Gremlin, RDF SPARQL và openCypher. Tìm hiểu thêm tại Tổng quan về các Tính năng của Amazon Neptune.
Amazon SageMaker: một dịch vụ được quản lý hoàn toàn cung cấp cho mọi nhà phát triển và nhà khoa học dữ liệu khả năng chuẩn bị xây dựng, đào tạo và triển khai các mô hình ML một cách nhanh chóng.
Thư viện đồ thị sâu (DGL): an mã nguồn mở, gói Python hiệu suất cao và có thể mở rộng cho DL trên đồ thị. Nó cung cấp tốc độ truyền thông điệp hiệu quả và nhanh chóng và tiết kiệm bộ nhớ ban đầu để đào tạo Mạng Neural Đồ thị. Neptune ML sử dụng DGL để tự động chọn và đào tạo mô hình ML tốt nhất cho khối lượng công việc của bạn. Điều này cho phép bạn đưa ra các dự đoán dựa trên ML trên dữ liệu biểu đồ theo giờ thay vì tuần.

Cách dễ nhất để bắt đầu với Neptune ML là sử dụng Mẫu bắt đầu nhanh AWS CloudFormation. Mẫu cài đặt tất cả các thành phần cần thiết, bao gồm một cụm Neptune DB và thiết lập cấu hình mạng, vai trò IAM và phiên bản sổ ghi chép SageMaker được liên kết với các mẫu sổ ghi chép được điền sẵn cho Neptune ML.

Hình sau minh họa các bước khác nhau để Neptune ML đào tạo hệ thống khuyến nghị dựa trên GNN. Hãy phóng to từng bước và khám phá những gì nó liên quan:

Cấu hình xuất dữ liệu

Bước đầu tiên trong quy trình ML Neptune của chúng tôi là xuất dữ liệu đồ thị từ cụm Neptune. Chúng ta phải chỉ định các tham số và cấu hình mô hình cho tác vụ xuất dữ liệu. Chúng tôi sử dụng bàn làm việc Neptune cho tất cả các cấu hình và phần thưởng. Bàn làm việc cho phép chúng tôi làm việc với cụm Neptune DB bằng máy tính xách tay Jupyter do Amazon SageMaker lưu trữ. Ngoài ra, nó cung cấp một số lệnh ma thuật trong sổ tay giúp tiết kiệm rất nhiều thời gian và công sức. Đây là ví dụ của chúng tôi về các tham số xuất:

export_params={ "command": "export-pg", "params": { "endpoint": neptune_host, "profile": "neptune_ml", "cloneCluster": False }, "outputS3Path": f'{s3_bucket_uri}/neptune-export', "additionalParams": { "neptune_ml": { "version": "v2.0", "targets": [ { "edge": ["User", "FRIEND", "User"], "type" : "link_prediction" } ], "features": [ { "node": "User", "property": "interests", "type": "category", "separator": " ;" } ] } }, "jobSize": "small"}

In export_params, chúng ta phải định cấu hình thiết lập cơ bản, chẳng hạn như cụm sao Hải Vương và đầu ra Dịch vụ lưu trữ đơn giản của Amazon (S3) đường dẫn để lưu trữ dữ liệu đã xuất. Cấu hình được chỉ định trong additionalParams là loại nhiệm vụ ML cần thực hiện. Trong ví dụ này, dự đoán liên kết được sử dụng tùy ý để dự đoán một loại cạnh cụ thể (Người dùng — BẠN BÈ — Người dùng). Nếu không có loại mục tiêu nào được chỉ định, thì Neptune ML sẽ cho rằng nhiệm vụ là Dự đoán Liên kết. Các tham số cũng chỉ định chi tiết về dữ liệu được lưu trữ trong biểu đồ của chúng tôi và cách mô hình ML sẽ diễn giải dữ liệu đó (chúng tôi có “Người dùng” là nút và “sở thích” là thuộc tính nút).

Để chạy từng bước trong quy trình xây dựng ML, chỉ cần sử dụng các lệnh của bàn làm việc Neptune. Các Bàn làm việc Neptune chứa phép thuật dòng và phép thuật ô có thể giúp bạn tiết kiệm rất nhiều thời gian quản lý các bước này. Để chạy xuất dữ liệu, hãy sử dụng lệnh bàn làm việc Neptune: %neptune_ml export start

Khi công việc xuất hoàn tất, chúng tôi sẽ có biểu đồ Neptune được xuất sang định dạng CSV và được lưu trữ trong nhóm S3. Sẽ có hai loại tệp: nodes.csv và edges.csv. Một tệp có tên training-data-configuration.json cũng sẽ được tạo ra có cấu hình cần thiết cho Neptune ML để thực hiện đào tạo mô hình.

Xem Xuất dữ liệu từ Neptune cho Neptune ML để biết thêm thông tin chi tiết.

Tiền xử lý dữ liệu

Neptune ML thực hiện trích xuất và mã hóa tính năng như một phần của các bước xử lý dữ liệu. Các loại xử lý trước thuộc tính phổ biến bao gồm: mã hóa các tính năng phân loại thông qua mã hóa một lần, các tính năng số bán vé hoặc sử dụng word2vec để mã hóa thuộc tính chuỗi hoặc các giá trị thuộc tính văn bản dạng tự do khác.

Trong ví dụ của chúng tôi, chúng tôi sẽ chỉ sử dụng thuộc tính “sở thích”. Neptune ML mã hóa các giá trị dưới dạng đa phân loại. Tuy nhiên, nếu một giá trị phân loại phức tạp (nhiều hơn ba từ mỗi nút), thì Neptune ML suy ra loại thuộc tính là văn bản và sử dụng mã hóa text_word2vec.

Để chạy tiền xử lý dữ liệu, hãy sử dụng lệnh ma thuật sổ ghi chép Neptune sau: %neptune_ml dataprocessing start

Ở cuối bước này, một đồ thị DGL được tạo từ tập dữ liệu đã xuất để sử dụng cho bước đào tạo mô hình. Neptune ML tự động điều chỉnh mô hình với các công việc Điều chỉnh tối ưu hóa siêu tham số được xác định trong training-data-configuration.json. Chúng tôi có thể tải xuống và sửa đổi tệp này để điều chỉnh các siêu tham số của mô hình, chẳng hạn như kích thước lô, num-hidden, num-epochs, droppout, v.v. Đây là tệp tin config.json mẫu.

Xem Xử lý dữ liệu biểu đồ được xuất từ Neptune để đào tạo để biết thêm thông tin chi tiết.

Đào tạo người mẫu

Bước tiếp theo là đào tạo tự động mô hình GNN. Việc đào tạo người mẫu được thực hiện theo hai giai đoạn. Giai đoạn đầu tiên sử dụng công việc Xử lý SageMaker để tạo ra một chiến lược đào tạo mô hình. Đây là một tập hợp cấu hình chỉ định loại mô hình và phạm vi siêu thông số mô hình sẽ được sử dụng cho việc đào tạo mô hình.

Sau đó, công việc điều chỉnh siêu thông số SageMaker sẽ được khởi chạy. Các Công việc Tối ưu hóa Điều chỉnh Siêu tham số của SageMaker chạy số lượng thử nghiệm công việc đào tạo mô hình được chỉ định trước trên dữ liệu đã xử lý, thử các kết hợp siêu tham số khác nhau theo model-hpo-configuration.json và lưu trữ các tạo tác mô hình do quá trình đào tạo tạo ra ở vị trí Amazon S3 đầu ra.

Để bắt đầu bước đào tạo, bạn có thể sử dụng %neptune_ml training start chỉ huy.

Khi tất cả các công việc đào tạo hoàn tất, công việc điều chỉnh Hyperparameter sẽ lưu các hiện vật từ mô hình hoạt động tốt nhất, mô hình này sẽ được sử dụng để suy luận.

Khi kết thúc khóa đào tạo, Neptune ML sẽ hướng dẫn SageMaker lưu mô hình được đào tạo, các phép nhúng thô được tính toán cho các nút và cạnh cũng như thông tin ánh xạ giữa các lần nhúng và chỉ số nút.

Xem Đào tạo một mô hình bằng Neptune ML để biết thêm thông tin chi tiết.

Tạo điểm cuối suy luận trong Amazon SageMaker

Bây giờ biểu diễn đồ thị đã được học, chúng ta có thể triển khai mô hình đã học đằng sau một điểm cuối để thực hiện các yêu cầu suy luận. Đầu vào của mô hình sẽ là Người dùng mà chúng ta cần tạo đề xuất của bạn bè, cùng với loại cạnh và đầu ra sẽ là danh sách những người bạn có khả năng được đề xuất cho người dùng đó.

Để triển khai mô hình cho phiên bản điểm cuối SageMaker, hãy sử dụng %neptune_ml endpoint create chỉ huy.

Truy vấn mô hình ML bằng Gremlin

Khi điểm cuối đã sẵn sàng, chúng ta có thể sử dụng nó cho các truy vấn suy luận đồ thị. Neptune ML hỗ trợ các truy vấn suy luận đồ thị trong Gremlin hoặc SPARQL. Trong ví dụ của chúng tôi, bây giờ chúng tôi có thể kiểm tra đề xuất bạn bè với Neptune ML trên Người dùng “Henry”. Nó yêu cầu cú pháp gần như giống nhau để duyệt qua cạnh và nó liệt kê những Người dùng khác được kết nối với Henry thông qua kết nối FRIEND.

%%gremlin
g.with("Neptune#ml.endpoint","${endpoint_name}"). V().hasLabel('User').has('name', 'Henry'). out('FRIEND').with("Neptune#ml.prediction").hasLabel('User').values('name') Console: 1 Bill

Neptune#ml.prediction trả về kết nối được xác định bởi các dự đoán ML của Neptune bằng cách sử dụng mô hình mà chúng tôi vừa đào tạo trên biểu đồ xã hội. Hóa đơn được trả lại đúng như mong đợi của chúng tôi.

Dưới đây là một truy vấn dự đoán mẫu khác được sử dụng để dự đoán tám người dùng hàng đầu có nhiều khả năng kết nối với Henry nhất:

%%gremlin
g.with("Neptune#ml.endpoint","${endpoint_name}").
with("Neptune#ml.limit",8).V().hasLabel('User').has('name', 'Henry').
out('FRIEND').with("Neptune#ml.prediction").hasLabel('User').values('name') Console: 1 Bill, 2 Colin, 3 Sarah, 4 Gordon, 5 Mary, 6 Josie, 7 Arnold, 8 Terry

Kết quả được xếp hạng từ kết nối mạnh hơn đến yếu hơn, trong đó liên kết Henry — FRIEND — Colin and Henry — FRIEND — Terry cũng được đề xuất. Đề xuất này thông qua ML dựa trên đồ thị, nơi có thể khám phá các mẫu tương tác phức tạp trên đồ thị.

Xem Truy vấn suy luận Gremlin trong Neptune ML để biết thêm thông tin chi tiết.

Chuyển đổi hoặc đào tạo lại mô hình khi dữ liệu biểu đồ thay đổi

Một câu hỏi khác mà bạn có thể hỏi là: điều gì sẽ xảy ra nếu mạng xã hội của tôi thay đổi hoặc nếu tôi muốn đưa ra đề xuất cho những người dùng mới được thêm vào? Trong những trường hợp này, nơi bạn có biểu đồ thay đổi liên tục, bạn có thể cần cập nhật các dự đoán ML với dữ liệu biểu đồ mới nhất. Các tạo tác mô hình được tạo ra sau khi đào tạo được gắn trực tiếp với biểu đồ đào tạo. Điều này có nghĩa là điểm cuối suy luận phải được cập nhật khi các thực thể trong biểu đồ huấn luyện ban đầu thay đổi.

Tuy nhiên, bạn không cần phải đào tạo lại toàn bộ mô hình để đưa ra dự đoán trên biểu đồ được cập nhật. Với dòng công việc suy luận mô hình gia tăng, bạn chỉ cần xuất dữ liệu Neptune DB, thực hiện tiền xử lý dữ liệu gia tăng, chạy công việc biến đổi hàng loạt mô hình, rồi cập nhật điểm cuối suy luận. Bước chuyển đổi mô hình lấy mô hình được đào tạo từ quy trình làm việc chính và kết quả của bước tiền xử lý dữ liệu gia tăng làm đầu vào. Sau đó, nó xuất ra một tạo tác mô hình mới để sử dụng cho việc suy luận. Tạo tác mô hình mới này được tạo từ dữ liệu biểu đồ cập nhật.

Một trọng tâm đặc biệt ở đây là dành cho lệnh bước chuyển đổi mô hình. Nó có thể tính toán các tạo tác mô hình trên dữ liệu đồ thị không được sử dụng để đào tạo mô hình. Các thao tác nhúng nút được tính toán lại và mọi thao tác nhúng nút hiện có đều bị ghi đè. Neptune ML áp dụng bộ mã hóa GNN đã học từ mô hình được đào tạo trước đó cho các nút dữ liệu biểu đồ mới với các tính năng mới của chúng. Do đó, dữ liệu biểu đồ mới phải được xử lý bằng cách sử dụng cùng một mã hóa tính năng và nó phải tuân theo cùng một lược đồ biểu đồ như dữ liệu biểu đồ ban đầu. Xem thêm chi tiết triển khai Neptune ML tại Tạo tạo tác mô hình mới.

Hơn nữa, bạn có thể đào tạo lại toàn bộ mô hình nếu biểu đồ thay đổi đáng kể hoặc nếu mô hình được đào tạo trước đó không còn thể hiện chính xác các tương tác cơ bản. Trong trường hợp này, việc sử dụng lại các tham số mô hình đã học trên một đồ thị mới không thể đảm bảo hiệu suất mô hình tương tự. Bạn phải đào tạo lại mô hình của mình trên biểu đồ mới. Để tăng tốc tìm kiếm siêu tham số, Neptune ML có thể tận dụng thông tin từ nhiệm vụ huấn luyện mô hình trước đó với khởi đầu ấm áp: kết quả của các công việc huấn luyện trước đó được sử dụng để chọn kết hợp tốt các siêu tham số để tìm kiếm công việc điều chỉnh mới.

Xem quy trình công việc để xử lý dữ liệu biểu đồ đang phát triển để biết thêm chi tiết.

Kết luận

Trong bài đăng này, bạn đã thấy cách Neptune ML và GNN có thể giúp bạn đưa ra đề xuất về dữ liệu biểu đồ bằng cách sử dụng nhiệm vụ dự đoán liên kết bằng cách kết hợp thông tin từ các mẫu tương tác phức tạp trong biểu đồ.

Dự đoán liên kết là một cách triển khai hệ thống đề xuất trên biểu đồ. Bạn có thể xây dựng đề xuất của mình theo nhiều cách khác. Bạn có thể sử dụng các phép nhúng đã học trong quá trình đào tạo dự đoán liên kết để phân cụm các nút thành các phân đoạn khác nhau theo cách không được giám sát và đề xuất các mục cho nút thuộc cùng một phân đoạn. Hơn nữa, bạn có thể lấy các bản nhúng và đưa chúng vào hệ thống đề xuất dựa trên độ tương tự ở hạ lưu như một tính năng đầu vào. Giờ đây, tính năng đầu vào bổ sung này cũng mã hóa thông tin ngữ nghĩa thu được từ biểu đồ và có thể cung cấp những cải tiến đáng kể cho độ chính xác tổng thể của hệ thống. Tìm hiểu thêm về Amazon Neptune ML bằng cách truy cập vào trang mạng hoặc cảm thấy tự do để đặt câu hỏi trong các ý kiến!

Về các tác giả

Yến Vệ Thôi, Tiến sĩ, là Kiến trúc sư Giải pháp Chuyên gia về Học máy tại AWS. Anh bắt đầu nghiên cứu máy học tại IRISA (Viện Nghiên cứu Khoa học Máy tính và Hệ thống Ngẫu nhiên), và có nhiều năm kinh nghiệm xây dựng các ứng dụng công nghiệp hỗ trợ trí tuệ nhân tạo trong thị giác máy tính, xử lý ngôn ngữ tự nhiên và dự đoán hành vi người dùng trực tuyến. Tại AWS, anh ấy chia sẻ kiến thức chuyên môn về miền và giúp khách hàng khai phá tiềm năng kinh doanh cũng như thúc đẩy kết quả có thể thực hiện được với công nghệ máy học trên quy mô lớn. Ngoài công việc, anh ấy thích đọc sách và đi du lịch.

Will Badr là Chuyên gia chính về AI / ML SA, người làm việc như một phần của nhóm Học máy Amazon toàn cầu. Will đam mê sử dụng công nghệ theo những cách sáng tạo để tác động tích cực đến cộng đồng. Khi rảnh rỗi, anh ấy thích đi lặn biển, đá bóng và khám phá các quần đảo Thái Bình Dương.

Nguồn: https://aws.amazon.com/blogs/machine-learning/graph-based-recommendation-system-with-neptune-ml-an-illustration-on-social-network-link-prediction-challenges/

Dấu thời gian: 12 Tháng một, 2022

Dấu thời gian: Tháng Sáu 10, 2021

Được xuất bản lại bởi Plato

Cấu hình xuất dữ liệu

Tiền xử lý dữ liệu

Đào tạo người mẫu

Tạo điểm cuối suy luận trong Amazon SageMaker

Truy vấn mô hình ML bằng Gremlin

Ước tính tư thế 3D để theo dõi vận động viên bằng video 2D và Amazon SageMaker Studio

Giới thiệu về Cộng đồng AWS ML: ấn bản tháng 2021 năm XNUMX

Thực hiện xử lý dữ liệu tương tác bằng Spark trong Amazon SageMaker Studio Notebooks

Đơn giản hóa và tự động hóa phát hiện bất thường trong truyền dữ liệu với Amazon Lookout for Metrics

Xử lý dữ liệu Amazon Redshift và lên lịch đào tạo với Amazon SageMaker Processing và Amazon SageMaker Pipelines

Tăng tốc đào tạo thị giác máy tính bằng cách sử dụng tiền xử lý GPU với NVIDIA DALI trên Amazon SageMaker

Chạy suy luận ML trên AWS Snowball Edge với Amazon SageMaker Edge Manager và AWS IoT Greengrass

Tích hợp Amazon Polly với các hệ thống IVR cũ bằng cách chuyển đổi đầu ra sang định dạng WAV

Phân tích các mô hình quy trình ML mã nguồn mở trong thời gian thực bằng Trình gỡ lỗi Amazon SageMaker

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản