Inside The Tech - Giải quyết vấn đề an toàn trong giao tiếp bằng giọng nói đắm chìm - Blog Roblox

Được xuất bản lại bởi Plato

Người theo dõi: 0

Inside the Tech là một chuỗi blog đi kèm với chúng tôi Podcast nói chuyện công nghệ. Trong tập 20 của podcast, Sự phát triển của hình đại diện Roblox, Giám đốc điều hành Roblox David Baszucki đã nói chuyện với Giám đốc kỹ thuật cấp cao Kiran Bhat, Giám đốc cấp cao sản phẩm Mahesh Ramasubramanian và Giám đốc sản phẩm chính Effie Goenawan, về tương lai của truyền thông nhập vai thông qua hình đại diện và những thách thức kỹ thuật mà chúng tôi đang giải quyết để hỗ trợ nó. Trong ấn bản Inside the Tech này, chúng tôi đã trò chuyện với Giám đốc kỹ thuật cấp cao Andrew Portner để tìm hiểu thêm về một trong những thách thức kỹ thuật đó, sự an toàn trong giao tiếp bằng giọng nói sống động và cách công việc của nhóm đang giúp thúc đẩy một môi trường kỹ thuật số dân sự và an toàn cho tất cả mọi người trên nền tảng của chúng tôi.

Những thách thức kỹ thuật lớn nhất mà nhóm của bạn đang gặp phải là gì?

Chúng tôi ưu tiên duy trì trải nghiệm an toàn và tích cực cho người dùng của mình. An toàn và văn minh luôn là điều chúng tôi quan tâm hàng đầu nhưng việc xử lý nó trong thời gian thực có thể là một thách thức lớn về mặt kỹ thuật. Bất cứ khi nào có vấn đề, chúng tôi đều muốn có thể xem xét vấn đề đó và thực hiện hành động trong thời gian thực, nhưng đây là một thách thức đối với quy mô của chúng tôi. Để xử lý quy mô này một cách hiệu quả, chúng ta cần tận dụng các hệ thống an toàn tự động.

Một thách thức kỹ thuật khác mà chúng tôi đang tập trung vào là tính chính xác của các biện pháp an toàn để kiểm duyệt. Có hai phương pháp kiểm duyệt để giải quyết các vi phạm chính sách và cung cấp phản hồi chính xác theo thời gian thực: kiểm duyệt phản ứng và chủ động. Để kiểm duyệt phản ứng, chúng tôi đang phát triển các mô hình máy học (ML) để xác định chính xác các loại vi phạm chính sách khác nhau. Mô hình này hoạt động bằng cách phản hồi các báo cáo từ những người trên nền tảng. Một cách chủ động, chúng tôi đang nỗ lực phát hiện các tiềm năng theo thời gian thực nội dung vi phạm chính sách của chúng tôi, giáo dục người dùng về hành vi của họ. Hiểu lời nói và cải thiện chất lượng âm thanh là một quá trình phức tạp. Chúng tôi đã thấy sự tiến bộ nhưng mục tiêu cuối cùng của chúng tôi là có một mô hình có độ chính xác cao có thể phát hiện hành vi vi phạm chính sách trong thời gian thực.

Một số phương pháp tiếp cận và giải pháp đổi mới mà chúng tôi đang sử dụng để giải quyết những thách thức kỹ thuật này là gì?

Chúng tôi đã phát triển một mô hình ML toàn diện có thể phân tích dữ liệu âm thanh và cung cấp mức độ tin cậy dựa trên loại vi phạm chính sách (ví dụ: khả năng xảy ra hành vi bắt nạt, ngôn từ tục tĩu, v.v.). Mô hình này đã cải thiện đáng kể khả năng tự động đóng các báo cáo nhất định của chúng tôi. Chúng tôi hành động khi mô hình của chúng tôi tự tin và có thể chắc chắn rằng nó hoạt động tốt hơn con người. Chỉ trong vòng vài tháng sau khi ra mắt, chúng tôi đã có thể kiểm duyệt hầu hết các báo cáo lạm dụng giọng nói bằng tiếng Anh bằng mô hình này. Chúng tôi đã phát triển những mô hình này nội bộ và đó là minh chứng cho sự hợp tác giữa nhiều công nghệ nguồn mở và công việc của chính chúng tôi để tạo ra công nghệ đằng sau nó.

Việc xác định điều gì là phù hợp trong thời gian thực có vẻ khá phức tạp. Nó hoạt động như thế nào?

Có rất nhiều suy nghĩ được đưa vào để làm cho hệ thống nhận thức được theo ngữ cảnh. Chúng tôi cũng xem xét các khuôn mẫu theo thời gian trước khi hành động để có thể chắc chắn rằng hành động của mình là chính đáng. Chính sách của chúng tôi có nhiều sắc thái tùy thuộc vào độ tuổi của một người, cho dù họ đang ở trong không gian công cộng hay cuộc trò chuyện riêng tư và nhiều yếu tố khác. Chúng tôi đang khám phá những cách mới để thúc đẩy sự lịch sự trong thời gian thực và ML là trọng tâm của nó. Gần đây, chúng tôi đã triển khai thông báo đẩy tự động (hoặc “nhắc nhở”) để nhắc nhở người dùng về chính sách của chúng tôi. Chúng tôi cũng đang xem xét các yếu tố khác như giọng điệu để hiểu rõ hơn ý định của một người và phân biệt những điều như lời mỉa mai hoặc trò đùa. Cuối cùng, chúng tôi cũng đang xây dựng một mô hình đa ngôn ngữ vì một số người nói nhiều ngôn ngữ hoặc thậm chí chuyển đổi ngôn ngữ ở giữa câu. Để thực hiện được điều này, chúng ta phải có một mô hình chính xác.

Hiện tại, chúng tôi đang tập trung vào việc giải quyết các hình thức lạm dụng nổi bật nhất, chẳng hạn như quấy rối, phân biệt đối xử và thô tục. Những điều này chiếm phần lớn các báo cáo lạm dụng. Mục tiêu của chúng tôi là tạo ra tác động đáng kể trong các lĩnh vực này và đặt ra các tiêu chuẩn của ngành về việc quảng bá và duy trì cuộc trò chuyện trực tuyến dân sự sẽ như thế nào. Chúng tôi rất vui mừng về tiềm năng của việc sử dụng ML trong thời gian thực vì nó cho phép chúng tôi thúc đẩy một cách hiệu quả trải nghiệm an toàn và văn minh cho mọi người.

Những thách thức chúng tôi đang giải quyết tại Roblox độc đáo như thế nào? Chúng ta có thể giải quyết vấn đề gì trước tiên?

Của chúng tôi Trò chuyện bằng giọng nói không gian công nghệ tạo ra trải nghiệm sống động hơn, mô phỏng giao tiếp trong thế giới thực. Ví dụ: nếu tôi đứng bên trái ai đó, họ sẽ nghe thấy tôi bằng tai trái. Chúng tôi đang tạo ra một sự tương tự với cách hoạt động của giao tiếp trong thế giới thực và đây là một thách thức mà chúng tôi có thể giải quyết trước tiên.

Bản thân là một game thủ, tôi đã chứng kiến rất nhiều hành vi quấy rối và bắt nạt khi chơi game trực tuyến. Đó là một vấn đề thường không được kiểm tra do tính ẩn danh của người dùng và thiếu hậu quả. Tuy nhiên, những thách thức kỹ thuật mà chúng tôi đang giải quyết xung quanh vấn đề này là duy nhất so với những thách thức mà các nền tảng khác đang phải đối mặt trong một số lĩnh vực. Trên một số nền tảng chơi game, sự tương tác bị giới hạn ở các đồng đội. Roblox cung cấp nhiều cách khác nhau để trò chuyện trong môi trường xã hội mô phỏng gần hơn cuộc sống thực. Với những tiến bộ trong ML và xử lý tín hiệu thời gian thực, chúng tôi có thể phát hiện và giải quyết hiệu quả hành vi lạm dụng, điều đó có nghĩa là chúng tôi không chỉ là một môi trường thực tế hơn mà còn là môi trường nơi mọi người cảm thấy an toàn khi tương tác và kết nối với người khác. Sự kết hợp giữa công nghệ, nền tảng phong phú và cam kết giáo dục người dùng về các chính sách của chúng tôi giúp chúng tôi có thể giải quyết trực tiếp những thách thức này.

Một số điều quan trọng mà bạn đã học được khi thực hiện công việc kỹ thuật này là gì?

Tôi cảm thấy như mình đã học được rất nhiều điều. Tôi không phải là kỹ sư ML. Tôi chủ yếu làm việc ở lĩnh vực giao diện người dùng trong lĩnh vực chơi game nên việc có thể tìm hiểu sâu hơn về cách thức hoạt động của các mô hình này là rất lớn. Tôi hy vọng rằng những hành động mà chúng tôi đang thực hiện để thúc đẩy sự lịch sự sẽ chuyển thành mức độ đồng cảm mà cộng đồng trực tuyến đang thiếu.

Một điều cuối cùng cần biết là mọi thứ đều phụ thuộc vào dữ liệu huấn luyện bạn đưa vào. Và để dữ liệu chính xác, con người phải đồng ý về các nhãn được sử dụng để phân loại một số hành vi vi phạm chính sách nhất định. Điều thực sự quan trọng là đào tạo về dữ liệu chất lượng mà mọi người đều có thể đồng ý. Đó thực sự là một vấn đề khó giải quyết. Bạn bắt đầu thấy những lĩnh vực mà ML đang đi trước mọi thứ khác, và sau đó là những lĩnh vực khác mà nó vẫn đang ở giai đoạn đầu. Vẫn còn nhiều lĩnh vực mà ML vẫn đang phát triển, vì vậy điều quan trọng là nhận thức được giới hạn hiện tại của nó.

Nhóm của bạn phù hợp nhất với giá trị Roblox nào?

Tôn trọng cộng đồng là giá trị dẫn đường của chúng tôi trong suốt quá trình này. Đầu tiên, chúng ta cần tập trung vào việc cải thiện tính lịch sự và giảm thiểu các hành vi vi phạm chính sách trên nền tảng của mình. Điều này có tác động đáng kể đến trải nghiệm chung của người dùng. Thứ hai, chúng ta phải xem xét cẩn thận cách triển khai các tính năng mới này. Chúng ta cần lưu ý đến các kết quả dương tính giả (ví dụ: đánh dấu sai nội dung nào đó là lạm dụng) trong mô hình và tránh phạt người dùng không chính xác. Việc giám sát hiệu suất của các mô hình của chúng tôi và tác động của chúng đối với mức độ tương tác của người dùng là rất quan trọng.

Điều gì khiến bạn phấn khích nhất về nơi Roblox và nhóm của bạn đang hướng tới?

Chúng tôi đã đạt được tiến bộ đáng kể trong việc cải thiện giao tiếp bằng giọng nói công cộng, nhưng vẫn còn nhiều việc phải làm. Giao tiếp riêng tư là một lĩnh vực thú vị để khám phá. Tôi nghĩ rằng có một cơ hội lớn để cải thiện giao tiếp riêng tư, cho phép người dùng thể hiện bản thân với bạn bè thân thiết, thực hiện cuộc gọi thoại để trải nghiệm hoặc trong một trải nghiệm khi họ tương tác với bạn bè của mình. Tôi nghĩ cũng có cơ hội để thúc đẩy những cộng đồng này bằng các công cụ tốt hơn cho phép người dùng tự tổ chức, tham gia cộng đồng, chia sẻ nội dung và chia sẻ ý tưởng.

Khi chúng tôi tiếp tục phát triển, làm cách nào để mở rộng quy mô công nghệ trò chuyện của mình để hỗ trợ các cộng đồng đang mở rộng này? Chúng tôi chỉ đang sơ lược về rất nhiều điều chúng tôi có thể làm và tôi nghĩ có cơ hội cải thiện tính lịch sự trong giao tiếp và cộng tác trực tuyến trong toàn ngành theo cách chưa từng được thực hiện trước đây. Với công nghệ phù hợp và khả năng ML, chúng tôi đang ở vị thế đặc biệt để định hình tương lai của truyền thông dân sự trực tuyến.