Cách mạng hóa việc sáng tạo trên Roblox với AI sáng tạo - Blog Roblox

Cách mạng hóa việc sáng tạo trên Roblox với AI sáng tạo – Blog Roblox

Nút nguồn: 2874293

Đầu năm nay, chúng tôi đã chia sẻ tầm nhìn về trí tuệ nhân tạo tổng hợp (AI) trên Roblox và các công cụ mới trực quan sẽ cho phép mọi người dùng trở thành người sáng tạo. Khi các công cụ này phát triển nhanh chóng trong toàn ngành, tôi muốn cung cấp một số thông tin cập nhật về tiến độ chúng tôi đã đạt được, con đường vẫn còn phía trước để dân chủ hóa việc tạo ra AI tổng quát và lý do tại sao chúng tôi cho rằng AI tổng quát là một yếu tố quan trọng cho mục tiêu mà Roblox đang hướng tới. 

Những tiến bộ trong AI tổng quát và mô hình ngôn ngữ lớn (LLM) mang đến cơ hội đáng kinh ngạc để mở ra tương lai của những trải nghiệm sống động bằng cách cho phép sáng tạo dễ dàng hơn, nhanh hơn trong khi vẫn duy trì sự an toàn và không yêu cầu tài nguyên điện toán lớn. Hơn nữa, những tiến bộ trong mô hình AI đa phương thức, nghĩa là chúng được đào tạo với nhiều loại nội dung—chẳng hạn như hình ảnh, mã, văn bản, mô hình 3D và âm thanh—mở ra cơ hội cho những tiến bộ mới trong các công cụ sáng tạo. Những mô hình tương tự này cũng đang bắt đầu tạo ra đầu ra đa phương thức, chẳng hạn như mô hình có thể tạo đầu ra văn bản cũng như một số hình ảnh bổ sung cho văn bản. Chúng tôi coi những đột phá về AI này là một cơ hội to lớn để đồng thời nâng cao hiệu quả cho những người sáng tạo có kinh nghiệm hơn và cho phép nhiều người hơn nữa biến những ý tưởng tuyệt vời thành hiện thực trên Roblox. Tại năm nay Hội nghị các nhà phát triển Roblox (RDC), chúng tôi đã công bố một số công cụ mới sẽ đưa AI tổng hợp vào Roblox Studio và hơn thế nữa để giúp bất kỳ ai trên quy mô Roblox nhanh hơn, lặp lại nhanh hơn và nâng cao kỹ năng của họ để tạo ra nội dung tốt hơn nữa. 

Trợ lý Roblox

Roblox luôn cung cấp cho người sáng tạo những công cụ, dịch vụhỗ trợ họ cần xây dựng trải nghiệm 3D sống động. Đồng thời, chúng tôi nhận thấy những người sáng tạo của mình bắt đầu sử dụng AI có khả năng trò chuyện và tổng hợp của bên thứ ba để giúp họ sáng tạo. Mặc dù chúng hữu ích trong việc giúp giảm khối lượng công việc của người sáng tạo, nhưng các phiên bản có sẵn này không được thiết kế cho quy trình làm việc Roblox từ đầu đến cuối hoặc được đào tạo về mã Roblox, tiếng lóng và biệt ngữ. Điều đó có nghĩa là người sáng tạo phải đối mặt với công việc bổ sung đáng kể để sử dụng các phiên bản này nhằm tạo nội dung cho Roblox. Chúng tôi đang nỗ lực tìm cách mang lại giá trị của những công cụ này vào Roblox Studio và tại RDC, chúng tôi đã chia sẻ một ví dụ ban đầu về Trợ lý.

Trợ lý là AI đàm thoại của chúng tôi, cho phép người sáng tạo ở mọi cấp độ kỹ năng dành ít thời gian hơn đáng kể cho các nhiệm vụ nhàm chán, lặp đi lặp lại liên quan đến việc sáng tạo và có nhiều thời gian hơn cho các hoạt động có giá trị cao, như kể chuyện, chơi trò chơi và thiết kế trải nghiệm. Roblox có vị trí độc đáo để xây dựng mô hình AI đàm thoại này cho thế giới 3D sống động, nhờ khả năng truy cập của chúng tôi vào một tập hợp lớn các mô hình 3D công khai để đào tạo, khả năng tích hợp mô hình với API nền tảng của chúng tôi và bộ giải pháp AI cải tiến đang phát triển của chúng tôi . Người sáng tạo sẽ có thể sử dụng lời nhắc văn bản bằng ngôn ngữ tự nhiên để tạo cảnh, chỉnh sửa mô hình 3D và áp dụng các hành vi tương tác cho các đối tượng. Trợ lý sẽ hỗ trợ ba giai đoạn sáng tạo: học tập, mã hóa và xây dựng:

  • Học tập: Cho dù người sáng tạo là người mới bắt đầu phát triển trên Roblox hay là một cựu chiến binh dày dạn kinh nghiệm, Trợ lý Roblox sẽ giúp trả lời các câu hỏi trên nhiều nền tảng bằng ngôn ngữ tự nhiên. 
  • Mã hóa: Trợ lý sẽ mở rộng trên tính năng gần đây của chúng tôi Hỗ trợ mã dụng cụ. Ví dụ: nhà phát triển có thể yêu cầu Trợ lý cải thiện mã của họ, giải thích một phần mã hoặc giúp gỡ lỗi và đề xuất các bản sửa lỗi cho mã không hoạt động bình thường.
  • Xây dựng: Trợ lý sẽ giúp người sáng tạo nhanh chóng tạo ra những ý tưởng mới. Ví dụ: người sáng tạo mới có thể tạo toàn bộ cảnh và thử các phiên bản khác nhau chỉ bằng cách nhập lời nhắc như “Thêm một số đèn đường dọc theo con đường này” hoặc “Tạo một khu rừng với các loại cây khác nhau. Bây giờ hãy thêm một số bụi cây và hoa.”

Làm việc với Trợ lý sẽ mang tính cộng tác, tương tác và lặp đi lặp lại, cho phép người sáng tạo đưa ra phản hồi và yêu cầu Trợ lý làm việc để cung cấp giải pháp phù hợp. Nó sẽ giống như có một đối tác là một người sáng tạo chuyên nghiệp mà bạn có thể đưa ra các ý tưởng và thử nghiệm các ý tưởng cho đến khi thành công.

frameborder=”0″ allow=”gia tốc kế; tự chạy; ghi tạm; phương tiện được mã hóa; con quay hồi chuyển; hình ảnh trong ảnh; chia sẻ web” cho phép toàn màn hình>

Để giúp Trợ lý trở thành đối tác tốt nhất có thể, chúng tôi đã đưa ra một thông báo khác tại RDC: Chúng tôi đã mời các nhà phát triển tham gia chọn tham gia để đóng góp dữ liệu tập lệnh Luau ẩn danh của họ. Dữ liệu tập lệnh này sẽ giúp làm cho các công cụ AI của chúng tôi, như Code Assist và Assistant, tốt hơn đáng kể trong việc đề xuất và tạo mã hiệu quả hơn, mang lại lợi ích cho các nhà phát triển Roblox sử dụng chúng. Hơn nữa, nếu các nhà phát triển chọn chia sẻ ngoài Roblox, dữ liệu tập lệnh của họ sẽ được thêm vào tập dữ liệu được cung cấp cho bên thứ ba để đào tạo các công cụ trò chuyện AI của họ đề xuất mã Luau tốt hơn, trả lại cho các nhà phát triển Luau ở mọi nơi.

Nói rõ hơn, thông qua nghiên cứu toàn diện về người dùng và các cuộc trò chuyện minh bạch với các nhà phát triển hàng đầu, chúng tôi đã thiết kế chương trình này để chọn tham gia và sẽ giúp đảm bảo rằng tất cả người tham gia đều hiểu và đồng ý với những yêu cầu của chương trình. Để cảm ơn những người chọn tham gia chia sẻ dữ liệu tập lệnh với Roblox, chúng tôi sẽ cấp quyền truy cập vào các phiên bản Trợ lý và Hỗ trợ mã mạnh mẽ hơn được cung cấp bởi mô hình do cộng đồng đào tạo này. Những người chưa chọn tham gia sẽ tiếp tục có quyền truy cập vào phiên bản Trợ lý và Hỗ trợ mã hiện có của chúng tôi.

Tạo Avatar dễ dàng hơn 

Cuối cùng, chúng tôi muốn mỗi người trong số 65.5 triệu người dùng hàng ngày của mình có một hình đại diện thực sự đại diện cho họ và thể hiện họ là ai. Gần đây chúng tôi đã phát hành khả năng cho các thành viên Chương trình UGC của mình tạo và bán cả thân avatar và đầu độc lập. Ngày nay, quy trình đó yêu cầu quyền truy cập vào Studio hoặc Chương trình UGC của chúng tôi, trình độ kỹ năng khá cao và nhiều ngày làm việc để có thể biểu hiện khuôn mặt, chuyển động cơ thể, tạo mô hình 3D, v.v. Điều này khiến hình đại diện tốn nhiều thời gian để tạo và phải ngày, giới hạn số lượng tùy chọn có sẵn. Chúng tôi muốn đi xa hơn nữa.

Để cho phép mọi người trên Roblox có hình đại diện được cá nhân hóa và biểu cảm, chúng tôi cần tạo hình đại diện thật dễ dàng để tạo và tùy chỉnh. Tại RDC, chúng tôi đã công bố một công cụ mới sẽ phát hành vào năm 2024. Công cụ này sẽ cho phép dễ dàng tạo hình đại diện tùy chỉnh từ một hình ảnh hoặc từ nhiều hình ảnh. Với công cụ này, bất kỳ người sáng tạo nào có quyền truy cập vào Studio hoặc chương trình UGC của chúng tôi đều có thể tải hình ảnh lên, tạo hình đại diện cho họ và sau đó sửa đổi hình ảnh đó theo ý muốn. Về lâu dài, chúng tôi dự định cũng sẽ cung cấp tính năng này trực tiếp trong các trải nghiệm trên Roblox.

Để thực hiện điều này, chúng tôi đang đào tạo các mô hình AI trên lược đồ hình đại diện của Roblox và một bộ mô hình hình đại diện 3D do Roblox sở hữu. Một cách tiếp cận thúc đẩy nghiên cứu để tạo hình đại diện cách điệu 3D từ hình ảnh 2D. Chúng tôi cũng đang xem xét sử dụng các mô hình khuếch tán văn bản thành hình ảnh được đào tạo trước để tăng cường dữ liệu đào tạo 3D hạn chế bằng kỹ thuật tạo 2D và sử dụng mạng tạo 3D dựa trên mạng đối thủ tổng quát (GAN) để đào tạo. Cuối cùng, chúng tôi đang nghiên cứu cách sử dụng Kiểm soátNet sắp xếp các tư thế được xác định trước để hướng dẫn các hình ảnh có nhiều góc nhìn của hình đại diện. 

Quá trình này tạo ra lưới 3D cho hình đại diện. Tiếp theo, chúng tôi tận dụng 3D nghiên cứu phân đoạn ngữ nghĩa, được đào tạo về các tư thế hình đại diện 3D, để lấy lưới 3D đó và điều chỉnh nó để thêm các đặc điểm khuôn mặt, lồng, gian lận và kết cấu phù hợp, về bản chất, biến lưới 3D tĩnh thành hình đại diện Roblox. Cuối cùng, một công cụ chỉnh sửa lưới cho phép người dùng biến hình và điều chỉnh mô hình để làm cho nó trông giống phiên bản mà họ đang tưởng tượng hơn. Và tất cả điều này diễn ra nhanh chóng—trong vòng vài phút—tạo ra một hình đại diện mới có thể được nhập vào Roblox và sử dụng trong trải nghiệm.

frameborder=”0″ allow=”gia tốc kế; tự chạy; ghi tạm; phương tiện được mã hóa; con quay hồi chuyển; hình ảnh trong ảnh; chia sẻ web” cho phép toàn màn hình>

Kiểm duyệt giao tiếp bằng giọng nói

AI đối với chúng tôi không chỉ là sự sáng tạo mà còn là một hệ thống hiệu quả hơn nhiều để đảm bảo một cộng đồng đa dạng, an toàn và dân sự trên quy mô lớn. Khi chúng tôi bắt đầu triển khai các tính năng giọng nói mới, bao gồm trò chuyện thoại và Roblox Connect, tính năng gọi điện mới làm tính năng hình đại diện của bạn và các API được công bố tại RDC, chúng tôi phải đối mặt với một thách thức mới—kiểm duyệt ngôn ngữ nói trong thời gian thực. Tiêu chuẩn công nghiệp hiện tại cho việc này là một quy trình được gọi là Nhận dạng giọng nói tự động (ASR), về cơ bản lấy một tệp âm thanh, phiên âm nó để chuyển đổi thành văn bản, sau đó phân tích văn bản để tìm ngôn ngữ, từ khóa không phù hợp, v.v. 

Điều này phù hợp với những công ty sử dụng nó ở quy mô nhỏ hơn, nhưng khi chúng tôi khám phá việc sử dụng cùng quy trình ASR này để kiểm duyệt giao tiếp bằng giọng nói, chúng tôi nhanh chóng nhận ra rằng điều đó khó khăn và không hiệu quả ở quy mô của chúng tôi. Cách tiếp cận này cũng làm mất đi thông tin vô cùng quý giá được mã hóa bằng âm lượng và giọng điệu của người nói cũng như bối cảnh rộng hơn của cuộc trò chuyện. Trong hàng triệu phút trò chuyện mà chúng ta phải ghi lại mỗi ngày, bằng các ngôn ngữ khác nhau, chỉ một tỷ lệ rất nhỏ thậm chí có thể nghe như điều gì đó không phù hợp. Và khi chúng tôi tiếp tục mở rộng quy mô, hệ thống đó sẽ ngày càng đòi hỏi nhiều sức mạnh tính toán hơn để theo kịp. Vì vậy, chúng tôi đã xem xét kỹ hơn cách có thể thực hiện việc này hiệu quả hơn bằng cách xây dựng một quy trình đi trực tiếp từ âm thanh trực tiếp đến gắn nhãn nội dung để cho biết liệu nội dung đó có vi phạm chính sách của chúng tôi hay không.

Cuối cùng, chúng tôi đã có thể xây dựng hệ thống phát hiện giọng nói tùy chỉnh nội bộ bằng cách sử dụng ASR để phân loại các bộ dữ liệu giọng nói nội bộ của mình, sau đó sử dụng dữ liệu giọng nói đã phân loại đó để huấn luyện hệ thống. Cụ thể hơn, để đào tạo hệ thống mới này, chúng tôi bắt đầu bằng âm thanh và tạo bản ghi. Sau đó, chúng tôi chạy bản ghi thông qua hệ thống lọc văn bản Roblox để phân loại âm thanh. Hệ thống lọc văn bản này rất hữu ích trong việc phát hiện ngôn ngữ vi phạm chính sách trên Roblox vì chúng tôi đã tối ưu hóa hệ thống lọc tương tự này trong nhiều năm đối với tiếng lóng, từ viết tắt và biệt ngữ dành riêng cho Roblox. Khi kết thúc các lớp đào tạo này, chúng tôi có một mô hình có khả năng phát hiện các vi phạm chính sách trực tiếp từ âm thanh trong thời gian thực.

Mặc dù hệ thống này có khả năng phát hiện các từ khóa cụ thể như ngôn từ tục tĩu nhưng vi phạm chính sách hiếm khi chỉ là một từ. Một từ thường có vẻ có vấn đề trong một ngữ cảnh nhưng lại phù hợp trong một ngữ cảnh khác. Về cơ bản, những loại vi phạm này liên quan đến nội dung bạn đang nói, cách bạn nói và bối cảnh đưa ra tuyên bố đó.

Để hiểu rõ hơn về bối cảnh, chúng tôi tận dụng sức mạnh vốn có của kiến ​​trúc dựa trên máy biến áp, vốn rất hiệu quả trong việc tóm tắt trình tự. Nó có thể lấy một chuỗi dữ liệu, chẳng hạn như luồng âm thanh và tóm tắt dữ liệu đó cho bạn. Kiến trúc này cho phép chúng tôi duy trì chuỗi âm thanh dài hơn để có thể phát hiện không chỉ các từ mà còn cả ngữ cảnh và ngữ điệu. Khi tất cả các yếu tố này kết hợp với nhau, chúng tôi có một hệ thống cuối cùng trong đó đầu vào là âm thanh và đầu ra là phân loại—vi phạm chính sách hoặc không. Hệ thống này có thể phát hiện các từ khóa và cụm từ vi phạm chính sách cũng như giọng điệu, cảm xúc và ngữ cảnh khác quan trọng để xác định ý định. Hệ thống mới này, phát hiện lời nói vi phạm chính sách trực tiếp từ âm thanh, có hiệu suất tính toán cao hơn đáng kể so với hệ thống ASR truyền thống, giúp mở rộng quy mô dễ dàng hơn nhiều khi chúng tôi tiếp tục hình dung lại cách mọi người kết hợp với nhau.

Chúng tôi cũng cần một cách mới để cảnh báo những người sử dụng công cụ giao tiếp bằng giọng nói của chúng tôi về những hậu quả tiềm ẩn của loại ngôn ngữ này. Với hệ thống phát hiện cải tiến này, chúng tôi hiện đang thử nghiệm các cách tác động đến hành vi trực tuyến để duy trì một môi trường an toàn. Chúng tôi biết rằng đôi khi mọi người vô tình vi phạm chính sách của chúng tôi và chúng tôi muốn tìm hiểu xem liệu việc nhắc nhở không thường xuyên có thể giúp ngăn chặn các hành vi vi phạm tiếp theo hay không. Để giải quyết vấn đề này, chúng tôi đang thử nghiệm phản hồi của người dùng theo thời gian thực thông qua thông báo. Nếu hệ thống phát hiện thấy bạn đã nói điều gì đó vi phạm chính sách của chúng tôi nhiều lần, chúng tôi sẽ hiển thị thông báo bật lên trên màn hình cho bạn biết rằng ngôn ngữ của bạn vi phạm chính sách của chúng tôi và hướng bạn đến chính sách của chúng tôi để biết thêm thông tin.

Tuy nhiên, thông báo luồng giọng nói chỉ là một yếu tố của hệ thống kiểm duyệt. Chúng tôi cũng xem xét các mô hình hành vi trên nền tảng cũng như khiếu nại của những người khác trên Roblox để đưa ra các quyết định kiểm duyệt chung của chúng tôi. Việc tổng hợp các tín hiệu này có thể dẫn đến hậu quả nặng nề hơn, bao gồm cả việc bị thu hồi quyền truy cập vào các tính năng âm thanh hoặc đối với những vi phạm nghiêm trọng hơn, bị cấm hoàn toàn khỏi nền tảng. Việc giữ cho cộng đồng của chúng ta an toàn và văn minh là rất quan trọng vì những tiến bộ này trong các mô hình AI đa phương thức, AI tổng quát và LLM kết hợp với nhau để tạo ra các công cụ và khả năng mới đáng kinh ngạc cho người sáng tạo. 

Chúng tôi tin rằng việc cung cấp cho người sáng tạo những công cụ này sẽ vừa hạ thấp rào cản gia nhập đối với những người sáng tạo ít kinh nghiệm hơn vừa giúp những người sáng tạo có kinh nghiệm hơn thoát khỏi những nhiệm vụ tẻ nhạt hơn của quy trình này. Điều này sẽ cho phép họ dành nhiều thời gian hơn cho các khía cạnh sáng tạo của việc điều chỉnh và lên ý tưởng. Mục tiêu của chúng tôi với tất cả những điều này là cho phép mọi người, ở mọi nơi biến ý tưởng của họ thành hiện thực và tăng đáng kể tính đa dạng của hình đại diện, vật phẩm và trải nghiệm có sẵn trên Roblox. Chúng tôi cũng vậy chia sẻ thông tin và công cụ để giúp bảo vệ những sáng tạo mới

Chúng tôi đã tưởng tượng ra những khả năng đáng kinh ngạc: Giả sử ai đó có thể tạo hình đại diện doppelganger trực tiếp từ một bức ảnh, sau đó họ có thể tùy chỉnh hình đại diện của mình để khiến họ cao hơn hoặc hiển thị chúng theo phong cách anime. Hoặc họ có thể xây dựng trải nghiệm bằng cách yêu cầu Trợ lý thêm ô tô, tòa nhà và phong cảnh, đặt điều kiện ánh sáng hoặc gió hay thay đổi địa hình. Từ đó, họ có thể lặp lại để tinh chỉnh mọi thứ chỉ bằng cách gõ qua lại bằng Trợ lý. Chúng tôi biết thực tế những gì mọi người tạo ra bằng những công cụ này, khi chúng có sẵn, sẽ vượt xa những gì chúng tôi có thể tưởng tượng.

Dấu thời gian:

Thêm từ ROBLOX