Gặp gỡ SAM, công cụ phân đoạn hình ảnh AI mới của Meta xử lý các hình ảnh phức tạp cho bạn

Gặp gỡ SAM, công cụ phân đoạn hình ảnh AI mới của Meta xử lý các hình ảnh phức tạp cho bạn

Nút nguồn: 2568997

Mô hình Segment Anything mới của Meta đã được tiết lộ. Mô hình SAM là một cách mới để tạo mặt nạ chất lượng cao cho phân đoạn ảnh.

Nhắc nhở: Phân đoạn hình ảnh là một nhiệm vụ cơ bản trong thị giác máy tính nhằm mục đích phân vùng hình ảnh thành các vùng tương ứng với các đối tượng hoặc danh mục ngữ nghĩa khác nhau và có nhiều ứng dụng, chẳng hạn như phát hiện đối tượng, hiểu cảnh, chỉnh sửa hình ảnh và phân tích video.

Tuy nhiên, phân đoạn hình ảnh cũng là một vấn đề khó khăn, đặc biệt là khi xử lý các cảnh phức tạp chứa nhiều đối tượng có hình dạng, kích thước và hình thức khác nhau. Hơn nữa, hầu hết các phương pháp phân đoạn hình ảnh hiện tại đều yêu cầu một lượng lớn dữ liệu được chú thích để đào tạo, điều này có thể tốn kém và mất thời gian để có được. Meta muốn giải quyết vấn đề này bằng mô hình SAM.

Mô hình SAM: Mô hình Phân đoạn Bất cứ điều gì mới của Meta là gì?

Segment Anything Model (SAM) là một mô hình trí tuệ nhân tạo mới và mạnh mẽ, có thể phân đoạn bất kỳ đối tượng nào trong một hình ảnh hoặc video với chất lượng và hiệu quả cao. Phân đoạn là quá trình tách một đối tượng khỏi nền của nó hoặc các đối tượng khác và tạo mặt nạ phác thảo hình dạng và ranh giới của nó. Với mô hình SAM, các tác vụ chỉnh sửa, tổng hợp, theo dõi, nhận dạng và phân tích của bạn sẽ trở nên dễ dàng hơn.

Mô hình phân đoạn bất kỳ mới của Meta là gì: Tìm hiểu các tính năng của mô hình SAM và tìm hiểu cách sử dụng nó. Tiếp tục đọc và khám phá thêm.
Các thuật toán AI có thể giúp tự động hóa quá trình phân đoạn hình ảnh.

SAM khác với các mô hình phân đoạn khác theo một số cách, chẳng hạn như:

  • SAM có thể nhắc, có nghĩa là nó có thể nhận nhiều lời nhắc đầu vào khác nhau, chẳng hạn như điểm hoặc hộp, để chỉ định đối tượng nào cần phân đoạn. Ví dụ: bạn có thể vẽ một hộp xung quanh khuôn mặt của một người và Mô hình phân đoạn bất kỳ thứ gì sẽ tạo mặt nạ cho khuôn mặt. Bạn cũng có thể đưa ra nhiều lời nhắc để phân đoạn nhiều đối tượng cùng một lúc. Mô hình SAM có thể xử lý các cảnh phức tạp có che khuất, phản chiếu và bóng tối.
  • SAM được đào tạo trên một tập dữ liệu khổng lồ gồm 11 triệu hình ảnh và 1.1 tỷ mặt nạ, đây là tập dữ liệu phân đoạn lớn nhất cho đến nay. Bộ dữ liệu này bao gồm nhiều đối tượng và danh mục, chẳng hạn như động vật, thực vật, xe cộ, đồ nội thất, thực phẩm, v.v. SAM có thể phân đoạn các đối tượng mà nó chưa từng thấy trước đây nhờ khả năng tổng quát hóa và tính đa dạng của dữ liệu.
  • SAM có hiệu suất zero-shot mạnh mẽ trên nhiều tác vụ phân đoạn khác nhau. Zero-shot có nghĩa là SAM có thể phân đoạn các đối tượng mà không cần bất kỳ đào tạo bổ sung hoặc tinh chỉnh nào trên một nhiệm vụ hoặc miền cụ thể. Ví dụ: SAM có thể phân đoạn khuôn mặt, bàn tay, tóc, quần áo và phụ kiện mà không cần biết hoặc giám sát trước. SAM cũng có thể phân đoạn các đối tượng theo các phương thức khác nhau, chẳng hạn như hình ảnh hồng ngoại hoặc bản đồ độ sâu.

Mô hình SAM đạt được kết quả ấn tượng trên các điểm chuẩn phân đoạn hình ảnh khác nhau, chẳng hạn như COCO. SAM cũng hoạt động tốt hơn hoặc phù hợp với các phương pháp được giám sát đầy đủ trước đó đối với một số tác vụ phân đoạn không có ảnh chụp, chẳng hạn như phân đoạn logo, văn bản, khuôn mặt hoặc bản phác thảo. Nó thể hiện tính linh hoạt và mạnh mẽ của nó trên các lĩnh vực và tình huống khác nhau.

Trong tương lai: Dự án Segment Anything Model (mô hình SAM) vẫn còn trong những ngày đầu. Theo Meta, đây là một số ứng dụng trong tương lai của Mô hình Phân đoạn Bất cứ điều gì:

  • Kính AR trong tương lai có thể sử dụng SAM để nhận dạng các vật thể thông thường và cung cấp lời nhắc cũng như hướng dẫn hữu ích.
Mô hình phân đoạn bất kỳ mới của Meta là gì: Tìm hiểu các tính năng của mô hình SAM và tìm hiểu cách sử dụng nó. Tiếp tục đọc và khám phá thêm.
Các mô hình AI có thể phân tích dữ liệu hình ảnh để xác định và phân đoạn các đối tượng khác nhau trong một hình ảnh.
  • SAM có khả năng ảnh hưởng đến nhiều lĩnh vực khác, chẳng hạn như nông nghiệp và sinh học. Một ngày nào đó, nó thậm chí có thể mang lại lợi ích cho nông dân và các nhà khoa học.

Mô hình SAM có thể là một bước đột phá trong nghiên cứu thị giác máy tính và trí tuệ nhân tạo. Nó thể hiện tiềm năng của các mô hình nền tảng cho tầm nhìn, đó là những mô hình có thể học hỏi từ dữ liệu quy mô lớn và chuyển sang các nhiệm vụ và lĩnh vực mới.

Các tính năng của Mô hình Bất kỳ Phân đoạn (Mô hình SAM)

Dưới đây là một số khả năng của mô hình SAM:

  • Sử dụng mô hình SAM, người dùng có thể nhanh chóng và dễ dàng phân đoạn các đối tượng bằng cách chọn các điểm riêng lẻ để đưa vào hoặc loại bỏ khỏi quá trình phân đoạn. Một hộp ranh giới cũng có thể được sử dụng làm gợi ý cho mô hình.
  • Khi tồn tại sự không chắc chắn liên quan đến mục được phân đoạn, mô hình SAM có thể tạo ra nhiều mặt nạ hợp lệ, một kỹ năng quan trọng và thiết yếu để giải quyết vấn đề phân đoạn trong thế giới thực.
  • Tự động phát hiện và tạo mặt nạ cho đối tượng giờ đây trở nên đơn giản với Mô hình Phân đoạn Bất cứ điều gì.
  • Sau khi tính toán trước việc nhúng hình ảnh, Mô hình bất kỳ phân đoạn nào có thể cung cấp mặt nạ phân đoạn cho bất kỳ lời nhắc nào ngay lập tức, cho phép tương tác thời gian thực với mô hình.

Ấn tượng phải không? Vậy công nghệ đằng sau nó là gì?

Mô hình SAM hoạt động như thế nào?

Mô hình phân đoạn bất kỳ mới của Meta là gì: Tìm hiểu các tính năng của mô hình SAM và tìm hiểu cách sử dụng nó. Tiếp tục đọc và khám phá thêm.
Các thuật toán AI có thể giúp giảm lượng nhân công cần thiết cho việc phân đoạn hình ảnh.

Một trong những khám phá hấp dẫn nhất trong NLP và gần đây hơn là trong thị giác máy tính là việc sử dụng các phương pháp tiếp cận “nhắc nhở” để cho phép học tập từng bước và từng bước trên các bộ dữ liệu và nhiệm vụ mới bằng cách sử dụng các mô hình nền tảng. Meta tìm thấy động lực trong lĩnh vực này.

Nếu được cung cấp các điểm nền trước/nền, hộp thô hoặc mặt nạ, văn bản dạng tự do hoặc bất kỳ thông tin đầu vào nào khác cho biết nội dung cần phân đoạn trong một hình ảnh, nhóm Meta AI đã hướng dẫn Mô hình bất kỳ phân đoạn nào để tạo mặt nạ phân đoạn phù hợp. Nhu cầu về một chiếc khẩu trang phù hợp chỉ ngụ ý rằng đầu ra phải là một chiếc khẩu trang phù hợp cho một trong những thứ mà lời nhắc có thể đề cập đến (ví dụ: một điểm trên áo sơ mi có thể đại diện cho chiếc áo sơ mi hoặc người mặc nó). Nhiệm vụ này được sử dụng để đào tạo trước mô hình và để hướng dẫn giải pháp cho các vấn đề phân đoạn xuôi dòng chung.

Meta nhận thấy rằng nhiệm vụ đào tạo trước và thu thập dữ liệu tương tác đã đặt ra những hạn chế nhất định đối với việc xây dựng mô hình. Cụ thể, người chú thích của họ cần có khả năng sử dụng Mô hình bất kỳ phân đoạn nào trong trình duyệt, một cách tương tác, trong thời gian thực, trên CPU để nó có hiệu quả. Mặc dù thực tế là phải có một số thỏa hiệp giữa chất lượng và tốc độ để đáp ứng yêu cầu về thời gian chạy, nhưng họ phát hiện ra rằng một cách tiếp cận đơn giản sẽ tạo ra kết quả khả quan.

Mô hình phân đoạn bất kỳ mới của Meta là gì: Tìm hiểu các tính năng của mô hình SAM và tìm hiểu cách sử dụng nó. Tiếp tục đọc và khám phá thêm.
Phân đoạn hình ảnh do AI cung cấp có thể giúp tạo ra các môi trường ảo chân thực và chi tiết hơn cho mục đích chơi game hoặc mô phỏng.

Ở mặt sau, một bộ mã hóa hình ảnh tạo ra một nhúng duy nhất cho hình ảnh, trong khi một bộ mã hóa nhẹ có thể ngay lập tức chuyển đổi bất kỳ truy vấn nào thành một vectơ nhúng. Sau đó, một bộ giải mã nhẹ được sử dụng để hợp nhất hai nguồn dữ liệu này nhằm dự đoán các mặt nạ phân đoạn. Sau khi tính toán nhúng hình ảnh, SAM có thể trả lời mọi truy vấn trong trình duyệt web với một phân đoạn trong khoảng 50 mili giây.

SAM là một công cụ hữu ích dành cho các chuyên gia và những người đam mê sáng tạo, những người muốn chỉnh sửa hình ảnh và video một cách dễ dàng và linh hoạt. Nhưng trước tiên, bạn cần học cách truy cập và sử dụng nó.

Làm cách nào để sử dụng Mô hình phân đoạn bất kỳ thứ gì (mô hình SAM)?

SAM được phát triển bởi Meta AI Research (trước đây là Facebook AI Research) và được cung cấp công khai trên GitHub. Bạn cũng có thể thử SAM trực tuyến với một bản demo hoặc tải xuống bộ dữ liệu (SA-1B) gồm 1 tỷ mặt nạ và 11 triệu hình ảnh. Mô hình khá dễ sử dụng; chỉ cần làm theo các bước sau:

  • Tải xuống bản trình diễn hoặc truy cập bản trình diễn Mô hình Phân đoạn Bất cứ điều gì.
  • Tải lên một hình ảnh hoặc chọn một hình ảnh trong bộ sưu tập.
  • Thêm và lĩnh vực chủ đề
    • Mặt nạ khu vực bằng cách thêm điểm. Chọn Thêm khu vực, sau đó chọn đối tượng. Tinh chỉnh mặt nạ bằng cách chọn Remove Area, sau đó chọn vùng.
Mô hình phân đoạn bất kỳ mới của Meta là gì: Tìm hiểu các tính năng của mô hình SAM và tìm hiểu cách sử dụng nó. Tiếp tục đọc và khám phá thêm.
, phân đoạn hình ảnh do AI cung cấp là một công cụ mạnh mẽ có thể cách mạng hóa cách chúng ta phân tích, xử lý và sử dụng hình ảnh trong nhiều lĩnh vực khác nhau.

Sau đó hoàn thành nhiệm vụ của bạn như bạn muốn!

Để biết thêm thông tin, bấm tại đây.


Hình ảnh lịch sự: Siêu dữ liệu

AI 101

Bạn là người mới sử dụng AI? Bạn vẫn có thể lên tàu AI! Chúng tôi đã tạo ra một chi tiết Bảng thuật ngữ AI để được sử dụng phổ biến nhất thuật ngữ trí tuệ nhân tạo và giải thích những điều cơ bản về trí tuệ nhân tạo cũng như các rủi ro và lợi ích của AI. Hãy thoải mái sử dụng chúng. Học hỏi cách sử dụng AI là một thay đổi trò chơi! Mô hình AI sẽ thay đổi thế giới.

Các công cụ AI chúng tôi đã xem xét

Hầu như mỗi ngày, một công cụ, mô hình hoặc tính năng mới xuất hiện và thay đổi cuộc sống của chúng ta, chẳng hạn như Plugin OpenAI ChatGPTvà chúng tôi đã xem xét một số cái tốt nhất:

  • Công cụ AI chuyển văn bản thành văn bản

Bạn có muốn học không cách sử dụng ChatGPT hiệu quả? Chúng tôi có một số mẹo và thủ thuật dành cho bạn mà không cần chuyển sang Trò chuyệnGPT Plus! Khi bạn muốn sử dụng công cụ AI, bạn có thể gặp các lỗi như “ChatGPT hiện đang hoạt động hết công suất” và "quá nhiều yêu cầu trong 1 giờ, hãy thử lại sau". Vâng, chúng thực sự là những lỗi khó chịu, nhưng đừng lo lắng; chúng tôi biết làm thế nào để sửa chữa chúng. Đạo văn ChatGPT có miễn phí không? Đó là một câu hỏi khó để tìm thấy một câu trả lời duy nhất. Nếu bạn sợ đạo văn, hãy sử dụng Công cụ kiểm tra đạo văn AI. Ngoài ra, bạn có thể kiểm tra khác Chatbot AI và người viết tiểu luận AI cho kết quả tốt hơn.

  • Công cụ AI chuyển văn bản thành hình ảnh

Trong khi vẫn còn một số tranh luận về hình ảnh do trí tuệ nhân tạo tạo ra, mọi người vẫn đang tìm kiếm máy tạo nghệ thuật AI tốt nhấtAI sẽ thay thế các nhà thiết kế? Tiếp tục đọc và tìm hiểu.

  • Các công cụ AI khác

Dấu thời gian:

Thêm từ kinh tế dữ liệu