Phát hiện nội dung do máy tạo: Nhiệm vụ dễ dàng hơn cho máy hay con người?

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trong thế giới ngày nay, chúng ta được bao quanh bởi nhiều nguồn thông tin bằng văn bản khác nhau, thông tin mà chúng ta thường cho rằng đã được viết bởi những người khác. Cho dù đây là ở dạng sách, blog, bài báo, bài đăng trên diễn đàn, phản hồi trên trang sản phẩm hay các cuộc thảo luận trên mạng xã hội và trong các phần bình luận, giả định là văn bản chúng ta đang đọc đã được viết bởi một người khác. Tuy nhiên, qua nhiều năm, giả định này ngày càng có nhiều khả năng sai, gần đây nhất là do các mô hình ngôn ngữ lớn (LLM) như GPT-2 và GPT-3 có thể tạo ra các đoạn văn hợp lý về bất kỳ chủ đề nào khi được yêu cầu.

Điều này đặt ra câu hỏi liệu chúng ta có sắp đạt đến điểm mà chúng ta không còn có thể chắc chắn một cách hợp lý rằng một bình luận trực tuyến, một bài báo hay thậm chí toàn bộ sách và kịch bản phim không được tạo ra bởi một thuật toán hay thậm chí trong đó một cuộc trò chuyện trực tuyến với một trận đấu hấp dẫn mới hóa ra chỉ là do bạn bắt đầu với một bộ mã vô cảm đã được đào tạo và điều chỉnh để tương tác tối đa với khách hàng. (Ghi chú của biên tập viên: không, chúng tôi không chơi trò chơi đó ở đây.)

Khi nội dung và tương tác do máy tạo ra như vậy bắt đầu đóng một vai trò lớn hơn bao giờ hết, nó đặt ra cả câu hỏi về cách bạn có thể phát hiện nội dung được tạo như vậy, cũng như liệu nội dung được tạo bởi thuật toán thay vì con người có quan trọng hay không .

Tedium Versus ác ý

Trong George Orwell's XNUMX, Winston Smith mô tả một bộ phận trong Bộ Sự thật được gọi là Bộ Tiểu thuyết, nơi máy móc liên tục tạo ra những cuốn tiểu thuyết mới được tạo ra dựa trên các chủ đề nhất định. Trong khi đó ở Bộ phận Âm nhạc, âm nhạc mới đang được tạo ra bởi một hệ thống khác được gọi là bộ chuyển ngữ.

Tuy nhiên, dù thế giới hư cấu này là lạc hậu, nội dung do máy tạo ra này về cơ bản là vô hại, như Winston nhận xét sau đó trong cuốn sách, khi anh quan sát một phụ nữ ở khu vực dân đen hát bài hát mới nhất, thêm cường độ cảm xúc của chính cô ấy vào một bản tình ca được thốt ra bởi một cỗ máy vô cảm, thiếu suy nghĩ. Điều này đưa chúng ta đến việc sử dụng phổ biến nhất nội dung do máy tạo ra, mà nhiều người cho rằng đó chỉ là một hình thức tự động hóa.

Thuật ngữ bao hàm ở đây là 'báo chí tự động', và có đã được sử dụng với các cơ quan báo chí được kính trọng như Reuters, AP và những cơ quan khác trong nhiều năm nay. Các trường hợp sử dụng ở đây rất đơn giản và dễ hiểu: đây là những hệ thống được định cấu hình để lấy thông tin về hiệu suất cổ phiếu, báo cáo hàng quý của công ty, kết quả trận đấu thể thao hoặc kết quả bầu cử địa phương và đưa ra một bài báo theo mẫu định sẵn. Lợi thế rõ ràng là các căn phòng đầy các nhà báo đang sao chép điểm số và chỉ số hiệu suất vào các mẫu bài viết một cách tẻ nhạt có thể được thay thế bằng thuật toán máy tính.

Trong những trường hợp này, công việc liên quan đến báo chí hoặc nghệ thuật tương đương với việc lật bánh mì kẹp thịt ở cửa hàng thức ăn nhanh được thay thế bằng một thuật toán không bao giờ gây nhàm chán hoặc mất tập trung, trong khi con người có thể làm những công việc đòi hỏi trí tuệ cao hơn. Rất ít người tranh luận rằng có vấn đề với loại tự động hóa này, vì về cơ bản nó thực hiện chính xác những gì chúng ta đã hứa.

Trường hợp mọi thứ trở nên mờ ám là khi nó được sử dụng cho các mục đích bất chính, chẳng hạn như để thu hút lưu lượng truy cập tìm kiếm bằng bài viết do máy tạo ra cố gắng bán cho người đọc một cái gì đó. Mặc dù điều này gần đây đã dẫn đến sự phẫn nộ đáng kể trong trường hợp của CNET, thực tế của vấn đề là đây là một cách tiếp cận cực kỳ có lợi, vì vậy chúng ta có thể thấy nhiều hơn về nó trong tương lai. Xét cho cùng, một mô hình ngôn ngữ lớn có thể tạo ra cả đống bài báo trong thời gian một người viết chỉ cần viết một vài đoạn văn bản.

Nhiều vùng xám hơn là nơi nó liên quan đến việc hỗ trợ một nhà văn con người, điều đang trở thành một vấn đề trong thế giới xuất bản khoa học, như được bảo hiểm gần đây by The Guardian, người mà chính họ đã gặp một chút khó khăn vào tháng 2020 năm XNUMX khi họ xuất bản một bài báo đã được tạo bởi GPT-3 LLM. Thông báo trước rằng đó không phải là đầu ra trực tiếp từ LLM, mà là thứ mà một biên tập viên con người đã nhầm lẫn với nhau từ nhiều đầu ra do GPT-3 tạo ra. Đây là dấu hiệu cho thấy cách LLM thường được sử dụng và gợi ý về một số điểm yếu lớn nhất của chúng.

Không có câu trả lời sai

Về cốt lõi, một LLM như GPT-3 là một cơ sở dữ liệu được kết nối chặt chẽ với các giá trị được tạo từ các văn bản đầu vào tạo thành tập dữ liệu huấn luyện. Trong trường hợp của GPT-3, điều này tạo ra một cơ sở dữ liệu (mô hình) có kích thước khoảng 800 GB. Để tìm kiếm trong cơ sở dữ liệu này, một chuỗi truy vấn được cung cấp – thường là một câu hỏi hoặc cụm từ dẫn đầu – chuỗi truy vấn này sau khi xử lý sẽ tạo thành đầu vào cho thuật toán điều chỉnh đường cong. Về cơ bản, điều này xác định xác suất truy vấn đầu vào có liên quan đến một phần của mô hình.

Sau khi tìm thấy kết quả phù hợp có thể xảy ra, đầu ra có thể được tạo dựa trên kết nối tiếp theo có khả năng xảy ra nhất trong cơ sở dữ liệu của mô hình. Điều này cho phép một LLM tìm thông tin cụ thể trong một tập dữ liệu lớn và tạo ra các văn bản dài vô tận về mặt lý thuyết. Tuy nhiên, điều nó không thể làm là xác định xem truy vấn đầu vào có hợp lý hay không hoặc liệu đầu ra mà nó tạo ra có hợp lý hay không. Tất cả những gì thuật toán có thể xác định là liệu nó có tuân theo hướng khả thi nhất hay không, với khả năng có một số biến thể gây ra để trộn đầu ra.

Một vấn đề vẫn được coi là một vấn đề với các văn bản do LLM tạo ra là sự lặp lại, mặc dù điều này có thể được giải quyết bằng một số điều chỉnh giúp cung cấp cho đầu ra một 'bộ nhớ' để giảm số lần sử dụng một từ cụ thể. Điều khó giải quyết hơn là độ tin cậy tuyệt đối của đầu ra LLM, vì nó không có cách nào để xác định liệu nó có tạo ra điều vô nghĩa hay không và sẽ vui vẻ tiếp tục lảm nhảm.

Tuy nhiên, mặc dù vậy, khi chủ thể con người phải tuân theo các văn bản do GPT-3- và GPT-2 tạo ra như trong một 2021 nghiên cứu của Elizabeth Clark và cộng sự, khả năng họ nhận ra các văn bản do các LLM này tạo ra - ngay cả sau khi được đào tạo - không vượt quá 55%, khiến nó gần giống như cơ hội thuần túy. Tại sao con người lại quá tệ trong việc nhận ra những văn bản do LLM tạo ra này và có lẽ máy tính có thể giúp chúng ta ở đây không?

Thống kê so với trực giác

<img data-attachment-id="573573" data-permalink="https://hackaday.com/2023/02/01/detecting-machine-generated-content-an-easier-task-for-machine-or-human/gehrmann_et_al_2019_figure_1_top_k_overlay_gltr/" data-orig-file="https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human-1.jpg" data-orig-size="381,318" data-comments-opened="1" data-image-meta="{"aperture":"0","credit":"","camera":"","caption":"","created_timestamp":"0","copyright":"","focal_length":"0","iso":"0","shutter_speed":"0","title":"","orientation":"0"}" data-image-title="gehrmann_et_al_2019_figure_1_top_k_overlay_GLTR" data-image-description data-image-caption="

(Tín dụng: Gehrmann và cộng sự, 2019)

” data-medium-file=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human.jpg” data-large-file=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human.jpg” decoding=”async” loading=”lazy” class=”size-medium wp-image-573573″ src=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human.jpg” alt width=”381″ height=”318″ srcset=”https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human-1.jpg 381w, https://platoaistream.com/wp-content/uploads/2023/02/detecting-machine-generated-content-an-easier-task-for-machine-or-human-1.jpg?resize=250,209 250w” sizes=”(max-width: 381px) 100vw, 381px”>

(Tín dụng: Gehrmann và cộng sự, 2019)

Khi một người được hỏi liệu một văn bản nhất định được tạo ra bởi con người hay được tạo ra bởi máy móc, về cơ bản họ có khả năng đoán dựa trên kinh nghiệm của chính họ, một 'cảm giác ruột thịt' và có thể là một loạt các manh mối. trong một giấy 2019 của Sebastian Gehrmann và cộng sự, một phương pháp thống kê để phát hiện văn bản do máy tạo được đề xuất, ngoài việc xác định một loạt các trường hợp bất chính của văn bản được tạo tự động. Chúng bao gồm các bình luận giả mạo chống lại tính trung lập thuần của Hoa Kỳ và các bài đánh giá gây hiểu lầm.

Phương pháp thống kê chi tiết của Gehrmann et al. được gọi là Phòng kiểm tra mô hình ngôn ngữ khổng lồ (GLTR, nguồn GitHub) liên quan đến việc phân tích một văn bản nhất định về khả năng dự đoán của nó. Đây là một đặc điểm thường được độc giả mô tả là 'sự nông cạn' của một văn bản do máy tạo ra, ở chỗ nó tiếp tục kéo dài các đoạn văn mà không thực sự nói nhiều. Với một công cụ như GLTR, một văn bản như vậy hầu như sẽ phát sáng màu xanh lục trong phần trình bày trực quan, vì nó sử dụng một lượng từ vựng hạn chế và có thể dự đoán được.

In một bài báo được trình bày bởi Daphne Ippolito et al. (PDF) tại cuộc họp năm 2020 của Hiệp hội Ngôn ngữ học Máy tính, các phương pháp khác nhau để phát hiện văn bản do máy tạo đã được đề cập, cùng với hiệu quả của các phương pháp này được sử dụng riêng lẻ so với kết hợp. Phương pháp phân tích top-k được GLTR sử dụng được bao gồm trong các phương pháp này, với các phương pháp thay thế lấy mẫu hạt nhân (top-p) và các phương pháp khác cũng được đề cập.

Cuối cùng, trong nghiên cứu này, các đối tượng là con người đạt điểm trung bình là 74% khi phân loại văn bản GPT-2, với hệ thống phân biệt tự động thường đạt điểm cao hơn. Đáng chú ý là nghiên cứu của Ari Holtzman và cộng sự. điều đó được tham chiếu trong phần kết luận, trong đó lưu ý rằng văn bản do con người viết thường có nhịp điệu dao động trong và ngoài vùng xác suất thấp. Điều này không chỉ làm cho văn bản trở nên thú vị để đọc, mà còn cung cấp manh mối về những gì làm cho văn bản có vẻ tự nhiên đối với người đọc.

Với các LLM hiện đại như GPT-3, một cách tiếp cận như lấy mẫu hạt nhân được đề xuất bởi Holtzman et al. là những gì cung cấp nhịp điệu tự nhiên hơn có thể được mong đợi từ một văn bản được viết bởi con người. Thay vì chọn từ danh sách tùy chọn hàng đầu, thay vào đó, người ta chọn từ nhóm ứng viên được thay đổi kích thước động: khối lượng xác suất. Sau đó, danh sách các tùy chọn, top-p, sau đó cung cấp đầu ra phong phú hơn nhiều so với cách tiếp cận top-k đã được sử dụng với GPT-2 và kin.

Điều này cũng có nghĩa là trong quá trình phân tích tự động một văn bản, nhiều cách tiếp cận phải được xem xét. Đối với phân tích của người đọc, sự khác biệt giữa văn bản top-k (GPT-2) và top-p (GPT-3) sẽ rất rõ ràng, với loại sau có khả năng được xác định là do con người viết.

Thời gian không chắc chắn

Do đó, dường như câu trả lời cho câu hỏi liệu một văn bản nhất định có phải do con người tạo ra hay không là một câu trả lời dứt khoát 'có thể'. Mặc dù phân tích thống kê có thể cung cấp một số gợi ý về khả năng một văn bản được tạo ra bởi LLM, nhưng cuối cùng phán quyết cuối cùng sẽ phải thuộc về con người, người không chỉ có thể xác định liệu văn bản có được tập hợp về mặt ngữ nghĩa và ngữ cảnh hay không mà còn kiểm tra nguồn được cho là của một văn bản là chính hãng.

Đương nhiên, có rất nhiều tình huống mà việc ai viết một văn bản có thể không quan trọng, miễn là thông tin trong đó thực sự chính xác. Tuy nhiên, khi có thể có ý định bất chính hoặc ý định lừa dối, thì cần phải thực hành thẩm định. Ngay cả khi có các thuật toán tự động phát hiện và với một người dùng được đào tạo và thận trọng, người đọc vẫn phải đối chiếu thông tin tham khảo và xác định xem tuyên bố của một tài khoản ngẫu nhiên trên mạng xã hội có thể là thật hay không.

(Ghi chú của biên tập viên: Bài đăng này về nỗ lực của OpenAI để phát hiện văn xuôi của chính nó xuất hiện giữa bài báo này được viết và xuất bản. Kết quả của họ không tuyệt vời như vậy và cũng như mọi thứ từ AI “Mở”, phương pháp của họ không được tiết lộ công khai. Tuy nhiên, bạn có thể thử trình phân loại.)

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
nguồn: https://hackaday.com/2023/02/01/detecting-machine-generated-content-an-easier-task-for-machine-or-human/

Dấu thời gian: 1 Tháng hai, 2023

Dấu thời gian: Tháng Mười 12, 2023

Được xuất bản lại bởi Plato

Thu hoạch năng lượng cơ học từ mưa rơi

Bộ đàm DIY với ESP32 và ESP-NOW

Đó là những điều đơn giản

Nâng cấp đặt nhiều số XNUMX vào bộ đếm tần số do bộ công cụ xây dựng

Bộ định vị tự động điều khiển bằng vật lý

Thiết kế cho Con người

Tưởng nhớ Niklaus Wirth: Cha đẻ của Pascal và nguồn cảm hứng cho nhiều người

Nanobots tự nhân bản

Tiện ích cổ điển: Máy hiện sóng bỏ túi năm 1983

Bạn có thư: Tất cả phụ thuộc vào mã ZIP

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản