Trong thế giới ngày nay, chúng ta được bao quanh bởi nhiều nguồn thông tin bằng văn bản khác nhau, thông tin mà chúng ta thường cho rằng đã được viết bởi những người khác. Cho dù đây là ở dạng sách, blog, bài báo, bài đăng trên diễn đàn, phản hồi trên trang sản phẩm hay các cuộc thảo luận trên mạng xã hội và trong các phần bình luận, giả định là văn bản chúng ta đang đọc đã được viết bởi một người khác. Tuy nhiên, qua nhiều năm, giả định này ngày càng có nhiều khả năng sai, gần đây nhất là do các mô hình ngôn ngữ lớn (LLM) như GPT-2 và GPT-3 có thể tạo ra các đoạn văn hợp lý về bất kỳ chủ đề nào khi được yêu cầu.
Điều này đặt ra câu hỏi liệu chúng ta có sắp đạt đến điểm mà chúng ta không còn có thể chắc chắn một cách hợp lý rằng một bình luận trực tuyến, một bài báo hay thậm chí toàn bộ sách và kịch bản phim không được tạo ra bởi một thuật toán hay thậm chí trong đó một cuộc trò chuyện trực tuyến với một trận đấu hấp dẫn mới hóa ra chỉ là do bạn bắt đầu với một bộ mã vô cảm đã được đào tạo và điều chỉnh để tương tác tối đa với khách hàng. (Ghi chú của biên tập viên: không, chúng tôi không chơi trò chơi đó ở đây.)
Khi nội dung và tương tác do máy tạo ra như vậy bắt đầu đóng một vai trò lớn hơn bao giờ hết, nó đặt ra cả câu hỏi về cách bạn có thể phát hiện nội dung được tạo như vậy, cũng như liệu nội dung được tạo bởi thuật toán thay vì con người có quan trọng hay không .
Tedium Versus ác ý
Trong George Orwell's XNUMX, Winston Smith mô tả một bộ phận trong Bộ Sự thật được gọi là Bộ Tiểu thuyết, nơi máy móc liên tục tạo ra những cuốn tiểu thuyết mới được tạo ra dựa trên các chủ đề nhất định. Trong khi đó ở Bộ phận Âm nhạc, âm nhạc mới đang được tạo ra bởi một hệ thống khác được gọi là bộ chuyển ngữ.
Tuy nhiên, dù thế giới hư cấu này là lạc hậu, nội dung do máy tạo ra này về cơ bản là vô hại, như Winston nhận xét sau đó trong cuốn sách, khi anh quan sát một phụ nữ ở khu vực dân đen hát bài hát mới nhất, thêm cường độ cảm xúc của chính cô ấy vào một bản tình ca được thốt ra bởi một cỗ máy vô cảm, thiếu suy nghĩ. Điều này đưa chúng ta đến việc sử dụng phổ biến nhất nội dung do máy tạo ra, mà nhiều người cho rằng đó chỉ là một hình thức tự động hóa.
Thuật ngữ bao hàm ở đây là 'báo chí tự động', và có đã được sử dụng với các cơ quan báo chí được kính trọng như Reuters, AP và những cơ quan khác trong nhiều năm nay. Các trường hợp sử dụng ở đây rất đơn giản và dễ hiểu: đây là những hệ thống được định cấu hình để lấy thông tin về hiệu suất cổ phiếu, báo cáo hàng quý của công ty, kết quả trận đấu thể thao hoặc kết quả bầu cử địa phương và đưa ra một bài báo theo mẫu định sẵn. Lợi thế rõ ràng là các căn phòng đầy các nhà báo đang sao chép điểm số và chỉ số hiệu suất vào các mẫu bài viết một cách tẻ nhạt có thể được thay thế bằng thuật toán máy tính.
Trong những trường hợp này, công việc liên quan đến báo chí hoặc nghệ thuật tương đương với việc lật bánh mì kẹp thịt ở cửa hàng thức ăn nhanh được thay thế bằng một thuật toán không bao giờ gây nhàm chán hoặc mất tập trung, trong khi con người có thể làm những công việc đòi hỏi trí tuệ cao hơn. Rất ít người tranh luận rằng có vấn đề với loại tự động hóa này, vì về cơ bản nó thực hiện chính xác những gì chúng ta đã hứa.
Trường hợp mọi thứ trở nên mờ ám là khi nó được sử dụng cho các mục đích bất chính, chẳng hạn như để thu hút lưu lượng truy cập tìm kiếm bằng bài viết do máy tạo ra cố gắng bán cho người đọc một cái gì đó. Mặc dù điều này gần đây đã dẫn đến sự phẫn nộ đáng kể trong trường hợp của CNET, thực tế của vấn đề là đây là một cách tiếp cận cực kỳ có lợi, vì vậy chúng ta có thể thấy nhiều hơn về nó trong tương lai. Xét cho cùng, một mô hình ngôn ngữ lớn có thể tạo ra cả đống bài báo trong thời gian một người viết chỉ cần viết một vài đoạn văn bản.
Nhiều vùng xám hơn là nơi nó liên quan đến việc hỗ trợ một nhà văn con người, điều đang trở thành một vấn đề trong thế giới xuất bản khoa học, như được bảo hiểm gần đây by The Guardian, người mà chính họ đã gặp một chút khó khăn vào tháng 2020 năm XNUMX khi họ xuất bản một bài báo đã được tạo bởi GPT-3 LLM. Thông báo trước rằng đó không phải là đầu ra trực tiếp từ LLM, mà là thứ mà một biên tập viên con người đã nhầm lẫn với nhau từ nhiều đầu ra do GPT-3 tạo ra. Đây là dấu hiệu cho thấy cách LLM thường được sử dụng và gợi ý về một số điểm yếu lớn nhất của chúng.
Không có câu trả lời sai
Về cốt lõi, một LLM như GPT-3 là một cơ sở dữ liệu được kết nối chặt chẽ với các giá trị được tạo từ các văn bản đầu vào tạo thành tập dữ liệu huấn luyện. Trong trường hợp của GPT-3, điều này tạo ra một cơ sở dữ liệu (mô hình) có kích thước khoảng 800 GB. Để tìm kiếm trong cơ sở dữ liệu này, một chuỗi truy vấn được cung cấp – thường là một câu hỏi hoặc cụm từ dẫn đầu – chuỗi truy vấn này sau khi xử lý sẽ tạo thành đầu vào cho thuật toán điều chỉnh đường cong. Về cơ bản, điều này xác định xác suất truy vấn đầu vào có liên quan đến một phần của mô hình.
Sau khi tìm thấy kết quả phù hợp có thể xảy ra, đầu ra có thể được tạo dựa trên kết nối tiếp theo có khả năng xảy ra nhất trong cơ sở dữ liệu của mô hình. Điều này cho phép một LLM tìm thông tin cụ thể trong một tập dữ liệu lớn và tạo ra các văn bản dài vô tận về mặt lý thuyết. Tuy nhiên, điều nó không thể làm là xác định xem truy vấn đầu vào có hợp lý hay không hoặc liệu đầu ra mà nó tạo ra có hợp lý hay không. Tất cả những gì thuật toán có thể xác định là liệu nó có tuân theo hướng khả thi nhất hay không, với khả năng có một số biến thể gây ra để trộn đầu ra.
Một vấn đề vẫn được coi là một vấn đề với các văn bản do LLM tạo ra là sự lặp lại, mặc dù điều này có thể được giải quyết bằng một số điều chỉnh giúp cung cấp cho đầu ra một 'bộ nhớ' để giảm số lần sử dụng một từ cụ thể. Điều khó giải quyết hơn là độ tin cậy tuyệt đối của đầu ra LLM, vì nó không có cách nào để xác định liệu nó có tạo ra điều vô nghĩa hay không và sẽ vui vẻ tiếp tục lảm nhảm.
Tuy nhiên, mặc dù vậy, khi chủ thể con người phải tuân theo các văn bản do GPT-3- và GPT-2 tạo ra như trong một 2021 nghiên cứu của Elizabeth Clark và cộng sự, khả năng họ nhận ra các văn bản do các LLM này tạo ra - ngay cả sau khi được đào tạo - không vượt quá 55%, khiến nó gần giống như cơ hội thuần túy. Tại sao con người lại quá tệ trong việc nhận ra những văn bản do LLM tạo ra này và có lẽ máy tính có thể giúp chúng ta ở đây không?
Thống kê so với trực giác
Khi một người được hỏi liệu một văn bản nhất định được tạo ra bởi con người hay được tạo ra bởi máy móc, về cơ bản họ có khả năng đoán dựa trên kinh nghiệm của chính họ, một 'cảm giác ruột thịt' và có thể là một loạt các manh mối. trong một giấy 2019 của Sebastian Gehrmann và cộng sự, một phương pháp thống kê để phát hiện văn bản do máy tạo được đề xuất, ngoài việc xác định một loạt các trường hợp bất chính của văn bản được tạo tự động. Chúng bao gồm các bình luận giả mạo chống lại tính trung lập thuần của Hoa Kỳ và các bài đánh giá gây hiểu lầm.
Phương pháp thống kê chi tiết của Gehrmann et al. được gọi là Phòng kiểm tra mô hình ngôn ngữ khổng lồ (GLTR, nguồn GitHub) liên quan đến việc phân tích một văn bản nhất định về khả năng dự đoán của nó. Đây là một đặc điểm thường được độc giả mô tả là 'sự nông cạn' của một văn bản do máy tạo ra, ở chỗ nó tiếp tục kéo dài các đoạn văn mà không thực sự nói nhiều. Với một công cụ như GLTR, một văn bản như vậy hầu như sẽ phát sáng màu xanh lục trong phần trình bày trực quan, vì nó sử dụng một lượng từ vựng hạn chế và có thể dự đoán được.
In một bài báo được trình bày bởi Daphne Ippolito et al. (PDF) tại cuộc họp năm 2020 của Hiệp hội Ngôn ngữ học Máy tính, các phương pháp khác nhau để phát hiện văn bản do máy tạo đã được đề cập, cùng với hiệu quả của các phương pháp này được sử dụng riêng lẻ so với kết hợp. Phương pháp phân tích top-k được GLTR sử dụng được bao gồm trong các phương pháp này, với các phương pháp thay thế lấy mẫu hạt nhân (top-p) và các phương pháp khác cũng được đề cập.
Cuối cùng, trong nghiên cứu này, các đối tượng là con người đạt điểm trung bình là 74% khi phân loại văn bản GPT-2, với hệ thống phân biệt tự động thường đạt điểm cao hơn. Đáng chú ý là nghiên cứu của Ari Holtzman và cộng sự. điều đó được tham chiếu trong phần kết luận, trong đó lưu ý rằng văn bản do con người viết thường có nhịp điệu dao động trong và ngoài vùng xác suất thấp. Điều này không chỉ làm cho văn bản trở nên thú vị để đọc, mà còn cung cấp manh mối về những gì làm cho văn bản có vẻ tự nhiên đối với người đọc.
Với các LLM hiện đại như GPT-3, một cách tiếp cận như lấy mẫu hạt nhân được đề xuất bởi Holtzman et al. là những gì cung cấp nhịp điệu tự nhiên hơn có thể được mong đợi từ một văn bản được viết bởi con người. Thay vì chọn từ danh sách tùy chọn hàng đầu, thay vào đó, người ta chọn từ nhóm ứng viên được thay đổi kích thước động: khối lượng xác suất. Sau đó, danh sách các tùy chọn, top-p, sau đó cung cấp đầu ra phong phú hơn nhiều so với cách tiếp cận top-k đã được sử dụng với GPT-2 và kin.
Điều này cũng có nghĩa là trong quá trình phân tích tự động một văn bản, nhiều cách tiếp cận phải được xem xét. Đối với phân tích của người đọc, sự khác biệt giữa văn bản top-k (GPT-2) và top-p (GPT-3) sẽ rất rõ ràng, với loại sau có khả năng được xác định là do con người viết.
Thời gian không chắc chắn
Do đó, dường như câu trả lời cho câu hỏi liệu một văn bản nhất định có phải do con người tạo ra hay không là một câu trả lời dứt khoát 'có thể'. Mặc dù phân tích thống kê có thể cung cấp một số gợi ý về khả năng một văn bản được tạo ra bởi LLM, nhưng cuối cùng phán quyết cuối cùng sẽ phải thuộc về con người, người không chỉ có thể xác định liệu văn bản có được tập hợp về mặt ngữ nghĩa và ngữ cảnh hay không mà còn kiểm tra nguồn được cho là của một văn bản là chính hãng.
Đương nhiên, có rất nhiều tình huống mà việc ai viết một văn bản có thể không quan trọng, miễn là thông tin trong đó thực sự chính xác. Tuy nhiên, khi có thể có ý định bất chính hoặc ý định lừa dối, thì cần phải thực hành thẩm định. Ngay cả khi có các thuật toán tự động phát hiện và với một người dùng được đào tạo và thận trọng, người đọc vẫn phải đối chiếu thông tin tham khảo và xác định xem tuyên bố của một tài khoản ngẫu nhiên trên mạng xã hội có thể là thật hay không.
(Ghi chú của biên tập viên: Bài đăng này về nỗ lực của OpenAI để phát hiện văn xuôi của chính nó xuất hiện giữa bài báo này được viết và xuất bản. Kết quả của họ không tuyệt vời như vậy và cũng như mọi thứ từ AI “Mở”, phương pháp của họ không được tiết lộ công khai. Tuy nhiên, bạn có thể thử trình phân loại.)
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
- nguồn: https://hackaday.com/2023/02/01/detecting-machine-generated-content-an-easier-task-for-machine-or-human/
- 1
- 2019
- 2020
- a
- Giới thiệu
- Tuyệt đối
- Tài khoản
- Ngoài ra
- Lợi thế
- Sau
- thuật toán
- thuật toán
- Tất cả
- cho phép
- Mặc dù
- phân tích
- phân tích
- và
- Một
- trả lời
- phương pháp tiếp cận
- cách tiếp cận
- KHU VỰC
- tranh luận
- xung quanh
- bài viết
- bài viết
- nghệ thuật
- Hiệp hội
- giả định
- Tự động
- Tự động
- Tự động hóa
- dựa
- Về cơ bản
- Bears
- trở nên
- trở thành
- được
- Hơn
- giữa
- lớn hơn
- lớn nhất
- Một chút
- blog
- cuốn sách
- Sách
- Chán
- Mang lại
- Nhịp
- gọi là
- ứng cử viên
- không thể
- trường hợp
- trường hợp
- dè dặt
- nhất định
- thách thức
- cơ hội
- đặc trưng
- kiểm tra
- City
- CNET
- mã
- bộ sưu tập
- kết hợp
- bình luận
- Bình luận
- Chung
- công ty
- máy tính
- máy tính
- Mối quan tâm
- phần kết luận
- sự tự tin
- liên quan
- xem xét
- liên tục
- nội dung
- sao chép
- Trung tâm
- khóa học mơ ước
- phủ
- tạo
- tạo ra
- tín dụng
- đường cong
- khách hàng
- Cắt
- dữ liệu
- tập dữ liệu
- Cơ sở dữ liệu
- dứt khoát
- bộ
- mô tả
- Mặc dù
- chi tiết
- Xác định
- xác định
- siêng năng
- thảo luận
- Không
- xuống
- bác sĩ da liễu
- dễ dàng hơn
- biên tập viên
- hiệu quả
- Bầu cử
- bao trùm
- Tham gia
- Toàn bộ
- Tương đương
- chủ yếu
- Ether (ETH)
- Ngay cả
- BAO GIỜ
- tất cả mọi thứ
- chính xác
- quá
- dự kiến
- Kinh nghiệm
- giả mạo
- Thời trang
- NHANH
- thông tin phản hồi
- vài
- Tiểu thuyết
- hư cấu
- Phim ảnh
- cuối cùng
- Tìm kiếm
- vừa vặn
- tiếp theo
- sau
- thực phẩm
- Forbes
- hình thức
- các hình thức
- Diễn đàn
- tìm thấy
- từ
- Full
- tương lai
- trò chơi
- nói chung
- tạo ra
- tạo ra
- tạo
- George
- được
- nhận được
- khổng lồ
- Cho
- được
- tuyệt vời
- màu xanh lá
- có
- nặng nề
- giúp đỡ
- tại đây
- gợi ý
- Độ đáng tin của
- Tuy nhiên
- HTTPS
- Nhân loại
- Con người
- xác định
- xác định
- in
- bao gồm
- bao gồm
- vô cùng
- thông tin
- đầu vào
- thay vì
- ý định
- tương tác
- kết nối với nhau
- thú vị
- cô lập
- vấn đề
- IT
- chung
- Các nhà báo
- Giữ
- Kin
- Loại
- Ngôn ngữ
- lớn
- mới nhất
- hàng đầu
- Led
- ánh sáng
- Có khả năng
- Hạn chế
- ngôn ngữ học
- Danh sách
- địa phương
- dài
- còn
- yêu
- Thấp
- máy
- Máy móc
- thực hiện
- LÀM CHO
- Làm
- nhiều
- Thánh Lễ
- Trận đấu
- chất
- Vấn đề
- max-width
- tối đa
- có nghĩa
- Trong khi đó
- Phương tiện truyền thông
- cuộc họp
- chỉ đơn thuần là
- phương pháp
- Metrics
- Might
- Bộ
- kiểu mẫu
- mô hình
- hiện đại
- chi tiết
- hầu hết
- nhiều
- Âm nhạc
- Tự nhiên
- net
- quân bình Internet
- Mới
- tin tức
- tiếp theo
- lưu ý
- con số
- Quan sát
- Rõ ràng
- ONE
- Trực tuyến
- phe đối lập
- Các lựa chọn
- gọi món
- Nền tảng khác
- Khác
- Cửa hàng
- riêng
- Giấy
- vượt qua
- Họa tiết
- hiệu suất
- có lẽ
- người
- Nơi
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- hợp lý
- Play
- chơi
- Rất nhiều
- Điểm
- hồ bơi
- Bài đăng
- bài viết
- thực hành
- Dự đoán
- trình bày
- xác suất
- Vấn đề
- xử lý
- Sản phẩm
- lợi nhuận
- hứa
- đề xuất
- cho
- cung cấp
- cung cấp
- công khai
- công bố
- Xuất bản
- mục đích
- đặt
- câu hỏi
- tăng giá
- ngẫu nhiên
- phạm vi
- đạt
- Đọc
- Người đọc
- độc giả
- Reading
- gần đây
- liên quan
- vẫn còn
- thay thế
- Báo cáo
- đại diện
- yêu cầu
- quyết định
- tôn trọng
- kết quả
- Kết quả
- Reuters
- Đánh giá
- Vai trò
- Phòng
- phòng
- khoảng
- ghi bàn
- kịch bản
- Tìm kiếm
- Phần
- phần
- bán
- ý nghĩa
- Tháng Chín
- định
- Đơn giản
- tình huống
- Kích thước máy
- So
- Mạng xã hội
- truyền thông xã hội
- một số
- một cái gì đó
- nguồn
- nguồn
- riêng
- thể thao
- ngăn xếp
- ngay đơ
- Tuyên bố
- thống kê
- Vẫn còn
- cổ phần
- ngay
- đơn giản
- Học tập
- như vậy
- bao quanh
- hệ thống
- hệ thống
- Hãy
- mất
- Nhiệm vụ
- mẫu
- thử nghiệm
- Sản phẩm
- Tương lai
- thông tin
- thế giới
- cung cấp their dịch
- tự
- điều
- thời gian
- thời gian
- đến
- hôm nay
- bên nhau
- công cụ
- chủ đề
- giao thông
- đào tạo
- Hội thảo
- Cuối cùng
- us
- sử dụng
- người sử dang
- Các giá trị
- khác nhau
- Versus
- Điều gì
- Là gì
- liệu
- cái nào
- trong khi
- CHÚNG TÔI LÀ
- Wikipedia
- sẽ
- ở trong
- không có
- người phụ nữ
- Từ
- Công việc
- thế giới
- sẽ
- nhà văn
- viết
- Sai
- năm
- zephyrnet