Khi kỳ nghỉ lễ đang đến gần và một người ghi chép Hackaday được bảo vệ khỏi những cơn bão Đại Tây Dương đang ập đến trong ngôi nhà ấm cúng của mình, đã đến lúc cô ấy phải xem xét những điều cơ bản về nghề của mình. Viết, đánh vần và tiếng Anh; những vấn đề như tại sao người Mỹ có cách viết tiếng Anh khác với người Anh, nhưng có lẽ quan trọng nhất đối với độc giả Hackaday; nó là “gif” hay là “jif”? Câu này hoặc câu đùa về cách viết có thể được coi là câu click rõ ràng, nhưng thay vào đó, chúng chỉ là một công cụ để đi sâu vào nghiên cứu ngôn ngữ. Làm cách nào để chúng ta quyết định các quy ước trong ngôn ngữ của mình và liệu chúng ta có nên quan tâm quá nhiều đến chúng không?
Đừng tin mọi điều bạn đọc ở trường
Chúng ta được gửi đến trường để học nhiều điều. Trong thời gian đó, chúng ta bị tước đoạt tự do khi hàng loạt người lớn cố gắng hết năm này đến năm khác để nhồi nhét vào đầu chúng ta những sự thật. Một số trong đó chúng tôi thấy thú vị và những phần khác thì không nhiều, nhưng đối với phần lớn, chúng tôi không muốn tự mình suy nghĩ mà thay vào đó phải học thuộc lòng một bộ chương trình giảng dạy cố định.
Vì vậy, trong khi các nhà văn phải tự mình khám phá ra rằng tiếng Anh là một ngôn ngữ không ngừng phát triển mà qua đó họ có thể thoát khỏi những giới hạn nhân tạo mà trường học đã áp đặt cho họ, thì có quá nhiều người vẫn ngại đặt đầu mình lên trên lan can ngôn ngữ.
Kết quả là những người sợ di chuyển bằng ngôn ngữ nhận thấy những sai lệch so với các quy tắc sẽ bị chỉ trích, và chúng ta thậm chí còn tìm ra những cuộc Thánh chiến ngôn ngữ của riêng mình để chiến đấu. Ví dụ được đề cập ở trên về “gif” so với “jif” là một ví dụ tuyệt vời, liệu bạn có phát âm nó bằng chữ “G” cứng vì đó là cách hầu hết mọi người nói hay như thể nó là chữ “J” có thực sự quan trọng không? bởi vì người tạo ra định dạng tập tin đã nói như vậy? Không hẳn, bởi vì tiếng Anh là ngôn ngữ đang phát triển trong tay của những người nói nó chứ không phải của những người viết sách ở trường.
Đáng buồn thay, đây không phải là lúc để vui mừng, bởi vì ngay cả khi một số quy tắc đó có thể thay đổi theo thời gian, thì nó cũng không phải là miễn phí cho tất cả mọi người. Ngôn ngữ phải có thể hiểu được lẫn nhau, chúng ta không thể đơn giản tạo ra nó khi chúng ta tiến hành. Các chuyên gia áp dụng cái mà họ gọi là phương pháp mô tả, trong đó họ cho bạn biết cách bạn sử dụng ngôn ngữ, trái ngược với việc hạn chế cách bạn sử dụng ngôn ngữ. nên đang sử dụng nó. Họ thực hiện điều này thông qua phân tích thống kê về khối văn bản lớn, nội dung văn bản, để xem hình thức nào thu hút được nhiều sự chú ý nhất. Và đây chính là lúc điều này trở nên thú vị, bởi vì việc phân tích ngôn ngữ trên quy mô lớn có thể cho bạn biết những điều bạn chưa biết về một chủ đề mà bạn nghĩ rằng bạn biết rất nhiều.
Tại sao tôi không phải là người phát minh ra ngôn ngữ học tính toán
Tôi bắt đầu làm quen với phân tích ngôn ngữ khoảng mười lăm năm trước, khi tôi đang nỗ lực cải thiện khả năng hiển thị của một trang web rất lớn trên công cụ tìm kiếm. Hồi đó, đây không phải là thế giới mờ ám của việc thao túng công cụ tìm kiếm mờ ám, thay vào đó tôi ở đó để cải thiện đáng kể nội dung của trang web và nói tóm lại, làm cho nó trở nên thú vị hơn rất nhiều đối với cả con người và công cụ tìm kiếm. Trong nỗ lực này, một chút phân tích văn bản cực kỳ hữu ích và trước khi tôi biết điều đó, một vài tập lệnh PHP đơn giản để sắp xếp văn bản đã trở thành một bộ hoàn chỉnh.
Tôi đã không biết rằng đó đã là một lĩnh vực, đã phát minh ra toàn bộ chủ đề ngôn ngữ học tính toán cho chính tôi, và mặc dù bây giờ tôi biết rằng công việc đó kém hiệu quả một cách buồn cười, nhưng nó đã mang lại hiệu quả và giúp cho tôi và chủ sở hữu trang web biết họ đang ở đâu. đã sai lầm.
Sở thích phân tích ngôn ngữ, nó đã trở thành một trong những dự án đã ở lại với tôi trong nhiều năm khi tôi thỉnh thoảng quay lại với nó khi niềm đam mê của tôi ngày càng giảm và bộ công cụ ban đầu của tôi đã phát triển thành một thứ gì đó rất lớn. hữu dụng hơn. Và đó chính là mục đích của việc viết về nó ở đây, bởi vì nó không có gì quá khó khăn cả. Nếu tôi có thể làm được thì bạn cũng có thể làm được, vì vậy thật đáng để thử mô tả nó.
Để xây dựng một kho văn bản để phân tích, trước tiên cần phải bắt đầu bằng một số văn bản. Tôi đặc biệt quan tâm đến dữ liệu chuỗi thời gian cũng như ngôn ngữ, vì vậy tôi đã lấy càng nhiều nguồn cấp dữ liệu RSS càng tốt mà tôi có thể tìm thấy làm nguồn của mình. Điều này cung cấp cho tôi nguồn văn bản mới không bao giờ cạn kiệt để thêm vào phân tích của mình và công cụ làm việc của tôi là Raspberry Pi với ổ cứng USB lớn, âm thầm dành một phần thời gian trong ngày để tìm nạp các câu chuyện và xử lý chúng.
Vì vậy, đối mặt với một đoạn văn bản mới được truy xuất, bước đầu tiên của tôi là gì? Trước bất cứ điều gì khác, để loại bỏ HTML không liên quan và hành vi của trang web, một điều từng gây khó chịu lớn cho các quy tắc cho đến khi tôi phát hiện ra Lynx có tùy chọn dòng lệnh -dump thực hiện tất cả công việc nặng nhọc. Sau đó, đã đến lúc chia câu bằng các dấu phân cách câu như dấu chấm và dấu chấm hỏi, đồng thời chia câu theo từ thành một mảng. Sau đó, tôi có thể xem từng chữ một và xử lý những gì tôi tìm thấy trong kho dữ liệu của mình.
Làm thế nào để bạn nhanh chóng tìm ra một từ trong một tỷ?
Khi bạn có vài nghìn điểm dữ liệu, sẽ có rất nhiều lựa chọn về việc lưu trữ dữ liệu. Ví dụ, một cơ sở dữ liệu SQL là một ý tưởng tuyệt vời. Nhưng một kho văn bản phát triển đến kích thước khổng lồ và nhanh chóng bỏ lại các phương pháp lưu trữ thông thường. Có thể có một số phần mềm tuyệt vời có khả năng xử lý hàng tỷ trường hợp từ nhưng tôi chưa bao giờ tìm thấy nó, vì vậy tôi đã chọn thứ gì đó được tích hợp trong hệ thống tệp của mình. Tôi sẽ sử dụng đường dẫn hệ thống tệp làm truy vấn, tạo cây thư mục gồm các từ mà tôi có thể truy vấn chỉ bằng cách nhập vào đường dẫn.
Vì vậy, khi tôi lướt qua các từ trong câu, tôi quan tâm đến tần suất và cách kết hợp của chúng, tức là những từ xuất hiện bên cạnh. Vì vậy, với mỗi từ, tôi sẽ tạo một thư mục có tệp JSON bên trong để ghi lại sự xuất hiện của nó và trong thư mục đó, tôi sẽ tạo một thư mục con cho từ sau với tệp JSON tương ứng. Vì vậy, chẳng hạn, tôi có thể tìm thấy mức độ phổ biến của từ “Neil” bằng cách mở JSON trong thư mục /neil/ và tìm mức độ phổ biến của cụm từ “Neil Armstrong” trong /neil/armstrong/. Tôi cũng có thể so sánh sự xuất hiện tương đối của Neils Armstrong và Young, bằng cách nhìn vào cả /neil/armstrong/ và /neil/young/. Điều thú vị về cách tiếp cận hệ thống tệp này là tập lệnh xử lý phía máy chủ, vẫn bằng PHP, rất đơn giản và ứng dụng khách của tôi có thể là một số Javascript trong trình duyệt sẽ truy xuất tất cả các JSON đó trong thời gian thực từ hệ thống tệp.
Cái hay của việc có hàng tỷ từ phân tích tiếng Anh chỉ bằng một cú click chuột là tôi có thể dễ dàng kiểm tra xem phiên bản nào phù hợp hơn của một cụm từ, mức độ phổ biến của một cụm từ phù du và thậm chí cả mức độ phổ biến tương đối của các nhân vật của công chúng như các chính trị gia. Nó giống như việc tôi có người xác minh sự thật ngôn ngữ của riêng mình mà không cần phải dựa vào những gì người khác nói với tôi, điều này có thể rất hữu ích trong công việc của tôi. Tất nhiên, nó cũng có những hạn chế, ví dụ như thực hiện bất kỳ công việc nào với một cây gồm hàng triệu thư mục con và các tệp JSON nhỏ sẽ trở nên rất tẻ nhạt. Việc tạo tarball của cấu trúc dữ liệu kích thước trung bình cũng mất vài ngày, nghĩa là việc di chuyển nó sang đĩa mới đòi hỏi phải lập kế hoạch.
Đây có thể không phải là cách thông thường để mô tả một dự án cá nhân trên Hackaday, nhưng nó bao gồm thời gian phát triển và tiến bộ công nghệ không kém bất kỳ công việc phần cứng nào của tôi. Nếu bạn muốn theo bước tôi thì tôi e rằng tôi sẽ ngại phát hành mớ hỗn độn PHP và Javascript cũ không đúng định dạng của mình, nhưng vì chức năng của nó đã được mô tả khá rõ ở trên nên tôi nghĩ hầu hết các bạn đều có thể viết một cái bản thân bạn nếu bạn hướng tâm trí vào nó. Ngay cả khi bạn không biết, tôi hy vọng điều này đã mang lại cho bạn cái nhìn sâu sắc về cách hoạt động của máy phân tích kho ngữ liệu và có thể cho bạn biết những điều bạn chưa biết, đồng thời bạn sẽ làm theo lời khuyên của tôi là đừng nghe tất cả những gì giáo viên dạy bạn.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://hackaday.com/2024/01/02/its-pronounced-gif/
- : có
- :là
- :không phải
- :Ở đâu
- $ LÊN
- 1
- 130
- 2014
- 300
- 400
- 600
- a
- Giới thiệu
- về nó
- ở trên
- thêm vào
- người lớn
- tư vấn
- sợ
- Sau
- cách đây
- như nhau
- Tất cả
- dọc theo
- bên cạnh
- Đã
- Ngoài ra
- tuyệt vời
- American
- Mỹ
- an
- phân tích
- và
- bất kì
- bất cứ điều gì
- xuất hiện
- phương pháp tiếp cận
- cách tiếp cận
- thích hợp
- LÀ
- Armstrong
- xung quanh
- Mảng
- nhân tạo
- AS
- At
- nỗ lực
- xa
- b
- trở lại
- Khái niệm cơ bản
- BE
- Làm đẹp
- bởi vì
- trở nên
- trở thành
- được
- trước
- sau
- Tin
- Tỷ
- tỷ
- Một chút
- cơ quan
- Sách
- cả hai
- giới hạn
- Nghỉ giải lao
- trình duyệt
- xây dựng
- xây dựng
- nhưng
- by
- cuộc gọi
- CAN
- có khả năng
- mà
- kiểm tra
- lớp học
- Nhấp chuột
- clickbait
- khách hàng
- Đến
- đến
- so sánh
- tính toán
- Hãy xem xét
- xem xét
- liên tục
- nội dung
- Ngược lại
- công ước
- Tương ứng
- có thể
- Couple
- khóa học mơ ước
- nghề
- tạo
- Tạo
- yaratıcı
- dữ liệu
- điểm dữ liệu
- lưu trữ dữ liệu
- Cơ sở dữ liệu
- ngày
- Ngày
- thập kỷ
- quyết định
- cung cấp
- xuống
- mô tả
- miêu tả
- Phát triển
- ĐÃ LÀM
- khác nhau
- khó khăn
- nản
- khám phá
- phát hiện
- do
- làm
- làm
- dont
- nhược điểm
- lái xe
- suốt trong
- e
- Đầu
- dễ dàng
- khác
- Động cơ
- Tiếng Anh
- Ngay cả
- Mỗi
- tất cả mọi thứ
- sự tiến hóa
- phát triển
- ví dụ
- dự kiến
- phải đối mặt
- sự kiện
- xa
- vài
- lĩnh vực
- chiến đấu
- Số liệu
- Tập tin
- Các tập tin
- Tìm kiếm
- Tên
- cố định
- theo
- tiếp theo
- Trong
- định dạng
- các hình thức
- tìm thấy
- Miễn phí
- từ
- Full
- chức năng
- đạt được
- gif
- được
- Go
- đi
- hàng hóa
- có
- đồ thị
- tuyệt vời
- mới lớn
- Phát triển
- có
- xử lý
- Xử lý
- Tay bài
- Cứng
- ổ cứng
- phần cứng
- Có
- có
- cái đầu
- đứng đầu
- nặng
- nâng nặng
- giúp đỡ
- cô
- tại đây
- tổ chức
- Ngày lễ
- mong
- Độ đáng tin của
- HTML
- HTTPS
- lớn
- cực kỳ
- Nhân loại
- i
- ý tưởng
- if
- quan trọng
- Áp đặt
- nâng cao
- cải thiện
- in
- sự cố
- bao gồm
- Incoming
- vô cùng
- không hiệu quả
- trong
- cái nhìn sâu sắc
- trường hợp
- thay vì
- quan tâm
- quan tâm
- thú vị
- trong
- Giới thiệu
- Phát minh
- IT
- ITS
- JavaScript
- jpg
- json
- chỉ
- Biết
- Biết
- Ngôn ngữ
- lớn
- LEARN
- ít
- quyền tự do
- nâng
- Lượt thích
- Dòng
- ngôn ngữ học
- ít
- tìm kiếm
- Rất nhiều
- Linh miêu
- Đa số
- làm cho
- Làm
- Thao tác
- nhiều
- nhiều người
- chất
- Vấn đề
- max-width
- Có thể..
- me
- có nghĩa là
- trung bình
- đề cập
- Might
- hàng triệu
- tâm
- kiểu mẫu
- chi tiết
- hầu hết
- chuột
- di chuyển
- di chuyển
- nhiều
- hỗ trợ
- my
- bản thân mình
- cần thiết
- không bao giờ
- Mới
- mới
- tin tức
- tốt đẹp
- Không
- bình thường
- không
- tại
- Rõ ràng
- xảy ra
- of
- Xưa
- on
- ONE
- có thể
- mở
- Tùy chọn
- Các lựa chọn
- or
- nguyên
- Nền tảng khác
- Khác
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- mình
- kết thúc
- riêng
- chủ sở hữu
- một phần
- đặc biệt
- các bộ phận
- con đường
- đường dẫn
- người
- lĩnh hội
- có lẽ
- riêng
- PHP
- hình ảnh
- mảnh
- lập kế hoạch
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Rất nhiều
- Điểm
- điểm
- Các chính trị gia
- Phổ biến
- phổ biến
- khá
- tỷ lệ
- quá trình
- xử lý
- chuyên gia
- dự án
- dự án
- phát âm
- bảo vệ
- cung cấp
- công khai
- đặt
- truy vấn
- câu hỏi
- Mau
- lặng lẽ
- khá
- Mâm xôi
- Raspberry Pi
- Đọc
- độc giả
- thực
- thời gian thực
- có thật không
- ghi
- tương đối
- phát hành
- dựa
- vẫn
- đòi hỏi
- kết quả
- rss
- quy tắc
- Nói
- nói
- Quy mô
- Trường học
- kịch bản
- kịch bản
- Tìm kiếm
- công cụ tìm kiếm
- Mùa
- xem
- gởi
- kết án
- định
- ngắn
- nên
- Đơn giản
- đơn giản
- website
- ngồi
- Ngồi
- Kích thước máy
- nhỏ
- So
- Phần mềm
- một số
- một cái gì đó
- nguồn
- nói
- chính tả
- chia
- SQL
- Bắt đầu
- thống kê
- ở lại
- Bước
- Vẫn còn
- Dừng
- là gắn
- hàng
- Những câu chuyện
- bão
- dải
- cấu trúc
- Học tập
- Tiêu đề
- như vậy
- bộ
- cung cấp
- Hãy
- mất
- hương vị
- công nghệ
- nói
- văn bản
- hơn
- việc này
- Sản phẩm
- Khái niệm cơ bản
- cung cấp their dịch
- Them
- tự
- sau đó
- Đó
- Kia là
- họ
- điều
- điều
- nghĩ
- Suy nghĩ
- điều này
- những
- Tuy nhiên?
- nghĩ
- nghìn
- Thông qua
- Như vậy
- thời gian
- thời gian
- đến
- nói với
- quá
- mất
- hàng đầu
- lực kéo
- cây
- Sự thật
- Quay
- tv
- Uk
- Anh tin
- cho đến khi
- trên
- us
- usb
- sử dụng
- đã sử dụng
- sử dụng
- bình thường
- phiên bản
- Versus
- rất
- khả năng hiển thị
- lu mờ
- là
- Đường..
- we
- Website
- TỐT
- là
- Điều gì
- khi nào
- liệu
- cái nào
- trong khi
- CHÚNG TÔI LÀ
- toàn bộ
- tại sao
- với
- ở trong
- không có
- Từ
- từ
- Công việc
- đang làm việc
- công trinh
- thế giới
- giá trị
- sẽ
- viết
- nhà văn
- viết
- Sai
- năm
- năm
- bạn
- trẻ
- trên màn hình
- mình
- zephyrnet