Google Sheets Web Scraping: Hướng dẫn đơn giản cho năm 2023

Google Sheets Web Scraping: Hướng dẫn đơn giản cho năm 2023

Nút nguồn: 2017383

Quét web có thể là một công cụ mạnh mẽ để trích xuất dữ liệu từ các trang web, nhưng nó cũng có thể là một quá trình phức tạp và tốn thời gian. May mắn thay, Google Trang tính cung cấp một giải pháp thân thiện với người dùng để thu thập dữ liệu từ các trang web mà không cần phải viết mã phức tạp. Bằng cách tận dụng sức mạnh của Google Trang tính, bạn có thể dễ dàng trích xuất dữ liệu từ các trang web và phân tích dữ liệu đó theo nhiều cách khác nhau. Trong blog này, tôi sẽ hướng dẫn bạn quy trình sử dụng Google Trang tính để quét các trang web và giúp bạn khám phá tiềm năng của việc quét web cho các dự án của riêng bạn. Vậy hãy bắt đầu!

Quét web có thể tốn thời gian, phức tạp và liên quan đến nhiều mã hóa. Đối với những người không phải là lập trình viên. Google Sheets là một giải pháp thay thế tuyệt vời cho việc quét web. Google trang tính quét web không liên quan đến mã hóa và cung cấp nhiều cách để phân tích dữ liệu trang web.

Trong blog này, chúng ta sẽ xem cách sử dụng Google Trang tính để quét các trang web một cách dễ dàng. Vậy hãy bắt đầu!

Tại sao nên sử dụng Google Trang tính để quét Web?

Có một số lý do tại sao Google Trang tính là một công cụ tuyệt vời để quét web:

  • Google Trang tính thân thiện với người dùng và có giao diện quen thuộc.
  • Nó không yêu cầu kiến ​​thức về ngôn ngữ lập trình.
  • Google Trang tính có thể truy cập được từ mọi nơi.
  • Google Trang tính miễn phí, phù hợp với các cá nhân và doanh nghiệp nhỏ.
  • Google tích hợp dễ dàng với các công cụ Suite khác.
  • Bạn có thể sử dụng macro hoặc tập lệnh để tự động hóa các tác vụ quét web.
  • Bạn có thể dễ dàng phân tích dữ liệu đã cạo bằng các công thức của Google Trang tính.

Trích xuất văn bản từ bất kỳ trang web nào chỉ bằng một cú nhấp chuột. Chuyển sang Nanonet trang web cạp, Thêm URL và nhấp vào “Scrape” và tải xuống văn bản trang web dưới dạng tệp ngay lập tức. Hãy thử nó cho miễn phí.

Máy quét trang web của Nanonets


Những chức năng nào sẽ được sử dụng cho Google Sheets Web Scraping?

Dưới đây là một số chức năng bạn có thể sử dụng khi cần quét các trang web bằng Google Trang tính.

NHẬPHTML:

Trích xuất các bảng và danh sách từ các trang HTML.

=IMPORTHTML(url, query, index)
  • url: Đây là liên kết của trang web bạn muốn cạo
  • truy vấn: Kiểu dữ liệu – Bảng, Danh sách
  • chỉ mục: Nếu bạn muốn trích xuất một bảng cụ thể, bạn có thể sử dụng chỉ mục này

Ví dụ:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)","table",1)

NHẬP KHẨUXML:

Trích xuất dữ liệu từ các trang XML.

=IMPORTXML(url, xpath_query)
  • url: Đây là liên kết đến trang web bạn muốn cạo
  • xpath_query: biểu thức XPath xác định dữ liệu bạn muốn trích xuất

Ví dụ:

=IMPORTXML("https://www.w3schools.com/xml/note.xml", "//note/to")

NHẬP KHẨU:

Trích xuất dữ liệu từ tệp CSV và TSV.

=IMPORTDATA(url)
  • url: URL của tệp CSV hoặc TSV mà bạn muốn trích xuất dữ liệu từ đó

Ví dụ:

=IMPORTDATA("https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2021-financial-year-provisional/Download-data/annual-enterprise-survey-2021-financial-year-provisional-size-bands.csv")

TRÍCH DẪN ĐĂNG KÝ:

Hàm này có thể trích xuất dữ liệu khớp với mẫu biểu thức chính quy.

=REGEXEXTRACT(text, regular_expression)
  • văn bản: văn bản bạn muốn tìm kiếm mẫu
  • regular_expression: mẫu bạn muốn so khớp

Ví dụ:

=REGEXEXTRACT("1 pound = $1.40", "$d+.d+")

Lưu ý: Các chức năng này có thể không hoạt động cho mọi trang web. Nó phụ thuộc vào bố cục của trang web. Trong trường hợp bạn cần thêm dữ liệu, bạn có thể sử dụng các hướng dẫn quét web bằng Python và Java hoặc sử dụng các công cụ chuyển trang web thành văn bản như Nanonets.

Hãy thử trích xuất một bảng HTML vào Google Trang tính. Chúng tôi sẽ cố gắng cạo bảng từ Danh sách phim đoạt giải Oscar Trang Wikipedia.

  1. Mở Google Trang tính.
  2. Trong một ô mới, nhập =IMPORTHTML(url, query, index)

1. Mã của chúng tôi trở thành,

 =IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1) 

=IMPORTHTML(“https://en.wikipedia.org/wiki/List_of_Academy_Award-wining_films”,”table”,1)

sẽ cạo bảng đầu tiên trên trang Wikipedia

3. Kiểm tra kết quả

Làm cách nào để cạo dữ liệu bằng cách sử dụng Google Sheets web scraping?

Hãy xem cách xóa tiêu đề, mô tả, H1, v.v. bằng Google Trang tính. Để bắt đầu với việc quét H1 bằng Google Trang tính, chúng tôi sẽ sử dụng hàm IMPORTXML cho mục cụ thể này Trang mạng nano. Dưới đây là các bước:

  • Mở Google Trang tính mới hoặc hiện có.
  • Trong một ô, gõ công thức sau:
=IMPORTXML(“https://nanonets.com/image-to-text”, “//h1/text()”)
  • Để trích xuất thẻ H1, hãy sử dụng biểu thức XPath sau: //h1/text()
  • Để trích xuất thẻ tiêu đề, hãy sử dụng biểu thức XPath sau: //title/text()
  • Để trích xuất thẻ mô tả meta, hãy sử dụng biểu thức XPath sau: //meta[@name='description']/@content
  • Để trích xuất tất cả các liên kết trang, hãy sử dụng biểu thức XPath sau: //a/@href

Nhấn Enter và Google Sheets sẽ tự động lấy dữ liệu và hiển thị nó trong ô đã chọn.

Sau đó, bạn có thể sao chép công thức sang các ô khác để loại bỏ dữ liệu bổ sung từ cùng một trang web hoặc các trang web khác nhau.


Trích xuất văn bản từ bất kỳ trang web nào chỉ bằng một cú nhấp chuột. Chuyển sang Nanonet trang web cạp, Thêm URL và nhấp vào “Scrape” và tải xuống văn bản trang web dưới dạng tệp ngay lập tức. Hãy thử nó cho miễn phí.

Máy quét trang web của Nanonets


Nhược điểm của việc sử dụng Google Sheets Web Scraper là gì?

  • Google Trang tính có khả năng hạn chế. Khi nói đến bố cục phức tạp, nó không thể xử lý nội dung động.
  • Có thể có sự khác biệt về dữ liệu khi thu thập dữ liệu bằng các công thức thu thập dữ liệu trên web của Google Trang tính.
  • Khi cạo dữ liệu từ các trang web, bạn có thể vô tình cạo thông tin nhạy cảm hoặc bí mật. Điều này có thể gây lo ngại về quyền riêng tư và bảo mật, đặc biệt nếu dữ liệu cóp nhặt được chia sẻ hoặc lưu trữ ở một vị trí không an toàn.

Mẹo: Quét web trên Google Trang tính là một giải pháp thay thế tuyệt vời cho các tác vụ quét web không phức tạp như tiêu đề meta, danh sách hoặc trích xuất bảng. Đối với các tác vụ phức tạp, bạn nên sử dụng các công cụ quét web.

Câu Hỏi Thường Gặp

Tôi có thể quét web bằng Google Trang tính không?

Có, Google Trang tính có các tính năng tích hợp sẵn như IMPORTHTML, IMPORTXML, IMPORTDATA,

và REGEXTRACT cho phép bạn thu thập dữ liệu từ các trang web trực tiếp vào Google Trang tính. Tuy nhiên, chức năng có thể bị hạn chế và các tác vụ quét web phức tạp hơn có thể yêu cầu sử dụng một công cụ quét web riêng hoặc viết mã tùy chỉnh.

Làm cách nào để cạo dữ liệu vào trang tính Google?

Bạn có thể cạo dữ liệu vào Google Trang tính bằng cách sử dụng một trong các chức năng tích hợp sẵn như IMPORTHTML, IMPORTXML, IMPORTDATA hoặc REGEXTRACT. Các chức năng này cho phép bạn trích xuất dữ liệu từ các trang web, tệp CSV hoặc TSV và đối sánh các mẫu biểu thức chính quy. Chỉ cần chỉ định URL, truy vấn, chỉ mục hoặc mẫu biểu thức chính quy và dữ liệu sẽ được thu thập và điền vào Google Trang tính của bạn.

Dấu thời gian:

Thêm từ AI & Máy học