Scraping Web Google Sheets: Panduan Sederhana untuk 2023

Scraping Web Google Sheets: Panduan Sederhana untuk 2023

Node Sumber: 2017383

Pengikisan web bisa menjadi alat yang ampuh untuk mengekstraksi data dari situs web, tetapi juga bisa menjadi proses yang rumit dan memakan waktu. Untungnya, Google Sheets menawarkan solusi ramah pengguna untuk menggores data dari situs web tanpa perlu menulis kode yang rumit. Dengan memanfaatkan kecanggihan Google Spreadsheet, Anda dapat dengan mudah mengekstrak data dari halaman web dan menganalisisnya dengan berbagai cara. Di blog ini, saya akan memandu Anda melalui proses menggunakan Google Sheets untuk mengikis halaman web dan membantu Anda membuka potensi pengikisan web untuk proyek Anda sendiri. Jadi, mari kita mulai!

Pengikisan Web dapat memakan waktu, rumit, dan melibatkan banyak pengkodean. Untuk non-coder. Google Sheets adalah alternatif yang sangat baik untuk pengikisan web. Pengikisan web lembar Google tidak melibatkan pengkodean dan menyediakan banyak cara untuk menganalisis data situs web.

Di blog ini kita akan melihat cara menggunakan Google Sheets untuk mengikis halaman web dengan mudah. Jadi mari kita mulai!

Mengapa menggunakan Google Sheets untuk pengikisan Web?

Ada beberapa alasan mengapa Google Sheets adalah alat yang hebat untuk pengikisan web:

  • Google Sheets ramah pengguna dan memiliki antarmuka yang familiar.
  • Itu tidak memerlukan pengetahuan bahasa pemrograman.
  • Google Spreadsheet dapat diakses dari mana saja.
  • Google Spreadsheet gratis, membuatnya terjangkau bagi individu dan bisnis kecil.
  • Google terintegrasi dengan mudah dengan alat Suite lainnya.
  • Anda dapat menggunakan makro atau skrip untuk mengotomatiskan tugas pengikisan web.
  • Anda dapat dengan mudah menganalisis data yang tergores menggunakan rumus Google Sheet.

Ekstrak teks dari halaman web mana pun hanya dengan satu klik. Pergilah ke Nanonet pengikis situs web, Tambahkan URL dan klik "Scrape", dan unduh teks halaman web sebagai file secara instan. Cobalah gratis sekarang.

Pengikis situs web Nanonets


Fungsi apa yang digunakan untuk Scraping Web Google Sheets?

Berikut adalah beberapa fungsi yang mungkin Anda gunakan saat Anda perlu mengikis halaman web menggunakan Google Sheets.

IMPORTHTML:

Ekstrak tabel dan daftar dari halaman HTML.

=IMPORTHTML(url, query, index)
  • url: Ini adalah tautan halaman web yang ingin Anda kikis
  • kueri: Tipe data – Tabel, Daftar
  • indeks: Jika Anda ingin mengekstrak tabel tertentu, Anda dapat menggunakan ini

Contoh:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)","table",1)

IMPORXML:

Ekstrak data dari halaman XML.

=IMPORTXML(url, xpath_query)
  • url: Ini adalah tautan ke halaman web yang ingin Anda kikis
  • xpath_query: ekspresi XPath yang mengidentifikasi data yang ingin Anda ekstrak

Contoh:

=IMPORTXML("https://www.w3schools.com/xml/note.xml", "//note/to")

DATA IMPORT:

Ekstrak data dari file CSV dan TSV.

=IMPORTDATA(url)
  • url: URL file CSV atau TSV yang datanya ingin Anda ekstrak

Contoh:

=IMPORTDATA("https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2021-financial-year-provisional/Download-data/annual-enterprise-survey-2021-financial-year-provisional-size-bands.csv")

EKSTRAK REGEK:

Fungsi ini dapat mengekstraksi data yang cocok dengan pola ekspresi reguler.

=REGEXEXTRACT(text, regular_expression)
  • teks: teks yang ingin Anda cari polanya
  • regular_expression: pola yang ingin Anda cocokkan

Contoh:

=REGEXEXTRACT("1 pound = $1.40", "$d+.d+")

Catatan: Fungsi ini mungkin tidak berfungsi untuk setiap situs web. Itu tergantung pada tata letak situs web. Jika Anda membutuhkan lebih banyak data, Anda dapat menggunakan tutorial pengikisan web menggunakan Python dan Java atau menggunakan alat situs web-ke-teks seperti Nanonets.

Mari kita coba mengekstrak tabel HTML ke dalam Google Sheets. Kami akan mencoba mengikis tabel dari Daftar halaman Wikipedia film pemenang penghargaan Academy.

  1. Buka Google Spreadsheet.
  2. Di sel baru, ketik =IMPORTHTML(url, kueri, indeks)

1. Kode kita menjadi,

 =IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1) 

=IMPORTHTML(“https://en.wikipedia.org/wiki/List_of_Academy_Award-minating_films”,”tabel”,1)

akan mengikis tabel pertama di halaman Wikipedia

3. Periksa hasilnya

Bagaimana cara mengikis data menggunakan pengikisan web Google Sheets?

Mari kita lihat cara mengikis judul, deskripsi, H1, dan lainnya menggunakan Google Spreadsheet. Untuk memulai pengikisan H1 dengan Google Sheets, kami akan menggunakan fungsi IMPORTXML untuk ini halaman nanonet. Berikut langkah-langkahnya:

  • Buka Google Spreadsheet baru atau yang sudah ada.
  • Dalam sel, ketikkan rumus berikut:
=IMPORTXML(“https://nanonets.com/image-to-text”, “//h1/text()”)
  • Untuk mengekstrak tag H1, gunakan ekspresi XPath berikut: //h1/text()
  • Untuk mengekstrak tag judul, gunakan ekspresi XPath berikut: //title/text()
  • Untuk mengekstrak tag deskripsi meta, gunakan ekspresi XPath berikut: //meta[@name='description']/@content
  • Untuk mengekstrak semua tautan halaman, gunakan ekspresi XPath berikut: //a/@href

Tekan Enter dan Google Sheets akan secara otomatis mengikis data dan menampilkannya di sel yang dipilih.

Anda kemudian dapat menyalin rumus ke sel lain untuk mengikis data tambahan dari halaman web yang sama atau berbeda.


Ekstrak teks dari halaman web mana pun hanya dengan satu klik. Pergilah ke Nanonet pengikis situs web, Tambahkan URL dan klik "Scrape", dan unduh teks halaman web sebagai file secara instan. Cobalah gratis sekarang.

Pengikis situs web Nanonets


Apa kerugian menggunakan Google Sheets Web Scraper?

  • Google Spreadsheet memiliki kemampuan terbatas. Dalam hal tata letak yang rumit, ia tidak dapat menangani konten dinamis.
  • Mungkin ada perbedaan data saat menggores data menggunakan rumus pengikisan web Google Sheets.
  • Saat mengorek data dari situs web, Anda mungkin secara tidak sengaja mengorek informasi sensitif atau rahasia. Hal ini dapat menimbulkan masalah privasi dan keamanan, terutama jika data yang tergores dibagikan atau disimpan di lokasi yang tidak aman.

Kiat: Pengikisan Web Google Spreadsheet adalah alternatif yang bagus untuk tugas pengikisan web yang tidak rumit seperti judul meta, daftar, atau ekstraksi tabel. Untuk tugas yang rumit, Anda harus menggunakan alat pengikis web.

Pertanyaan Umum (FAQ)

Bisakah saya mengikis web dengan Google Sheets?

Ya, Google Spreadsheet memiliki fitur bawaan seperti IMPORTHTML, IMPORTXML, IMPORTDATA,

dan REGEXTRACT yang memungkinkan Anda mengambil data dari situs web langsung ke Google Sheets. Namun, fungsionalitasnya mungkin terbatas, dan tugas pengikisan web yang lebih rumit mungkin memerlukan penggunaan pengikis web terpisah atau penulisan kode khusus.

Bagaimana cara mengikis data ke lembar Google?

Anda dapat mengikis data ke Google Sheet dengan menggunakan salah satu fungsi bawaan seperti IMPORTHTML, IMPORTXML, IMPORTDATA, atau REGEXTRACT. Fungsi ini memungkinkan Anda mengekstrak data dari situs web, file CSV atau TSV, dan mencocokkan pola ekspresi reguler. Cukup tentukan URL, kueri, indeks, atau pola ekspresi reguler, dan data akan diambil dan diisi ke Google Sheet Anda.

Stempel Waktu:

Lebih dari AI & Pembelajaran Mesin