Google Sheets Web Scraping: un ghid simplu pentru 2023

Google Sheets Web Scraping: un ghid simplu pentru 2023

Nodul sursă: 2017383

Web scraping poate fi un instrument puternic pentru extragerea datelor de pe site-uri web, dar poate fi și un proces complex și consumator de timp. Din fericire, Google Sheets oferă o soluție ușor de utilizat pentru extragerea datelor de pe site-uri web fără a fi nevoie să scrieți cod complex. Prin valorificarea puterii Foi de calcul Google, puteți extrage cu ușurință date din pagini web și le puteți analiza într-o varietate de moduri. În acest blog, vă voi ghida prin procesul de utilizare a foilor de calcul Google pentru a răzui pagini web și vă voi ajuta să deblocați potențialul web scraping pentru propriile proiecte. Asadar, haideti sa începem!

Web Scraping poate fi consumatoare de timp, complexă și implică multă codare. Pentru non-codatori. Foi de calcul Google este o alternativă excelentă pentru web scraping. Google sheet web scraping nu implică nicio codificare și oferă multe modalități de a analiza datele site-ului.

În acest blog vom vedea cum să folosiți Foi de calcul Google pentru a răzui cu ușurință paginile web. Asadar, haideti sa începem!

De ce să folosiți Foi de calcul Google pentru web scraping?

Există mai multe motive pentru care Foi de calcul Google este un instrument excelent pentru scraping web:

  • Foi de calcul Google este ușor de utilizat și are o interfață familiară.
  • Nu necesită cunoștințe de limbaj de programare.
  • Foi de calcul Google este accesibil de oriunde.
  • Foi de calcul Google este gratuit, ceea ce îl face accesibil persoanelor fizice și întreprinderilor mici.
  • Google se integrează cu ușurință cu alte instrumente Suite.
  • Puteți utiliza macrocomenzi sau scripturi pentru a automatiza sarcinile de scraping web.
  • Puteți analiza cu ușurință datele răzuite folosind formulele Google Sheet.

Extrageți text din orice pagină web cu un singur clic. Mergeți la Nanonets răzuitor site, Adăugați adresa URL și faceți clic pe „Scrape” și descărcați instantaneu textul paginii web ca fișier. Încercați-l gratuit acum.

Razuitoarea site-ului Nanonets


Ce funcții să utilizați pentru Google Sheets Web Scraping?

Iată câteva funcții pe care le-ați putea folosi atunci când aveți nevoie să răzuiți pagini web folosind Foi de calcul Google.

IMPORTHTML:

Extrageți tabele și liste din pagini HTML.

=IMPORTHTML(url, query, index)
  • url: Acesta este linkul paginii web pe care doriți să o răzuiți
  • interogare: tipul de date – Tabel, Listă
  • index: Dacă doriți să extrageți un anumit tabel, îl puteți utiliza

Exemplu:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)","table",1)

IMPORTXML:

Extrageți date din pagini XML.

=IMPORTXML(url, xpath_query)
  • url: Acesta este linkul către pagina web pe care doriți să o răzuiți
  • xpath_query: expresia XPath care identifică datele pe care doriți să le extrageți

Exemplu:

=IMPORTXML("https://www.w3schools.com/xml/note.xml", "//note/to")

DATE DE IMPORT:

Extrageți date din fișierele CSV și TSV.

=IMPORTDATA(url)
  • url: adresa URL a fișierului CSV sau TSV din care doriți să extrageți date

Exemplu:

=IMPORTDATA("https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2021-financial-year-provisional/Download-data/annual-enterprise-survey-2021-financial-year-provisional-size-bands.csv")

REGEXTRACT:

Această funcție poate extrage date care se potrivesc cu un model de expresie regulată.

=REGEXEXTRACT(text, regular_expression)
  • text: textul pe care doriți să îl căutați după model
  • expresie_regulată: modelul pe care doriți să îl potriviți

Exemplu:

=REGEXEXTRACT("1 pound = $1.40", "$d+.d+")

Notă: Este posibil ca aceste funcții să nu funcționeze pentru fiecare site web. Depinde de aspectul site-ului. În cazul în care aveți nevoie de mai multe date, puteți apela la tutoriale de web scraping folosind Python și Java sau puteți utiliza instrumente site-to-text precum Nanonets.

Să încercăm să extragem un tabel HTML în Foi de calcul Google. Vom încerca să răzuim masa de pe Pagina Wikipedia cu listă de filme premiate cu Oscar.

  1. Deschideți Foi de calcul Google.
  2. Într-o celulă nouă, tastați =IMPORTHTML(url, query, index)

1. Codul nostru devine,

 =IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1) 

=IMPORTHTML(„https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films”,”tabel”,1)

va răzui primul tabel de pe pagina Wikipedia

3. Verificați rezultatele

Cum să răzuiți datele folosind Google Sheets web scraping?

Să vedem cum să răzuiți titluri, descrieri, H1 și altele folosind Foi de calcul Google. Pentru a începe cu răzuirea H1 cu Foi de calcul Google, vom folosi funcția IMPORTXML pentru acest anume Pagina Nanonets. Iată pașii:

  • Deschideți o foaie de calcul Google nouă sau existentă.
  • Într-o celulă, tastați următoarea formulă:
=IMPORTXML(“https://nanonets.com/image-to-text”, “//h1/text()”)
  • Pentru a extrage eticheta H1, utilizați următoarea expresie XPath: //h1/text()
  • Pentru a extrage eticheta de titlu, utilizați următoarea expresie XPath: //title/text()
  • Pentru a extrage eticheta meta description, utilizați următoarea expresie XPath: //meta[@name='description']/@content
  • Pentru a extrage toate linkurile de pagină, utilizați următoarea expresie XPath: //a/@href

Apăsați Enter și Google Sheets va răzui automat datele și le va afișa în celula selectată.

Apoi puteți copia formula în alte celule pentru a răzui date suplimentare din aceleași pagini web sau din diferite pagini web.


Extrageți text din orice pagină web cu un singur clic. Mergeți la Nanonets răzuitor site, Adăugați adresa URL și faceți clic pe „Scrape” și descărcați instantaneu textul paginii web ca fișier. Încercați-l gratuit acum.

Razuitoarea site-ului Nanonets


Care sunt dezavantajele utilizării Google Sheets Web Scraper?

  • Foi de calcul Google are capacități limitate. Când vine vorba de aspecte complexe, nu poate gestiona conținutul dinamic.
  • S-ar putea să existe discrepanțe în ceea ce privește datele atunci când răzuiți datele folosind formulele de scraping web Foi de calcul Google.
  • Când răzuiți date de pe site-uri web, este posibil să răzuiți din neatenție informații sensibile sau confidențiale. Acest lucru poate ridica probleme de confidențialitate și securitate, mai ales dacă datele răzuite sunt partajate sau stocate într-o locație nesecurizată.

Sfat: Google Sheets Web Scraping este o alternativă excelentă pentru sarcinile necomplexe de web scraping, cum ar fi meta titluri, liste sau extragerea tabelelor. Pentru sarcini complexe, ar trebui să utilizați instrumente de scraping web.

Întrebări frecvente

Pot scrape web cu Foi de calcul Google?

Da, Foi de calcul Google are funcții încorporate precum IMPORTHTML, IMPORTXML, IMPORTDATA,

și REGEXTRACT care vă permit să capturați date de pe site-uri web direct în Foi de calcul Google. Cu toate acestea, funcționalitatea poate fi limitată, iar sarcinile de scraping web mai complexe pot necesita utilizarea unui scraper web separat sau scrierea unui cod personalizat.

Cum răzuiesc datele într-o foaie Google?

Puteți răzui date într-o foaie de calcul Google utilizând una dintre funcțiile încorporate, cum ar fi IMPORTHTML, IMPORTXML, IMPORTDATA sau REGEXTRACT. Aceste funcții vă permit să extrageți date de pe site-uri web, fișiere CSV sau TSV și să potriviți modele de expresii regulate. Pur și simplu specificați adresa URL, interogarea, indexul sau modelul de expresie regulată, iar datele vor fi răzuite și populate în foaia dvs. Google.

Timestamp-ul:

Mai mult de la AI și învățarea automată