Google'i arvutustabelite veebikraapimine: lihtne juhend 2023. aastaks

Google'i arvutustabelite veebikraapimine: lihtne juhend 2023. aastaks

Allikasõlm: 2017383

Veebi kraapimine võib olla võimas tööriist veebisaitidelt andmete hankimiseks, kuid see võib olla ka keeruline ja aeganõudev protsess. Õnneks pakub Google Sheets kasutajasõbralikku lahendust veebisaitidelt andmete kraapimiseks ilma keerulist koodi kirjutamata. Kasutades Google'i arvutustabelite võimsust, saate hõlpsalt veebilehtedelt andmeid eraldada ja neid mitmel viisil analüüsida. Selles blogis juhendan teid Google'i arvutustabelite kasutamise protsessis veebilehtede kraapimiseks ja aitan teil avada oma projektide jaoks veebi kraapimise potentsiaal. Niisiis, alustame!

Veebi kraapimine võib olla aeganõudev, keeruline ja hõlmata palju kodeerimist. Mittekodeerijatele. Google'i arvutustabelid on suurepärane alternatiiv veebikraapimiseks. Google'i lehtede veebikraapimine ei hõlma kodeerimist ja pakub palju võimalusi veebisaidi andmete analüüsimiseks.

Selles ajaveebis näeme, kuidas kasutada Google'i arvutustabeleid veebilehtede hõlpsaks kraapimiseks. Nii et alustame!

Miks kasutada veebikraapimiseks Google'i arvutustabeleid?

On mitu põhjust, miks Google'i arvutustabelid on suurepärane tööriist veebi kraapimiseks.

  • Google'i arvutustabelid on kasutajasõbralik ja tuttava liidesega.
  • See ei nõua programmeerimiskeele tundmist.
  • Google'i arvutustabelid on juurdepääsetavad kõikjalt.
  • Google'i arvutustabelid on tasuta, muutes selle taskukohaseks eraisikutele ja väikeettevõtetele.
  • Google integreerub hõlpsalt teiste Suite'i tööriistadega.
  • Veebi kraapimistoimingute automatiseerimiseks saate kasutada makrosid või skripte.
  • Saate hõlpsalt analüüsida kogutud andmeid Google'i lehe valemite abil.

Ekstraktige teksti mis tahes veebilehelt vaid ühe klõpsuga. Suunduge Nanonetsi poole veebisaidi kaabits, Lisage URL ja klõpsake käsul „Scrape” ning laadige veebilehe tekst kohe failina alla. Proovige seda nüüd tasuta.

Nanonetsi veebisaidi kaabits


Milliseid funktsioone Google Sheetsi veebikraapimiseks kasutada?

Siin on mõned funktsioonid, mida võite kasutada, kui teil on vaja Google'i arvutustabelite abil veebilehti kraapida.

IMPORTHTML:

Ekstraktige HTML-lehtedelt tabeleid ja loendeid.

=IMPORTHTML(url, query, index)
  • url: see on selle veebilehe link, mida soovite kraapida
  • päring: andmetüüp – tabel, loend
  • indeks: kui soovite eraldada konkreetse tabeli, saate seda kasutada

Näide:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)","table",1)

IMPORTXML:

Andmete eraldamine XML-lehtedelt.

=IMPORTXML(url, xpath_query)
  • url: see on link veebilehele, mida soovite kraapida
  • xpath_query: XPathi avaldis, mis tuvastab andmed, mida soovite ekstraktida

Näide:

=IMPORTXML("https://www.w3schools.com/xml/note.xml", "//note/to")

IMPORTANDMED:

Andmete ekstraheerimine CSV- ja TSV-failidest.

=IMPORTDATA(url)
  • url: selle CSV- või TSV-faili URL, millest soovite andmeid ekstraktida

Näide:

=IMPORTDATA("https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2021-financial-year-provisional/Download-data/annual-enterprise-survey-2021-financial-year-provisional-size-bands.csv")

REGEXTRACT:

See funktsioon saab eraldada andmeid, mis vastavad regulaaravaldise mustrile.

=REGEXEXTRACT(text, regular_expression)
  • tekst: tekst, millest soovite mustrit otsida
  • regulaarne_avaldis: muster, mida soovite sobitada

Näide:

=REGEXEXTRACT("1 pound = $1.40", "$d+.d+")

Märkus. Need funktsioonid ei pruugi igal veebisaidil töötada. See sõltub veebisaidi paigutusest. Kui vajate rohkem andmeid, võite kasutada Pythoni ja Java abil veebikraapimise õpetusi või veebisaidi tekstiks muutmise tööriistu, nagu Nanonets.

Proovime ekstraheerida HTML-tabeli Google'i arvutustabelitesse. Püüame laua küljest kraapida Akadeemia auhinnatud filmide loendi Wikipedia leht.

  1. Avage Google'i arvutustabelid.
  2. Tippige uude lahtrisse =IMPORTHTML(url, päring, register)

1. Meie kood muutub

 =IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1) 

=IMPORTHTML(“https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films”,”table”,1)

kraabib Vikipeedia lehele esimese tabeli

3. Kontrollige tulemusi

Kuidas andmeid kraapida Google'i arvutustabelite veebikraapimise abil?

Vaatame, kuidas Google'i arvutustabelite abil pealkirju, kirjeldusi, H1 ja muud kraapida. Google'i arvutustabelitega H1 kraapimise alustamiseks kasutame selle konkreetse jaoks funktsiooni IMPORTXML Nanonetside leht. Siin on sammud.

  • Avage uus või olemasolev Google'i leht.
  • Sisestage lahtrisse järgmine valem:
=IMPORTXML(“https://nanonets.com/image-to-text”, “//h1/text()”)
  • H1 sildi ekstraheerimiseks kasutage järgmist XPathi avaldist: //h1/text()
  • Pealkirja märgendi eraldamiseks kasutage järgmist XPathi avaldist: //title/text()
  • Metakirjeldusmärgendi eraldamiseks kasutage järgmist XPathi avaldist: //meta[@name='description']/@content
  • Kõigi lehelinkide eraldamiseks kasutage järgmist XPathi avaldist: //a/@href

Vajutage sisestusklahvi ja Google'i arvutustabelid kraabib andmed automaatselt ja kuvab need valitud lahtris.

Seejärel saate valemi kopeerida teistesse lahtritesse, et koguda samalt või erinevatelt veebilehtedelt täiendavaid andmeid.


Ekstraktige teksti mis tahes veebilehelt vaid ühe klõpsuga. Suunduge Nanonetsi poole veebisaidi kaabits, Lisage URL ja klõpsake käsul „Scrape” ning laadige veebilehe tekst kohe failina alla. Proovige seda nüüd tasuta.

Nanonetsi veebisaidi kaabits


Millised on Google Sheets Web Scraperi kasutamise puudused?

  • Google'i arvutustabelite võimalused on piiratud. Kui tegemist on keerukate paigutustega, ei saa see dünaamilise sisuga hakkama.
  • Google'i arvutustabelite veebikraapimise valemite abil andmete kraapimisel võib esineda andmete lahknevusi.
  • Veebisaitidelt andmete kraapimisel võite kogemata tundlikku või konfidentsiaalset teavet kraapida. See võib tekitada privaatsus- ja turvaprobleeme, eriti kui kogutud andmeid jagatakse või talletatakse turvamata kohas.

Näpunäide. Google'i arvutustabelite veebikraapimine on suurepärane alternatiiv mittekeerukate veebikraapimisülesannete jaoks, nagu metapealkirjad, loendid või tabelite ekstraheerimine. Keeruliste ülesannete jaoks peaksite kasutama veebikraapimise tööriistu.

KKK

Kas ma saan Google'i arvutustabelitega veebis kraapida?

Jah, Google'i arvutustabelitel on sisseehitatud funktsioonid, nagu IMPORTHTML, IMPORTXML, IMPORTDATA,

ja REGEXTRACT, mis võimaldavad teil veebisaitidelt andmeid otse Google'i arvutustabelitesse jäädvustada. Funktsionaalsus võib aga olla piiratud ja keerukamate veebikraapimistoimingute jaoks võib olla vaja kasutada eraldi veebikaabitsat või kirjutada kohandatud koodi.

Kuidas andmeid Google'i lehele kraapida?

Saate andmeid Google'i tabelisse kraapida, kasutades ühte sisseehitatud funktsioonidest, nagu IMPORTHTML, IMPORTXML, IMPORTDATA või REGEXTRACT. Need funktsioonid võimaldavad teil hankida andmeid veebisaitidelt, CSV- või TSV-failidest ja sobitada regulaaravaldise mustreid. Lihtsalt määrake URL, päring, register või regulaaravaldise muster ning andmed kraabitakse ja sisestatakse teie Google'i tabelisse.

Ajatempel:

Veel alates Tehisintellekt ja masinõpe