Spletno strganje Google Preglednic: Preprost vodnik za leto 2023

Spletno strganje Google Preglednic: Preprost vodnik za leto 2023

Izvorno vozlišče: 2017383

Spletno strganje je lahko močno orodje za pridobivanje podatkov s spletnih mest, lahko pa je tudi zapleten in dolgotrajen postopek. Na srečo Google Preglednice ponujajo uporabniku prijazno rešitev za strganje podatkov s spletnih mest, ne da bi morali pisati zapleteno kodo. Z izkoriščanjem moči Google Preglednic lahko preprosto izvlečete podatke s spletnih strani in jih analizirate na različne načine. V tem spletnem dnevniku vas bom vodil skozi postopek uporabe Google Preglednic za strganje spletnih strani in vam pomagal sprostiti potencial spletnega strganja za vaše lastne projekte. Torej, začnimo!

Spletno strganje je lahko zamudno, zapleteno in vključuje veliko kodiranja. Za nekoderje. Google Preglednice so odlična alternativa za spletno strganje. Spletno strganje Google listov ne vključuje kodiranja in ponuja veliko načinov za analizo podatkov spletnega mesta.

V tem blogu bomo videli, kako uporabljati Google Preglednice za preprosto strganje spletnih strani. Pa začnimo!

Zakaj uporabljati Google Preglednice za spletno strganje?

Obstaja več razlogov, zakaj so Google Preglednice odlično orodje za spletno strganje:

  • Google Preglednice so uporabniku prijazne in imajo poznan vmesnik.
  • Ne zahteva znanja programskega jezika.
  • Google Preglednice so dostopne od koder koli.
  • Google Preglednice so brezplačne, zaradi česar so cenovno dostopne posameznikom in malim podjetjem.
  • Google se enostavno integrira z drugimi orodji Suite.
  • Za avtomatizacijo opravil spletnega strganja lahko uporabite makre ali skripte.
  • Postrgane podatke lahko preprosto analizirate s formulami Google Sheet.

Izvlecite besedilo s katere koli spletne strani z enim klikom. Pojdite do Nanonets strgalo za spletne strani, Dodajte URL in kliknite »Postrgaj« ter takoj prenesite besedilo spletne strani kot datoteko. Preizkusite brezplačno zdaj.

Strgalo spletnih strani Nanonets


Katere funkcije uporabiti za Google Sheets Web Scraping?

Tukaj je nekaj funkcij, ki jih lahko uporabite, ko morate spletne strani strgati z Google Preglednicami.

IMPORTHTML:

Ekstrahirajte tabele in sezname s strani HTML.

=IMPORTHTML(url, query, index)
  • url: To je povezava spletne strani, ki jo želite postrgati
  • poizvedba: Tip podatkov – tabela, seznam
  • index: Če želite ekstrahirati določeno tabelo, lahko uporabite to

primer:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)","table",1)

IMPORTXML:

Ekstrakt podatkov s strani XML.

=IMPORTXML(url, xpath_query)
  • url: To je povezava do spletne strani, ki jo želite postrgati
  • xpath_query: izraz XPath, ki identificira podatke, ki jih želite ekstrahirati

primer:

=IMPORTXML("https://www.w3schools.com/xml/note.xml", "//note/to")

UVOZNI PODATKI:

Ekstrahirajte podatke iz datotek CSV in TSV.

=IMPORTDATA(url)
  • url: URL datoteke CSV ali TSV, iz katere želite izvleči podatke

primer:

=IMPORTDATA("https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2021-financial-year-provisional/Download-data/annual-enterprise-survey-2021-financial-year-provisional-size-bands.csv")

REGEXEXTRACT:

Ta funkcija lahko izvleče podatke, ki se ujemajo z vzorcem regularnega izraza.

=REGEXEXTRACT(text, regular_expression)
  • besedilo: besedilo, po katerem želite iskati vzorec
  • regular_expression: vzorec, ki ga želite ujemati

primer:

=REGEXEXTRACT("1 pound = $1.40", "$d+.d+")

Opomba: Te funkcije morda ne bodo delovale za vsa spletna mesta. Odvisno je od postavitve spletne strani. Če potrebujete več podatkov, se lahko zatečete k vadnicam za spletno strganje z uporabo Pythona in Jave ali uporabite orodja za pretvorbo spletne strani v besedilo, kot je Nanonets.

Poskusimo ekstrahirati tabelo HTML v Google Preglednice. Mizo bomo poskušali postrgati s Stran Wikipedije s seznamom nagrajenih filmov z oskarjem.

  1. Odprite Google Preglednice.
  2. V novo celico vnesite =IMPORTHTML(url, poizvedba, indeks)

1. Naša koda postane,

 =IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1) 

=IMPORTHTML(“https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films”,”tabela”,1)

bo postrgal prvo tabelo na strani Wikipedije

3. Preverite rezultate

Kako postrgati podatke s spletnim strganjem Google Preglednic?

Oglejmo si, kako z Google Preglednicami postrgati naslove, opise, H1 in drugo. Da bi začeli s strganjem H1 z Google Preglednicami, bomo za to uporabili funkcijo IMPORTXML Stran Nanonets. Tukaj so koraki:

  • Odprite novo ali obstoječo Google Preglednico.
  • V celico vnesite to formulo:
=IMPORTXML(“https://nanonets.com/image-to-text”, “//h1/text()”)
  • Če želite izvleči oznako H1, uporabite naslednji izraz XPath: //h1/text()
  • Če želite izvleči naslovno oznako, uporabite naslednji izraz XPath: //title/text()
  • Če želite ekstrahirati oznako meta opisa, uporabite naslednji izraz XPath: //meta[@name='description']/@content
  • Če želite ekstrahirati vse povezave strani, uporabite naslednji izraz XPath: //a/@href

Pritisnite Enter in Google Preglednice bodo samodejno postrgale podatke in jih prikazale v izbrani celici.

Nato lahko kopirate formulo v druge celice, da postrgate dodatne podatke z iste ali različnih spletnih strani.


Izvlecite besedilo s katere koli spletne strani z enim klikom. Pojdite do Nanonets strgalo za spletne strani, Dodajte URL in kliknite »Postrgaj« ter takoj prenesite besedilo spletne strani kot datoteko. Preizkusite brezplačno zdaj.

Strgalo spletnih strani Nanonets


Kakšne so slabosti uporabe Google Sheets Web Scraper?

  • Google Preglednice imajo omejene zmogljivosti. Ko gre za zapletene postavitve, ne prenese dinamične vsebine.
  • Pri strganju podatkov z uporabo formul za spletno strganje Google Preglednic lahko pride do odstopanj.
  • Pri strganju podatkov s spletnih mest lahko nehote postrgate občutljive ali zaupne informacije. To lahko povzroči pomisleke glede zasebnosti in varnosti, zlasti če so postrgani podatki v skupni rabi ali shranjeni na nezavarovani lokaciji.

Namig: Spletno strganje Google Preglednic je odlična alternativa za nezapletena opravila spletnega strganja, kot so meta naslovi, seznami ali ekstrakcija tabel. Za zapletene naloge uporabite orodja za spletno strganje.

Pogosta vprašanja

Ali lahko spletno strgam z Google Preglednicami?

Da, Google Preglednice imajo vgrajene funkcije, kot so IMPORTHTML, IMPORTXML, IMPORTDATA,

in REGEXTRACT, ki omogočata zajemanje podatkov s spletnih mest neposredno v Google Preglednice. Vendar pa je funkcionalnost lahko omejena in bolj zapletena opravila spletnega strganja lahko zahtevajo uporabo ločenega spletnega strgala ali pisanje kode po meri.

Kako postrgam podatke v Googlov list?

Podatke lahko postrgate v Google Preglednico z uporabo ene od vgrajenih funkcij, kot so IMPORTHTML, IMPORTXML, IMPORTDATA ali REGEXTRACT. Te funkcije vam omogočajo ekstrahiranje podatkov iz spletnih mest, datotek CSV ali TSV in ujemanje vzorcev regularnih izrazov. Preprosto določite URL, poizvedbo, indeks ali vzorec regularnega izraza in podatki bodo postrgani in vneseni v vašo Google Preglednico.

Časovni žig:

Več od AI in strojno učenje