Google Sheets Web Scraping: En enkel veiledning for 2023

Google Sheets Web Scraping: En enkel veiledning for 2023

Kilde node: 2017383

Nettskraping kan være et kraftig verktøy for å trekke ut data fra nettsider, men det kan også være en kompleks og tidkrevende prosess. Heldigvis tilbyr Google Sheets en brukervennlig løsning for å skrape data fra nettsteder uten å måtte skrive kompleks kode. Ved å utnytte kraften til Google Sheets kan du enkelt trekke ut data fra nettsider og analysere dem på en rekke måter. I denne bloggen vil jeg veilede deg gjennom prosessen med å bruke Google Sheets til å skrape nettsider og hjelpe deg med å låse opp potensialet til nettskraping for dine egne prosjekter. Så la oss komme i gang!

Nettskraping kan være tidkrevende, komplekst og involvere mye koding. For ikke-kodere. Google Sheets er et utmerket alternativ for nettskraping. Nettskraping av Google-ark innebærer ingen koding og gir mange måter å analysere nettsteddata på.

I denne bloggen vil vi se hvordan du bruker Google Sheets for å enkelt skrape nettsider. Så la oss komme i gang!

Hvorfor bruke Google Sheets for nettskraping?

Det er flere grunner til at Google Sheets er et flott verktøy for nettskraping:

  • Google Sheets er brukervennlig og har et kjent grensesnitt.
  • Det krever ingen kunnskap om programmeringsspråk.
  • Google Regneark er tilgjengelig fra hvor som helst.
  • Google Sheets er gratis, noe som gjør det rimelig for enkeltpersoner og små bedrifter.
  • Google integreres enkelt med andre Suite-verktøy.
  • Du kan bruke makroer eller skript for å automatisere nettskrapingsoppgaver.
  • Du kan enkelt analysere de skrapte dataene ved å bruke Google Sheet-formler.

Trekk ut tekst fra hvilken som helst nettside med bare ett klikk. Gå over til Nanonets nettstedskraper, Legg til URL-en og klikk "Skrap", og last ned nettsideteksten som en fil umiddelbart. Prøv det gratis nå.

Nanonets' nettstedskraper


Hvilke funksjoner skal jeg bruke for Google Sheets Web Scraping?

Her er noen funksjoner du kan bruke når du trenger å skrape nettsider ved hjelp av Google Sheets.

IMPORTHTML:

Trekk ut tabeller og lister fra HTML-sider.

=IMPORTHTML(url, query, index)
  • url: Dette er koblingen til nettsiden du vil skrape
  • spørring: Datatypen – Tabell, Liste
  • indeks: Hvis du vil trekke ut en spesifikk tabell, kan du bruke denne

Eksempel:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)","table",1)

IMPORTXML:

Trekk ut data fra XML-sider.

=IMPORTXML(url, xpath_query)
  • url: Dette er lenken til nettsiden du vil skrape
  • xpath_query: XPath-uttrykket som identifiserer dataene du vil trekke ut

Eksempel:

=IMPORTXML("https://www.w3schools.com/xml/note.xml", "//note/to")

IMPORTDATA:

Trekk ut data fra CSV- og TSV-filer.

=IMPORTDATA(url)
  • url: URL-en til CSV- eller TSV-filen du vil trekke ut data fra

Eksempel:

=IMPORTDATA("https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2021-financial-year-provisional/Download-data/annual-enterprise-survey-2021-financial-year-provisional-size-bands.csv")

REGEKSTRAKT:

Denne funksjonen kan trekke ut data som samsvarer med et regulært uttrykksmønster.

=REGEXEXTRACT(text, regular_expression)
  • tekst: teksten du vil søke etter mønsteret
  • regular_expression: mønsteret du vil matche

Eksempel:

=REGEXEXTRACT("1 pound = $1.40", "$d+.d+")

Merk: Disse funksjonene fungerer kanskje ikke for hvert eneste nettsted. Det avhenger av utformingen av nettstedet. I tilfelle du trenger mer data, kan du ty til veiledninger for nettskraping ved å bruke Python og Java eller bruke nettsted-til-tekst-verktøy som Nanonets.

La oss prøve å trekke ut en HTML-tabell i Google Sheets. Vi vil prøve å skrape bordet fra Liste over Academy prisvinnende filmer Wikipedia-side.

  1. Åpne Google Sheets.
  2. I en ny celle skriver du =IMPORTHTML(url, spørring, indeks)

1. Koden vår blir,

 =IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1) 

=IMPORTHTML(“https://en.wikipedia.org/wiki/List_of_Academy_Award-vinnende_filmer”,,”tabell”,1)

vil skrape den første tabellen på Wikipedia-siden

3. Sjekk resultatene

Hvordan skrape data ved å bruke Google Sheets-nettskraping?

La oss se hvordan du skraper titler, beskrivelser, H1 og mer ved å bruke Google Sheets. For å komme i gang med H1-skraping med Google Sheets, vil vi bruke IMPORTXML-funksjonen for denne spesielle Nanonetter-siden. Her er trinnene:

  • Åpne et nytt eller eksisterende Google-ark.
  • Skriv inn følgende formel i en celle:
=IMPORTXML(“https://nanonets.com/image-to-text”, “//h1/text()”)
  • For å trekke ut H1-taggen, bruk følgende XPath-uttrykk: //h1/text()
  • For å trekke ut tittelkoden, bruk følgende XPath-uttrykk: //title/text()
  • For å trekke ut metabeskrivelseskoden, bruk følgende XPath-uttrykk: //meta[@name='description']/@content
  • For å trekke ut alle sidelenker, bruk følgende XPath-uttrykk: //a/@href

Trykk på Enter og Google Sheets vil automatisk skrape dataene og vise dem i den valgte cellen.

Du kan deretter kopiere formelen til andre celler for å skrape ytterligere data fra samme eller forskjellige nettsider.


Trekk ut tekst fra hvilken som helst nettside med bare ett klikk. Gå over til Nanonets nettstedskraper, Legg til URL-en og klikk "Skrap", og last ned nettsideteksten som en fil umiddelbart. Prøv det gratis nå.

Nanonets' nettstedskraper


Hva er ulempene med å bruke Google Sheets Web Scraper?

  • Google Regneark har begrensede muligheter. Når det gjelder komplekse oppsett, kan den ikke håndtere dynamisk innhold.
  • Det kan være dataavvik når du skraper data ved hjelp av nettskrapingformler i Google Regneark.
  • Når du skraper data fra nettsteder, kan du utilsiktet skrape ut sensitiv eller konfidensiell informasjon. Dette kan skape bekymringer for personvern og sikkerhet, spesielt hvis de skrapte dataene deles eller lagres på et usikret sted.

Tips: Google Sheets Web Scraping er et flott alternativ for ikke-komplekse nettskrapingsoppgaver som metatitler, lister eller tabellutvinning. For komplekse oppgaver bør du bruke verktøy for nettskraping.

Spørsmål og svar

Kan jeg nettskrape med Google Sheets?

Ja, Google Regneark har innebygde funksjoner som IMPORTHTML, IMPORTXML, IMPORTDATA,

og REGEXTRACT som lar deg fange data fra nettsteder direkte inn i Google Sheets. Funksjonaliteten kan imidlertid være begrenset, og mer komplekse nettskrapeoppgaver kan kreve bruk av en separat nettskraper eller skriving av egendefinert kode.

Hvordan skraper jeg data inn i et Google-ark?

Du kan skrape data inn i et Google-ark ved å bruke en av de innebygde funksjonene som IMPORTHTML, IMPORTXML, IMPORTDATA eller REGEXTRACT. Disse funksjonene lar deg trekke ut data fra nettsteder, CSV- eller TSV-filer og matche vanlige uttrykksmønstre. Bare spesifiser nettadressen, spørringen, indeksen eller mønsteret for regulære uttrykk, og dataene vil bli skrapet og fylt inn i Google-regnearket ditt.

Tidstempel:

Mer fra AI og maskinlæring