Google Spreadsheets Web Scraping: een eenvoudige gids voor 2023

Google Spreadsheets Web Scraping: een eenvoudige gids voor 2023

Bronknooppunt: 2017383

Webscraping kan een krachtig hulpmiddel zijn om gegevens van websites te extraheren, maar het kan ook een complex en tijdrovend proces zijn. Gelukkig biedt Google Spreadsheets een gebruiksvriendelijke oplossing om gegevens van websites te schrapen zonder ingewikkelde code te hoeven schrijven. Door gebruik te maken van de kracht van Google Spreadsheets, kunt u eenvoudig gegevens uit webpagina's extraheren en deze op verschillende manieren analyseren. In deze blog zal ik u door het proces leiden van het gebruik van Google Spreadsheets om webpagina's te schrapen en u helpen het potentieel van webschrapen voor uw eigen projecten te benutten. Dus laten we beginnen!

Webscraping kan tijdrovend en complex zijn en veel coderen met zich meebrengen. Voor niet-codeerders. Google Spreadsheets is een uitstekend alternatief voor webschrapen. Webschrapen van Google-bladen omvat geen codering en biedt vele manieren om websitegegevens te analyseren.

In deze blog zullen we zien hoe u Google Spreadsheets kunt gebruiken om eenvoudig webpagina's te schrapen. Dus laten we beginnen!

Waarom Google Spreadsheets gebruiken voor webscraping?

Er zijn verschillende redenen waarom Google Spreadsheets een geweldig hulpmiddel is voor webscraping:

  • Google Spreadsheets is gebruiksvriendelijk en heeft een vertrouwde interface.
  • Het vereist geen kennis van programmeertalen.
  • Google Spreadsheets is overal toegankelijk.
  • Google Spreadsheets is gratis, waardoor het betaalbaar is voor particulieren en kleine bedrijven.
  • Google kan eenvoudig worden geïntegreerd met andere Suite-tools.
  • U kunt macro's of scripts gebruiken om webscraping-taken te automatiseren.
  • U kunt de geschraapte gegevens eenvoudig analyseren met behulp van Google Sheet-formules.

Extraheer tekst van elke webpagina met slechts één klik. Ga naar Nanonets website schraper, Voeg de URL toe en klik op "Schrapen" en download de webpagina-tekst direct als een bestand. Probeer het nu gratis.

De websiteschraper van Nanonets


Welke functies te gebruiken voor Google Spreadsheets Web Scraping?

Hier zijn enkele functies die u zou kunnen gebruiken wanneer u webpagina's moet schrapen met Google Spreadsheets.

IMPORTHTML:

Haal tabellen en lijsten uit HTML-pagina's.

=IMPORTHTML(url, query, index)
  • url: Dit is de link van de webpagina die u wilt schrapen
  • query: Het gegevenstype – Tabel, Lijst
  • index: Als u een specifieke tabel wilt extraheren, kunt u deze gebruiken

Voorbeeld:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)","table",1)

XML IMPORTEREN:

Haal gegevens uit XML-pagina's.

=IMPORTXML(url, xpath_query)
  • url: Dit is de link naar de webpagina die u wilt schrapen
  • xpath_query: de XPath-expressie die de gegevens identificeert die u wilt extraheren

Voorbeeld:

=IMPORTXML("https://www.w3schools.com/xml/note.xml", "//note/to")

DATA IMPORTEREN:

Extraheer gegevens uit CSV- en TSV-bestanden.

=IMPORTDATA(url)
  • url: de URL van het CSV- of TSV-bestand waaruit u gegevens wilt extraheren

Voorbeeld:

=IMPORTDATA("https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2021-financial-year-provisional/Download-data/annual-enterprise-survey-2021-financial-year-provisional-size-bands.csv")

REGEXTRACT:

Deze functie kan gegevens extraheren die overeenkomen met een patroon van reguliere expressies.

=REGEXEXTRACT(text, regular_expression)
  • tekst: de tekst waarin u naar het patroon wilt zoeken
  • regular_expression: het patroon dat u wilt matchen

Voorbeeld:

=REGEXEXTRACT("1 pound = $1.40", "$d+.d+")

Opmerking: deze functies werken mogelijk niet voor elke website. Het hangt af van de lay-out van de website. Als u meer gegevens nodig heeft, kunt u een beroep doen op zelfstudies over webschrapen met behulp van Python en Java of website-naar-teksttools zoals Nanonets gebruiken.

Laten we proberen een HTML-tabel te extraheren in Google Spreadsheets. We zullen proberen de tafel van de tafel te schrapen Lijst met met een Academy Award bekroonde films Wikipedia-pagina.

  1. Open Google Spreadsheets.
  2. Typ =IMPORTHTML(url, query, index) in een nieuwe cel

1. Onze code wordt,

 =IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1) 

=IMPORTHTML(“https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films”,,”tabel”,1)

zal de eerste tabel op de Wikipedia-pagina schrapen

3. Controleer de resultaten

Hoe gegevens te schrapen met Google Spreadsheets webschrapen?

Laten we eens kijken hoe we titels, beschrijvingen, H1 en meer kunnen schrapen met Google Spreadsheets. Om aan de slag te gaan met H1-scraping met Google Spreadsheets, gebruiken we hiervoor de functie IMPORTXML Nanonetten pagina. Dit zijn de stappen:

  • Open een nieuw of bestaand Google-spreadsheet.
  • Typ de volgende formule in een cel:
=IMPORTXML(“https://nanonets.com/image-to-text”, “//h1/text()”)
  • Gebruik de volgende XPath-expressie om de H1-tag te extraheren: //h1/text()
  • Gebruik de volgende XPath-expressie om de title-tag te extraheren: //title/text()
  • Gebruik de volgende XPath-expressie om de metabeschrijvingstag te extraheren: //meta[@name='description']/@content
  • Gebruik de volgende XPath-expressie om alle paginalinks te extraheren: //a/@href

Druk op Enter en Google Spreadsheets schrapt automatisch de gegevens en geeft deze weer in de geselecteerde cel.

U kunt de formule vervolgens naar andere cellen kopiëren om aanvullende gegevens van dezelfde of verschillende webpagina's te schrapen.


Extraheer tekst van elke webpagina met slechts één klik. Ga naar Nanonets website schraper, Voeg de URL toe en klik op "Schrapen" en download de webpagina-tekst direct als een bestand. Probeer het nu gratis.

De websiteschraper van Nanonets


Wat zijn de nadelen van het gebruik van Google Spreadsheets Web Scraper?

  • Google Spreadsheets heeft beperkte mogelijkheden. Als het gaat om complexe lay-outs, kan het geen dynamische inhoud aan.
  • Er kunnen gegevensverschillen zijn bij het schrapen van gegevens met behulp van webscraping-formules van Google Spreadsheets.
  • Bij het schrapen van gegevens van websites, kunt u per ongeluk gevoelige of vertrouwelijke informatie schrapen. Dit kan privacy- en beveiligingsproblemen opleveren, vooral als de geschraapte gegevens worden gedeeld of opgeslagen op een onbeveiligde locatie.

Tip: Google Spreadsheets Web Scraping is een geweldig alternatief voor niet-complexe webscraping-taken zoals metatitels, lijsten of tabelextractie. Voor complexe taken moet u webscraping-tools gebruiken.

Veelgestelde vragen

Kan ik webschrapen met Google Spreadsheets?

Ja, Google Spreadsheets heeft ingebouwde functies zoals IMPORTHTML, IMPORTXML, IMPORTDATA,

en REGEXTRACT waarmee u gegevens van websites rechtstreeks in Google Spreadsheets kunt vastleggen. De functionaliteit kan echter beperkt zijn en voor complexere webscraping-taken kan het gebruik van een afzonderlijke webscraper of het schrijven van aangepaste code nodig zijn.

Hoe schraap ik gegevens in een Google-spreadsheet?

U kunt gegevens in een Google-blad schrapen door een van de ingebouwde functies te gebruiken, zoals IMPORTHTML, IMPORTXML, IMPORTDATA of REGEXTRACT. Met deze functies kunt u gegevens uit websites, CSV- of TSV-bestanden extraheren en reguliere-expressiepatronen matchen. Geef gewoon de URL, zoekopdracht, index of reguliere expressiepatroon op en de gegevens worden geschraapt en ingevuld in uw Google-spreadsheet.

Tijdstempel:

Meer van AI en machine learning