Raspagem da Web do Planilhas Google: um guia simples para 2023

Raspagem da Web do Planilhas Google: um guia simples para 2023

Nó Fonte: 2017383

A raspagem da Web pode ser uma ferramenta poderosa para extrair dados de sites, mas também pode ser um processo complexo e demorado. Felizmente, o Planilhas Google oferece uma solução amigável para extrair dados de sites sem a necessidade de escrever códigos complexos. Ao aproveitar o poder do Planilhas Google, você pode facilmente extrair dados de páginas da Web e analisá-los de várias maneiras. Neste blog, vou guiá-lo pelo processo de uso do Planilhas Google para raspar páginas da web e ajudá-lo a liberar o potencial da raspagem da web para seus próprios projetos. Então vamos começar!

O Web Scraping pode ser demorado, complexo e envolver muita codificação. Para não codificadores. O Planilhas Google é uma excelente alternativa para web scraping. A raspagem da web da planilha do Google não envolve codificação e fornece muitas maneiras de analisar os dados do site.

Neste blog, veremos como usar o Planilhas Google para raspar páginas da Web facilmente. Então vamos começar!

Por que usar o Planilhas Google para raspagem da Web?

Existem várias razões pelas quais o Planilhas Google é uma ótima ferramenta para web scraping:

  • O Planilhas Google é fácil de usar e possui uma interface familiar.
  • Não requer nenhum conhecimento de linguagem de programação.
  • O Planilhas Google pode ser acessado de qualquer lugar.
  • O Planilhas Google é gratuito, tornando-o acessível para indivíduos e pequenas empresas.
  • O Google se integra facilmente com outras ferramentas do Suite.
  • Você pode usar macros ou scripts para automatizar tarefas de web scraping.
  • Você pode analisar facilmente os dados extraídos usando as fórmulas do Google Sheet.

Extraia texto de qualquer página da web com apenas um clique. Vá para Nanonets raspador de site, Adicione o URL e clique em “Raspar” e baixe o texto da página da Web como um arquivo instantaneamente. Experimente gratuitamente agora.

Raspador de site da Nanonets


Quais funções usar para o Google Sheets Web Scraping?

Aqui estão algumas funções que você pode usar quando precisar raspar páginas da Web usando o Planilhas Google.

IMPORTARHTML:

Extraia tabelas e listas de páginas HTML.

=IMPORTHTML(url, query, index)
  • url: Este é o link da página da web que você deseja raspar
  • query: O tipo de dados – Tabela, Lista
  • index: Se você deseja extrair uma tabela específica, pode usar este

Exemplo:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)","table",1)

IMPORTARXML:

Extraia dados de páginas XML.

=IMPORTXML(url, xpath_query)
  • url: Este é o link para a página da web que você deseja raspar
  • xpath_query: a expressão XPath que identifica os dados que você deseja extrair

Exemplo:

=IMPORTXML("https://www.w3schools.com/xml/note.xml", "//note/to")

IMPORTAR DADOS:

Extraia dados de arquivos CSV e TSV.

=IMPORTDATA(url)
  • url: a URL do arquivo CSV ou TSV do qual você deseja extrair dados

Exemplo:

=IMPORTDATA("https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2021-financial-year-provisional/Download-data/annual-enterprise-survey-2021-financial-year-provisional-size-bands.csv")

EXTRATO REGEXE:

Esta função pode extrair dados que correspondem a um padrão de expressão regular.

=REGEXEXTRACT(text, regular_expression)
  • text: o texto que você deseja procurar pelo padrão
  • regular_expression: o padrão que você deseja corresponder

Exemplo:

=REGEXEXTRACT("1 pound = $1.40", "$d+.d+")

Observação: essas funções podem não funcionar para todos os sites. Depende do layout do site. Caso precise de mais dados, você pode recorrer a tutoriais de web scraping usando Python e Java ou usar ferramentas de site para texto como Nanonets.

Vamos tentar extrair uma tabela HTML para o Planilhas Google. Vamos tentar raspar a mesa do Lista de filmes premiados da Academia na Wikipédia.

  1. Abra o Planilhas Google.
  2. Em uma nova célula, digite =IMPORTHTML(url, query, index)

1. Nosso código se torna,

 =IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1) 

=IMPORTHTML(“https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films”,”tabela”,1)

irá raspar a primeira tabela na página da Wikipédia

3. Verifique os resultados

Como extrair dados usando a raspagem da web do Planilhas Google?

Vamos ver como extrair títulos, descrições, H1 e muito mais usando o Planilhas Google. Para começar a raspar H1 com o Planilhas Google, usaremos a função IMPORTXML para este página de nanonets. Aqui estão os passos:

  • Abra uma planilha do Google nova ou existente.
  • Em uma célula, digite a seguinte fórmula:
=IMPORTXML(“https://nanonets.com/image-to-text”, “//h1/text()”)
  • Para extrair a tag H1, use a seguinte expressão XPath: //h1/text()
  • Para extrair a tag de título, use a seguinte expressão XPath: //title/text()
  • Para extrair a meta tag de descrição, use a seguinte expressão XPath: //meta[@name='description']/@content
  • Para extrair todos os links de página, use a seguinte expressão XPath: //a/@href

Pressione Enter e o Planilhas Google irá coletar automaticamente os dados e exibi-los na célula selecionada.

Você pode então copiar a fórmula para outras células para extrair dados adicionais da mesma ou de diferentes páginas da web.


Extraia texto de qualquer página da web com apenas um clique. Vá para Nanonets raspador de site, Adicione o URL e clique em “Raspar” e baixe o texto da página da Web como um arquivo instantaneamente. Experimente gratuitamente agora.

Raspador de site da Nanonets


Quais são as desvantagens de usar o Google Sheets Web Scraper?

  • O Planilhas Google tem recursos limitados. Quando se trata de layouts complexos, ele não consegue lidar com conteúdo dinâmico.
  • Pode haver discrepâncias de dados ao coletar dados usando as fórmulas de captura da Web do Planilhas Google.
  • Ao extrair dados de sites, você pode inadvertidamente coletar informações sensíveis ou confidenciais. Isso pode aumentar as preocupações com privacidade e segurança, especialmente se os dados copiados forem compartilhados ou armazenados em um local não seguro.

Dica: a raspagem da Web do Planilhas Google é uma ótima alternativa para tarefas não complexas de raspagem da web, como metatítulos, listas ou extração de tabelas. Para tarefas complexas, você deve usar ferramentas de raspagem da web.

Perguntas Frequentes:

Posso raspar na web com o Planilhas Google?

Sim, o Planilhas Google tem recursos integrados como IMPORTHTML, IMPORTXML, IMPORTDATA,

e REGEXTRACT que permitem capturar dados de sites diretamente no Planilhas Google. No entanto, a funcionalidade pode ser limitada e tarefas de raspagem da web mais complexas podem exigir o uso de um raspador da web separado ou a escrita de um código personalizado.

Como faço para raspar dados em uma planilha do Google?

Você pode coletar dados em uma planilha do Google usando uma das funções integradas, como IMPORTHTML, IMPORTXML, IMPORTDATA ou REGEXTRACT. Essas funções permitem extrair dados de sites, arquivos CSV ou TSV e combinar padrões de expressão regular. Basta especificar o URL, a consulta, o índice ou o padrão de expressão regular e os dados serão copiados e preenchidos em sua Planilha Google.

Carimbo de hora:

Mais de IA e aprendizado de máquina