Web Scraping de Hojas de cálculo de Google: una guía sencilla para 2023

Web Scraping de Hojas de cálculo de Google: una guía sencilla para 2023

Nodo de origen: 2017383

El web scraping puede ser una herramienta poderosa para extraer datos de sitios web, pero también puede ser un proceso complejo y lento. Afortunadamente, Google Sheets ofrece una solución fácil de usar para extraer datos de sitios web sin necesidad de escribir código complejo. Al aprovechar el poder de Hojas de cálculo de Google, puede extraer fácilmente datos de páginas web y analizarlos de varias maneras. En este blog, lo guiaré a través del proceso de uso de Hojas de cálculo de Google para raspar páginas web y lo ayudaré a desbloquear el potencial del raspado web para sus propios proyectos. ¡Entonces empecemos!

Web Scraping puede llevar mucho tiempo, ser complejo e implicar mucha codificación. Para no programadores. Google Sheets es una excelente alternativa para el web scraping. El raspado web de la hoja de Google no implica codificación y proporciona muchas formas de analizar los datos del sitio web.

En este blog, veremos cómo usar Google Sheets para raspar páginas web fácilmente. ¡Entonces empecemos!

¿Por qué usar Hojas de cálculo de Google para raspado web?

Hay varias razones por las que Google Sheets es una gran herramienta para el web scraping:

  • Google Sheets es fácil de usar y tiene una interfaz familiar.
  • No requiere conocimientos de lenguaje de programación.
  • Google Sheets es accesible desde cualquier lugar.
  • Google Sheets es gratuito, lo que lo hace asequible para particulares y pequeñas empresas.
  • Google se integra fácilmente con otras herramientas de Suite.
  • Puede usar macros o scripts para automatizar las tareas de web scraping.
  • Puede analizar fácilmente los datos raspados utilizando las fórmulas de Google Sheet.

Extraiga texto de cualquier página web con un solo clic. Dirígete a Nanonets raspador de sitios web, agregue la URL y haga clic en "Raspar" y descargue el texto de la página web como un archivo al instante. Pruébelo gratis ahora.

Raspador de sitios web de Nanonets


¿Qué funciones usar para Google Sheets Web Scraping?

Aquí hay algunas funciones que puede usar cuando necesite raspar páginas web usando Hojas de cálculo de Google.

IMPORTARHTML:

Extraiga tablas y listas de páginas HTML.

=IMPORTHTML(url, query, index)
  • url: este es el enlace de la página web que desea raspar
  • consulta: El tipo de datos – Tabla, Lista
  • índice: si desea extraer una tabla específica, puede usar esto

Ejemplo:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)","table",1)

IMPORTARTXML:

Extraer datos de páginas XML.

=IMPORTXML(url, xpath_query)
  • url: este es el enlace a la página web que desea raspar
  • xpath_query: la expresión XPath que identifica los datos que desea extraer

Ejemplo:

=IMPORTXML("https://www.w3schools.com/xml/note.xml", "//note/to")

DATOS DE IMPORTACION:

Extraiga datos de archivos CSV y TSV.

=IMPORTDATA(url)
  • url: la URL del archivo CSV o TSV del que desea extraer datos

Ejemplo:

=IMPORTDATA("https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2021-financial-year-provisional/Download-data/annual-enterprise-survey-2021-financial-year-provisional-size-bands.csv")

EXTRACTO DE REGEX:

Esta función puede extraer datos que coincidan con un patrón de expresión regular.

=REGEXEXTRACT(text, regular_expression)
  • texto: el texto que desea buscar el patrón
  • expresión_regular: el patrón que desea hacer coincidir

Ejemplo:

=REGEXEXTRACT("1 pound = $1.40", "$d+.d+")

Nota: Es posible que estas funciones no funcionen para todos y cada uno de los sitios web. Depende del diseño del sitio web. En caso de que necesite más datos, puede recurrir a tutoriales de raspado web usando Python y Java o usar herramientas de sitio web a texto como Nanonets.

Intentemos extraer una tabla HTML en Hojas de cálculo de Google. Intentaremos raspar la mesa del Lista de películas ganadoras de premios de la Academia en la página de Wikipedia.

  1. Abre Hojas de cálculo de Google.
  2. En una nueva celda, escriba =IMPORTHTML(url, consulta, índice)

1. Nuestro código se convierte en,

 =IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1) 

=IMPORTARHTML(“https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films”,”table”,1)

raspará la primera tabla en la página de Wikipedia

3. Comprueba los resultados

¿Cómo raspar datos usando el raspado web de Google Sheets?

Veamos cómo raspar títulos, descripciones, H1 y más usando Hojas de cálculo de Google. Para comenzar con el raspado H1 con Google Sheets, usaremos la función IMPORTXML para este particular Página de nanoredes. Aquí están los pasos:

  • Abra una hoja de cálculo de Google nueva o existente.
  • En una celda, escriba la siguiente fórmula:
=IMPORTXML(“https://nanonets.com/image-to-text”, “//h1/text()”)
  • Para extraer la etiqueta H1, use la siguiente expresión XPath: //h1/text()
  • Para extraer la etiqueta del título, utilice la siguiente expresión XPath: //título/texto()
  • Para extraer la etiqueta de meta descripción, use la siguiente expresión XPath: //meta[@name='description']/@content
  • Para extraer todos los enlaces de la página, use la siguiente expresión XPath: //a/@href

Presione Entrar y Hojas de cálculo de Google extraerá automáticamente los datos y los mostrará en la celda seleccionada.

A continuación, puede copiar la fórmula en otras celdas para extraer datos adicionales de la misma página web o de otras diferentes.


Extraiga texto de cualquier página web con un solo clic. Dirígete a Nanonets raspador de sitios web, agregue la URL y haga clic en "Raspar" y descargue el texto de la página web como un archivo al instante. Pruébelo gratis ahora.

Raspador de sitios web de Nanonets


¿Cuáles son las desventajas de usar Google Sheets Web Scraper?

  • Google Sheets tiene capacidades limitadas. Cuando se trata de diseños complejos, no puede manejar contenido dinámico.
  • Es posible que haya discrepancias en los datos al raspar datos con las fórmulas de raspado web de Hojas de cálculo de Google.
  • Al extraer datos de sitios web, es posible que raspe inadvertidamente información sensible o confidencial. Esto puede generar problemas de privacidad y seguridad, especialmente si los datos extraídos se comparten o almacenan en una ubicación no segura.

Sugerencia: Google Sheets Web Scraping es una gran alternativa para tareas de web scraping no complejas como metatítulos, listas o extracción de tablas. Para tareas complejas, debe usar herramientas de web scraping.

Preguntas Frecuentes

¿Puedo raspar web con Hojas de cálculo de Google?

Sí, Google Sheets tiene funciones integradas como IMPORTHTML, IMPORTXML, IMPORTDATA,

y REGEXTRACT que le permiten capturar datos de sitios web directamente en Hojas de cálculo de Google. Sin embargo, la funcionalidad puede ser limitada y las tareas de raspado web más complejas pueden requerir el uso de un raspador web separado o la escritura de un código personalizado.

¿Cómo extraigo datos en una hoja de Google?

Puede extraer datos en una hoja de Google usando una de las funciones integradas, como IMPORTHTML, IMPORTXML, IMPORTDATA o REGEXTRACT. Estas funciones le permiten extraer datos de sitios web, archivos CSV o TSV y hacer coincidir patrones de expresiones regulares. Simplemente especifique la URL, la consulta, el índice o el patrón de expresión regular, y los datos se recopilarán y completarán en su Hoja de cálculo de Google.

Sello de tiempo:

Mas de IA y aprendizaje automático