¿Cómo hacer web scraping?

Autor: | Última modificación: 19 de agosto de 2022 | Tiempo de Lectura: 4 minutos
Temas en este post: ,

Cuando se trata de datos, Google y los buscadores están llenos de cientos de páginas con información de todo lo que se pueda imaginar. Independientemente de lo que busques, siempre encontrarás algo que te sirva. Para el marketing digital los datos son fundamentales, tanto propios como de la competencia y por eso, en este post, te enseñamos como hacer web scraping, una técnica que te permite recolectar datos directamente de cualquier página para que puedas usarlo en tus estrategias.

El web scraping se refiere a la extracción de contenidos o datos de un sitio web. Hay diferentes formas de adquirir la información y depende de tus conocimientos la forma que debes escoger. 

El web scraping se puede hacer de forma manual; sin embargo, muy pocas personas toman esta ruta, pues suele ser un proceso largo y tedioso. Para esto existen las herramientas que lo hacen automáticamente.

Las opciones que tienes para saber cómo hacer web scraping son: por medio de herramientas de pago o gratuitas, escribiendo tu propio código o por medio de Google Spreadsheets, que tiene una herramienta que te permite traer información. 

¿Cómo hacer web scraping?

Saber cómo hacer web scraping puede sonar tedioso, pero dependerá del tipo de herramientas y conocimientos que tengas. La forma más sencilla de ejemplificar cómo hacer web scraping es por medio de Google Spreadsheets.

Google Spreadsheets

Google Spreadsheets es una de las aplicaciones que forman parte de tu cuenta de Google. Esta herramienta te permite hacer un web scraping básico usando el comando IMPORTXML. 

Cuando entras en tu Spreadsheet, que funciona de la misma forma que Excel, te debes parar sobre una de las celdas y darle =IMPORTXML. Así, automáticamente encenderá el comando que le das y te mostrará la información que debes poner para poder traer lo que buscas del otro sitio web. 

importxml en google spreadsheet

Solo con las dos primeras partes, Spreadsheets ya trae la información que necesitas. Lo primero que debes buscar es la URL de la página a la que quieres hacerle web scraping

Una vez la tienes, la pones en la primera sección. Para poder obtener el xpath, lo que debes hacer es inspeccionar la página y buscar el recurso que deseas traer. 

inspeccionar elemento de la web

Una vez lo tienes, copias el xpath en el Spreadsheet:

códiog de spreadsheet con url

Cuando lo has importado, debes borrar el ID (que, en este caso, es mw-content-text) y las condiciones:

código final

Acto seguido, le das a enter. Al poner el código, Google automáticamente transfiere los datos que le has pedido a tu tabla y lo único que debes hacer es organizarla una vez obtengas los valores que necesitabas. 

tabla con la información traída desde el codigo

Esta es una de las formas más sencillas para explicar cómo hacer web scraping. Las personas que se dedican a esto y tienen más conocimientos, normalmente usan Python para crear y traer el código HTML de toda la página y extraer directamente lo que necesitan. Pero esta opción es más complicada de usar si no se tiene el conocimiento suficiente para llevarlo a cabo. 

Herramientas de Web Scraping

La siguiente opción que no requiere conocimientos de programación es usar las herramientas que se encuentra ya configuradas para cumplir con el propósito de hacer web scraping. Algunas de ellas te permiten crear tu propio web scraper sin necesidad de saber programar y otras simplemente ponen a tu disposición a los bots para que los puedas usar. 

Parse Hub

🔴 ¿Quieres entrar de lleno al Marketing Digital? 🔴

Descubre el Bootcamp en Marketing Digital y Análisis de Datos de KeepCoding. La formación más completa del mercado y con empleabilidad garantizada

👉 Prueba gratis el Bootcamp en Marketing Digital y Análisis de Datos por una semana

Parse Hub es una herramienta gratuita en línea que pone a tu disposición diferentes web scrapers para que los uses de la manera en la que necesites. Cuenta con una interfaz sencilla que está destinada a usar por cualquier persona.

Aunque es gratuita, también tiene diferentes opciones de pago. Si estás interesado en los paquetes que ofrece, debes saber que empiezan desde los $149 al mes. 

Scraper

Scraper es una extensión para Google Chrome que te permite hacer web scraping directamente desde la web. Lo único que debes hacer es entrar a una página y hacer clic derecho. Una vez hecho esto, te saldrá la opción de scrape similar.

usar la herrameinta scraper

Solo debes clicar sobre ella y te saldrá un cuadro de texto donde te dan todos los elementos que has pedido en ese scraping.

resultados de la herramienta scraper

En nuestro caso, pedimos todas las imágenes de una página. Lo siguiente sería copiar la información o puedes ponerla directamente en un Google docs. 

Te sirve para extraer todo lo que esté similar dentro de una web, imágenes, textos, tablas, etc. 

Screaming Frog

Aunque la función principal de Screaming Frog es la de hacer crawling en páginas, la extracción funciona de la misma manera. Puedes pedirle a la herramienta que vaya a una página, traiga todos los elementos que le pidas y, así, ya podrías pasarlo al documento que desees. Es una herramienta muy versátil que se recomienda tener. 

¿Quieres conocer más?

El web scraping es una de las muchas formas que tienen los marketers de obtener datos importantes de la competencia o datos valiosos para hacer las mejores estrategias. Si quieres saber más sobre steas técnicas, puedes probar nuestro Bootcamp de marketing digital y análisis de datos, donde aprenderás con expertos todo lo que necesitas saber. ¡Entra ya!

[email protected]

¿Sabías que hay más de 2.700 vacantes para especialistas en Marketing sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!