Glosario Scrapy: 7 conceptos clave

Contenido del Bootcamp Dirigido por: | Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Si has llegado aquí es porque seguro que te interesa instruirte acerca de Scrapy y todo lo que abarca su desarrollo dentro del mundo del Big Data. Si es así, ¡este post es ideal para ti!

A partir de un breve de glosario con siete de los conceptos clave que atañen a Scrapy, podrás contar con un primer acercamiento propicio para empezar con este popular sistema de código abierto. En este post, te exponemos los siete conceptos clave de Scrapy para empezar a conocerlo.

Scraping

Scraping (raspado web en español) es un sistema de extracción de datos de una o varias páginas web. Posee ciertos componentes de la arquitectura de Scrapy, como el downloader o descargador, el Scrapy Engine o motor, las requests o solicitudes, las answers o respuestas y los crawlers o arañas web.

Por otra parte, el Scraping responde a cualquier tipo de datos encontrado en las páginas web, puesto que Scrapy no solo se hace en páginas web, sino que también podrás scrapear una base de datos e, incluso, podrás llegar a scrapear una API.

ejemplo de scrapy

Crawler

En Scrapy podrás crear y ejecutar crawler o arañas web, es decir, desarrollar rastreadores web que funcionan de manera automática y sistematizada para inspeccionar los datos y las URLs de determinados sitios web. Por medio de este concepto, podrás diferenciar entre dos procesos fundamentales del Big Data: Scraping y Crawling.

Scrapy Shell

Por su parte, scrapy shell hace referencia a la terminal interactiva que consiste en depurar el código de rastreo de la araña web. Mediante dicha terminal podrás intentar hacerlo con expresiones como CSS o XPath. Además, en esta terminal podrás:

  • Desarrollar la configuración de carcasa por medio de la instalación de IPython o, en su defecto, con el uso de Bpython.
  • Instaurar la estrategia de lanzar el caparazón, de manera que se estipule una URL específica para llevar a cabo el raspado de datos.
  • Tener la oportunidad de usar el caparazón de las arañas para inspeccionar las respuestas y generar accesos directos.

Zyte Scrapy Cloud

Esta es una herramienta específica para el alojamiento en la nube. Zyte Scrapy Cloud te permitirá alojar las arañas web que desarrolles en la nube con un gran control de calidad y una serie de herramientas para su administración.

Scrapy Engine

El motor o Scrapy Engine es lo que se encarga de conectar todos los componentes del flujo de datos y responde a los comandos para rastrear a partir de la araña.

A partir de allí, el motor gestiona la consecución de los datos según las solicitudes del programador, y posteriormente, envía las requests al descargador.

Downloader

El downloader o descargador es el encargado de buscar las páginas web y enviarlas al motor.
Una vez los datos terminan de descargarse de la página web, el downloader envía una respuesta al motor atravesando los downloader middlewares.

Biblioteca Python

Una de las mayores ventajas de Scrapy es la cantidad de bibliotecas de Python que te ayudarán en la extracción de datos de sitios web según tus destrezas e intereses. Con su biblioteca Python de análisis XML y HTML podrás desarrollar una extracción de datos de alta calidad y rapidez.

Aprende más del Big Data

En este post, te hemos expusto un breve glosario con siete conceptos clave de Scrapy. Sin embargo, recuerda que cada uno de ellos trabaja junto a otras herramientas que sería adecuado conocer e identificar. ¡Así que aún falta mucho por aprender!

Por ello, si lo que buscas es continuar formándote sobre las herramientas del manejo Big Data, podrás lograrlo desde KeepCoding con nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Big Data. En menos de nueve meses, podrás convertirte en todo un data scientist. ¡Échale un vistazo a nuestro temario y apúntate ahora!

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado