viernes, 30 de abril de 2021

Desarrollar un Crawler simple con Python

 


Para poder desarrollar el Crawler con Python lo primero que debemos hacer es instalar la librería llamada scrapy. Esta librería la podemos instalar usando pip. Con esta librería ya instalada vamos a crear un documento de Python llamado simpleCrawler.py

Dentro de este documento vamos a crear una clase llamada Crawler 

import scrapy

class Crawler(scrapy.Spider):
    name = 'SimpleCrawler'
    start_urls = ['https://crawler-test.com/']

    def parse(self, response):

        links = response.xpath("//a")
        for link in links:
            link = link.xpath("@href").extract()
            print(link)
            yield

Como podemos observar lo primero que vamos tener es el import de la librería scrapy luego vamos a heredar a la clase Crawler scrapy.Spider.

En este caso el código es muy simple. Le vamos a dar un nombre al crawler con la variable name y luego le pasamos el URL que deseamos escanear con la variable start_urls.

Luego definimos una función que se llama parse que espera como parámetro el response de la carga del url.

Como podemos observar la variable links contiene todos los elementos de tipo anchor de la página que escaneamos.

Después de esto dentro del ciclo vamos encontrando cada uno de los Urls que tiene el sitio web y lo imprimimos para mostrarlo en el console.

Para poder ver el resultado debemos correr el siguiente comando scrapy runspider simpleCrawler.py

Esto nos da como resultado



Etiquetas: , , , ,

0 comentarios:

Publicar un comentario

Suscribirse a Enviar comentarios [Atom]

<< Inicio