Desarrollar un Crawler simple con Python
Para poder desarrollar el Crawler con Python lo
primero que debemos hacer es instalar la librería llamada scrapy. Esta librería
la podemos instalar usando pip. Con esta librería ya instalada vamos a crear un
documento de Python llamado simpleCrawler.py
Dentro de este documento vamos a crear una clase llamada Crawler
import scrapy
class Crawler(scrapy.Spider):
name = 'SimpleCrawler'
start_urls = ['https://crawler-test.com/']
def parse(self, response):
links = response.xpath("//a")
for link in links:
link = link.xpath("@href").extract()
print(link)
yield
Como podemos observar lo primero que vamos
tener es el import de la librería scrapy luego vamos a heredar a la clase
Crawler scrapy.Spider.
En este caso el código es muy simple. Le vamos
a dar un nombre al crawler con la variable name y luego le pasamos el URL que
deseamos escanear con la variable start_urls.
Luego definimos una función que se llama parse
que espera como parámetro el response de la carga del url.
Como podemos observar la variable links
contiene todos los elementos de tipo anchor de la página que escaneamos.
Después de esto dentro del ciclo vamos encontrando
cada uno de los Urls que tiene el sitio web y lo imprimimos para mostrarlo en
el console.
Para poder ver el resultado debemos correr el siguiente
comando scrapy runspider simpleCrawler.py
Esto nos da como resultado
Etiquetas: crawler, Desarrollo, development, Python, Visual Studio Code
0 comentarios:
Publicar un comentario
Suscribirse a Enviar comentarios [Atom]
<< Inicio