jueves, 29 de abril de 2021

Desarrollar un Crawler simple con Java

 


Lo primero que vamos a hacer es crear un proyecto nuevo basado en Maven



Al proyecto le vamos a asignar el nombre de SimpleCrawler



Le tenemos que dar al botón de finalizar. Con esto listo vamos a necesitar una librería que la tenemos que agregar al proyecto usando Maven. La librería se llama jsoup.



Jsoup Url: https://jsoup.org/download

Con esto listo ya podemos hacer el código para escanear la página web.

package com.mycompany.simplecrawler;

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class Main {

    /**
     * @param args the command line arguments
     */
    public static void main(String[] args) {
        try {
            var url = "https://crawler-test.com/";
            
            Document doc = Jsoup.connect(url).get();
            Elements links = doc.select("a[href]");
            for(Element link: links){
                System.out.println(link.attr("href"));
            }
        } catch (IOException ex) {
           System.err.println(ex);
        }
    }
    
}

Como podemos observar en el código lo primero que debemos hacer es importar las librerías de jsoup necesarias

·         import org.jsoup.Jsoup;

·         import org.jsoup.nodes.Document;

·         import org.jsoup.nodes.Element;

·         import org.jsoup.select.Elements;

Luego vamos a crear una variable llama Url donde podemos agregar la pagina que deseamos escanear. Después de esto creamos un objeto de tipo Document con el que vamos a obtener el documento encontrado del url, usando el método get que vamos a usar del método connect de la clase Jsoup.

Después de esto creamos un objeto de tipo Elements llamado links basado en la búsqueda que deseamos hacer como se puede observar con el objeto doc.select. En este caso preguntamos por todos los anchores que tengan una referencia.

Finalmente, con un ciclo for podemos recorrer el resultado de links con todas las posibles url o links que se encontraron. Finalmente se imprimen en la consola para poder ver que fue lo encontrado.

Lo que nos da como resultado lo siguiente 




Etiquetas: , ,

0 comentarios:

Publicar un comentario

Suscribirse a Enviar comentarios [Atom]

<< Inicio