Desarrollar un Crawler simple con Java
Lo primero que vamos a hacer es crear
un proyecto nuevo basado en Maven
Al proyecto le vamos a asignar el nombre de SimpleCrawler
Le tenemos que dar al botón de finalizar. Con esto
listo vamos a necesitar una librería que la tenemos que agregar al proyecto
usando Maven. La librería se llama jsoup.
Jsoup Url: https://jsoup.org/download
Con esto listo ya podemos hacer el código para
escanear la página web.
package com.mycompany.simplecrawler;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Main {
/**
* @param args the command line arguments
*/
public static void main(String[] args) {
try {
var url = "https://crawler-test.com/";
Document doc = Jsoup.connect(url).get();
Elements links = doc.select("a[href]");
for(Element link: links){
System.out.println(link.attr("href"));
}
} catch (IOException ex) {
System.err.println(ex);
}
}
}
Como podemos observar en el código lo primero
que debemos hacer es importar las librerías de jsoup necesarias
·
import
org.jsoup.Jsoup;
·
import
org.jsoup.nodes.Document;
·
import org.jsoup.nodes.Element;
·
import org.jsoup.select.Elements;
Luego vamos a crear una variable llama Url
donde podemos agregar la pagina que deseamos escanear. Después de esto creamos
un objeto de tipo Document con el que vamos a obtener el documento encontrado
del url, usando el método get que vamos a usar del método connect de la clase
Jsoup.
Después de esto creamos un objeto de tipo
Elements llamado links basado en la búsqueda que deseamos hacer como se puede
observar con el objeto doc.select. En este caso preguntamos por todos los
anchores que tengan una referencia.
Finalmente,
con un ciclo for podemos recorrer el resultado de links con todas las posibles
url o links que se encontraron. Finalmente se imprimen en la consola para poder
ver que fue lo encontrado.
Lo que nos da como resultado lo siguiente
Etiquetas: Apache Netbeans, development, Java
0 comentarios:
Publicar un comentario
Suscribirse a Enviar comentarios [Atom]
<< Inicio