Web Scraping avec Java Jsoup

Librairie Jsoup

Pour importer Jsoup dans votre projet Maven vous devez inclure la dépendance dans le fichier pom.xml

<dependency>
  <!-- jsoup HTML parser library @ https://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.14.3</version>
</dependency>

Vous pouvez consulter la page de téléchargement de la documentation de Jsoup (JAR, Maven ou Gradle)

Un exemple de Web scraping avec Java

Cet exemple vous montre comment télécharger la liste des languages de programmation sur la page Wikipedia.

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class WebScrapingExample {

	public static void main(String[] args) throws IOException {

		/* Instance du document HTML */
		Document document = Jsoup.connect("https://fr.wikipedia.org/wiki/Liste_de_langages_de_programmation").get();

		/* Sélection des éléments avec selecteur CSS */
        /* ATTENTION si la structure de la page change le sélecteur CSS doit aussi changer */
		Elements listProgLang = document.select(".colonnes > div > ul > li > a:nth-child(1)");

		/* Pour chaque élément */
		for (Element programmingLang : listProgLang) {
			System.out.println(programmingLang.text());
		}

	}

}

Commentaires