CommencerCommencer gratuitement

Sélectionner plusieurs types HTML

Comme vous l’avez vu dans la vidéo, CSS permet de styliser une page web. Dans sa forme la plus simple, cela se fait via des sélecteurs de type, où des styles sont définis pour et appliqués à tous les éléments HTML d’un certain type. Inversement, vous pouvez aussi utiliser ces sélecteurs de type pour extraire, via le scraping, des éléments HTML spécifiques d’une page.

Comme montré dans la vidéo, vous pouvez aussi combiner plusieurs sélecteurs de type avec une virgule, c’est‑à‑dire avec html_elements("type1, type2"). Cela sélectionne tous les éléments qui ont type1 ou type2.

Examinez le HTML suivant :

<html> 
  <body> 
    <div>Python is perfect for programming.</div>
    <p>Still, R might be better suited for data analysis.</p>
    <small>(And has prettier charts, too.)</small>
  </body> 
</html>

Le code HTML brut vous est fourni dans la variable languages_raw_html.

Cet exercice fait partie du cours

Web scraping en R

Afficher le cours

Instructions

  • Lisez languages_raw_html.
  • En utilisant la méthode montrée ci‑dessus, sélectionnez tous les éléments div et p dans ce HTML.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Read in the HTML
languages_html <- ___
# Select the div and p tags and print their text
languages_html %>%
	___ %>%
	html_text()
Modifier et exécuter le code