Sélectionner plusieurs types HTML
Comme vous l’avez vu dans la vidéo, CSS permet de styliser une page web. Dans sa forme la plus simple, cela se fait via des sélecteurs de type, où des styles sont définis pour et appliqués à tous les éléments HTML d’un certain type. Inversement, vous pouvez aussi utiliser ces sélecteurs de type pour extraire, via le scraping, des éléments HTML spécifiques d’une page.
Comme montré dans la vidéo, vous pouvez aussi combiner plusieurs sélecteurs de type avec une virgule, c’est‑à‑dire avec html_elements("type1, type2"). Cela sélectionne tous les éléments qui ont type1 ou type2.
Examinez le HTML suivant :
<html>
<body>
<div>Python is perfect for programming.</div>
<p>Still, R might be better suited for data analysis.</p>
<small>(And has prettier charts, too.)</small>
</body>
</html>
Le code HTML brut vous est fourni dans la variable languages_raw_html.
Cet exercice fait partie du cours
Web scraping en R
Instructions
- Lisez
languages_raw_html. - En utilisant la méthode montrée ci‑dessus, sélectionnez tous les éléments
divetpdans ce HTML.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Read in the HTML
languages_html <- ___
# Select the div and p tags and print their text
languages_html %>%
___ %>%
html_text()