Transformer un tableau en data frame avec html_table()
Si un tableau possède une ligne d’en-tête (avec des éléments th) et aucune case manquante, l’extraction est simple, comme avec le tableau suivant (dont l’ID est "clean") :
| Mountain | Height | First ascent | Country |
|---|---|---|---|
| Mount Everest | 8848 | 1953 | Nepal, China |
| ... |
Voici le même tableau (dont l’ID est "dirty") sans ligne d’en-tête dédiée et avec une cellule manquante dans la première ligne :
| Mountain | Height | First ascent | Country |
| Mount Everest | 8848 | 1953 | |
| ... |
Pour ces cas, html_table() propose un argument supplémentaire que vous pouvez utiliser pour analyser correctement le tableau, comme montré dans la vidéo. Les cellules manquantes sont automatiquement détectées et remplacées par des valeurs NA.
Les deux tableaux se trouvent dans le document mountains_html.
Cet exercice fait partie du cours
Web scraping en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Extract the "clean" table into a data frame
mountains <- mountains_html %>%
html_element("table#clean") %>%
___
mountains