CommencerCommencer gratuitement

Transformer un tableau en data frame avec html_table()

Si un tableau possède une ligne d’en-tête (avec des éléments th) et aucune case manquante, l’extraction est simple, comme avec le tableau suivant (dont l’ID est "clean") :

Mountain Height First ascent Country
Mount Everest 8848 1953 Nepal, China
...

Voici le même tableau (dont l’ID est "dirty") sans ligne d’en-tête dédiée et avec une cellule manquante dans la première ligne :

Mountain Height First ascent Country
Mount Everest 8848 1953
...

Pour ces cas, html_table() propose un argument supplémentaire que vous pouvez utiliser pour analyser correctement le tableau, comme montré dans la vidéo. Les cellules manquantes sont automatiquement détectées et remplacées par des valeurs NA.

Les deux tableaux se trouvent dans le document mountains_html.

Cet exercice fait partie du cours

Web scraping en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Extract the "clean" table into a data frame 
mountains <- mountains_html %>% 
  html_element("table#clean") %>% 
  ___

mountains
Modifier et exécuter le code