Ubah tabel menjadi data frame dengan html_table()
Jika sebuah tabel memiliki baris header (dengan elemen th) dan tidak ada sel yang kosong, proses scraping menjadi mudah, seperti pada tabel berikut (dengan ID "clean"):
| Mountain | Height | First ascent | Country |
|---|---|---|---|
| Mount Everest | 8848 | 1953 | Nepal, China |
| ... |
Berikut tabel yang sama (dengan ID "dirty") tanpa baris header khusus dan ada sel yang hilang pada baris pertama:
| Mountain | Height | First ascent | Country |
| Mount Everest | 8848 | 1953 | |
| ... |
Untuk kasus seperti ini, html_table() memiliki argumen tambahan yang dapat Anda gunakan untuk mengurai tabel dengan benar, seperti yang ditunjukkan dalam video. Sel yang hilang akan otomatis dikenali dan diganti dengan nilai NA.
Kedua tabel terdapat di dalam dokumen mountains_html.
Latihan ini adalah bagian dari kursus
Web Scraping di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Extract the "clean" table into a data frame
mountains <- mountains_html %>%
html_element("table#clean") %>%
___
mountains