Ubah tabel menjadi data frame dengan html_table()
Jika sebuah tabel memiliki baris header (dengan elemen th) dan tidak ada sel yang kosong, proses scraping menjadi mudah, seperti pada tabel berikut (dengan ID "clean"):
| Mountain | Height | First ascent | Country |
|---|---|---|---|
| Mount Everest | 8848 | 1953 | Nepal, China |
| ... |
Berikut tabel yang sama (dengan ID "dirty") tanpa baris header khusus dan ada sel yang hilang pada baris pertama:
| Mountain | Height | First ascent | Country |
| Mount Everest | 8848 | 1953 | |
| ... |
Untuk kasus seperti ini, html_table() memiliki argumen tambahan yang dapat Anda gunakan untuk mengurai tabel dengan benar, seperti yang ditunjukkan dalam video. Sel yang hilang akan otomatis dikenali dan diganti dengan nilai NA.
Kedua tabel terdapat di dalam dokumen mountains_html.
Latihan ini merupakan bagian dari kursus
Web Scraping di R
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Extract the "clean" table into a data frame
mountains <- mountains_html %>%
html_element("table#clean") %>%
___
mountains