MulaiMulai sekarang secara gratis

Memilih langsung dari elemen induk dengan text() milik XPATH

Pada latihan ini, Anda akan menggunakan tabel yang sama. Kali ini, Anda akan mengekstrak informasi fungsi di dalam tanda kurung ke kolom tersendiri, sehingga Anda diminta mengekstrak sebuah data frame dengan bukan dua, melainkan tiga kolom: aktor, peran, dan fungsi.

Untuk melakukannya, Anda perlu menggunakan fungsi XPATH khusus yang diperkenalkan dalam video alih-alih html_table(), yang sering kali tidak bekerja dalam praktik jika elemen HTML table tidak tertata rapi, seperti pada kasus ini.

Sebagai referensi, berikut cuplikan HTML tabelnya:

<table>
 <tr>
  <th>Actor</th>
  <th>Role</th>
 </tr>
 <tr>
  <td class = 'actor'>Jayden Carpenter</td>
  <td class = 'role'><em>Mickey Mouse</em> (Voice)</td>
 </tr>
 ...
</table>

Pada latihan ini, variabel roles_html memuat dokumen HTML beserta elemen table-nya.

Latihan ini adalah bagian dari kursus

Web Scraping di R

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Extract the actors in the cells having class "actor"
actors <- roles_html %>% 
  html_elements(xpath = '//table//td[@class = "actor"]') %>%
  html_text()
actors

# Extract the roles in the cells having class "role"
roles <- roles_html %>% 
  html_elements(xpath = '//table//td[@class = "___"]/___') %>% 
  ___()
roles
Edit dan Jalankan Kode