MulaiMulai sekarang secara gratis

Manfaatkan keunikan ID

Seperti yang Anda ketahui, ID harus unik di seluruh halaman web. Jika Anda dapat memastikan hal ini, kompleksitas selektor scraping Anda dapat berkurang drastis.

Berikut adalah struktur halaman HTML yang mungkin Anda temui di lapangan:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Halaman tersebut sudah dibaca dengan read_html() dan tersedia melalui structured_html.

Latihan ini adalah bagian dari kursus

Web Scraping di R

Lihat Kursus

Petunjuk latihan

  • Dengan menggunakan html_elements(), temukan selektor sesingkat mungkin untuk memilih div pertama dalam structured_html.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Select the first div
structured_html %>%
  ___
Edit dan Jalankan Kode