Mulai sekarangMulai gratis

Manfaatkan keunikan ID

Seperti yang Anda ketahui, ID harus unik di seluruh halaman web. Jika Anda dapat memastikan hal ini, kompleksitas selektor scraping Anda dapat berkurang drastis.

Berikut adalah struktur halaman HTML yang mungkin Anda temui di lapangan:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Halaman tersebut sudah dibaca dengan read_html() dan tersedia melalui structured_html.

Latihan ini merupakan bagian dari kursus

Web Scraping di R

Lihat Kursus

Instruksi latihan

  • Dengan menggunakan html_elements(), temukan selektor sesingkat mungkin untuk memilih div pertama dalam structured_html.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Select the first div
structured_html %>%
  ___
Edit dan Jalankan Kode