Manfaatkan keunikan ID
Seperti yang Anda ketahui, ID harus unik di seluruh halaman web. Jika Anda dapat memastikan hal ini, kompleksitas selektor scraping Anda dapat berkurang drastis.
Berikut adalah struktur halaman HTML yang mungkin Anda temui di lapangan:
<html>
<body>
<div id = 'first'>
<h1 class = 'big'>Joe Biden</h1>
<p class = 'first blue'>Democrat</p>
<p class = 'second blue'>Male</p>
</div>
<div id = 'second'>...</div>
<div id = 'third'>
<h1 class = 'big'>Donald Trump</h1>
<p class = 'first red'>Republican</p>
<p class = 'second red'>Male</p>
</div>
</body>
</html>
Halaman tersebut sudah dibaca dengan read_html() dan tersedia melalui structured_html.
Latihan ini adalah bagian dari kursus
Web Scraping di R
Petunjuk latihan
- Dengan menggunakan
html_elements(), temukan selektor sesingkat mungkin untuk memilihdivpertama dalamstructured_html.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Select the first div
structured_html %>%
___