ID'lerin benzersizliğinden yararlan
Bildiğin gibi, ID'ler bir web sayfasında benzersiz olmalıdır. Bunun böyle olduğundan emin olabilirsen, scraping seçicilerinin karmaşıklığını ciddi ölçüde azaltabilirsin.
Doğada karşına çıkabilecek bir HTML sayfasının yapısı şöyle:
<html>
<body>
<div id = 'first'>
<h1 class = 'big'>Joe Biden</h1>
<p class = 'first blue'>Democrat</p>
<p class = 'second blue'>Male</p>
</div>
<div id = 'second'>...</div>
<div id = 'third'>
<h1 class = 'big'>Donald Trump</h1>
<p class = 'first red'>Republican</p>
<p class = 'second red'>Male</p>
</div>
</body>
</html>
Bu içerik senin için read_html() ile okundu ve structured_html üzerinden erişilebilir.
Bu egzersiz
R ile Web Kazıma
kursunun bir parçasıdırEgzersiz talimatları
html_elements()kullanarak,structured_htmliçindeki ilkdivöğesini seçecek en kısa seçiciyi bul.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Select the first div
structured_html %>%
___