ID'lerin benzersizliğinden yararlan
Bildiğin gibi, ID'ler bir web sayfasında benzersiz olmalıdır. Bunun böyle olduğundan emin olabilirsen, scraping seçicilerinin karmaşıklığını ciddi ölçüde azaltabilirsin.
Doğada karşına çıkabilecek bir HTML sayfasının yapısı şöyle:
<html>
<body>
<div id = 'first'>
<h1 class = 'big'>Joe Biden</h1>
<p class = 'first blue'>Democrat</p>
<p class = 'second blue'>Male</p>
</div>
<div id = 'second'>...</div>
<div id = 'third'>
<h1 class = 'big'>Donald Trump</h1>
<p class = 'first red'>Republican</p>
<p class = 'second red'>Male</p>
</div>
</body>
</html>
Bu içerik senin için read_html() ile okundu ve structured_html üzerinden erişilebilir.
Bu egzersiz, kursun bir parçasıdır
R ile Web Kazıma
Egzersiz talimatları
html_elements()kullanarak,structured_htmliçindeki ilkdivöğesini seçecek en kısa seçiciyi bul.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Select the first div
structured_html %>%
___