ID'lerin benzersizliğinden yararlan

Bildiğin gibi, ID'ler bir web sayfasında benzersiz olmalıdır. Bunun böyle olduğundan emin olabilirsen, scraping seçicilerinin karmaşıklığını ciddi ölçüde azaltabilirsin.

Doğada karşına çıkabilecek bir HTML sayfasının yapısı şöyle:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Bu içerik senin için read_html() ile okundu ve structured_html üzerinden erişilebilir.

Bu egzersiz, kursun bir parçasıdır

R ile Web Kazıma

Kursa Göz Atın

Egzersiz talimatları

html_elements() kullanarak, structured_html içindeki ilk div öğesini seçecek en kısa seçiciyi bul.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Select the first div
structured_html %>%
  ___

Kodu Düzenle ve Çalıştır