BaşlayınÜcretsiz başlayın

ID'lerin benzersizliğinden yararlan

Bildiğin gibi, ID'ler bir web sayfasında benzersiz olmalıdır. Bunun böyle olduğundan emin olabilirsen, scraping seçicilerinin karmaşıklığını ciddi ölçüde azaltabilirsin.

Doğada karşına çıkabilecek bir HTML sayfasının yapısı şöyle:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Bu içerik senin için read_html() ile okundu ve structured_html üzerinden erişilebilir.

Bu egzersiz, kursun bir parçasıdır

R ile Web Kazıma

Kursa Göz Atın

Egzersiz talimatları

  • html_elements() kullanarak, structured_html içindeki ilk div öğesini seçecek en kısa seçiciyi bul.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Select the first div
structured_html %>%
  ___
Kodu Düzenle ve Çalıştır