LoslegenKostenlos loslegen

Die Eindeutigkeit von IDs nutzen

Wie du weißt, sollten IDs auf einer Webseite eindeutig sein. Wenn du sicherstellen kannst, dass das der Fall ist, reduziert das die Komplexität deiner Scraping-Selektoren drastisch.

Hier ist die Struktur einer HTML-Seite, die dir „in freier Wildbahn“ begegnen könnte:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Die Seite wurde mit read_html() eingelesen und steht dir als structured_html zur Verfügung.

Diese Übung ist Teil des Kurses

Web Scraping in R

Kurs anzeigen

Anleitung zur Übung

  • Finde mit html_elements() den kürzest möglichen Selektor, um das erste div in structured_html auszuwählen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Select the first div
structured_html %>%
  ___
Code bearbeiten und ausführen