LoslegenKostenlos starten

Die Eindeutigkeit von IDs nutzen

Wie du weißt, sollten IDs auf einer Webseite eindeutig sein. Wenn du sicherstellen kannst, dass das der Fall ist, reduziert das die Komplexität deiner Scraping-Selektoren drastisch.

Hier ist die Struktur einer HTML-Seite, die dir „in freier Wildbahn“ begegnen könnte:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Die Seite wurde mit read_html() eingelesen und steht dir als structured_html zur Verfügung.

Diese Übung ist Teil des Kurses

<Kurs>Web Scraping in R</Kurs>
Kurs ansehen

Übungsanweisungen

  • Finde mit html_elements() den kürzest möglichen Selektor, um das erste div in structured_html auszuwählen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Select the first div
structured_html %>%
  ___
Code bearbeiten und ausführen