Die Eindeutigkeit von IDs nutzen
Wie du weißt, sollten IDs auf einer Webseite eindeutig sein. Wenn du sicherstellen kannst, dass das der Fall ist, reduziert das die Komplexität deiner Scraping-Selektoren drastisch.
Hier ist die Struktur einer HTML-Seite, die dir „in freier Wildbahn“ begegnen könnte:
<html>
<body>
<div id = 'first'>
<h1 class = 'big'>Joe Biden</h1>
<p class = 'first blue'>Democrat</p>
<p class = 'second blue'>Male</p>
</div>
<div id = 'second'>...</div>
<div id = 'third'>
<h1 class = 'big'>Donald Trump</h1>
<p class = 'first red'>Republican</p>
<p class = 'second red'>Male</p>
</div>
</body>
</html>
Die Seite wurde mit read_html() eingelesen und steht dir als structured_html zur Verfügung.
Diese Übung ist Teil des Kurses
Web Scraping in R
Anleitung zur Übung
- Finde mit
html_elements()den kürzest möglichen Selektor, um das erstedivinstructured_htmlauszuwählen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Select the first div
structured_html %>%
___