Mehrere HTML-Typen auswählen
Wie du im Video gesehen hast, kann CSS verwendet werden, um eine Webseite zu gestalten. In der einfachsten Form geschieht das über Typselektoren, bei denen Styles für alle HTML-Elemente eines bestimmten Typs definiert und angewendet werden. Umgekehrt kannst du Typselektoren auch nutzen, um Seiten nach bestimmten HTML-Elementen zu scrapen.
Wie im Video gezeigt, kannst du außerdem mehrere Typselektoren mit einem Komma kombinieren, also mit html_elements("type1, type2"). Das wählt alle Elemente aus, die type1 oder type2 haben.
Sieh dir das folgende HTML an:
<html>
<body>
<div>Python is perfect for programming.</div>
<p>Still, R might be better suited for data analysis.</p>
<small>(And has prettier charts, too.)</small>
</body>
</html>
Der rohe HTML-Code steht dir in der Variablen languages_raw_html zur Verfügung.
Diese Übung ist Teil des Kurses
Web Scraping in R
Anleitung zur Übung
- Lies
languages_raw_htmlein. - Wähle mit der oben gezeigten Methode alle
div- undp-Elemente in diesem HTML aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Read in the HTML
languages_html <- ___
# Select the div and p tags and print their text
languages_html %>%
___ %>%
html_text()