Direkt aus dem Elternelement mit XPATHs text() auswählen
In dieser Übung arbeitest du wieder mit derselben Tabelle. Diesmal extrahierst du die Funktionsangaben in Klammern in eine eigene Spalte. Du sollst also einen Data Frame mit nicht zwei, sondern drei Spalten extrahieren: actors, roles und functions.
Dafür brauchst du die spezielle XPATH-Funktion aus dem Video statt html_table(), denn html_table() funktioniert in der Praxis oft nicht, wenn das HTML-table-Element – wie hier – nicht sauber strukturiert ist.
Zur Referenz hier noch einmal ein Auszug aus dem Tabellen-HTML:
<table>
<tr>
<th>Actor</th>
<th>Role</th>
</tr>
<tr>
<td class = 'actor'>Jayden Carpenter</td>
<td class = 'role'><em>Mickey Mouse</em> (Voice)</td>
</tr>
...
</table>
In dieser Übung enthält die Variable roles_html das HTML-Dokument mit seinem table-Element.
Diese Übung ist Teil des Kurses
Web Scraping in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Extract the actors in the cells having class "actor"
actors <- roles_html %>%
html_elements(xpath = '//table//td[@class = "actor"]') %>%
html_text()
actors
# Extract the roles in the cells having class "role"
roles <- roles_html %>%
html_elements(xpath = '//table//td[@class = "___"]/___') %>%
___()
roles