LoslegenKostenlos loslegen

Drosselung bei einem Crawler über mehrere Seiten anwenden

Ziel dieser Übung ist es, die Koordinaten der drei höchsten Berggipfel der Erde zusammen mit ihren Namen zu erhalten.

Du holst dir diese Informationen in Echtzeit von den jeweiligen Wikipedia-Seiten. Damit Wikipedia nicht unnötig belastet wird, setzt du mit der Funktion slowly() eine Drosselung ein. Nach jedem Aufruf einer Wikipedia-Seite soll dein Programm kurz warten. Drei Wikipedia-Seiten sind vielleicht nicht viel, aber das Prinzip gilt für jedes Scraping: Sei rücksichtsvoll und füge Wartezeit zwischen Anfragen ein.

Den Namen des Gipfels findest du in einem Element mit der ID "firstHeading", die Koordinaten stehen in einem Element mit der class "geo-dms", das ein Nachfahre eines Elements mit der ID "coordinates" ist.

purrr wurde bereits geladen und die URLs stehen in mountain_wiki_pages.

Diese Übung ist Teil des Kurses

Web Scraping in R

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Define a throttled read_html() function with a delay of 0.5s
read_html_delayed <- ___(___, 
                         rate = ___(___))
Code bearbeiten und ausführen