ComeçarComece de graça

Aplicar throttling em um crawler de várias páginas

O objetivo deste exercício é obter as coordenadas dos três picos de montanha mais altos da Terra, junto com seus nomes.

Você vai coletar essas informações diretamente das respectivas páginas da Wikipédia, em tempo real. Para não sobrecarregar a Wikipédia, você vai aplicar throttling usando a função slowly(). Após cada chamada a uma página da Wikipédia, seu programa deve aguardar um pequeno intervalo. Três páginas podem não parecer muito, mas o princípio vale para qualquer volume de scraping: seja gentil e inclua um tempo de espera entre as requisições.

Você encontrará o nome do pico em um elemento com ID "firstHeading", enquanto as coordenadas estão dentro de um elemento com classe "geo-dms", que é um descendente de um elemento com ID "coordinates".

purrr já foi pré-carregado e as URLs estão em mountain_wiki_pages.

Este exercício faz parte do curso

Web Scraping em R

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Define a throttled read_html() function with a delay of 0.5s
read_html_delayed <- ___(___, 
                         rate = ___(___))
Editar e executar o código