Transformando uma página da Web em dados usando o BeautifulSoup: obtendo os hiperlinks

Neste exercício, você descobrirá como extrair os URLs dos hiperlinks da página da Web BDFL's. No processo, você se tornará amigo íntimo do método da sopa find_all().

Este exercício faz parte do curso

Importação intermediária de dados em Python

Ver Curso

Instruções de exercício

  • Use o método find_all() para localizar todos os hiperlinks em soup, lembrando que os hiperlinks são definidos pela tag HTML <a> , mas passados para find_all() sem colchetes angulares; armazene o resultado na variável a_tags.
  • A variável a_tags é um conjunto de resultados: seu trabalho agora é enumerá-lo, usando um loop for e imprimir os URLs reais dos hiperlinks; para fazer isso, para cada elemento link em a_tags, você deseja print() link.get('href').

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url
url = 'https://www.python.org/~guido/'

# Package the request, send the request and catch the response: r
r = requests.get(url)

# Extracts the response as html: html_doc
html_doc = r.text

# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)

# Print the title of Guido's webpage
print(soup.title)

# Find all 'a' tags (which define hyperlinks): a_tags


# Print the URLs to the shell
for ____ in ____:
    ____