Transformando uma página da Web em dados usando o BeautifulSoup: obtendo os hiperlinks
Neste exercício, você descobrirá como extrair os URLs dos hiperlinks da página da Web BDFL's. No processo, você se tornará amigo íntimo do método da sopa find_all()
.
Este exercício faz parte do curso
Importação intermediária de dados em Python
Instruções de exercício
- Use o método
find_all()
para localizar todos os hiperlinks emsoup
, lembrando que os hiperlinks são definidos pela tag HTML<a>
, mas passados parafind_all()
sem colchetes angulares; armazene o resultado na variávela_tags
. - A variável
a_tags
é um conjunto de resultados: seu trabalho agora é enumerá-lo, usando um loopfor
e imprimir os URLs reais dos hiperlinks; para fazer isso, para cada elementolink
ema_tags
, você desejaprint()
link.get('href')
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extracts the response as html: html_doc
html_doc = r.text
# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)
# Print the title of Guido's webpage
print(soup.title)
# Find all 'a' tags (which define hyperlinks): a_tags
# Print the URLs to the shell
for ____ in ____:
____