Transformando uma página da Web em dados usando o BeautifulSoup: obtendo os hiperlinks
Neste exercício, você descobrirá como extrair os URLs dos hiperlinks da página da Web BDFL's. No processo, você se tornará amigo íntimo do método da sopa find_all().
Este exercício faz parte do curso
Importação intermediária de dados em Python
Instruções do exercício
- Use o método
find_all()para localizar todos os hiperlinks emsoup, lembrando que os hiperlinks são definidos pela tag HTML<a>, mas passados parafind_all()sem colchetes angulares; armazene o resultado na variávela_tags. - A variável
a_tagsé um conjunto de resultados: seu trabalho agora é enumerá-lo, usando um loopfore imprimir os URLs reais dos hiperlinks; para fazer isso, para cada elementolinkema_tags, você desejaprint()link.get('href').
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import packages
import requests
from bs4 import BeautifulSoup
# Specify url
url = 'https://www.python.org/~guido/'
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extracts the response as html: html_doc
html_doc = r.text
# create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)
# Print the title of Guido's webpage
print(soup.title)
# Find all 'a' tags (which define hyperlinks): a_tags
# Print the URLs to the shell
for ____ in ____:
____